返回模型列表
发布者 Alibaba 系列 Qwen3 参数量 8B (5.5 GB) 上下文长度 32,768 tokens 许可证 Apache 2.0
Qwen3-8B
阿里巴巴 Qwen3 系列的中型语言模型,8B 参数,原生支持思考模式,适合单 GPU 部署的通用文本任务
参数量5.5 GB
模态Text
精度NVFP4 · FP8 · BF16
类型LLM
快速部署
部署模型
命令根据你的配置自动生成
docker run --name Qwen3-8B-server -d --restart unless-stopped --pull always \
--runtime=nvidia \
--network host \
-e VLLM_USE_MODELSCOPE=True \
-e MODELSCOPE_CACHE=/models \
-e CUDA_VISIBLE_DEVICES=0 \
-e VLLM_WORKER_MULTIPROC_METHOD=spawn \
-v ~/models:/models \
--entrypoint bash \
ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
-c "pip install modelscope>=1.18.1 && \
vllm serve Qwen/Qwen3-8B \
--port 8123 \
--max-model-len 40960 \
--gpu-memory-utilization 0.1 \
--tensor-parallel-size 1 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_xml \
--dtype half"模型详情
输入和输出
输入: Text / 输出: Text
用途
- 通用推理
- 代码生成
- 多语言翻译
- 工具调用
Jetson 兼容性
Thor 128GBThor 64GBOrin 64GBOrin 16GB
标签
llmalibabareasoninggeneral-purposemultilingual
Qwen3 系列
| 模型 | 参数量 | 硬件 | 精度 |
|---|---|---|---|
| Qwen3-8B | 8B | Thor 128GB, Thor 64GB, Orin 64GB, Orin 16GB | NVFP4, FP8, BF16 |
| Qwen3 30B-A3B | 30B-A3B | Thor 128GB, Thor 64GB, Orin 64GB, Orin 16GB | NVFP4, BF16 |
| Qwen3 32B | 32B | Thor 128GB, Thor 64GB, Orin 64GB | NVFP4, BF16 |
| Qwen3 4B | 4B | Thor 128GB, Thor 64GB, Orin 64GB, Orin 16GB, Orin 8GB | NVFP4, BF16 |