Qwen3-8B

阿里巴巴 Qwen3 系列的中型语言模型，8B 参数，原生支持思考模式，适合单 GPU 部署的通用文本任务

参数量5.5 GB

模态Text

精度NVFP4 · FP8 · BF16

类型LLM

在 HuggingFace 查看

Jetson 部署命令模型详情

快速部署

部署模型

Jetson 设备

推理引擎

运行命令

命令根据你的配置自动生成

docker run --name Qwen3-8B-server -d --restart unless-stopped --pull always \
  --runtime=nvidia \
  --network host \
  -e VLLM_USE_MODELSCOPE=True \
  -e MODELSCOPE_CACHE=/models \
  -e CUDA_VISIBLE_DEVICES=0 \
  -e VLLM_WORKER_MULTIPROC_METHOD=spawn \
  -v ~/models:/models \
  --entrypoint bash \
  ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
  -c "pip install modelscope>=1.18.1 && \
      vllm serve Qwen/Qwen3-8B \
      --port 8123 \
      --max-model-len 40960 \
      --gpu-memory-utilization 0.1 \
      --tensor-parallel-size 1 \
      --enable-auto-tool-choice \
      --tool-call-parser qwen3_xml \
      --dtype half"

模型详情

发布者

Alibaba

系列

Qwen3

参数量

8B (5.5 GB)

上下文长度

32,768 tokens

许可证

Apache 2.0

输入和输出

输入: Text / 输出: Text

用途

通用推理
代码生成
多语言翻译
工具调用

Jetson 兼容性

Thor 128GBThor 64GBOrin 64GBOrin 16GB

Qwen3 系列

模型	参数量	硬件	精度
Qwen3-8B	8B	Thor 128GB, Thor 64GB, Orin 64GB, Orin 16GB	NVFP4, FP8, BF16
Qwen3 30B-A3B	30B-A3B	Thor 128GB, Thor 64GB, Orin 64GB, Orin 16GB	NVFP4, BF16
Qwen3 32B	32B	Thor 128GB, Thor 64GB, Orin 64GB	NVFP4, BF16
Qwen3 4B	4B	Thor 128GB, Thor 64GB, Orin 64GB, Orin 16GB, Orin 8GB	NVFP4, BF16

模型路径

ModelScope

https://modelscope.cn/models/Qwen/Qwen3-8B

HF 镜像

https://hf-mirror.com/Qwen/Qwen3-8B

OSS 下载

https://ai-hub.tos-cn-guangzhou.volces.com/models/qwen/Qwen3-8B.tar.gz