aoniAI Hub
返回模型列表

Qwen3-8B

阿里巴巴 Qwen3 系列的中型语言模型,8B 参数,原生支持思考模式,适合单 GPU 部署的通用文本任务

参数量5.5 GB
模态Text
精度NVFP4 · FP8 · BF16
类型LLM

快速部署

部署模型

命令根据你的配置自动生成
docker run --name Qwen3-8B-server -d --restart unless-stopped --pull always \
  --runtime=nvidia \
  --network host \
  -e VLLM_USE_MODELSCOPE=True \
  -e MODELSCOPE_CACHE=/models \
  -e CUDA_VISIBLE_DEVICES=0 \
  -e VLLM_WORKER_MULTIPROC_METHOD=spawn \
  -v ~/models:/models \
  --entrypoint bash \
  ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
  -c "pip install modelscope>=1.18.1 && \
      vllm serve Qwen/Qwen3-8B \
      --port 8123 \
      --max-model-len 40960 \
      --gpu-memory-utilization 0.1 \
      --tensor-parallel-size 1 \
      --enable-auto-tool-choice \
      --tool-call-parser qwen3_xml \
      --dtype half"

模型详情

发布者
Alibaba
系列
Qwen3
参数量
8B (5.5 GB)
上下文长度
32,768 tokens
许可证
Apache 2.0

输入和输出

输入: Text / 输出: Text

用途

  • 通用推理
  • 代码生成
  • 多语言翻译
  • 工具调用

Jetson 兼容性

Thor 128GBThor 64GBOrin 64GBOrin 16GB

标签

llmalibabareasoninggeneral-purposemultilingual

Qwen3 系列

模型参数量
Qwen3-8B8B
Qwen3 30B-A3B30B-A3B
Qwen3 32B32B
Qwen3 4B4B

模型路径

Qwen3-8B | aoni AI Hub