性能优化

通过量化、推测解码、显存调优等技巧，最大化 Jetson 上的 AI 推理性能。

一、量化方案对比

量化类型	位宽	精度损失	内存节省	适用平台
NVFP4	4-bit	极小	75%	Thor
FP8	8-bit	很小	50%	Thor / Orin
INT4 (AWQ)	4-bit	小	75%	Thor / Orin
INT4 (GGUF Q4)	4-bit	小	75%	全平台
BF16	16-bit	无	0%	Thor / Orin

场景	推荐量化	说明
Thor 旗舰性能	NVFP4	NVIDIA 原生 4-bit，最优精度/性能比
Thor 通用	FP8	无损推理质量
Orin 大模型	INT4 (AWQ)	AWQ 4-bit 显著降低内存
Orin Nano	GGUF Q4_K_M	社区优化，llama.cpp 原生

二、MTP 推测解码

多 Token 预测（Multi-Token Prediction）是 Qwen3.5/3.6 系列的核心加速技术，一次生成 4 个 token。

启用 MTP

vllm serve {模型ID} \
  --speculative-config '{"method":"mtp","num_speculative_tokens":4}'

MTP 性能提升

模型	场景	加速比
Qwen3.6 35B-A3B	代码生成	~2x
Qwen3.6 27B	通用推理	~1.8x
Qwen3.5 35B-A3B	函数调用	~2x

注意：MTP 仅 Qwen3.5/3.6 系列支持，需 --reasoning-parser qwen3。

三、KV Cache 调优

前缀缓存（Prefix Caching）

--enable-prefix-caching

对于多轮对话和 system prompt 场景，可显著降低首 token 延迟。

GPU 内存分配

--gpu-memory-utilization 0.85  # 激进：更大 KV cache，更高吞吐
--gpu-memory-utilization 0.70  # 保守：留余量给其他进程

建议：8GB 设备用 0.70，16GB+ 用 0.80-0.85。

四、Jetson 系统级优化

性能模式

# 最大性能
sudo nvpmodel -m 0
sudo jetson_clocks

# 查看当前模式
sudo nvpmodel -q

Docker 优化参数

# 挂载缓存目录（避免重复下载）
-v ~/.cache/huggingface:/root/.cache/huggingface
-v ~/.cache/vllm:/root/.cache/vllm

# 锁定 CPU
--cpuset-cpus 0-7

使用 ModelScope 加速国内下载

-e VLLM_USE_MODELSCOPE=True

五、各平台推荐配置

Thor 128GB / 64GB

sudo docker run -it --rm --pull always \
  --runtime=nvidia --network host \
  -e VLLM_USE_MODELSCOPE=True \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
  vllm serve {模型ID} \
  --port 8000 \
  --gpu-memory-utilization 0.85 \
  --max-model-len 32768 \
  --enable-prefix-caching

Orin 64GB / 16GB

sudo docker run -it --rm --pull always \
  --runtime=nvidia --network host \
  -e VLLM_USE_MODELSCOPE=True \
  ghcr.io/nvidia-ai-iot/vllm:latest-jetson-orin \
  vllm serve {模型ID} \
  --port 8000 \
  --gpu-memory-utilization 0.80 \
  --max-model-len 8192 \
  --enable-prefix-caching

Orin Nano 8GB

sudo docker run -it --rm --pull always \
  --runtime=nvidia --network host \
  ghcr.io/nvidia-ai-iot/llama_cpp:latest-jetson-orin \
  llama-server \
  --hf-repo {HF仓库} --hf-file {GGUF文件} \
  --ctx-size 4096 --port 8080 --n-gpu-layers 999

下一步

回到快速开始回顾基础配置
浏览模型列表查看每个模型的最优配置
阅读部署指南了解各引擎部署细节

性能优化：量化、推测解码与调优

性能优化

一、量化方案对比

推荐量化策略

二、MTP 推测解码

启用 MTP

MTP 性能提升

三、KV Cache 调优

前缀缓存（Prefix Caching）

GPU 内存分配

四、Jetson 系统级优化

性能模式

Docker 优化参数

使用 ModelScope 加速国内下载

五、各平台推荐配置

Thor 128GB / 64GB

Orin 64GB / 16GB

Orin Nano 8GB

下一步