返回指南列表
性能优化性能量化MTP调优NVFP4
性能优化:量化、推测解码与调优
模型量化、MTP 推测解码、KV Cache 等加速技巧,让你的 Jetson 跑得更快
性能优化
通过量化、推测解码、显存调优等技巧,最大化 Jetson 上的 AI 推理性能。
一、量化方案对比
| 量化类型 | 位宽 | 精度损失 | 内存节省 | 适用平台 |
|---|---|---|---|---|
| NVFP4 | 4-bit | 极小 | 75% | Thor |
| FP8 | 8-bit | 很小 | 50% | Thor / Orin |
| INT4 (AWQ) | 4-bit | 小 | 75% | Thor / Orin |
| INT4 (GGUF Q4) | 4-bit | 小 | 75% | 全平台 |
| BF16 | 16-bit | 无 | 0% | Thor / Orin |
推荐量化策略
| 场景 | 推荐量化 | 说明 |
|---|---|---|
| Thor 旗舰性能 | NVFP4 | NVIDIA 原生 4-bit,最优精度/性能比 |
| Thor 通用 | FP8 | 无损推理质量 |
| Orin 大模型 | INT4 (AWQ) | AWQ 4-bit 显著降低内存 |
| Orin Nano | GGUF Q4_K_M | 社区优化,llama.cpp 原生 |
二、MTP 推测解码
多 Token 预测(Multi-Token Prediction)是 Qwen3.5/3.6 系列的核心加速技术,一次生成 4 个 token。
启用 MTP
vllm serve {模型ID} \
--speculative-config '{"method":"mtp","num_speculative_tokens":4}'
MTP 性能提升
| 模型 | 场景 | 加速比 |
|---|---|---|
| Qwen3.6 35B-A3B | 代码生成 | ~2x |
| Qwen3.6 27B | 通用推理 | ~1.8x |
| Qwen3.5 35B-A3B | 函数调用 | ~2x |
注意:MTP 仅 Qwen3.5/3.6 系列支持,需
--reasoning-parser qwen3。
三、KV Cache 调优
前缀缓存(Prefix Caching)
--enable-prefix-caching
对于多轮对话和 system prompt 场景,可显著降低首 token 延迟。
GPU 内存分配
--gpu-memory-utilization 0.85 # 激进:更大 KV cache,更高吞吐
--gpu-memory-utilization 0.70 # 保守:留余量给其他进程
建议:8GB 设备用 0.70,16GB+ 用 0.80-0.85。
四、Jetson 系统级优化
性能模式
# 最大性能
sudo nvpmodel -m 0
sudo jetson_clocks
# 查看当前模式
sudo nvpmodel -q
Docker 优化参数
# 挂载缓存目录(避免重复下载)
-v ~/.cache/huggingface:/root/.cache/huggingface
-v ~/.cache/vllm:/root/.cache/vllm
# 锁定 CPU
--cpuset-cpus 0-7
使用 ModelScope 加速国内下载
-e VLLM_USE_MODELSCOPE=True
五、各平台推荐配置
Thor 128GB / 64GB
sudo docker run -it --rm --pull always \
--runtime=nvidia --network host \
-e VLLM_USE_MODELSCOPE=True \
-v ~/.cache/huggingface:/root/.cache/huggingface \
ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
vllm serve {模型ID} \
--port 8000 \
--gpu-memory-utilization 0.85 \
--max-model-len 32768 \
--enable-prefix-caching
Orin 64GB / 16GB
sudo docker run -it --rm --pull always \
--runtime=nvidia --network host \
-e VLLM_USE_MODELSCOPE=True \
ghcr.io/nvidia-ai-iot/vllm:latest-jetson-orin \
vllm serve {模型ID} \
--port 8000 \
--gpu-memory-utilization 0.80 \
--max-model-len 8192 \
--enable-prefix-caching
Orin Nano 8GB
sudo docker run -it --rm --pull always \
--runtime=nvidia --network host \
ghcr.io/nvidia-ai-iot/llama_cpp:latest-jetson-orin \
llama-server \
--hf-repo {HF仓库} --hf-file {GGUF文件} \
--ctx-size 4096 --port 8080 --n-gpu-layers 999