aoniAI Hub
返回指南列表
性能优化性能量化MTP调优NVFP4

性能优化:量化、推测解码与调优

模型量化、MTP 推测解码、KV Cache 等加速技巧,让你的 Jetson 跑得更快

性能优化

通过量化、推测解码、显存调优等技巧,最大化 Jetson 上的 AI 推理性能。

一、量化方案对比

量化类型 位宽 精度损失 内存节省 适用平台
NVFP4 4-bit 极小 75% Thor
FP8 8-bit 很小 50% Thor / Orin
INT4 (AWQ) 4-bit 75% Thor / Orin
INT4 (GGUF Q4) 4-bit 75% 全平台
BF16 16-bit 0% Thor / Orin

推荐量化策略

场景 推荐量化 说明
Thor 旗舰性能 NVFP4 NVIDIA 原生 4-bit,最优精度/性能比
Thor 通用 FP8 无损推理质量
Orin 大模型 INT4 (AWQ) AWQ 4-bit 显著降低内存
Orin Nano GGUF Q4_K_M 社区优化,llama.cpp 原生

二、MTP 推测解码

多 Token 预测(Multi-Token Prediction)是 Qwen3.5/3.6 系列的核心加速技术,一次生成 4 个 token。

启用 MTP

vllm serve {模型ID} \
  --speculative-config '{"method":"mtp","num_speculative_tokens":4}'

MTP 性能提升

模型 场景 加速比
Qwen3.6 35B-A3B 代码生成 ~2x
Qwen3.6 27B 通用推理 ~1.8x
Qwen3.5 35B-A3B 函数调用 ~2x

注意:MTP 仅 Qwen3.5/3.6 系列支持,需 --reasoning-parser qwen3


三、KV Cache 调优

前缀缓存(Prefix Caching)

--enable-prefix-caching

对于多轮对话和 system prompt 场景,可显著降低首 token 延迟。

GPU 内存分配

--gpu-memory-utilization 0.85  # 激进:更大 KV cache,更高吞吐
--gpu-memory-utilization 0.70  # 保守:留余量给其他进程

建议:8GB 设备用 0.70,16GB+ 用 0.80-0.85。


四、Jetson 系统级优化

性能模式

# 最大性能
sudo nvpmodel -m 0
sudo jetson_clocks

# 查看当前模式
sudo nvpmodel -q

Docker 优化参数

# 挂载缓存目录(避免重复下载)
-v ~/.cache/huggingface:/root/.cache/huggingface
-v ~/.cache/vllm:/root/.cache/vllm

# 锁定 CPU
--cpuset-cpus 0-7

使用 ModelScope 加速国内下载

-e VLLM_USE_MODELSCOPE=True

五、各平台推荐配置

Thor 128GB / 64GB

sudo docker run -it --rm --pull always \
  --runtime=nvidia --network host \
  -e VLLM_USE_MODELSCOPE=True \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
  vllm serve {模型ID} \
  --port 8000 \
  --gpu-memory-utilization 0.85 \
  --max-model-len 32768 \
  --enable-prefix-caching

Orin 64GB / 16GB

sudo docker run -it --rm --pull always \
  --runtime=nvidia --network host \
  -e VLLM_USE_MODELSCOPE=True \
  ghcr.io/nvidia-ai-iot/vllm:latest-jetson-orin \
  vllm serve {模型ID} \
  --port 8000 \
  --gpu-memory-utilization 0.80 \
  --max-model-len 8192 \
  --enable-prefix-caching

Orin Nano 8GB

sudo docker run -it --rm --pull always \
  --runtime=nvidia --network host \
  ghcr.io/nvidia-ai-iot/llama_cpp:latest-jetson-orin \
  llama-server \
  --hf-repo {HF仓库} --hf-file {GGUF文件} \
  --ctx-size 4096 --port 8080 --n-gpu-layers 999

下一步