快速开始：在 Jetson 上运行 AI 模型

本指南帮助你从零开始，在 NVIDIA Jetson 设备上完成初始化配置，安装 Docker，并运行第一个 AI 大模型。

1. 硬件准备

你需要一台 Jetson 设备，推荐以下型号：

型号	内存	适用场景
Jetson AGX Thor	128GB / 64GB	大型模型（30B+）生产部署
Jetson AGX Orin	64GB	中型模型（7B-30B）部署
Jetson Orin NX	16GB	小型模型（3B-8B）部署
Jetson Orin Nano	8GB	轻量模型（<4B）边缘推理

2. 系统初始化

刷写 JetPack 6.2

使用 NVIDIA SDK Manager 刷写最新 JetPack 6.2：

# 确认 JetPack 版本
cat /etc/nv_tegra_release

# 应输出类似: R36.4.0, JetPack 6.2

安装基础依赖

sudo apt update && sudo apt upgrade -y
sudo apt install -y curl wget git python3-pip nvidia-jetpack

3. 安装 Docker 和 NVIDIA Container Runtime

# 安装 Docker
curl -fsSL https://get.docker.com | sudo sh
sudo usermod -aG docker $USER
newgrp docker

# 验证安装
docker run --rm --runtime=nvidia hello-world

4. 运行你的第一个模型

以 Qwen3 4B 为例，使用 vLLM 部署：

sudo docker run -it --rm --pull always \
    --runtime=nvidia --network host \
    -e VLLM_USE_MODELSCOPE=True \
    --entrypoint bash \
    ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
    -c "pip install modelscope>=1.18.1 && vllm serve Qwen/Qwen3.5-0.8B \
      --port 8000 \
      --gpu-memory-utilization 0.1 \
      --enable-prefix-caching \
      --reasoning-parser qwen3 \
      --enable-auto-tool-choice \
      --tool-call-parser qwen3_coder"

测试 API

curl -s http://${JETSON_HOST}:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
    "model": "Qwen/Qwen3.5-0.8B",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

5. 下一步

硬件选型 — 选择最适合你的 Jetson 设备
部署指南 — 深入了解 vLLM、llama.cpp、Ollama
性能优化 — 模型量化与调优技巧