快速入口
选择你需要的资源,快速开始
精选模型
最新模型,上线即支持 Jetson 部署
VLM30B-A3BNVFP4FP8
Nemotron 3 Nano Omni
NVIDIA 推出的全模态 MoE 推理模型,30B 总参数仅激活 3B,原生支持文本、图像、音频、视频四种输入,256K 上下文
部署模型
模型详情命令根据你的配置自动生成
sudo docker run -it --rm --pull always \
--runtime=nvidia --network host \
-e VLLM_USE_MODELSCOPE=True \
-v ~/models:/models \
vllm/vllm-openai:v0.20.0-ubuntu2404 vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4 \
--port 8000 \
--max-model-len 32768 \
--gpu-memory-utilization 0.835B-A3BNVFP4INT4
Qwen3.6 35B-A3B
阿里 Qwen3.6 系列 MoE 模型,总参数 35B 仅激活 3B,支持 MTP 推测解码,原生支持推理和函数调用
部署模型
模型详情命令根据你的配置自动生成
sudo docker run -it --rm --pull always \
--runtime=nvidia --network host \
-e VLLM_USE_MODELSCOPE=True \
-v ~/models:/models \
vllm/vllm-openai:nightly-aarch64 vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--max-model-len 32768 \
--gpu-memory-utilization 0.9最新动态
最近更新的模型与资源
Nemotron 3 Nano Omni
VLMNVIDIA 推出的全模态 MoE 推理模型,30B 总参数仅激活 3B,原生支持文本、图像、音频、视频四种输入,256K 上下文
Qwen3 8B
LLM阿里巴巴 Qwen3 系列的中型语言模型,8B 参数,原生支持思考模式,适合单 GPU 部署的通用文本任务
Qwen3.6 27B
LLM阿里 Qwen3.6 系列 27B 稠密模型,19GB NVFP4 量化,支持 MTP 推测解码,强推理和函数调用能力
Qwen3.5 35B-A3B
VLM阿里 Qwen3.5 系列 MoE 视觉语言模型,总参数 35B 仅激活 3B,262K 上下文,支持图文理解、函数调用和多语言
MiniMax M2.7
LLMMiniMax 推出的 229B MoE 稀疏大模型,每次激活 10B 参数,196K 上下文,专为超长代码代理、安全审计、SRE 运维场景设计
Qwen3.5 27B
VLM阿里 Qwen3.5 系列 27B 稠密视觉语言模型,262K 上下文,支持图文理解、推理、函数调用和多语言