英伟达CES发布桌面AI超算DGX,本地运行千亿参数大模型
英伟达CES震撼发布:桌面级AI超算DGX系列,本地运行千亿级大模型
在本周举行的国际消费电子展(CES)上,英伟达(NVIDIA)成为全场焦点,正式向全球展示了其革命性的桌面AI超级计算机——DGX Spark与DGX Station。这两款被誉为“全球最小AI超算”的设备,正将以往仅存在于数据中心的强大算力,浓缩至开发者的办公桌之上。
DGX系列基于英伟达先进的Grace Blackwell架构打造,集成了高达128GB的统一内存,并具备千万亿次级(Petaflop级)的AI性能。这一突破性设计为AI开发者、研究人员和数据科学家提供了前所未有的便利:他们现在可以在本地环境中高效开发和微调AI模型,并轻松地将工作负载无缝扩展至云端。
在模型支持方面,DGX Spark能够流畅运行参数规模高达1000亿的大型语言模型,而性能更强大的DGX Station更是可以驾驭1万亿参数的巨型模型,为前沿AI研究铺平了道路。

自去年10月问世以来,DGX Spark的令牌(token)生成性能通过持续的软件优化,已实现超过一倍的提升。英伟达强调,这得益于模型压缩、优化技术的飞速发展,以及与全球开源社区的紧密协作。以往必须依赖大型数据中心的各类开源模型,如今得以在桌面级的DGX设备上加速运行。
DGX Spark出厂即预装了完整的NVIDIA AI软件栈和CUDA-X库,为使用者提供了开箱即用的强大工具集,极大地简化了AI应用的构建、微调与部署流程。可以说,Spark为广大开发者提供了一个触手可及的基础AI平台;而Station则面向企业和高端研究实验室,致力于在桌面环境下驱动最尖端、最大规模的AI模型探索。两款设备均支持直接运行包括最新发布的Nemotron 3在内的多种主流框架与开源模型。
在核心技术层面,为DGX Spark提供动力的NVIDIA Blackwell架构(其算力约与RTX 5070相当)引入了创新的NVFP4数据格式。该技术可将AI模型高效压缩最高达70%,从而在不牺牲推理精度的情况下显著提升运行速度。
英伟达通过与llama.cpp等开源项目的深度合作,持续挖掘硬件潜能。在DGX Spark上运行尖端AI模型时,平均可获得35%的性能增益。llama.cpp的优化还包括加速大语言模型的加载过程,进一步改善了开发者的使用体验。
定位高端的DGX Station,则搭载了旗舰级的GB300 Grace Blackwell Ultra超级芯片,并配备了高达775GB的FP4精度一致性内存。其强大的配置使其能够胜任运行万亿参数模型的艰巨任务,为AI实验室提供了桌面级的尖端算力。目前,它已支持包括Kimi-K2 Thinking、DeepSeek-V3.2、Mistral Large 3、Meta Llama 4 Maverick、Qwen3以及OpenAI gpt-oss-120b在内的众多先进模型。
vLLM项目的核心维护者、清华大学博士游凯超对此评价道:“GB300超级芯片传统上以机架式系统部署,这使得vLLM等项目难以直接在其上进行测试与开发。DGX Station彻底改变了这一局面。它将GB300集成至紧凑的桌面单系统中,让我们能够以更低的成本和更高的效率,针对GB300的特性进行测试与开发,大幅加快了迭代周期,并使得持续的性能验证与优化成为可能。”
除了硬件与核心AI能力的飞跃,英伟达还公布了一系列配套软件与服务计划。公司将于本月晚些时候,以订阅制形式在DGX Spark上提供完整的“AI企业套件”。该套件集成了大量面向企业场景的应用程序、框架、模型及微服务,旨在全方位简化AI应用与服务的开发流程。
此外,英伟达计划在年内推出完全适配DGX Spark本地运行的Nsight CUDA代码助手版本。此前,由于该助手所依赖的模型过于庞大,无法在消费级显卡上运行,只能依托云端,这对注重数据隐私的企业用户构成了使用障碍。新版助手将解决这一痛点。
对于游戏开发与模组制作社区,英伟达正将RTX Remix模组开发平台的支持扩展至DGX Spark。该平台利用英伟达的光线追踪加速器,赋能经典游戏的重制与模组开发。通过此次集成,相关的文本生成等AI任务可在Spark上本地完成。
面向机器人开发与爱好者群体,英伟达透露正在编写一份全新的应用指南,旨在指导用户如何将DGX Spark与Hugging Face的Reachy机器人平台结合使用,开拓机器人AI的新玩法。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/e3b844f4-3301-470a-8559-ac29872f935f