公司动态

NVIDIA Dynamo开源库减速并扩大AI推理模子

NVIDIA 宣布了开源推理软件 NVIDIA Dynamo,旨在以高效力、低本钱减速并扩大 AI 工场中的 AI 推理模子。作为 NVIDIA Triton™ 推理效劳器的后续产物,NVIDIA Dynamo 是一款全新的 AI 推理效劳软件,旨在为安排推理 AI 模子的 AI 工场最年夜化其 token 收益。它和谐并减速数千个 GPU 之间的推理通讯,并应用分别效劳将年夜言语模子 (LLM) 的处置阶段跟天生阶段在差别 GPU 上分别开来。这使得每个阶段的特定需要能够停止独自优化,并确保更年夜水平天时用 GPU 资本。在 GPU 数目雷同的情形下,Dynamo 可将 NVIDIA Hopper™ 平台上运转 Llama 模子的 AI 工场机能跟收益翻倍。在由 GB200 NV皇冠登陆入口L72 机架构成的年夜型集群上运转 DeepSeek-R1 模子时,NVIDIA Dynamo 的智能推理优化也可将每个 GPU 天生的 token 数目进步 30 倍以上。NVIDIA Dynamo 参加了一些功效,使其可能进步吞吐量的同时下降本钱。它能够依据一直变更的恳求数目跟范例,静态增加、移除跟从新调配 GPU,并准确定位年夜型集群中的特定 GPU,从而更年夜限制地增加呼应盘算跟路由查问。别的,它还能够将推理数据卸载到本钱更低的显存跟存储装备上,并在须要时疾速检索这些数据,最年夜水平地下降推理本钱。NVIDIA Dynamo 完整开源并支撑 PyTorch、SGLang、NVIDIA TensorRT™-LLM 跟 vLLM,使企业、始创公司跟研讨职员可能开辟跟优化在分别推理时安排 AI 模子的方式。NVIDIA Dynamo 包括四项要害翻新,可下降推理效劳本钱并改良用户休会:GPU 计划器 (GPU Planner):一种计划引擎,可静态地增加跟移除 GPU,以顺应一直变更的用户需要,从而防止 GPU 设置适度或缺乏。智能路由器 (Smart Router):一个具有年夜言语模子 (LLM) 感知才能的路由器,它能够在年夜型 GPU 集群中领导恳求的流向,从而最年夜水平增加因反复或堆叠恳求而招致的价值昂扬的 GPU 反复盘算,开释出 GPU 资本以呼应新的恳求。低耽误通讯库 (Low-Latency Communication Library):推理优化库,支撑进步的 GPU 到 GPU 通讯,并简化异构装备之间的庞杂数据交流,从而减速数据传输。显存治理器 (Memory Manager):一种可在不影响用户休会的情形下,以智能的方法在低本钱显存跟存储装备上卸载及从新加载推理数据的引擎。NVIDIA Dynamo 将作为 NVIDIA NIM™ 微效劳推出,并在将来版本中由 NVIDIA AI Enterprise 软件平台供给支撑,存在出产级的保险性、支撑跟稳固性。
上一篇:热成像仪+AI 下一篇:没有了