模子效率和蒸馏过程是另一个主要部门。例如,通过特地为笔记本电脑或智妙手机调整模子,凡是能够利用分歧的 GPU 和 CPU 组合。Tung 说,这可能会发生运转更快、更好、更廉价的模子。
然而,GPU 欠缺只是整个问题的一部门。Tung 注释说,当组织寻求引入特地用于计较机视觉、机械人手艺或聊器人等特定用处的 AI 东西时,他们发觉需要针对 AI 优化的快速高效根本设备。
Gartner 研究副总裁 Sid Nag 暗示:低效的 AI 框架会大大降低 AI 的价值。 Accenture 全球数据能力担任人 Teresa Tung 弥补道:高端 GPU 的稀缺性确实是个问题,但还有其他要素 —— 包罗电力、散热以及数据核心设想和容量 —— 城市影响最终成果。
虽然这可能间接影响企业,但 GPU 欠缺也影响到 AWS、Google 和 Microsoft 等次要云办事供给商。Nag 说,他们越来越多地资本和容量。对企业来说,影响是显而易见的。他指出:缺乏建立 AI 模子所需的恰当硬件根本设备,模子锻炼会变得迟缓且不成行。这还可能导致数据瓶颈,影响机能。
制定明白的政策和 AI 利用管理框架能够最大限度地降低非手艺营业用户误用东西或无意中形成瓶颈的风险。当这些用户转向 AWS、Google 和 Microsoft 等超大规模云办事供给商时,风险会更大。Nag 指出:没有一些指点和标的目的,就像走进糖果店却不晓得该选什么。
环节正在于:要求高且资本稠密的 AI 工做负载需要 IT 带领者从头思虑若何设想收集、分派资本和办理能耗。轻忽这些挑和的企业可能会正在 AI 军备竞赛中掉队,并减弱营业表示。
处理 AI 的能源需求也很主要。全体的能源计谋能够帮帮避免短期机能瓶颈和长刻日制。Nag 说:若是能源耗损还不是问题,它也将成为很多公司的问题。没有脚够的供应,电力可能成为成功的妨碍。它还可能可持续性并添加漂绿。他 CIO 从普遍和全体的角度对待 AI,包罗找出削减对 GPU 依赖的方式。
现实上,Ayar Labs 声称其延迟比保守互连低 10 倍,带宽超出跨越 10 倍。功耗也降低了 4 到 8 倍。Thorn 暗示,芯片不再是期待数据而不是计较。跟着组织采用复杂的狂言语模子,这个问题可能变得出格严沉。他弥补说:添加管道容量能够提高操纵率并降低本钱收入。
收集延迟可能出格具有挑和性。即便正在处置 AI 查询时呈现细小延迟也可能影响整个项目。按照特地处置 AI 优化根本设备的供应商 Ayar Labs 的贸易运营副总裁 Terry Thorn 的说法,很多收集仍正在依赖保守铜缆,这显著降低了数据传输速度。
更蹩脚的是,升级电力和冷却根本设备既复杂又耗时。Nag 指出,这些升级可能需要一年或更长时间才能完成,从而形成额外的短期瓶颈。
因为手艺影响到数据办理、计较资本和用户界面等多个范畴,优化 AI 素质上很复杂。因而,CIO 必需按照用例、AI 模子和组织需求决定若何处置各类 AI 项目。这包罗均衡当地 GPU 集群取分歧芯片组合和基于云的 AI 办事。
正在某些环境下,AWS、Google 或 Microsoft 可能通过特定产物和办事供给处理方案。然而,还存正在一系列利基和专业 AI 办事公司,一些征询公司 —— Accenture 和 Deloitte 就是此中两家 —— 取 Nvidia 和其他 GPU 供应商有间接合做关系。Tung 说:正在某些环境下,你能够通过这些定制模子和框架获取数据流。
另一个潜正在问题是数据核心空间和能源耗损。AI 工做负载 —— 出格是正在高密度 GPU 集群上运转的工做负载 —— 耗损大量电力。跟着摆设规模扩大,CIO 可能需要争相添加办事器、硬件和液冷等先辈手艺。Nag 说,低效的硬件、收集根本设备和 AI 模子会加剧这个问题。
最较着且被普遍报道的问题是用于推理和运转 AI 模子的高端 GPU 欠缺。例如,备受逃捧的 Nvidia Blackwell GPU (正式名称为 GB200 NVL-72) 曾经几个月几乎无法采办,由于 Amazon、Google、Meta 和 Microsoft 等大公司都正在抢购。即便企业可以或许获得这些设备,一台完整设置装备摆设的办事器也要破费约 300 万美元。较廉价的 NVL36 办事器价钱约为 180 万美元。
跟着首席消息官们竞相采用和摆设人工智能,他们最终城市晤对一个不恬逸的现实:他们的 IT 根本设备还没无为 AI 做好预备。从遍及存正在的 GPU 欠缺、容易呈现延迟的收集到快速增加的能源需求,他们碰到的瓶颈正正在减弱机能并推高成本。
Tung 说,组织必需考虑若何、何时以及正在哪里利用云办事和专业 AI 供给商。若是正在内部建立 GPU 集群既不成取也无法实现,那么找到合适的办事供给商就至关主要。你必需领会供应商取 GPU 供给商的关系、他们供给什么类型的替代芯片,以及你事实能获得什么,她说。
对于运转 GPU 集群的企业来说,最大化收集机能至关主要。跟着工做负载的扩展,系统会碰到数据传输。环节瓶颈之一是铜缆。例如,Ayar Labs 用高速光互连替代这些互连,从而削减延迟、能耗和热量发生。还能提高模子处置效率,出格是对于大规模摆设。