两家AI巨子正评论建超级AI数据中心 每个耗资1250亿美元

09-04 243阅读 0评论

9月4日音讯,全球顶尖的人工智能开发商对其最先进的技能一贯保密,而关于开发这些技能所需的专业数据中心,他们则愈加讳莫如深。

据美国科技媒体《The Information》发表,美国七个州有17个已建成或规划中的人工智能数据中心,这些数据中心有时被称为超级核算机或人工智能芯片集群。现在,这些超级核算数据中心或已投入运营,或正由微软、OpenAI、Meta及埃隆·马斯克(Elon Musk)旗下的xAI等公司准备中。

总的来看,这些数据中心的制作与规划总投资估计将超越500亿美元,其间包括英伟达供给的价值近350亿美元的人工智能服务器芯片,以及巨大的运营本钱。值得注意的是,某些更具前瞻性的项目,如微软与OpenAI评论的、价值高达1000亿美元的超级核算机,没有列入上述核算中,由于这些项目仍处于理论设想阶段,尚无清晰的开展方案。

这些公司基本上都在寻求同一个方针,即完成超级智能,以期处理核聚变、全球变暖甚至人类星际殖民等严重应战。他们设想中的超级核算机规划空前,深信核算才能的腾跃将赋予人工智能前所未有的超凡才能。

DataBank首席执行官劳尔·马蒂内克(Raul Martynek)指出:“这一寻求直接相关到对更多人工智能服务器芯片、更多电力以及更大数据中心容量的渴求。”DataBank正在为参加人工智能比赛的顶尖云服务供给商制作数据中心。

在美国,布置这些超级核算机项目不只耗时好久,还面对芯片、土地和电力资源缺少的巨大应战。美国动力部已意识到潜在的电力供应缺乏问题,并正活跃探究处理方案,如赞助研制以进步人工智能核算功率的技能。

当时评论中的数据中心规划前所未有。在ChatGPT引发的生成式人工智能热潮之前,英伟达的芯片集群规划一般仅限于数千颗GPU芯片。但是,现在的顶尖集群已打破三万颗芯片大关,这些芯片相互衔接和通讯,就像它们是同一台核算机的一部分。下一年,多家公司方案推出搭载十万颗芯片的超大规划核算集群。

与传统芯片比较,GPU的能耗明显添加,一个包容十万颗GPU的集群估计将耗费高达100兆瓦的电力。这种耗电量是传统数据中心的十倍之多,足以供7万至10万户家庭的日常用电。

微软与OpenAI曾设想打造一台价值千亿美元的超级核算机,别离以“星门”(Stargate,OpenAI的代号)和“水星”(Mercury,微软的代号)命名。这台超级核算机估计将集成数百万颗GPU,其电力需求高达数吉瓦(1吉瓦等于1百万千瓦)。但是,这一豪举面对重重技能应战,包括怎么完成芯片间的高效互联,以及保证足够的电力供应。

据知情人士泄漏,由于项目融资途径尚不明亮,微软与OpenAI或将别离独立探究这一雄伟方案的施行途径。

奔向“下一个高原”

英伟达首席执行官黄仁勋在这场数据中心比赛中占有中心位置,他的言辞进一步加重了市场竞赛的白热化。他近期向分析师表明:“首先抵达下一个超级核算集群渠道者,将引领人工智能范畴的革新。”

连谷歌也加入了这场竞赛。尽管谷歌选用的是与博通联合规划的张量处理单元(TPU)芯片,但仍然对英伟达行将发布的Blackwell芯片下了大额订单。

GPU的剧烈竞赛不只加重了首要人工智能开发商与云供给商之间的严重联系,有时也涉及到英伟达内部。例如,马斯克曾考虑与甲骨文签署一项巨额协议。依据该协议,他的人工智能公司xAI将在未来几年内斥资100亿美元租借英伟达的GPU。商洽终究决裂,部分原因是马斯克对甲骨文构建超级核算机的速度不满,而甲骨文则忧虑马斯克方案布置GPU集群的地址电力供应缺乏。

尽管如此,马斯克宣告xAI已在田纳西州孟菲斯建成一个包括十万颗英伟达H100 GPU的核算集群,该芯片是业界顶尖的通用处理方案之一。

马斯克周一在一篇帖子中表明,这个名为“伟人”(Colossus)的十万颗芯片集群现已发动并运转,它是“世界上最强壮的人工智能练习体系”。但是,据两位熟知xAI芯片订单及工厂产能的知情人士泄漏,现在实践运转的芯片数量尚缺乏总数的一半,首要受限于电力或网络设备。

不管马斯克的表述是否夸张,其言辞已在人工智能巨子之间引起轩然大波,各开发商纷繁忧虑被赶超。据知情人士泄漏,OpenAI首席执行官萨姆·奥特曼(Sam Altman)曾向微软高层表达过相似忧虑,以为xAI很快将拥有比OpenAI更多的核算才能。这或许正是他活跃推进开发新式人工智能芯片的原因之一。

更多芯片,更多问题

为了最大极限地进步GPU在练习新人工智能方面的功率,开发人员正在测验在单个数据中心或同一区域的多个数据中心布置大型GPU集群。

但是,构建以GPU为中心的数据中心仍然是新式范畴,面对许多应战。Digital Realty首席技能官克里斯·夏普(Chris Sharp)指出,构建大型GPU集群的一个应战是衔接GPU的网络设备才能有限,由于这些设备并非为大型集群规划的。Digital Realty是一家数据中心的所有者,其客户包括首要的云服务供给商。

夏普弥补道:“鉴于现有的技能限制,咱们有必要从头考虑规划参数,以保证能够顺畅构建并运转包括55,000颗甚至更多GPU的超大规划集群。”

此外,热量办理问题也不容忽视。传统数据中心依靠空气冷却,但GPU服务器发生的热量远超传统设备,职业有必要寻求更高效的处理方案。微软在威斯康辛州芒特普莱森特为OpenAI制作的数据中心,方案选用水冷技能代替空气冷却,以应对GPU发生的高热量。

超级核算机前锋

据知情人士泄漏,2019年左右,微软在爱荷华州为OpenAI制作了两台GPU超级核算机,这是两家公司到达初次商业协作伙伴联系后的一部分。现在,其间一台已退役,而另一台则继续助力OpenAI练习其旗舰大言语模型GPT-4,而且仍在运转。

近年来,微软在凤凰城的数据中心规划继续扩展,并同步推进威斯康辛州与亚特兰大区域的超级核算机制作项目。尽管地理位置相隔甚远,这两地的集群将协同作业,一起服务于新模型的练习任务。

据内部人士泄漏,威斯康辛州设备全面竣工后,总投资或许到达100亿美元,但估计从下一年下半年起,部分设备将首先投入运营。

1250亿美元巨额项目

许多顶尖GPU集群选址于电力充分、数据中心资源丰富的区域,如凤凰城,招引了亚马逊、Meta及微软等巨子在此布置人工智能服务器。但是,跟着集群规划的扩展和电力需求的添加,这些公司开端将目光投向传统数据中心纽带之外的新区域。

亚马逊便是一个典型比如。该公司在宾夕法尼亚州中部核电站邻近购地,方案制作一座电力容量高达1千兆瓦的数据中心,其供电才能足以比美奥斯汀或旧金山等城市,或支撑构建一个包容100万颗GPU的巨大集群。

与此一起,北达科他州也成为焦点。该州商务专员乔希·泰根(Josh Teigen)泄漏,两大全球顶尖人工智能开发商正在与该州政府触摸,评论制作超级人工智能数据中心的可行性。初期规划电力需求在500至1000兆瓦之间,并方案在未来几年内扩展至5至10吉瓦。

这些拟建项目规划空前,远超当时任何数据中心,凸显了人工智能开展对电力和空间资源的巨大需求。以微软Azure为例,其全球数据中心去年底的总耗电量挨近5吉瓦。

泰根泄漏,每个超级核算项意图造价或许飙升至1250亿美元以上。尽管他没有点名参加评论的公司,但指出这些公司均为市值“万亿美元”等级的巨子。这把名单缩小到了美国的六大企业:英伟达、亚马逊、微软、谷歌、Meta和苹果。尽管特斯拉也在开发人工智能,且曾到达万亿美元市值,但现在其市值约为7000亿美元。

微软由于与OpenAI评论的千亿美元超级核算机方案而备受瞩目,成为潜在的有力竞赛者。一起,北达科他州州长伯格姆曾是微软高管,他在2001年以11亿美元的价格将一家公司卖给了这家科技巨子。此外,谷歌和亚马逊等公司也在活跃扩展其人工智能核算才能。

泰根表明,曩昔六周内,“多家企业的代表”已到访北达科他州,在雄厚资金支撑下,项目推进速度非常快。他着重:“评论正处于加快阶段”,并坚信自己正与“最活跃推进这一项意图公司”进行实质性商洽。

泰根急迫呼吁州内官员敏捷采纳举动,简化土地从头区分流程并促进与电力公司的协作,以招引人工智能数据中心项目落户北达科他州,不然恐失去“千载一时”的开展机会。他正告道:“若咱们举动迟缓,得州、俄克拉荷马州甚至其他州将抢占先机,而咱们则将失去经济腾跃的良机,无法完成真实的多元化与耐性增加。”

数据中心职业的专家长期以来对北达科他州坚持高度重视,由于该州是美国少量动力产出大于耗费的州之一,具有共同优势。据美国动力情报署数据显现,北达科他州在原油出产方面位列全美第三,仅次于得克萨斯州和新墨西哥州,这为数据中心项目供给了坚实的动力保证。(小小)

延伸阅览 董明珠再谈“35岁坎”:重要的是才能和经历,至少还能再干20年 9月4日外媒科学网站摘要:地震或许促进地壳中黄金的构成 特斯拉暗示:自动驾驶轿车前排座椅能够朝后旋转

发表评论

快捷回复: 表情:
评论列表 (暂无评论,243人围观)

还没有评论,来说两句吧...

目录[+]