万博manbext网页版登录app官网“深度念念考的大模子-万博manbext网页版登录(中国)官方网站入口

发布日期：2026-06-16 08:34 点击次数：199

“一个聪惠东说念主从敌东说念主那处得到的东西，比从一个傻瓜一又友那处得到的东西更多。”

——形而上学家格拉西安

这句格言，正在AI领域被履行考据。好意思国的为止政策总会告诉咱们，哪些东西是发展AI至关紧迫的。

2024年10月，好意思国商务部再次升级制裁，为止中国实体拜访好意思国的云职业，情理是“防护期骗好意思国基础行径覆按AI模子”。这璀璨着好意思国对华算力基础行径的“双管王人下”：先断GPU芯片，再封云职业，最终见解是让中国AI堕入算力断崖。

有读者会问，DeepSeek缩小了单模子算力需求，把英伟达股价都打下来了，若何AI算力仍然繁难呢？

张开剩余92%

一方面是总量在增长。正如杰文斯悖论所说，本事跨越缩小了使用资本时，资源的总破钞量反而会加多。比如燃油效率提高了更省油，但跟着开车变得低廉，东说念主们就会更多采用开车，扫尾导致汽油的总破钞量加多。AI亦然如斯，模子门槛着落导致智能化应用多了，总算力需求也就更大了。

此外，还跟算力集群的期骗率联系。一位银行总工程师共享到，自家搭建的搀和异构算力平台，岑岭期算力集群期骗率能达到60%就算优秀了，花大价钱采购的算卡资源，许多都被花费或闲置了，加上配套系统与运维资本，通盘资金进入相等大。

既然自建算力集群买不到卡、资本高，从云表赢得算力的GPU云职业，就成了绝大多数企业用好、用活大模子的最好采用。

那么，GPU云职业手脚AI算力的另一根复古，中国准备好了吗？

从云表赢得算力，梦想很丰润，但履行很骨感。GPU云职业还莫得被企业普遍秉承。一位金融从业者就告诉咱们，通盘金融行业对GPU 云的默契还相比无极，各人俗例了传统的硬件采购模式，对云职业的秉承度并不高。

为什么不高？这有两个原因：

一是同质化严重。对比市面上的GPU云处罚决议，会发现算力层、平台层都高度同质化，采选的GPU芯片大同小异，平台功能也差未几。甚至于有东说念主认为GPU云职业商提供的软件没什么太大价值。扫尾即是GPU云市集，当今的竞争主如果卷廉价。

二是创新不及。同质化并不料味着GPU云职业的痛点和挑战都一经被处罚了，骨子上，同质化恰是创新不及的施展。比如说，跟着大模子的参数规模扩大，一个千卡集群的百P算力，训一个类Sora大模子就被占满了，其他客户需要算力，就得扩大集群规模，但AI芯片是很明锐的，从千卡到万卡、超万卡，故障率和运维难度也快速飞腾，若何保证集群的褂讪性，弗成动不动就中断重写checkpoint？

花了大价钱买的GPU卡，扫尾有一半都在“摸鱼”，若何让资源赓续更精益，投资不花费？

算卡供应链的不褂讪，许多集群的架构不同、批次不同，无法合池覆按，存在资源墙若何败坏？

国产芯片的适配难，新模子的覆按时长比英伟达决议多出好几倍，一直沿用的覆按推理一体化经过，在异构算力环境下缺点百出，又该若何办？

不出丑到，不是行业用户不想用GPU云职业，而是市面上的处罚决议都趋于同质化，过早启动卷价钱。这种情况，与内卷化的界说相当契合。就像农业发展到一个细目表情之后，便停滞不前或无法向更高等回荡。

GPU云市集，还处于旭日东升的发展初期，百行万企都需要上云用算来进行AI训推，有浩繁的市集空间恭候绽放，不应过早跌入同质化、内卷化的泥潭。

但要败坏内卷，就得拿出有壁垒的互异化处罚决议，让GPU云算力真确降本增效，从而带动企业用户的增长，以及通盘GPU云的产业升级，就像一块耕地，通过优化培植本事和深耕易耨，进一步提高食粮亩产量，从而幸免卷入“谷贱伤农”的价钱战内卷。

向本事要谜底，一直是百度的特色。AI时期，百度智能云也凭借AI基础行径和本事才调在云市集异军突起，当先点亮了国产三万卡GPU集群，况且好意思满了果然无损的搀和覆按才调，集群期骗率高达95%以上。凭借GPU云领域的杰出才调，百度智能云成为超半数央企的采用。

咱们就以百度智能云为例，拆解一下GPU云逃离内卷的本事密码。

破解GPU云市集的内卷难题，势必要改变传统集群规模拓展难、故障率高、资源期骗率低等问题，那就要从基础行径下功夫。

具体来说，百度智能云以本事为器具，对GPU集群进行了三重改进。让GPU集群从小农经济式的轻视经营，造成当代农场一样的规模化、集约化、精益化坐蓐模式。

第一重改进：规模化，开释超万卡集群的澎湃算力。

“深度念念考的大模子，业务用着可以，底下要全集团履行，你们尽快给算力扩容吧”，进入2025年，大模子上量成了IT东说念主的一大挑战。因为集群规模扩大一倍，故障率能飙升好几倍，而骨子运算效率却出现了边缘递减。如果集群是由不同城市的小规模集群互联来构建的，那资源性能损耗就更严重了，数据时延也会让在线推理职业的体验大打扣头。如果AI念念考一次就得十几分钟，职工用起来不舒服，CTO若何能不张惶上火。

是以，百度智能云在构建规模化GPU算力集群，靠近的首要本事挑战，即是如何提高集群的褂讪性，缩小故障率，给性能调优。

解题念念路，即是软硬协同。有点肖似于NVlink+ CUDA联手，充分开释N卡算力。那百度智能云靠的即是百舸。百度百舸是专为AI计较遐想的高性能算力平台，让多个芯片、多个集群都用“正常话”，好意思满跨芯片“交流”。

硬件资源层，百舸遐想了一套新的物理网罗架构，就像是城市里经心有盘算的高效门道，新一代的HPN网罗规模上支抓10万卡，可同期容纳十万卡并行覆按，这就为计较资源的高效运行提供了有劲保险，让AI模子训起来更快更褂讪。

集群组件层，百舸自研的积存通讯库BCCL，可以好意思满GPU、昆仑芯等轨范RDMA设备的互联互通，使得通讯效率达到最优。以前莫得联合沟通时势的时候，不同芯片互不买通，每每出现唠叨，那协同责任效率当然就很低了。BCC制定了一套联合的通行章程，就可以让芯片高效互助，加上自安妥并行策略搜索，自动有盘算出最好决议，就能让各式硬件充分施展作用，晋升多芯搀和覆按任务的合座遵循。

训推加快层，百舸在AI加快套件AIAK-LLM中构建了Accelerator轮廓层，屏蔽硬件互异，超过于为多个集群开辟高速路，快速通讯，让各式硬件都能充分施展作用，高效互助，由此来构建极致规模、极致高密和极致互联的GPU集群。

遐想一下，当企业使用万卡、超万卡集群时，就像一个滚滚赓续供给营养的算力泥土，不管是金融机构处理海量交游数据，如故运行复杂的科学计较模子，或者是AI智能体及时反应客户需求，都能鸿章钜字。

当今，百舸一经具备了锻练的10万卡集群部署和赓续才调，在横跨几十公里的集群上，百舸可以把单一覆按任务的性能折损规定在4%以内，也让百度智能云成为GPU云厂商中纳管超大规模集群的一个标杆。

第二重改进：精益化，PD区分让AI应用随时在线。

如今，企业对算力的需求发生了浩繁改动，从畴前侧重于模子覆按，迟缓转向更刺目及时性的推理和后覆按阶段，有点像城市交通发展到了一定阶段，新路（覆按）就建得少了，拔赵帜立汉帜的是防护车流拥挤（推理优化）。

不管是B端用户如故C端用户，如果大模子念念考十几秒才给复兴，用户都会不舒服径直退出，这即是“首token蔓延”。为了尽可能得志用户“即时反馈”的严苛条目，就迫使模子厂商搜肠刮肚。弗成忽略的是，算力基础行径的优化，就像是把路铺平、修上护栏，晋升系统的处理才调和并发效率，从而让在线职业像上高速一样顺畅运行，大大缩小蔓延率。

PD区分加快本事成为云厂商们竞相展示的“王牌”，而百度智能云的PD区分式推理基础行径，凭借全局优化才调脱颖而出。

物理网罗层面，百度智能云打造了HPN（High-Performance Network）高性能网罗集群，领有自安妥路由算法，像智能导航一样，幸免了大规模数据传输时（如Alltoall）的流量连合问题。全新的拓扑结构，如同再行有盘算的城市路网，缩小通讯瓶颈，使带宽有用性达到90%以上，让交换机转发蔓延大大缩小，集群传输又快又稳。

流量赓续层面，百度智能云自研的高性能KV Cache传输库，为高优先级部队预留带宽，超过于“稀奇车辆优先通行通说念”；分层传输遐想支抓多层KV Cache复用，超过于潮汐车说念，字据数据流量活泼调养传输通说念，晋升通行效率，况且训推任务互不干涉，货车轿车“各走各说念”，好意思满了DCN弹性RDMA满带宽传输，让数据高效流畅。

通讯组件层面，百度智能通过Alltoall算子优化和动态冗余行家编排，优化计较流与通讯流，确保集群中统统GPU通讯时分一致，权贵晋升婉曲量和性能。

以往企业使用大模子时，常因算力瓶颈、数据传输慢等问题受限，如同灌溉管说念不畅影响了营养运送。而百度智能云将网罗基础行径、通讯组件与表层业务深度会通，经心修建了一套高效的“算力管网”，可以让数据、算力在不同行务场景间快速流动，无意助力百行万企快速应用大模子，处罚企业智能化转型确当务之急。

第三重改进：多元化，一云多芯筑起算力可靠围墙。

限卡又限云，一经是好意思国遏制中国AI发展的明牌。绝对依赖英伟达风险太大了，国外地方变化平庸，供应链随时可能被卡脖子，企业构建算力集群，弗成押注在单一芯片，会探求一云多芯。但采购国产芯片散播风险，异构芯片纳管与并行计较效率低，不同类型芯片之间协同责任困难重重，算力资源花费严重。

在国内算卡供应垂危确当下，让各样化芯片无意协同覆按，有趣无须多说。“一云多芯混训”的才调，也让百度智能云成为多数企业GPU云的采用，比如长安汽车。

走进长安汽车智算中心，就像是一座算力工场，依靠百舸平台与长安汽车自研的 “星环平台”，将算力资源施展到极致。畴前，职业器像低效运转的老旧坐蓐线，大量算力被闲置花费。如今，百舸升级的智能调节系统，集群平均算力使用率飙升至90%，综联合源期骗率晋升50%。

再比如某个头部城商行。对银行来说，业务可抓续性至关紧迫，如果用户拜访不了系统、办不了业务是紧要事故。既要自主可控的异构算力集群，又要褂讪可靠的职业保险，对城商行的基础行径提倡了浩繁挑战。该城商行与百度智能云合作，通过异构平台在算力感知的情况下，进行联合调节，让不同芯片不再“打群架”，可以被搀和赓续、搀和使用，从而兼顾了算力安全与业务褂讪。

再到百度自建的国产昆仑芯 P800 大型单一集群里一看，资源期骗率更是高达 98%，让每一张GPU都物尽其用。

正本，单一职业器最多容纳8张计较卡，而昆仑芯超节点本事可以将64张昆仑芯P800连合于单机柜，况且通讯效率堪比单一机型。跨集群层面，百度百舸买通集群内的网罗墙，好意思满异构芯片互联互通。通过accelerator 轮廓层，屏蔽底层芯片互异，通过联合接口好意思满异构芯片的“即插即用”；采选自安妥并行器具，找到最优的切分策略，字据芯片性能自动分拨任务，减少性能失掉。最终好意思满了近乎无损的“万卡级多芯混训”才调。

在万卡规模上，百舸可将两种芯片搀和覆按，当今一共支抓 18 种以上芯片类型，透顶处罚了一云多芯混训的复杂难题。

如今，经过规模化、精益化、多元化的三重本事改进，GPU云已从脱落低效的“算力作坊”，升级为高效精益的“当代农场”。百度智能云也凭借在GPU云职业领域的超卓施展，成为头部厂商中增速最快的云职业厂商。IDC最新发布的《中国智算专科职业市集敷陈》中，百度智能云凭借AI处罚决议实施职业，成为行业第一，领跑市集。

这评释，依靠本事创新，GPU云厂商可以逃离内卷，为行业和客户创造互异化价值，让GPU云职业在企业级市集抖擞出充沛的价值。

坚抓“本事精耕”，百度智能云走了一条向本事要效益、向本事要价值的良性发展之路。不仅让其在GPU云市集竖立互异化竞争的壁垒，也为通盘行业从轻视走向精益，从内卷走向高质地发展，提供了一个很好的参考样本。

那咱们不禁要问，为什么百度智能云能解脱内卷的旋涡？是什么让百度智能云有所不同？

一方面，是百度的本事基因，经过多年在AI领域的发展，百度及百度智能云一经打造了一系列高度适配AI业务、具有独到创新才调的“尖刀型”本事，有劲地处罚GPU云集群开导中的痛点与难点。

另一方面，是百度智能云的发展旅途明晰，向本事要谜底、不走内卷化之路的策略采用是明确的，这也决定了百度智能云必须在本事凹凸苦功、登天梯。面对需求侧的企业客户，以供给侧的高质地GPU云职业，复兴AI规模应用的复杂算力需求；面对云市集的竞争敌手，以本事相通力带动GPU云产业的高质地发展，幸免裸金属的红海价钱战，以百舸为中枢的才调与职业，开拓更大的价值空间。

GPU云的将来，不是卷“谁更低廉”，而是看“谁敢创新”。真确的本事相通者，将赢下这场AI算力创新的主导权。

发布于：天津市

万博manbext网页版登录app官网“深度念念考的大模子-万博manbext网页版登录(中国)官方网站入口

热点资讯

相关资讯