GMI Cloud King Cui：AI企业如何补齐算力短板保障GPU集群稳定性？｜WISE 2024 商业之王

作者：小编发布时间：2024-12-11 03:18:15 浏览量：　

　　环境持续变化，时代总在迭变，“商业之王”们紧随时代浪潮，坚持创造，谋求新动能。立足中国经济大转型的当下，WISE2024 商业之王大会，一同发现真正有韧性的“商业之王”，探寻中国商业浪潮里“正确的事”。

　　11月28-29日，为期两日的36氪WISE2024 商业之王大会于北京隆重落地，作为中国商业领域的全明星盛典，WISE大会今年已经是第十二届，在不断变化的时代里见证着中国商业的韧性与潜力。

　　2024，是有些模糊且变化多于稳定的一年。相比过去十年，大家的脚步正放缓，发展更加理性。2024，也是寻求新的经济动力的一年，新的产业变化对每个主体的适应性提出了更高的要求。今年WISE大会以Hard But Right Thing（正确的事）为主题，在2024，什么是正确的事，成为我们更想交流的话题。

　　算力，作为AI技术的核心驱动力，直接关系到AI应用的性能与效率。在全球化运营中，如何确保算力的充足与高效，如何应对AI 算力短缺、AI Infra稳定性不足等问题都是AI企业目前在全球化运营过程中亟需解决的问题。

　　那关于这些问题的解决方案，GMI Cloud亚太区总裁King Cui 在大会现场分享了他的思考与见解。

　　朋友们大家下午好！我是来自GMI Cloud的King，今天分享一下全球布局情况下，AI企业如何在海外补齐短板，并且保证稳定性。

　　我做云计算已经十几年了，我将云计算的发展历程分为三个阶段——随着OpenAI的诞生和崛起，整个Cloud已经进入3.0时代，这个时候完全跟以前的云计算或者经典云计算时代是不一样的，企业计算需求更多是从CPU转向GPU，存储速度比以前高了很多倍，所以我们要做全新的形态。在这个背景下，我们成立了GMI Cloud，截至目前为止，刚刚创立了两年时间，总部在美国硅谷，目前主要是服务全球的AI企业和平台机构，我们在去年获得了英伟达认证的合作伙伴。

　　我们为什么能够在亚太区获得GPU分配权，我们除了跟英伟达合作之外，我们还跟GPU厂商保持比较好的合作，甚至他们也是我们的合作伙伴，我们的优势就是可以第一时间拿到的GPU，在亚太区拿到最新的服务器。比如说当下的H200，我们在今年8月份就开始对外提供云服务了，包括未来我们在明年的Q1会拿到GB200，也将会是亚太区第一个对外提供GB200云服务的NCP。我们目标是构建AI Cloud平台，我们是做GPU云服务生意，我们希望为AI企业提供稳定的AI基础设施。

　　目前我们在全球有10个数据中心，芯片主要以H100和H200为主。在今年十月份，我们刚刚宣布完成了新一轮融资，8200万美金，主要用于数据中心的建设，以及开拓新的H200 GPU的云服务。

　　我们的愿景是希望在AI云原生时代，能够成为“台积电”这样的企业，保持初心帮助合作伙伴提供比较稳定的AI Cloud，我们不会做大模型、应用，只专注地把我们的AI Cloud做好。

　　大家对GMI Cloud有了一个基础了解之后，下面我们就正式来聊一聊AI的出海，因为今天大家都在讲出海，但是也没有人讲为什么要出海，大家也觉得AI时代到来了，它相比以前的时代有什么区别？

　　从技术发展来讲，我们这代人非常幸运，我们经历了互联网时代、移动互联网时代、人工智能时代，从互联网到移动互联网，这两个时代基本上目前已经到了普惠点，如果中国还在做移动互联网创业的话大概率没有太大机会了，所以AI时代崛起比前两个时代更加迅猛，对社会和生产发展的影响更加巨大。这个时代的机会是非常明确的，所以我也是这样的时代驱使下离开了大厂，进入创业公司。

　　截止到今年8月份，全球有1700多个APP都是AI相关，其中中国有280个，出海相关比例高达30%，大概有92个APP。在PPT上，大家可以看到，我们列了排行榜前30的MAU，从今年1-9月份前十MAU增速已经环比超过了120%。

　　所有AI应用出海必然离不开的东西就是算力，AI三驾马车，数据、算法、算力，算力是基石，国内与海内的区别还是挺大的，海外供应商有很多不确定性，同时GPU时代的挑战性比传统CPU时代高很多，毕竟没有人做过超大规模的或者说十万卡以上GPU运维，但是CPU时代做过这样的事情，所以海外AI Infra的稳定性对于AI 出海企业来说，挑战是巨大的。

　　举一个例子，META前段时间发布了一个报告，他们用10000多张的H100，训练他们的Llama 405B大模型，总共54天的时间，出现了466次中断故障，其中有419次是预期外的，其中跟GPU相关得高达58%（280多次），CPU相关故障只有2次，这个数据对比可以看出，GPU跟CPU的稳定性挑战不是一个量级的。

　　整个的GPU稳定性其实就关系到我们研发的效率、时间成本、金钱，那下面就给大家汇报一下，整个GMI Cloud如何实现GPU集群高稳定性的。

　　首先从我们集群的架构层面来讲，我们完全是由自己自主研发的，我们从底层的GPU硬件，包括高速的GPU服务器、存储、网络，在PaaS层往上我们可以跟合作伙伴一起共建，比如说大模型，客户可以基于自己的大模型做研发，同时我们为广大的企业和个人开发者提供了开源大模型，一键部署到Cloud集群上面，并且我们有调优的服务。

　　（以下）这是我们整个的产品，我们产品可以帮助所有企业，GPU集群做自动化管控，我们可以把存储服务、网络服务，都通过作业方式进行调度，降低企业使用GPU集群的门槛。

　　（以下）这里讲的我们整个网络的设备，首先最左边的图是IB的万卡集群，我们提供IB高速网络，其实不是所有的企业都有过IB万卡集群的运维管理经验，我们公司是为数不多的，少有的具备万卡集群管理经验的。我们也提供了BC服务，GPU集群里面不同的用户可以使用不同的PC，相互资源不会出现争抢，做到完美隔离。

　　在存储层面，我们为不同的业务场景提供了不同的存储介质，比如说数据备份场景，其实你不需要那么高的IOPS，如果做大模型训练的checkpoint存储或者做自动驾驶的数据读取，就需要很高的IOPS，所以可以根据业务场景需求，根据经济模型选择最适合你的存储类型。

　　而对于一个GPU集群来讲，如果想规模越大，稳定性越高，这个时候你需要非常强大的主动监控平台，于是我们研发了集群管理的监控体系，我们能够实现端到端检测，在整个平台上我们可以清晰化的看到在哪个节点出现网络的中断，快速定位到最根本的问题，让我们的伙伴去现场做一些实施，同时我们也支持在历史数据查询、追溯、报警监控和处理。

　　同时，在交付之前，为了保证集付质量，稳定性、可靠性，GMI Cloud还要经过两道工序，第一道工序就是英伟达NCP验证体系，因为我们是英伟达合作伙伴，我们要把设计方案先经过英伟达确认，然后实施，进行相应测试确保集群可用性，包括性能测试、压力测试。同时我们在交付客户之前工程师会做所有硬件、软件存储网络测试，并且会跑一些最基本的开源大模型，确保训练任务能够完好运行在我们的GPU上。可以说，通过英伟达质量认证体系，以及GMI自身交付验收体系，双重标准来确保交付集群是高稳定性集群。

　　另外值得一提的是，故障预演，出了问题之后如何快速定位、响应、解决问题，这个是很关键的。所以我们有两个方面——GMI Cloud跟IDC是深度合作伙伴，我们跟全球每个国家的IDC都有当地伙伴做本地化实施。同时我们跟GPU ODM厂商保持3-5%的备机备件，出现硬件故障，我们第一时间可以联系现场人员进行更换。GMI Cloud的保障体系能够做到快速发现、定位问题，快速恢复集群，确保对外的交付SLA是很高的SLA，目前全球范围内能够提供GPU集群SLA超过99%的不到，GMI Cloud算是其中之一。

　　讲完稳定性问题与解决方案，我们还是从AI infra选型的角度我们怎么选择云基础的合作伙伴。大家出海会根据业务进行选择，短期业务还是长期业务，也会根据场景进行选择。所以GMI Cloud会根据不同的客户需求，提供两种方式，如果你是一个长期租用的方式，我们推荐集群归你独享，长期使用。如果做“短期”的，就可以GMI Cloud端到端的解决方案，从底层定制化集群。关于GPU集群的配置，我们都会根据客户需求进行配置，你需要在哪个国家配置，我们就可以去哪个国家帮你进行配置和选择。

　　在软件层，GMI Cloud有自己的Cluster Engine，稳定性像CPU时代一样高的同时，付费方式更加灵活，用一两张卡，可以选择一两天，也可以选择连续用3年。同时，GMI Cloud还提供AI顾问服务，我们公司70%人员都是研发人员，其中一半是来自谷歌，他们以前做深度学习和HPC相关的事情，对整个AI算法和HPC高可用，拥有非常多的经验，这些经验GMI Cloud都可以跟企业客户进行共享。

　　在本次演讲的最后，给大家介绍两个案例，第一个案例是，一家大型互联网招聘企业在海外去构建私有GPU集群的过程中，GMI Cloud帮助他们从底层的IDC到GPU，全面进行构建，“开箱即用”、“拎包入住”，他们只需要聚焦在业务层面，而不需要关注底层运维和管理。

　　第二个案例是一个知名的直播平台，如大家所知，目前整个端到端大模型非常火，主播跟观众做连麦的时候，双方中英文对话需要能够实时做翻译，而这个过程中不需要先通过ASR再通过TTS，企业会直接使用跑在GMI Cloud上的端到端大模型。

　　以上就是我今天的分享，从GMI Cloud的架构设计到整个体系，再到供应链保障维度做了分享，谢谢大家！更多信息请关注“GMI Cloud”公众号。

　　贵州省高级人民法院将于下周四（12月19日）上午9时30分，对余华英拐卖儿童案重审二审开庭。对于本次宣判，被害人杨妞花告诉总台央视记者，这是她第六次直面余华英，上诉是每一个被告人的权利，但是她相信二审仍会维持死刑判决。

　　来源：健康杭州最近杭城的气温一天天走低忙活了一整天，洗个热乎乎的澡再钻进暖暖的被窝，再舒服不过！然而不少人洗澡时或多或少会犯些错结果把本该舒服又养人的“养生澡”硬生生洗成了“伤身澡”冬天多久洗一次澡最好？洗澡频率主要取决于个体的需求和偏好。

　　油价涨跌预测:国内成品油零售价今年的“第25次”调整，将于本月晚24点开启，从国内油价走势来看，维持“油价降价”。

　　重要提醒！2025年兵役登记工作将于2025年1月1日开始已经进行过兵役登记，有参军意向的可直接参加网上应征报名。依法服兵役和进行兵役登记是每个适龄公民应尽的光荣义务和神圣责任。《中华人民共和国兵役法》明确国家实行兵役登记制度，每名男性青年在年满18周岁时都要履行兵役登记义务。

　　12月8日晚上，杭州地铁五号线大运河站，一女子情绪激动质疑身边男子，随后女子大声呵斥男子拿出手机检查。女子当场要求报警并坚持要对方拿出手机，男子回怼表示，如果没有就砸掉女子手机。

　　韩国“紧急”风波持续发酵。韩国国会10日通过了要求迅速逮捕尹锡悦的决议案。此外，韩国国会投票通过了“内乱常设特检法”，将调查韩国总统尹锡悦深夜发动“紧急”所涉“内乱罪”以及扰乱等具体情况。调查对象包括韩国总统尹锡悦、前国防部长官金龙显等“紧急”的主要策动者。

　　济大学生称超市煮泡面卖10元挤走卖3.5元的食堂老板，学校：已要超市整改，热食商品下架

　　近日，济南大学舜耕校区“泡面价格战”引发热议。网友发帖称，学校六食堂一档口的煮方便面卖3.5元，自带面则收5毛加工费。超市也新增此业务，但售价10元，不仅如此，超市老板还要求食堂的泡面涨价，被拒绝后，将食堂泡面档口的老板排挤出了学校。

　　封面新闻记者曹菲冬天的第一盆草莓蛋糕，你已经品尝过了吗？这个冬天，曾经用来装猪油的搪瓷盆装起了浪漫，搪瓷盆草莓蛋糕一经上市就成为爆款。

　　1732字的政治局会议文件，透露了2025四大宏观主线年，扩大内需成为了唯一的牛鼻子。把股市、楼市拉起来，至少稳定住，同时积极寻找新的消费增长点，是明年经济工作的重中之重。”

　　在阅读此文之前，辛苦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持！编辑丨xk他是中国的一名富商，耗费8亿元完成了自己的梦想。可梦想落地成为现实的时候，他却在4年后莫名其妙的死去。他就是张晖，上个世纪末海南岛旅游业的龙头当家人。OD体育官网

新闻中心

— 推荐产品 —

银行类抽纸定做展示

案例

联系我们

OD中国体育平台

联系人：张先生

手机号：185-6530-8110

电话：025-84325617

邮箱：admin@hytdst.com

地址：厦门市软件园三期诚毅北大街62号109单元1086号

推荐资讯