浪潮信息董事长彭震:加速智算系统创新解决大模型算力难题

admin1年前生活百科4
󦘖

微信号

KTV115116

添加微信

浪潮信息董事长彭震:加速智算系统创新解决大模型算力难题

在生成式人工智能蓬勃发展的背后,算力尤其是AI算力已经成为驱动大模型进化的核心引擎。计算力就是生产力,智算力就是创新力,已经成为产业共识。“大模型时代的算力供给,与云计算时代的算力供给,存在很大的差异性。”浪潮信息董事长彭震说。

彭震认为,目前大模型研发已经进入万卡时代,从事大模型研发的公司和团队,普遍面临“买不起、建不了、算不好”的困局。为解决这一困局,需要以算力基建化改善算力供给,促进算力普惠,以算力工程化指导完善算力系统最佳实践,提升算力效率。

大模型,特别是千亿参数级别对海量算力资源的消耗,往往需要少则几亿,多则数十亿的IT基础设施投资,急剧抬高了技术和资金准入门槛。彭震表示,为解决这一困境,应大力发展普适普惠的智算中心,通过算力基建化使得智算力成为城市的公共基础资源,供用户按需使用,发挥公共基础设施的普惠价值。用户可以选择自建算力集群,或者是采用智算中心提供的算力服务来完成大模型的开发。

通过大力发展智算中心新基建,中国和美国大模型产业的发展已经呈现出完全不同的发展路径。在美国,算力的私有化决定了大模型产业技术只能掌握在少数企业手中,而中国大力推动的算力供给基建化,为大模型创新发展提供了一片沃土,将使得整个产业呈现“百模争秀”的全新格局。

“即使解决了算力供应的问题,通用大模型开发仍然是一项极其复杂的系统工程,如同F1赛车的调校一样。F1赛车的性能非常高,但如何调校好这部赛车,对整个车队的能力要求是非常高的。”彭震说。

大模型训练需要依靠规模庞大的AI算力系统,在较长时间内完成海量的计算任务,化解大模型“建不了”难题,根源在于提升算力效率。算力效率越高,大模型的训练耗时越少,就能赢得更多时间窗口,也能降低成本。目前,大模型的训练集群效率普遍较低,像GPT3的集群训练效率只有23%,相当于有超过四分之三的算力资源被浪费了。

彭震表示,大模型不应是简单粗暴的“暴力计算”,算力系统构建也不是算力的简单堆积,而是一项复杂的系统工程,需要从多个方面进行系统化的设计架构。

一是要解决如何实现算力的高效率,它涉及系统的底层驱动、系统层优化,与大模型相适配的优化;

二是要解决算力系统如何保持线性可扩展,在单机上获得较高算力效率之后,还需要能让几百个服务器节点、几千块卡的大规模集群环境的算力系统运行效率,保持相对线性的性能扩展比;

三是算力系统长效稳定训练问题,大模型的训练周期长达数周甚至数月,普遍存在硬件故障导致训练中断、梯度爆炸等小规模训练不会遇到的问题,工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。

彭震介绍,系统建成后,大模型在训练过程中,由于开发链条冗长,还面临“算不好”的挑战。大模型训练不仅依赖高质量数据,同时也要解决算法收敛、断点续训、参数优化、模型微调等问题,数据质量、代码调优、执行效率等关乎训练质量的因素至关重要。这些问题解决不好,很难产生一个可商用的、高质量的大模型产品。

彭震认为,解决“算不好”难题,根本上要保障大模型训练的长时、高效、稳定训练的问题。例如大模型训练过程的失效故障,大模型训练会因此中断,不得不从最新的检查点重新载入以继续训练,这个问题在当前是不可避免的。提高算力系统的可持续性,不仅需要更多机制上的设计,更依赖于大量自动化、智能化的模型工具支撑。例如智算软件栈OGAI,提供完善的工程化、自动化工具软件堆栈,帮助更多企业顺利跨越大模型研发应用门槛,充分释放大模型创新生产力。

只有依赖不断的创新,通过政策驱动、应用导向、产业构建等多重手段相结合,不断夯实大模型基础能力和原始创新能力,才能切实有效的解决好大模型算力“买不起、建不了、算不好”的难题。

(文章来源:中国经济网)

相关文章

瞄准明年大宽松?互换合约押注美联储明年降息3%以上

瞄准明年大宽松?互换合约押注美联储明年降息3%以上

  来源:华尔街见闻   别只盯着本周美联储加息了,互换合约市场交易者已经在押注明年大降息。媒体惊呼,这些交易者对冲美联储大举行动的胃口简直难以置信。   目前,基于隔夜利率的一种利率互换合约——隔夜...

科达制造股份有限公司关于第一大股东股份质押情况变更的公告

科达制造股份有限公司关于第一大股东股份质押情况变更的公告

  本公司董事会及全体董事保证本公告内容不存在任何虚假记载、误导性陈述或者重大遗漏,并对其内容的真实性、准确性和完整性承担法律责任。   重要内容提示:   截至2024年7月13日,梁桐灿先...

古越龙山“一哥”地位难保,董事长孙爱保遭股民炮轰

古越龙山“一哥”地位难保,董事长孙爱保遭股民炮轰

  孙爱保为何成为“众矢之的”,令投资者情绪激动、吐槽不断?   每生产两瓶普通黄酒,就有一瓶滞销,古越龙山销售遇到大麻烦?   更富戏剧性的是,孙爱保辛辛苦苦干了4年,差点“跑不赢”1笔拆迁款。  ...

梅雁吉祥股价上穿BBI均线,多头能否坚守?

梅雁吉祥股价上穿BBI均线,多头能否坚守?

今日梅雁吉祥(维权)股价上穿BBI指标,趋势指标正向反馈,后市或走向多头行情。点击咨询梅雁吉祥如何操作 策略之王监测到,梅雁吉祥股价向上穿破了BBI指标线,指明价格走势的运行方向。BBI指标是MA均线...

巨大丑闻曝光!英国公司飞机发动机零部件造假 尚不清楚有多少架飞机受影响

  财联社9月1日讯(编辑 牛占林)欧洲航空监管机构已经确认,一家名不见经传的伦敦公司在维修空客A320和波音737飞机喷气发动机时,提供了假冒(来源不明)的零部件。   监管机构表示,在一个每个部件...

Alphabet推出期待已久的Gemini AI 模型

Alphabet (GOOGL.US)周三推出了其最先进的人工智能模型,该模型能够处理视频、音频和文本等不同形式的信息。该公司表示,谷歌所有者备受期待的人工智能模型名为“Gemini”,与谷歌之前的技...

微信号复制成功

打开微信,点击右上角"+"号,添加朋友,粘贴微信号,搜索即可!