AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头

admin2年前生活百科4
󦘖

微信号

KTV115116

添加微信

IT之家 6 月 25 日消息,AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,该模型具有 300 亿参数,训练成本“仅有其他同类竞品模型的零头”,有望促进行业逐步降低此类模型训练成本,扩大 AI 模型在更广泛领域的运用。

AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头

MosaicML 公司的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元(约 502.44 万元人民币),远低于 GPT-3 等同类产品所需的数千万美元训练成本。此外,由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并且更适合部署在本地硬件上。

据悉,MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的更高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往成果,当下每块 GPU 的吞吐量增加了 2.4 倍以上,可带来更快的完成时间。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量并提高模型性能。他们目前正在开发一款工具,可以帮助用户在预训练过程中分层加入特定领域的数据,以确保训练中开业实现多样化和高质量的数据组合。

MosaicML 公司表示,将模型扩展到 300 亿参数只是第一步,接下来他们将以降低成本为前提,推出体积更大、质量更高的模型。

IT之家注意到,目前开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在本地硬件上使用自己的数据,对模型进行微调。

相关文章

银星能源国资大股东拟增持超1% 年内定增落地总资产扩张至99亿

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   来源:长江商报   继中建集团、中石化集团等央企掏出真金白银对旗下上市公司进行增持后,中铝旗下的唯一新能源上市企业银星...

思科瑞(688053.SH):耗资1719.78万元以集中竞价已累计回购33.69万股

来源:格隆汇 格隆汇10月8日丨思科瑞(688053.SH)公布,截至2024年9月30日,公司通过上海证券交易所交易系统以集中竞价交易方式已累计回购公司股份33.69万股,占公司总股本的0.34%,...

瑞银:收购瑞信将造成约170亿美元财务冲击

  作者: 智通财经 庄礼佳   瑞银在一份监管报告中表示,预计收购瑞信将造成约170亿美元的财务冲击。   智通财经APP获悉,瑞银(UBS.US)在一份监管报告中表示,预计收购瑞信(CS.US)将...

天风证券-阿尔特-300825

  事件:8月26日,公司携手无锡开悟共建超算中心并落地汽车行业首个Omniverse项目,未来将共同推进Omniverse在中国的本土化及下游导入;9月25日,公司与北京智谱华章科技有限公司(简称“...

新厂开工,特斯拉也想“锂自由”

新厂开工,特斯拉也想“锂自由”

  转自:北京商报   去年,作为动力电池原料的锂价格一路走高,也让特斯拉有了进入锂精炼领域的想法。如今,特斯拉在美国投建的首座锂精炼厂开工了。虽然锂价已今非昔比,但每年可供应100万辆车的目标让特...

报告:全球平台经济高速发展面临挑战

  中新社北京9月27日电 (记者 刘育英)中国信息通信研究院27日发布的报告《平台经济发展观察(2024年)》认为,全球平台经济高速发展面临挑战。   报告认为,过去三年,平台经济在世界经济复苏中扮...

微信号复制成功

打开微信,点击右上角"+"号,添加朋友,粘贴微信号,搜索即可!