微软、OpenAI用上“数据永动机” 合成数据是蜜糖还是砒霜?

admin2年前生活百科5
󦘖

微信号

KTV115116

添加微信

  科创板日报 郑远方

  ①微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型; ②一方面,网络上那些通用数据已不足以推动AI模型的性能提升,另一方面,真实数据售价高昂; ③但合成数据的负面影响堪比“毒药”,可能让AI大模型患上“痴呆症”。

  《科创板日报》7月22日讯(编辑 郑远方)AI大模型对数据的庞大需求之下,AI公司们正在摸索一条获取数据的“新路”——从零开始自己“造”数据。

  微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型。Cohere首席执行官Aiden Gomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。

  已有的(通用)数据资源似乎接近效能极限,开发人员认为,网络上那些通用数据已不足以推动AI模型的性能发展。Gomez便指出,网络极为嘈杂混乱,“它并不能为你提供你真正想要的数据,网络无法满足我们的一切需求。”

  之前,ChatGPT、Bard等聊天机器人的训练数据多来自于互联网,例如电子书、新闻文章、博客、推特与Reddit的推文帖子、Youtube视频、Flickr图片等。但随着AIGC技术愈发复杂,高质量数据的获取难度也越来越大。开发AI模型的科技公司们,也因不当使用数据而遭受多方抨击。

  今年5月的一场活动上,OpenAI首席执行官Sam Altman曾被问及,是否担心监管部门调查ChatGPT可能侵犯用户隐私的事。Altman对此不置可否,并表示自己“非常有信心,很快所有数据都将是合成数据”。

  ▌人类真实数据售价高昂

  为了大幅提高AI模型的性能,提升它们在科学、医学、商业等领域的水平,AI模型需要的是“独特且复杂”的数据集。而这类数据或是需要来自科学家、医生、作家、演员、工程师等“内行人”,或是需要从药企、银行、零售商等大型企业获取专业数据。

  这也就带来了让AI公司们转向合成数据的另一层原因——数据太贵了。

  且不说那些技术含量极高的制药、科学数据,光是之前Reddit和推特给出的数据采集要价,都被Gomez“嫌弃”价格太高。

其中,Reddit本月起开始对数据接口使用收费。根据第三方软件Apollo的开发者Christian Selig透露,Reddit收费标准为0.24美元/1000次API响应——对于Apollo来说,这大约相当于200万美元/月开销。

而根据推特今年3月发布的API政策,企业需要为抓取推文的API支付每月4万美元至20万美元不等的费用,对应可以获得5000万至2亿条推文。而测算数据显示,最低一个档次的套餐只约等于整体推文的0.3%。

  在这种情况下,合成数据自然成了一个实惠方案,不仅可以避开这些数据的高昂售价,还能生成一些更复杂的数据来训练AI。

  ▌如何用合成数据训练?

  具体如何用合成数据训练AI大模型?Gomez举了一个例子:

在训练一个高级数学模型时,Cohere可能会使用两个AI模型进行对话,其中一个扮演数学老师,另一个则充当学生。之后这两个模型就会就三角函数等数学问题对话,“其实一切都是模型‘想象’出来的”。

如果在这个过程中,模型说错了什么,人类就会在查看这段对话时作出纠正。

  而微软研究院最近的两项研究,也表明合成数据可以用来训练AI模型,这些模型一般比OpenAI的GPT-4、谷歌的PaLM-2更小更简单。

  在其中一篇论文中,GPT-4生成了一个名为“TinyStories”的短篇故事合成数据集,里面使用的单词全部非常简单,一个四岁儿童都能理解。这一数据集被用来训练一个简单的大语言模型,后者能生成流畅且语法正确的故事。

  另一篇论文中,AI可以通过合成的Python代码进行训练,并在之后的编码任务中给出相对较好的表现。

  ▌蜜糖还是砒霜?

  想要合成数据的客户有了,供应商自然也如雨后春笋般涌现,例如Scale AI、Gretel.ai等初创公司。Gretel.ai由来自美国国安局和中情局的前情报分析师成立,其已与谷歌、汇丰银行、Riot Games、Illumina等公司合作,用合成数据来扩充现有数据,帮助训练人工智能模型。

  Gretel.ai首席执行官Ali Golshan表示,合成数据的关键在于,它既能保护数据集中所有个人的隐私,又能保持数据的统计完整性。

  同时,合成数据还可以消除现有数据中的偏差和不平衡。“举例来说,对冲基金可以研究黑天鹅事件,我们可以创建一百种变体,看看模型能否破解;而对于银行来说,欺诈事件通常不到总数据的百分之一,Gretel的软件可以生成成千上万的欺诈案例,并以此训练AI模型。”

  不过,也有人不看好合成数据。

  反对派认为,并不是所有合成数据都经过精心调试,并能反映或改进真实世界。

  来自牛津、剑桥、帝国理工等机构研究人员发现,合成数据的负面影响甚至堪比“毒药”。如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。

  新一代模型的训练数据会被上一代模型的生成数据所污染,从而对现实世界的感知产生错误理解。随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免——研究人员也将此形容为“AI大模型患上‘痴呆症’”。

微软、OpenAI用上“数据永动机” 合成数据是蜜糖还是砒霜?

  即便是合成数据从业人员Golshan也坦承,在劣质合成数据上进行训练可能会阻碍进步。

  “网上越来越多的内容都是由AI生成的。随着时间推移,这确实会导致退化,因为这些大模型产生的知识都是重复的,没有任何新的见解。

相关文章

平舌音和翘舌音有哪些-哪些音是翘舌音,哪些音是平舌音。

平舌音和翘舌音有哪些-哪些音是翘舌音,哪些音是平舌音。

本文目录一览: 1、哪些音是翘舌音,哪些音是平舌音。 2、平舌音和翘舌音有哪些 3、平舌音和翘舌音有哪些? 哪些音是翘舌音,哪些音是平舌音。 平舌音:舌尖前音,发音时舌尖抵住上齿背或者下齿背...

中金财富吴波:加大科技投入,助力买方投顾走进千家万户,实现普惠金融

中金财富吴波:加大科技投入,助力买方投顾走进千家万户,实现普惠金融

  “2024青岛•中国财富论坛”于7月8日在青岛举行。中金公司管理委员会成员、中金公司股票业务部负责人、中金财富总裁吴波出席“深化财富管理变革  拓宽共同富裕渠道”分论坛并演讲。   吴波表示,过...

恒润股份受子公司拖累单季净利降逾80% 4连板后再澄清“超40000P算力”仅为愿景

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   来源:长江商报   业绩不佳之下,一则消息让恒润股份股价疯涨。   10月26日,恒润股份(603985.SH)迎来了...

五一假期婚庆火了!大城市这些婚礼司仪5天赚近5万

五一假期婚庆火了!大城市这些婚礼司仪5天赚近5万

  要结婚的新人终于等来了小长假,婚庆行业也出现了久违的旺季,作为婚礼“四大金刚”之一,司仪们的档期早在半年前就预订一空,有的司仪一天要连轴转地跑两场婚礼。   “这些年的客人叠加,就凑到一起办了”...

Meme狂潮再起?美股回归涨势 散户纷纷跑步进场

Meme狂潮再起?美股回归涨势 散户纷纷跑步进场

  所有资产类别的反弹推动标普500指数创下一年多来的最佳单月表现,终于引起散户投资者的注意了。   智通财经APP获悉,根据投资平台e投睿(eToro)的数据和社交媒体上的讨论,那些大笔押注投机性公...

Jefferies:予思科“买入”评级 目标价59.5美元

格隆汇8月17日|Jefferies予思科“买入”评级,目标价为59.5美元。该行预计,思科将在较长时期内从软件组合的增加中获得更多杠杆,并从更高的利润率中获得一些额外的运营杠杆。公司关于业绩的评论受...

微信号复制成功

打开微信,点击右上角"+"号,添加朋友,粘贴微信号,搜索即可!