谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

admin2年前生活百科6
󦘖

微信号

KTV115116

添加微信

  谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  PaLM-E,一种多模态具身视觉语言模型,横跨机器人、视觉-语言领域,从引导机器人执行任务,到回答关于可观察世界的问题,全都能搞定。

  大语言模型的飞速‘变异’,让人类社会的走向越来越科幻了。点亮这棵科技树后,‘终结者’的现实仿佛离我们越来越近。

  前几天,微软刚宣布了一个实验框架,能用ChatGPT来控制机器人和无人机。

  谷歌当然也不甘其后,在周一,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。

  此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  横跨机器人、视觉-语言领域的‘通才’模型

  PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型。

  它的强大之处在于,能够利用视觉数据来增强其语言处理能力。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  当我们训练出最大的视觉语言模型,并与机器人结合后,会发生什么?结果就是PaLM-E,一个 5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言

  据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。

  其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言。

  可以说,PaLM-E展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。

  更重要的是,研究人员证明,通过在多个机器人和一般视觉语言的不同混合任务组合进行训练,可以带来从视觉语言转移到具身决策的几种方法,让机器人规划任务时能够有效地利用数据。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  除此之外,PaLM-E尤为突出的一点在于,拥有强大的正迁移能力。

  在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  而在模型尺度上,研究人员则观察到了一个显著的优势。

  语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。

  从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  尽管只在单个图像进行训练,但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。

  在OK-VQA基准上,PaLM-E取得了新的SOTA。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  测评结果

  在测试中,研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。

  值得注意的是,所有这些结果都是使用基于相同数据训练的相同模型获得的。

  在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  比如,‘从抽屉里拿出薯片’这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。

  经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  人类:给我来点薯片。

  机器人:1. 走到抽屉旁 2.打开最上面的抽屉 3. 从最上面的抽屉里拿起绿色的薯片 4.放在柜台上。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  同样,让机器人去拿一个苹果时,给出图片后,机器人执行任务步骤如下——

  人类:给我拿一个苹果。

  机器人:1.走向苹果 2.拿起苹果 3.把它拿给操作员 4.放下苹果 5.完成。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  除了执行长跨度任务,PaLM-E可以让机器人执行规划任务,比如排列积木。

  研究人员根据视觉和语言输入成功地进行多阶段的计划,并结合了长时间范围的视觉反馈,进而让模型能够成功地规划一个长周期的任务‘将积木按颜色分类到不同的角落’。

  如下,在排列组合上,机器人化身为多面手,按颜色将积木排序。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  模型的泛化方面,PaLM-E控制的机器人可以把红色积木移到咖啡杯的旁边。

  值得一提的是,数据集只包含有咖啡杯的三个演示,但其中没有一个包括红色的积木块。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  类似的,虽然模型此前从未见过乌龟,但照样可以顺利地把绿色积木推到乌龟旁边

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  在零样本推理方面,PaLM-E可以在给定图像的情况下讲述笑话,并展示了包括感知,基于视觉的对话和计划在内的能力。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  多张图的关系,PaLM-E也整得很明白,比如图一(左)在图二(右)的哪个位置。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  此外,PaLM-E还可以在给定带有手写数字的图像执行数学运算。

  比如,如下手写餐馆的菜单图,2张披萨需要多少钱,PaLM-E就直接给算出来了。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  以及一般的QA和标注等多种任务。

谷歌发布史上最大“通才”AI模型!参数量高达5620亿,能看图说话、操控机器人

  最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。

  但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。

  参考资料:

  https://palm-e.github.io/

  本文来源:新智元,原文标题:《终结者最强大脑!谷歌发布史上最大‘通才’模型PaLM-E,5620亿参数,看图说话还能操控机器人》

 

相关文章

康华生物亮相第四届预防医学与公共卫生齐鲁论坛

康华生物亮相第四届预防医学与公共卫生齐鲁论坛

积极助力传染病预防控制 成都2024年5月24日 /美通社/ -- 5月10日-11日,第四届预防医学与公共卫生齐鲁论坛于山东济南召开,本届论坛主题为“后大流行时期传染病防控的机遇与挑战”,成都康华生...

早盘:美股涨跌不一 道指下跌逾100点

早盘:美股涨跌不一 道指下跌逾100点

  北京时间18日晚,美股周二早盘涨跌不一,道指下跌逾100点。美银与强生等财报超出华尓街预期,表明在艰难的经济背景下,许多公司的业绩比人们担忧的要好。   道指跌134.66点,跌幅为0.40%...

午评:北向资金净卖出47.02亿元,沪股通净卖出25.2亿元

午评:北向资金净卖出47.02亿元,沪股通净卖出25.2亿元

  12月5日消息,截至沪深股市午间收盘,北向资金上午卖出47.02亿元,其中沪股通净卖出25.32亿元,深股通净卖出21.7亿元。...

新冠大流行翻篇,但人类社会创伤仍待愈合

新冠大流行翻篇,但人类社会创伤仍待愈合

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   新冠大流行已经结束,但新冠病毒仍将存在,并留下巨大的创伤。除了逝去的生命和新冠后遗症,还包括“从各国经济总量中抹去了数...

【风口解读】2024年7月以来股价腰斩,大连重工拟不低于5000万元回购

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 泡财经获悉,1月12日晚间,大连重工(002204.SZ)公告,拟使用自有资金不低于5000万元(含)且不超过1亿元(含)...

中信建投证券拟发行不超过50亿元公司债券

中信建投证券拟发行不超过50亿元公司债券

  中信建投证券(06066)发布公告,中信建投证券股份有限公司向专业投资者公开发行不超过人民币200亿元公司债券已经上海证券交易所审核同意、并经中国证券监督管理委员会“证监许可〔2024〕1563...

微信号复制成功

打开微信,点击右上角"+"号,添加朋友,粘贴微信号,搜索即可!