谷歌发布最新看图说话模型：可实现零样本学习，多类型任务也能直接上手-川北快讯

腾讯微博

新浪微博

川北在线 > 观点 >

谷歌发布最新看图说话模型：可实现零样本学习，多类型任务也能直接上手

时间： 2021-10-24 16:28 来源：IT之家阅读量：4972

谷歌新推出了弱监督看图说话模型 SimVLM，能够轻松实现零样本学习任务迁移。

谷歌发布最新看图说话模型：可实现零样本学习，多类型任务也能直接上手

对于一般的视觉语言预训练模型，训练数据集中要求包含大量精准标签。而模型的任务迁移，则需要针对特定任务重新进行数据集的标签标注。

总结下来，就是标注数据集不仅耗时耗力，还不能多任务通用。

能不能开发出一种又简单又万能的 VLP 模型呢？

谷歌新开发的这款模型使用了弱监督学习进行模型训练，通过利用大量的弱对齐图像-文本对进行建模，简化了 VLP 的训练流程，大大降低了训练的复杂性。

SimVLM 使用前缀语言建模的单一目标进行端到端训练，并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用，从而能够更好地实现零样本学习泛化效果。

SimVLM 模型是如何实现的？

SimVLM 模型的预训练过程采用了前缀语言建模的单一目标，接受序列的前缀作为输入，通过模型解码器来预测其延续的内容。

对于数据集中的图像-文本对，图像序列可视作其文本描述的前缀。

这种方法可以简化训练过程，最大限度地提高模型在适应不同任务设置方面的灵活性和通用性。据悉，自1999年神舟一号发射以来，我国载人航天工程组织实施了17次重大任务，全部由长征系列运载火箭实施，均取得圆满成功。

模型的主干网络，则使用了在语言和视觉任务上均表现突出的 Transformer 架构。

对输入的原始图像数据提取上下文 patch，这里采用了 ResNet 卷积网络。

本模型使用了包含大约 1.8B 噪声的图像-文本对 ALIGN 训练集进行预训练，以此来实现更好的零样本学习泛化能力。

为了补偿训练集中的噪声影响，训练模型另外还使用了共 800G 的 Colossal Clean Crawled Corpus 数据集。

SimVLM 模型基础性能如何？

模型的预训练完成后，需要在多模式任务中对模型进行微调，以测试性能。

这里用到的多模式任务有:VQA、NLVR2、SNLI-VE、COCO Caption、NoCaps 和 Multi30K En-De。在今年举办的第十三届中国国际航空航天展览会(以下简称“珠海航展”)上，中国航天科技集团公司第一研究院携“长征系列”火箭惊艳亮相，“全家整洁”吸引了众多航天爱好者“打卡”。。

性能指标:BLEU-4 、METEOR (M)、CIDEr (C)、SPICE (S)

将 SimVLM 模型与现有的功能完善的模型进行比较，测试结果如上表所示，参与评估的 SimVLM 模型还包括了三种不同规模:8600 万参数、3.07 亿参数和 6.32 亿参数。

跨模式任务的测试结果中，SimVLM 模型的性能表现最好，除了 CoCo Caption 的 B4 指标，在其他任务上都取得了新的 SOTA 结果，充分证明了该模型的先进性。

SimVLM 模型零样本泛化

SimVLM 模型在跨模式任务测试中可以取得不错的性能表现，那么它能否顺利执行零样本跨模态转移呢？

预训练的 SimVLM 模型仅对文本数据进行微调或完全不进行微调，通过图像字幕、多语言字幕、开放式 VQA 和视觉文本生成等任务，对模型进行测试。

测试结果如下图所示:

给定图像和文本提示，预训练模型无需微调即可预测图像的内容。广州日报讯神舟十三号载人飞船“接力”即将发射，将与另外三名中国航天员一同飞上太空。

除此之外，未进行过微调的模型在德语字幕生成、数据集外的答案生成、基于图像内容的文字描述、开放式视觉问题回答等应用上均有不错的表现。

为了量化 SimVLM 的零样本学习性能，这里采用了预训练的固化模型在 COCO Caption 和 NoCaps 上进行解码，然后与监督标准基线进行比较。

从结果对比上来看，即使没有监督微调，SimVLM 也可以达到有监督的训练质量水平。

截止到 2020 年 12 月 20 日，他在 SuperGLUE 数据集上获得了第一个超过人类得分的 SOTA 性能，目前则被百度团队赶超，位居第二。

这一次开发的 SimVLM 也在 6 个视觉语言基准测试中达到了单模型 SOTA 性能，并实现了基于文本引导的零样本学习泛化能力。

参考链接:

。

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

>>为你推荐

“津和一家亲中秋话团圆”文化交流演出举行

“津和一家亲中秋话团圆”文化

从乡村出发的青年电影人盛会：第五届86358贾家庄短片周落幕

从乡村出发的青年电影人盛会：

预售32万元起广汽丰田赛那SIENNA正式开启预售

预售32万元起广汽丰田赛那S

“爷爷奶奶一堂课”发起人：让心怀世界的孩子脚下有根

“爷爷奶奶一堂课”发起人：让

中秋节，给你最绵长的祝福

中秋节，给你最绵长的祝福

风光新580开启预售价格区间9.59-12.99万元

风光新580开启预售价格区间

曼联季前备战5点观察：创造力仍不足

曼联季前备战5点观察：创造力

确认过眼神，这就是今年夏天最美的脸……

确认过眼神，这就是今年夏天最

川北快讯

①凡注明"来源：XXX(非在线)"的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，本网不承担此类稿件侵权行为的连带责任。
②本站所载之信息仅为网民提供参考之用，不构成任何投资建议，文章观点不代表本站立场，其真实性由作者或稿源方负责，本站信息接受广大网民的监督、投诉、批评。
③本站转载纯粹出于为网民传递更多信息之目的，本站不原创、不存储视频，所有视频均分享自其他视频分享网站，如涉及到您的版权问题，请与本网联系，我站将及时进行删除处理。

娱乐百科

ad888

探索发现

精彩看点

知识百科

ad999