城市诺亚方舟实验室联合升思MindSpore社区)

同时,图形检索的任务也分为微调和Zero-shot零样本两个实验设置,在图像检索文本和文本检索图像两个任务中,在多个不同的数据集中进行验证,并与行业内的中文多模型模型进行比较。

关注人工智能和基础软件的开发,MindSpore生态与开发

传统的图片分类、目标测试和其他任务需要在包括所有测试类别的全标记数据集上进行训练。这意味着通用模型的数据标记成本是一个无法实现的天文数字,使用传统的方法进行训练,以获得广泛适应各种任务的通用模型。最近发布的OpenAI的CLIP,谷歌的ALIGN其他模型是基于大量广域无标记数据进行培训的。与传统的监督学习方法相比,它在各种下游任务中表现出了优秀的开放域零样本能力,指出了下一代通用人工智能的可能性。

城市诺亚方舟实验室联合升思MindSpore社区)

最近,华为诺亚方舟实验室和盛思MindSpore团队联合推出了基于中文的多模态基础大模型:城市低保证图片样本

悟空。悟空的多模态模型将依赖于华为的全场景。AI框架昇思MindSpore开源并定期扩展和维护,旨在为多模态大模型的研究提供高质量的升腾AI支持软硬件方案。用户可以通过开源路径或访问。零样本图像分类、图形检索等一系列任务的基准测试表明,悟空可以作为一个优秀的中文图形多模态预训练模型,在各种下游任务中表现出色。同时,悟空模型也在token-wise粒度上的相似度计算为更多的视觉任务提供了潜在的空间对齐能力,如目标定位。

此外,诺亚方舟实验室和升思MindSpore该团队还公开了同名1亿级中文跨模态预训练数据集:城市低保证图片样本

悟空数据集。该数据集用于悟空中文多模态大模型的预训练。目前悟空数据集已经公开,可以通过数据集网站下载。更多数据集相关信息也可以参考论文。

图1悟空数据集文字云

图2是业内知名的图文预训练数据集,悟空是第一个大规模的中文数据集

视觉-语言多模态大模型预训练强烈依赖于大规模的图形数据集,虽然目前开源的英文大规模图文数据集比较丰富,比如CC12M、YFCC100M、LAION-400M,然而,中国人总是缺乏这样的大规模数据集供自由下载和研究。悟空作为中国第一个开源的大规模图形数据集,填补了这一空缺,可以加快中国跨模态预训练大模型的研究。

Wukong100m数据集包括大约1亿个来自互联网的图形对。为了包含尽可能丰富的视觉概念,原始数据的收集围绕着20万个基本关键字。对于每个基本关键字,通过输入搜索引擎,用返回的图片和相应的文本构建数据集。此外,为了平衡相应样本的关键字数量,每个基本关键字最多保留1000个样本。

之后,数据集通过一系列过滤策略获得最终版本,具体过滤策略分为基于图片和文本的过滤。其中,图片过滤的原则是过滤掉长或宽不超过200像素的以及长宽比大于3的图片,以此来保证图片能够较为清晰地呈现视觉概念。至于基于文本或者说图片描述的策略,首先,只有至少包含一个中文字符的文本会被保留,比如“000.jpg这种描述文本会与相应的图片一起过滤掉,因为它的意义很弱。其次,如果同一描述对应的图片太多,如查看源网页、展开全文、摄影部落,这种描述往往意义不大,在构建数据集时会被排除在外。此外,为了保护隐私,数据集中涉及的名称将被特殊符号所取代包含敏感词的数据也将被删除。

我们采用主流基础Transformer双塔结构的预训练模型将图像和文本编码到相同的维度空间。我们使用比较学习的损失函数来对齐文本和视觉模式,使匹配的图形更接近编码后的表征,而不匹配的图形表征更相似。因此,通过训练这样的图像编码器和文本编码器,我们可以有效地对齐同一表征空间中的文本模式和视觉模式。

图3悟空基础大模型主要采用双塔结构

图像编码器:城市低保证图像样本

我们的预训练采用常用的图像编码器结构:ViT和SwinTransformer,ViT模型分别使用ViT-B/32和ViT-L/14;SwinT模型使用了Swin-L模型。ViT第一个模型token也就是[CLS]token用于描述整个图像,SwinT模型我们将所有patchtoken平均特征值用于描述整个图像。在这个开源中,我们发布的是基于ViT模型的版本。

文本编码器:我们使用它Transformer结构,共12层,12个注意力机制头,768个隐变维度。tokenizer,我们用中文BERT模型的WordPiece方法,中文词表大小为21128,文本第一token也是常用的[CLS],文本编码器编码后,用于描述整个文本的特征。

线性映射层:编码器编码后,我们使用可学习的线性映射层通过线性变化将图像和文本的特征投射到多模式公共空间。

LiT-Tuning:为了提高训练效率,节省计算资源,我们在双塔模型结构中加载了预训练的图像编码器,并在比较学习中锁定了其参数。我们只需要训练文本编码器和两个线性映射层。其中,图像编码器可以通过英文标签的图像数据进行预训练。

我们采用了in-batch比较学习方法:在每次训练迭代中,每张图片的例子都是相同的文本batch其他文本作为其负例,反之亦然。k对比图片和文本的学习损失可分别表示为:

代表第k张图片对第j文本的相似性,

代表第j个文本对第k图片的相似性,以上两个学习损失的平均值作为最终计算的损失函数。在计算相似度时,我们采用了两种方法:CLIP全球相似度计算,和FILIP的Token-wise相似度计算。

顾名思义,整体相似度计算是图像和文本整体表征的点积结果;Token-wise相似度计算使用更细粒度的比较学习目标来捕捉图片和文本token我们首先对每张图片进行细粒度匹配和定位patch计算出与它最相似的文本token记录这种相似性,然后使用所有相似性patch作为最终图片对文本的相似性,类似的计算方法也适用于文本对图片的相似性。

与全球相似度计算相比,使用Token-wise计算相似度会带来额外的计算费用。为此,我们还提出了一个token收缩层的网络结构将有全部图片patch将特征减少到固定数量,然后计算与文本特征的相似性。Token-wise细粒度匹配和定位的优点同时减少了计算量。

我们分别在Zero-shot验证了零样本图片分类和图形检索的下游任务。本实验中悟空模型的所有变体都在1亿个数据库进行了培训。模型的下标表示不同的网络结构,上标指的是不同的loss函数:G代表全局相似度计算;F代表Token-wise相似度计算;同时使用无上标代表;Token-wise相似度与token收缩层。十个不同数据集中的零样本图片分类实验结果如下图所示:

表10样本图片分类结果

同时,图形检索的任务也分为微调和Zero-shot零样本两个实验设置,在图像检索文本和文本检索图像两个任务中,在多个不同的数据集中进行验证,并与行业内的中文多模型模型进行比较。微调图形检索实验结果如下:

图文检索任务结果表2微调

此外,零样本的图文检索实验结果如下:

图文检索任务结果表30样本

上述实验结果显示了我们构建的中文多模数据集,以及开源基线多模态预训练模型的有效性。它表明,将在英语数据集上进行预训练的图像编码器适用于中文多模态预训练,也可以训练出效果优异的模型。同时,在相同的模型配置下使用Token-wise相似度计算的实验效果优于全球相似度计算。在图形检索任务中,我们的基线预训练模型可以获得相似性SOTA结果甚至更高。

我们认为,使用Token-wise中文多模型的相似度计算也可以具有相似性FILIP细粒度对齐和定位能力相同。因此,我们使用它ImageNet的图片和中文标签进行了token-wise可视化实验对齐。

图4细粒度可视化实验结果

可以看出,和都表现出一定程度的细粒度对齐能力豆娘图为例,在文本序列[CLS]豆娘[SEP]在这类标签中,豆娘的位置索引是1和2,我们可以在图像中找到相应的1和2图片patchtoken,这部分patchtoken这类物体可以勾勒出来。因为划分patch的粒度(16*16)相比于(7*7)因此图片更细patchtoken勾勒物体的形状更加细腻完整。实验结果表明,Token-wise相似度计算适用于多种类型patch-based图像编码器也适用于LiT-tuning的训练方法。这种细粒度的图文对齐能力可以为图像物体识别的工作提供更多的可能性。

华为诺亚方舟实验室MindSpore社区联合推出了悟空多模态基础大模型,并公开了同名1亿级中文跨模态数据集:悟空数据集。欢迎感兴趣的产业、大学和研究合作伙伴使用,希望帮助中国社区研发多模态大模型。

References:

Wukong:J.Gu,X.Meng,G.Lu,L.Hou,H.Xu,X.Liang,W.Zhang,X.Jiang,C.Xu.Wukong:100MillionLarge-scaleChineseCross-modalPre-trainingDatasetandAFoundationFramework.arXivCLIP:A.Radford,J.W.Kim,C.Hallacy,A.Ramesh,G.Goh,S.Agarwal,G.Sastry,A.Askell,P.Mishkin,J.Clark,etal.Learningtransferablevisualmodelsfromnaturallanguagesupervision.InICML2022.FILIP:L.Yao,R.Huang,L.Hou,G.Lu,M.Niu,H.Xu,X.Liang,Z.Li,X.Jiang,andC.Xu.Filip:Fine-grainedinteractivelanguage-imagepre-training.InICLR,2022.ALIGN:CJia,YYang,YXia,YTChen,et.Al.ScalingUpVisualandVision-LanguageRepresentationLearningWithNoisyTextSupervision.InICML2022.

你可能还喜欢下面这些文章

毕业证样本网创作《城市诺亚方舟实验室联合升思MindSpore社区)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/174330.html

(0)
上一篇 2022年4月27日
下一篇 2022年4月27日

相关推荐

客服微信
客服微信
返回顶部