城市诺亚方舟实验室联合升思MindSpore社区）

2022年4月27日下午8:53 • 其他样本

华为诺亚方舟实验室MindSpore社区推出了基于中文的多模态基础大模型——悟空，并公开了大规模的中文跨模态预训练数据集悟空数据集。该模型及数据集旨在加速中国跨模态预训练大模型的研究。悟空数据集包含大约1亿个来自互联网的图片与文本对，用于悟空中文多模态大模型的预训练。

悟空模型是基于全场景AI框架MindSpore进行训练和扩展的，旨在提供高质量的AI支持软硬件方案。最新的研究表明，与传统的监督学习方法相比，基于大量无标记数据进行训练的模型，如OpenAI的CLIP和谷歌的ALIGN，在各种下游任务中表现出了优秀的开放域零样本能力。悟空模型也表现出了强大的零样本图像分类和图形检索能力。

悟空模型采用双塔结构图像编码器和文本编码器，使用比较学习的损失函数来对齐文本和视觉模式。同时，为了在保证图片能够清晰呈现视觉概念的同时提高计算效率，数据集通过一系列过滤策略获得最终版本。

实验结果显示，悟空模型在多个不同的数据集中表现出了优异的效果，特别是在图形检索任务中获得了高相似性结果。此外，通过使用Token-wise相似度计算，模型表现出了细粒度的图文对齐能力，能够在图像中找到与文本描述相对应的细粒度区域。这种能力为图像物体识别等工作提供了更多的可能性。

该模型和数据集已经公开，并欢迎产业、大学和研究合作伙伴使用，以期帮助中国社区研发多模态大模型。

关注人工智能和基础软件的开发，MindSpore生态与开发

传统的图片分类、目标测试和其他任务需要在包括所有测试类别的全标记数据集上进行训练。这意味着通用模型的数据标记成本是一个无法实现的天文数字，使用传统的方法进行训练，以获得广泛适应各种任务的通用模型。最近发布的OpenAI的CLIP，谷歌的ALIGN其他模型是基于大量广域无标记数据进行培训的。与传统的监督学习方法相比，它在各种下游任务中表现出了优秀的开放域零样本能力，指出了下一代通用人工智能的可能性。

最近，华为诺亚方舟实验室和盛思MindSpore团队联合推出了基于中文的多模态基础大模型：城市低保证图片样本

悟空。悟空的多模态模型将依赖于华为的全场景。AI框架昇思MindSpore开源并定期扩展和维护，旨在为多模态大模型的研究提供高质量的升腾AI支持软硬件方案。用户可以通过开源路径或访问。零样本图像分类、图形检索等一系列任务的基准测试表明，悟空可以作为一个优秀的中文图形多模态预训练模型，在各种下游任务中表现出色。同时，悟空模型也在token-wise粒度上的相似度计算为更多的视觉任务提供了潜在的空间对齐能力，如目标定位。

此外，诺亚方舟实验室和升思MindSpore该团队还公开了同名1亿级中文跨模态预训练数据集：城市低保证图片样本

悟空数据集。该数据集用于悟空中文多模态大模型的预训练。目前悟空数据集已经公开，可以通过数据集网站下载。更多数据集相关信息也可以参考论文。

图1悟空数据集文字云

图2是业内知名的图文预训练数据集，悟空是第一个大规模的中文数据集

视觉-语言多模态大模型预训练强烈依赖于大规模的图形数据集，虽然目前开源的英文大规模图文数据集比较丰富，比如CC12M、YFCC100M、LAION-400M，然而，中国人总是缺乏这样的大规模数据集供自由下载和研究。悟空作为中国第一个开源的大规模图形数据集，填补了这一空缺，可以加快中国跨模态预训练大模型的研究。

Wukong100m数据集包括大约1亿个来自互联网的图形对。为了包含尽可能丰富的视觉概念，原始数据的收集围绕着20万个基本关键字。对于每个基本关键字，通过输入搜索引擎，用返回的图片和相应的文本构建数据集。此外，为了平衡相应样本的关键字数量，每个基本关键字最多保留1000个样本。

之后，数据集通过一系列过滤策略获得最终版本，具体过滤策略分为基于图片和文本的过滤。其中，图片过滤的原则是过滤掉长或宽不超过200像素的以及长宽比大于3的图片，以此来保证图片能够较为清晰地呈现视觉概念。至于基于文本或者说图片描述的策略，首先，只有至少包含一个中文字符的文本会被保留，比如“000.jpg这种描述文本会与相应的图片一起过滤掉，因为它的意义很弱。其次，如果同一描述对应的图片太多，如查看源网页、展开全文、摄影部落，这种描述往往意义不大，在构建数据集时会被排除在外。此外，为了保护隐私，数据集中涉及的名称将被特殊符号所取代包含敏感词的数据也将被删除。

我们采用主流基础Transformer双塔结构的预训练模型将图像和文本编码到相同的维度空间。我们使用比较学习的损失函数来对齐文本和视觉模式，使匹配的图形更接近编码后的表征，而不匹配的图形表征更相似。因此，通过训练这样的图像编码器和文本编码器，我们可以有效地对齐同一表征空间中的文本模式和视觉模式。

图3悟空基础大模型主要采用双塔结构

图像编码器：城市低保证图像样本

我们的预训练采用常用的图像编码器结构：ViT和SwinTransformer，ViT模型分别使用ViT-B/32和ViT-L/14；SwinT模型使用了Swin-L模型。ViT第一个模型token也就是[CLS]token用于描述整个图像，SwinT模型我们将所有patchtoken平均特征值用于描述整个图像。在这个开源中，我们发布的是基于ViT模型的版本。

文本编码器：我们使用它Transformer结构，共12层，12个注意力机制头，768个隐变维度。tokenizer，我们用中文BERT模型的WordPiece方法，中文词表大小为21128，文本第一token也是常用的[CLS],文本编码器编码后，用于描述整个文本的特征。

线性映射层：编码器编码后，我们使用可学习的线性映射层通过线性变化将图像和文本的特征投射到多模式公共空间。

LiT-Tuning:为了提高训练效率，节省计算资源，我们在双塔模型结构中加载了预训练的图像编码器，并在比较学习中锁定了其参数。我们只需要训练文本编码器和两个线性映射层。其中，图像编码器可以通过英文标签的图像数据进行预训练。

我们采用了in-batch比较学习方法：在每次训练迭代中，每张图片的例子都是相同的文本batch其他文本作为其负例，反之亦然。k对比图片和文本的学习损失可分别表示为：

代表第k张图片对第j文本的相似性，

代表第j个文本对第k图片的相似性，以上两个学习损失的平均值作为最终计算的损失函数。在计算相似度时，我们采用了两种方法：CLIP全球相似度计算，和FILIP的Token-wise相似度计算。

顾名思义，整体相似度计算是图像和文本整体表征的点积结果；Token-wise相似度计算使用更细粒度的比较学习目标来捕捉图片和文本token我们首先对每张图片进行细粒度匹配和定位patch计算出与它最相似的文本token记录这种相似性，然后使用所有相似性patch作为最终图片对文本的相似性，类似的计算方法也适用于文本对图片的相似性。

与全球相似度计算相比，使用Token-wise计算相似度会带来额外的计算费用。为此，我们还提出了一个token收缩层的网络结构将有全部图片patch将特征减少到固定数量，然后计算与文本特征的相似性。Token-wise细粒度匹配和定位的优点同时减少了计算量。

我们分别在Zero-shot验证了零样本图片分类和图形检索的下游任务。本实验中悟空模型的所有变体都在1亿个数据库进行了培训。模型的下标表示不同的网络结构，上标指的是不同的loss函数：G代表全局相似度计算；F代表Token-wise相似度计算；同时使用无上标代表；Token-wise相似度与token收缩层。十个不同数据集中的零样本图片分类实验结果如下图所示：

表10样本图片分类结果

同时，图形检索的任务也分为微调和Zero-shot零样本两个实验设置，在图像检索文本和文本检索图像两个任务中，在多个不同的数据集中进行验证，并与行业内的中文多模型模型进行比较。微调图形检索实验结果如下：

图文检索任务结果表2微调

此外，零样本的图文检索实验结果如下：

图文检索任务结果表30样本

上述实验结果显示了我们构建的中文多模数据集，以及开源基线多模态预训练模型的有效性。它表明，将在英语数据集上进行预训练的图像编码器适用于中文多模态预训练，也可以训练出效果优异的模型。同时，在相同的模型配置下使用Token-wise相似度计算的实验效果优于全球相似度计算。在图形检索任务中，我们的基线预训练模型可以获得相似性SOTA结果甚至更高。

我们认为，使用Token-wise中文多模型的相似度计算也可以具有相似性FILIP细粒度对齐和定位能力相同。因此，我们使用它ImageNet的图片和中文标签进行了token-wise可视化实验对齐。

图4细粒度可视化实验结果

可以看出，和都表现出一定程度的细粒度对齐能力豆娘图为例，在文本序列[CLS]豆娘[SEP]在这类标签中，豆娘的位置索引是1和2，我们可以在图像中找到相应的1和2图片patchtoken，这部分patchtoken这类物体可以勾勒出来。因为划分patch的粒度（16*16）相比于（7*7）因此图片更细patchtoken勾勒物体的形状更加细腻完整。实验结果表明，Token-wise相似度计算适用于多种类型patch-based图像编码器也适用于LiT-tuning的训练方法。这种细粒度的图文对齐能力可以为图像物体识别的工作提供更多的可能性。

华为诺亚方舟实验室MindSpore社区联合推出了悟空多模态基础大模型，并公开了同名1亿级中文跨模态数据集：悟空数据集。欢迎感兴趣的产业、大学和研究合作伙伴使用，希望帮助中国社区研发多模态大模型。

References：

Wukong:J.Gu,X.Meng,G.Lu,L.Hou,H.Xu,X.Liang,W.Zhang,X.Jiang,C.Xu.Wukong:100MillionLarge-scaleChineseCross-modalPre-trainingDatasetandAFoundationFramework.arXivCLIP:A.Radford,J.W.Kim,C.Hallacy,A.Ramesh,G.Goh,S.Agarwal,G.Sastry,A.Askell,P.Mishkin,J.Clark,etal.Learningtransferablevisualmodelsfromnaturallanguagesupervision.InICML2022.FILIP:L.Yao,R.Huang,L.Hou,G.Lu,M.Niu,H.Xu,X.Liang,Z.Li,X.Jiang,andC.Xu.Filip:Fine-grainedinteractivelanguage-imagepre-training.InICLR,2022.ALIGN:CJia,YYang,YXia,YTChen,et.Al.ScalingUpVisualandVision-LanguageRepresentationLearningWithNoisyTextSupervision.InICML2022.

毕业证样本网创作《城市诺亚方舟实验室联合升思MindSpore社区）》发布不易，请尊重! 转转请注明出处：https://www.czyyhgd.com/174330.html

低保证图片城市城市低保证图片样本

四川初中毕业证是什么样的

上一篇 2022年4月27日下午8:53

1997年重庆大学毕业证

下一篇 2022年4月27日下午8:54

本科毕业证

河南省农村低保证图片样本（河南省农村最低生活保障申请条件）

文章摘要：本文介绍了农村低保和残疾低保的相关问题。农村低保样本图片脏乱时，可通过提交贫困证明和贫困家庭基本情况档案卡等材料申请低保。残疾低保与生活津贴不同，两者属于平行关系，持有残疾证书可申请低保。低保申请审批涉及户籍、家庭状况和家庭财产等因素。残疾津贴包括生活津贴和护理费用，补贴标准因地区不同而异，需向当地民政部门咨询具体金额。文章强调残疾证书的真实性和严肃性，提醒申请人避免机会主义行为。希望本文能对需要的农民有所帮助。

2022年4月17日
4400
其他样本

河南省农村低保图片样本(生活障申请条件)

摘要：本文介绍了河南省农村低保图片样本中的相关内容，包括农村葬礼的二十四拜礼仪、减数分裂过程以及河南制造的经济型手机的相关情况。其中，葬礼礼仪详细描述了行礼的步骤；减数分裂过程则详细阐述了细胞分裂的各个阶段及其遗传意义；而河南制造的经济型手机则介绍了该项目的签约仪式、投资预算、手机品牌、型号、功能及售后保障等信息，预计原型手机将于今年11月离线并大规模上市。

2022年5月1日
3300
其他样本

城市诺亚方舟实验室联合升思MindSpore社区）

华为诺亚方舟实验室MindSpore社区推出了基于中文的多模态基础大模型——悟空，并公开了大规模的中文跨模态预训练数据集悟空数据集。该模型及数据集旨在加速中国跨模态预训练大模型的研究。悟空数据集包含大约1亿个来自互联网的图片与文本对，用于悟空中文多模态大模型的预训练。

悟空模型是基于全场景AI框架MindSpore进行训练和扩展的，旨在提供高质量的AI支持软硬件方案。最新的研究表明，与传统的监督学习方法相比，基于大量无标记数据进行训练的模型，如OpenAI的CLIP和谷歌的ALIGN，在各种下游任务中表现出了优秀的开放域零样本能力。悟空模型也表现出了强大的零样本图像分类和图形检索能力。

悟空模型采用双塔结构图像编码器和文本编码器，使用比较学习的损失函数来对齐文本和视觉模式。同时，为了在保证图片能够清晰呈现视觉概念的同时提高计算效率，数据集通过一系列过滤策略获得最终版本。

实验结果显示，悟空模型在多个不同的数据集中表现出了优异的效果，特别是在图形检索任务中获得了高相似性结果。此外，通过使用Token-wise相似度计算，模型表现出了细粒度的图文对齐能力，能够在图像中找到与文本描述相对应的细粒度区域。这种能力为图像物体识别等工作提供了更多的可能性。

该模型和数据集已经公开，并欢迎产业、大学和研究合作伙伴使用，以期帮助中国社区研发多模态大模型。

2022年4月27日下午8:53
3000

城市诺亚方舟实验室联合升思MindSpore社区）

相关推荐

河南省农村低保证图片 样本（河南省农村最低生活保障申请条件）

河南省农村低保图片 样本(生活障申请条件)

城市诺亚方舟实验室联合升思MindSpore社区）

河南省农村低保证图片样本（河南省农村最低生活保障申请条件）

河南省农村低保图片样本(生活障申请条件)