城市低保证图片 样本
-
城市诺亚方舟实验室联合升思MindSpore社区)
华为诺亚方舟实验室MindSpore社区推出了基于中文的多模态基础大模型——悟空,并公开了大规模的中文跨模态预训练数据集悟空数据集。该模型及数据集旨在加速中国跨模态预训练大模型的研究。悟空数据集包含大约1亿个来自互联网的图片与文本对,用于悟空中文多模态大模型的预训练。
悟空模型是基于全场景AI框架MindSpore进行训练和扩展的,旨在提供高质量的AI支持软硬件方案。最新的研究表明,与传统的监督学习方法相比,基于大量无标记数据进行训练的模型,如OpenAI的CLIP和谷歌的ALIGN,在各种下游任务中表现出了优秀的开放域零样本能力。悟空模型也表现出了强大的零样本图像分类和图形检索能力。
悟空模型采用双塔结构图像编码器和文本编码器,使用比较学习的损失函数来对齐文本和视觉模式。同时,为了在保证图片能够清晰呈现视觉概念的同时提高计算效率,数据集通过一系列过滤策略获得最终版本。
实验结果显示,悟空模型在多个不同的数据集中表现出了优异的效果,特别是在图形检索任务中获得了高相似性结果。此外,通过使用Token-wise相似度计算,模型表现出了细粒度的图文对齐能力,能够在图像中找到与文本描述相对应的细粒度区域。这种能力为图像物体识别等工作提供了更多的可能性。
该模型和数据集已经公开,并欢迎产业、大学和研究合作伙伴使用,以期帮助中国社区研发多模态大模型。