国产超大规模AI预训练模型发布，可实现“用图生文”等任务-第一黄金网

摘要

六出奇光动地来,西方海国见旌旗。水心惟有终无底,火内曾无彻上灰。地轴迂回周八极,天球低陷不磨回。明朝沧海成桑田,吾欲吹嘘

六出奇光动地来,西方海国见旌旗。

水心惟有终无底,火内曾无彻上灰。

地轴迂回周八极,天球低陷不磨回。

明朝沧海成桑田,吾欲吹嘘弄大灰。

以上诗句题为《咏智利日全食》，来自人工智能模型“文汇”的手笔。

人工智能模型“文汇”是北京智源人工智能研究院近日发布的一款面向认知的超大规模新型预训练模型。它旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题，参数规模达113亿，仅次于OpenAI1月初发布的DALL·E模型的120亿参数量，是目前中国规模最大的预训练模型。

超大规模预训练模型是当前人工智能领域研究的热点。

自2020年5月，OpenAI发布迄今为止全球规模最大的预训练模型GPT-3以来，OpenAI、谷歌等科技公司都在持续推动大规模预训练模型的进一步发展。2021年1月5日，OpenAI在官方博客发布了人工智能神经网络“DALL·E”，可以通过自然语言文本直接生成对应图像。

据介绍，“文汇”模型能够学习不同模态（文本和视觉领域为主）之间的概念，可以实现“用图生文”等任务，具有一定的认知能力。

北京智源人工智能研究院成立于2018年11月，是在科技部和北京市委市政府的指导和支持下，由北京市科委和海淀区政府推动成立的新型研发机构。

“文汇”由智源研究院发起的“悟道”攻关团队完成，团队由智源研究院、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱.AI、循环智能等单位的科研骨干组成。

智源研究院院长、北京大学信息技术学院黄铁军表示，“文汇”模型针对性地设计了多任务预训练的方法，可以同时学习文→文、图→文以及图文→文等多项任务，实现对多个不同模态的概念理解。

“文汇”模型能够完成多种图文生成任务。例如，根据下面这张图片，模型可给出描述如下描述：

旗袍是一种古典的风格，它不仅能够彰显出女性优雅气质，而且还具有很好的修饰身形。这款旗袍采用了经典的圆领设计，穿着舒适自在，同时又能够展现出女性柔美的颈部线条，让你更加的迷人。精致的绣花工艺，使得整件衣服看起来更加的精致，也更加的凸显出女性的魅力。

“文汇”模型还能够生成基于人设的文本：

据悉，“文汇”模型的研究团队在模型中提出了针对多模态认知生成的大规模预训练的架构M6：MultiModality-to-MultiModality Multi-task Mega-Transformer。模型整体架构基于Transformer，其中图像进行切块并对块采用ResNet-50提取特征。这些特征以及对应的position embedding让图像和文本能组合在一起送入模型。

智源研究院透露，目前，“文汇”已支持基于认知推理的多种自然语言及跨模态应用任务，部分应用即将与搜狗、阿里巴巴、学堂在线、智谱.AI、循环智能等机构合作上线。具体功能包括基于上传图片的开放域问答、用语言操作数据可视化、基于预训练语言模型的诗词创作应用和可控人设的开放域问答等。