“紫东太初”全模态大模型开启AGI新路径

2023.5.07

原文地址：http://news.sciencenet.cn/htmlnews/2023/5/500126.shtm

“‘紫东太初’2.0全模态大模型可融入3D、视频、传感信号等更多模态数据，并优化语音、视频和文本的融合认知及常识计算等功能，进一步突破感知、认知和决策的交互屏障。”5月6日，在华为昇腾AI开发者峰会上，中科院自动化研究所研究员、武汉人工智能研究院院长王金桥透漏，“目前，‘紫东太初’多模态大模型已开源部分功能，后续计划正式发布‘紫东太初’2.0全模态大模型。”

王金桥在作报告。中科院自动化所供图

以多模态技术助推通用人工智能

从婴幼儿开始，人类的认知学习就建立在对现实世界图像、声音和文字等多种模态信息的基础之上。因此，突破模态限制的通用大模型是人工智能融入现实世界的必然。

2019年开始，中科院自动化研究所在语音、文本、图像等单模态大模型研究和应用基础上，瞄准多模态大模型领域开始联合攻关，并于2021年7月正式发布了全球首个千亿参数多模态大模型“紫东太初”，以多模态技术探索通用人工智能（AGI）发展道路。

区别于以文本为主的大部分语言大模型，“紫东太初”大模型在研发之初即坚持以多模态技术为核心，利用“图-音-文”等更多类型数据进行跨模态的统一表征和学习，实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”，使人工智能大模型的理解和生成能力更加接近人类，为贯通多模态人工智能行业应用提供了创新基础。

从感知到认知再上台阶

当前世界已经进入数字物联时代。在“紫东太初”1.0应用推广过程中，除了需要处理海量语音、图像和文本等互联网信息外，更需要处理多种传感器、3D点云及视频等物联网海量数据，才能满足现实生产力的提高。针对数字物联时代的新需求与新趋势，中科院自动化研究所探索全模态大模型体系架构和基础算法，持续推动“紫东太初”技术和应用发展。

“在文本、图片、音频、视频的基础上，‘紫东太初’2.0全模态大模型可融入3D、视频、传感信号等更多模态数据，并优化语音、视频和文本的融合认知以及常识计算等功能。”王金桥说，“‘紫东太初’2.0可实现不同模态的统一表征和学习，让人工智能从感知世界进化为认知世界，延伸出更加强大的通用能力。”

打造全栈国产化通用人工智能底座

全栈国产化通用人工智能平台对我国实现人工智能领域科技自立自强、占领科技创新高地具有重要战略意义。

“从立项开始，我们就以自研算法为核心，以全栈国产化基础软硬件昇腾AI平台为基础，依托武汉人工智能计算中心算力支持，真正意义上实现了国产人工智能大模型的可控、可信、可用，有力地促进了国产全栈式基础软硬件的发展。”王金桥说。

目前，由自动化牵头打造的多模态人工智能产业联合体已陆续吸纳产学研各界近70家成员单位。围绕多模态大模型技术及应用，“紫东太初”大模型已在手语教学、法律咨询、交通出行、广电、医疗机器人、医学影像判读等数十个行业场景领域已展现出广阔的落地潜力。

在法律咨询行业，“紫东太初”大模型仅用0.546秒就可对法律案件进行拆解、提取关键事件，在办公效率方面实现了案件分析速度的百倍速提升，有效解决律师整体资源匮乏、服务成本高的问题；在智慧交通领域，基于“紫东太初”大模型构建了面向公路路网孪生仿真、调度、养护、节能、服务等全周期、全天候、安全安心的数智平台，道路通行率有效提升30%；在医疗领域，基于“紫东太初”打造的MicroNeuro颅内微创手术机器人系统已完成国际首例深位颅内活检手术，支持视觉、触觉的跨模态融合，大模型的升级也将加速优化针对神经外科手术场景的自主理解……

全模态大模型