百度文心大模型3.5已内测应用，实测得分超ChatGPT

2023.6.20

原文地址：http://news.sciencenet.cn/htmlnews/2023/6/503251.shtm

6月20日消息，据内部人士透露，百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上，百度创始人、董事长兼CEO李彦宏透露，百度大模型产品“文心一言”的“母本”将迎来3.5版本，距今时隔不到一个月。最新版本文心大模型达到了怎样的实力？在公开测试集上进行的基础模型少样本（Few-Shot）评测显示，文心大模型3.5(ERNIE 3.5)在多个测试集的得分已超过ChatGPT。

三大评测基准综合评估上万道考题“统考”主流大模型 为验证主流大模型的各项综合能力，评测在AGIEval、C-Eval和MMLU三个权威评测基准上进行综合评估。 AGIEval评测基准是微软研究院发布的、专门用于评估模型在“以人为本”的标准化考试中表现水平的测试集。该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试，包括普通大学入学考试（如中国的高考和美国的SAT考试）、司法考试、数学竞赛、律师资格考试、国家公务员考试以及美国的GRE、GMAT等。 C-Eval评测基准是由上海交通大学、清华大学以及爱丁堡大学联合创制和发布的中文基础模型评测集。它包含13948个多项选择题、涵盖52个不同的学科，设置了四个难度级别，是面向中文语言模型的综合考试评测集。 MMLU是伯克利大学、哥伦比亚大学、伊利诺伊大学厄巴纳-香槟分校和芝加哥大学联合发布的一种大规模多任务语言理解的基准测试，用于衡量模型的英文跨学科专业能力。该测试包含57个科目，涵盖STEM、人文、社会科学等。

除了文心大模型3.5，评测的模型还有ChatGPT、GPT-4、ChatGLM、LLaMa系列大模型。评测可以看出大模型在能力上的优劣，同时对模型的迭代发展也有着很强的指导作用。

评测结果：文心大模型3.5中文能力超GPT-4，综合能力超ChatGPT

在AGIEval、C-Eval等中英文权威测试集和MMLU英文权威测试集中，国产文心大模型3.5取得了超过ChatGPT和LLaMa、ChatGLM等其他大模型的分数表现，在中文评测项中超越了GPT-4。在中文AGIEval评测中，文心大模型3.5得分64.37，远超ChatGLM-6B、LLaMa-7B、LLaMa-13B、LLaMa-65B，同时还超过了 ChatGPT的40.27分和 GPT-4的56.96分，位居第一。AGIEval评测英文部分中，GPT-4得分65.55居于首位，文心大模型3.5得分录得 50.59分，仅次于GPT-4。紧随其后的是ChatGPT录得48.75分。在中文C-Eval评测中，文心大模型3.5测出71.93的最高得分，不仅高于ChatGPT的51.70分，还略高于GPT-4的68.57分，领先于LLaMa-65B、LLaMa-7B、ChatGLM-6B的得分。在英文MMLU测试中，GPT-4和ChatGPT的表现较好，分别以82.47分和68.85分领先于其他大模型。文心大模型3.5得分65.10紧随其后，优于LLaMa-65B、LLaMa-13B、LLaMa-7B、ChatGLM-6B等模型分数。

从上述评测得分来看，文心大模型3.5版中文能力突出，甚至有超出 GPT-4 的表现；综合能力稍逊于GPT-4，但已经在评测中超过了 ChatGPT，远远领先于其他开源大模型。

国产大模型中文能力优势突出综合能力加速缩小差距

尽管市面上有多个大模型横空出世，但大模型研发门槛高、难度大、投入高，依赖算力、数据等综合支撑的现实不容忽视。在推动大模型产业化的路上，中国企业如何在大模型发展过程中发挥所长优势，加速缩小差距？中国工程院院士邬贺铨曾在接受采访时表示，中国企业在获得中文语料和对中国文化的理解方面比外国企业有天然的优势，中国制造业门类最全，具有面向实体产业训练产业AIGC的有利条件。同时，在算力方面中国已具有较好的基础。以百度文心大模型3.5为例，与3.0版本相比，通过各项算法和数据的优化，尤其是百度首创的知识增强和检索增强技术的优化，新版本文心大模型在各项能力上均有明显提升。据了解，百度人工智能四层架构的端到端优化，尤其是框架和模型层的协同优化，让文心大模型训练速度、模型效果加速提升。创新工场董事长兼CEO李开复也曾公开表示“中国拥有丰富的中文语料和庞大的市场，通过发展AI大模型，中国可以推动创新产业的发展，实现科技与经济的双重红利。而且中国拥有庞大基数的年轻工程师和最坚韧的企业家，为发展AI大模型提供了强大的人才支持，技术领先、策略灵活、市场反应快、能打硬仗、落地执行力强，将是中国大模型公司的成功关键。”

百度文心大模型,内测,ChatGPT