硬刚“GPT-4”，谷歌重磅推出最强杀手锏“Gemini”

2023.12.07

Ritata

分析测试百科网

　　12月6日，谷歌宣布推出其认为规模最大、功能最强大的人工智能模型Gemini。Gemini将包括三种不同的套件：Gemini Ultra，Gemini Pro和Gemini Nano。

官方宣文中，概括出这三种套件的突出特性:

　　Gemini Ultra——参数量最大，能力最强，适用于高度复杂的任务。

　　Gemini Pro——可扩展至各种任务的模型。

　　Gemini Nano——高效的设备端任务模型。

　　在模型能力方面，谷歌称Gemini Ultra的性能在大型语言模型（LLM）研发中使用的 32 个广泛使用的学术基准中的 30 个超过了当前最先进的结果。

　　Gemini被谷歌CEO Sundar Pichai称为“谷歌迄今为止最大、能力最强的AI模型”。

　　Google DeepMind领头人Demis Hassabis兴奋宣布：「我们团队的成就让我感到无比自豪。对我和许多同事而言，通用人工智能（AGI）是终身追求。我坚信，只要用正确的方式加以应用，AI将成为史上最具变革力、最有价值的技术之一。Gemini AI正是向这个愿景迈出的重要一步。」

　　Gemini在MMLU基准测试中超越人类专家,得分率超过 90%。

　　大型语言模型（LLM）的主流评测数据集包括：GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于评估模型在语言理解、推理、阅读理解和常识推理等方面的能力。

　　MMLU（大规模多任务语言理解）是一个结合了数学、物理、历史、法律、医学和伦理学等57个科目的测试集。相比于其他测试集，MMLU的广泛性和深度更强，它通过大量和多样的任务来测试AI模型在理解自然语言方面的能力，特别是在复杂和多变的真实世界场景中的表现。这使得MMLU成为一个极具挑战性的评测框架，可以全面地评估和推动大型语言模型的发展。