分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

硬刚“GPT-4”,谷歌重磅推出最强杀手锏“Gemini”

2023.12.07
头像

Ritata

分析测试百科网

  12月6日,谷歌宣布推出其认为规模最大、功能最强大的人工智能模型Gemini。Gemini将包括三种不同的套件:Gemini Ultra,Gemini Pro和Gemini Nano。

官方宣文中,概括出这三种套件的突出特性:

  Gemini Ultra——参数量最大,能力最强,适用于高度复杂的任务。

  Gemini Pro——可扩展至各种任务的模型。

  Gemini Nano——高效的设备端任务模型。

  在模型能力方面,谷歌称Gemini Ultra的性能在大型语言模型(LLM)研发中使用的 32 个广泛使用的学术基准中的 30 个超过了当前最先进的结果。

  Gemini被谷歌CEO Sundar Pichai称为“谷歌迄今为止最大、能力最强的AI模型”

  Google DeepMind领头人Demis Hassabis兴奋宣布:「我们团队的成就让我感到无比自豪。对我和许多同事而言,通用人工智能(AGI)是终身追求。我坚信,只要用正确的方式加以应用,AI将成为史上最具变革力、最有价值的技术之一。Gemini AI正是向这个愿景迈出的重要一步。」

  Gemini在MMLU基准测试中超越人类专家,得分率超过 90%。

  大型语言模型(LLM)的主流评测数据集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于评估模型在语言理解、推理、阅读理解和常识推理等方面的能力。

  MMLU(大规模多任务语言理解)是一个结合了数学、物理、历史、法律、医学和伦理学等57个科目的测试集。相比于其他测试集,MMLU的广泛性和深度更强,它通过大量和多样的任务来测试AI模型在理解自然语言方面的能力,特别是在复杂和多变的真实世界场景中的表现。这使得MMLU成为一个极具挑战性的评测框架,可以全面地评估和推动大型语言模型的发展。

446158_202312071110552.jpg

  全方位超越GPT?

  Gemini(双子座)号称在MMLU测试集上,拿32-shot的思维链CoT结果干翻了5-shot的GPT-4?

446158_202312071110553.jpg

  在技术报告里也明清标明了同等五样本(5-shot)下的性能测试数据:我们看到的事实是gemini仍旧落后GPT-4近3个百分点!

  在关键的性能测试项-大规模多任务语言理解MMLU,宣传上使用了一个很夸张的斜率曲线,号称gemini以90%大幅领先GPT-4的86.4%(下图左侧曲线):

446158_202312071110554.jpg

  JeffDean解释,这个数据实际上是为了显示google的CoT方法先进性:“我们认为,让社区了解我们开发的新 CoT 方法并进行比较,是一件很有意思的事情。”

谷歌
仪器推荐
文章推荐