分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

能打败GPT-4的超强技术,来了?

2023.5.18
头像

柔荑含莲

听君一席话,胜读十年书

编者按:Hyena,是由斯坦福大学(Stanford University)和加拿大 MILA 人工智能研究所(MILA institute for AI)的人工智能科学家于 2023 年 3 月首次提出的一项技术,堪称比 GPT-4 或任何同类 AI 技术都高效。本文来自编译,希望能对你有所启示。

quality,q_90

名为 Hyena(意为“鬣狗”)的新型技术,可达到与使用注意力机制的 GPT-4 同等的准确性,但使用的算力比后者减少了 100 倍。

尽管 Open AI 推出的人工智能聊天机器人 ChatGPT 及其最新一代人工智能语言模型 GPT-4 引起了全球范围内的轰动,但说到底,这些语言模型只是软件应用程序。与所有应用程序一样,它们也有技术限制。

今年 3 月,斯坦福大学(Stanford University)和加拿大 MILA 人工智能研究所(MILA institute for AI)的人工智能科学家联合发表了一篇论文,并提出了一种新技术(Hyena)。此项技术甚至比 GPT-4 或任何类似 AI 技术都要高效,它可以吸收大量数据并将其转化为用户想要的答案。

这项被称为 Hyena 的技术只使用其一小部分计算能力,就能够在问答等基准测试中达到与 GPT-4 同等的准确性。在某些情况下,Hyena 能够处理大量的文本,而 GPT-4 每次最多只能处理不超过 25000 个单词。

谷歌的科学家 Ashish Vaswani 和他的同事于 2017 年发表了一篇名为《Attention Is All You Need》(《注意力就是你的全部所需》)的论文,它在人工智能研究领域具有里程碑的意义。该论文对 Transformer 模型(一种神经网络结构)作了十分详细的介绍,一个基于 Transformer 的可训练的神经网络可以通过堆叠 Transformer 的形式进行搭建,擅长处理语言理解任务,所需计算能力更少。作者在论文中写道:“基于十亿参数级模型的运行结果显示,注意力可能并不是我们所需要的全部。”Transformer 潜力巨大,目前已成为了许多大型语言模型的基础,比如 ChatGPT。

但是 Transformer 神经网络模型有一个很大的缺陷,当它处理大量的输入信息时需要借鉴人脑的“注意力机制”,即只选择一些关键信息输入进行处理,以此提高神经网络的效率。

这种注意力机制具有“二次型计算复杂性”,其时间和存储复杂度在序列长度上属于二次型,处理长文本序列的能力很差,这种内在缺陷是包括 ChatGPT 和 GPT-4 在内的所有大型语言程序都具备的。这种二次复杂性意味着 ChatGPT 产生答案所需的时间会随着输入数据量的增多而增加。

在某种程度上,如果提示内容输入过多,要么程序无法提供答案,要么它必须具备足够的计算能力才能满足运行需求,从而导致人工智能聊天机器人计算需求激增。

在 the arXiv pre-print server(由美国国家科学基金会和美国能源部资助,在美国洛斯阿拉莫斯国家实验室建立的免费电子预印本文献库)上发布的新论文《Hyena 层次结构:迈向更大的卷积语言模型》(Towards Larger Convolutional Language Models')中,斯坦福大学的主要作者 Michael Poli 和他的同事建议使用“次二次函数”,即 Hyena 来取代 Transformer 的注意力函数。

作者并没有解释“Hyena”的名字由来,但人们大致可以想象出各种缘由。Hyena,又译为“鬣狗”,它是一种生活在非洲的动物,可以捕猎数英里。从某种意义上说,一个非常强大的语言模型可以像鬣狗一样,为了寻找“答案”而处理数以万计的文本内容。

但正如标题所示,作者真正关心的是“等级制度”。鬣狗家族有一个严格的等级制度,一般来说鬣狗女王最高贵,其次是幼崽,地位最低的是雄性鬣狗。鬣狗女王领导并且支配着整个族群,享有最高的地位,这样的“等级制度”确立了鬣狗女王的统治地位。正如你将看到的那样,Hyena 程序会以某种类似的方式一次又一次地应用一系列非常简单的操作,将它们结合起来形成一种数据处理的层次结构。正因为如此才给这个程序起名“Hyena”。

这篇论文的特约作者有众多来自人工智能领域的杰出人士,比如加拿大 MILA 人工智能研究所的科学主任约书亚·本吉奥(Yoshua Bengio),他是 2019 年图灵奖(相当于计算机领域的诺贝尔奖)的获得者。早在 Vaswani 及其团队将注意力机制应用于 Transformer 之前,本吉奥就因开发了注意力机制而广受赞誉。斯坦福大学计算机科学副教授 Christopher Ré 也是作者之一,他近年来帮助推动了人工智能作为“软件 2.0”的概念。

为了找到注意力机制“二次型计算复杂性”的替代方案,Poli 及其团队开始研究注意力机制是如何发挥作用的。

人工智能科学领域最近的一项被称为机械可解释性(mechanistic interpretability)的实践研究正在深入了解神经网络内部结构,即注意力机制是如何运作的。你可以把它想象成拆开一台电脑,看看它的各个组件部分,并弄清楚它是如何工作的。

波利及其团队引用的是人工智能初创公司 Anthropic 的研究员尼尔森·埃尔哈格(Nelson Elhage)的一系列实验,这些实验对 Transformer 的算法结构进行了全局分析,从根本上理清了 Transformer 在处理和生成文本时的工作内容是什么,并深入探究了其背后注意力机制的工作原理。

从本质上讲,埃尔哈格和他的团队发现,注意力在最基本的层面上是通过非常简单的计算机操作来发挥作用的。假设给定一个输入,“Teacher Judy is so busy……because Teacher X…”,X 指向“Judy”。注意力机制就是查看上下文中的最后一个单词“Teacher”,并在上下文中搜索与最后一个单词相关联的特定单词,再将这个关联单词作为模型输出。

再比如,如果一个人在 ChatGPT 中输入《哈利波特与魔法石》(Harry Potter and the Sorcerer's Stone)中的一句话,比如“Mr. Dursley was the director of a firm called Grunnings…”,那么只要输入“D-u-r-s”,这个名字的开头,可能就足以提示程序完成“Dursley”这个名字,因为它在《哈利波特与魔法石》这本书中看到过这个名字。系统能够从记忆中复制字符“l-e-y”的记录来自动完成句子的输出。

然而,随着单词数量的增多,注意力机制会遇到二次复杂性问题。更多的文本需要更多的“权重”或参数来运行。

正如作者所写:“Transformer 块是序列建模的强大工具,但它并非没有局限性。其中最值得注意的是计算成本,随着输入序列内容长度的增加,计算成本会迅速增长。”

虽然 OpenAI 尚未披露 ChatGPT 和 GPT-4 的技术细节,但据悉它们可能有一万亿或更多这样的参数。运行这些参数需要更多的 GPU 芯片,从而增加了计算成本。

为了降低二次计算成本,Poli 和团队用所谓的“卷积模型”替代了注意力机制,这是人工智能程序中最古老的运算模型之一,早在 20 世纪 80 年代就进行了改进。卷积模型等同于一个过滤器,可以从数据中挑选出项目,无论是图片像素还是文本格式均支持。

Poli 和他的团队做了一种混合研究,即将斯坦福大学研究员 Daniel Y. Fu 及其团队所做的工作与阿姆斯特丹自由大学的学者 David Romero 及其同事的研究结合起来,让该程序可以动态改变滤波器大小。这种灵活适应的能力减少了程序需要的参数或权重的数量。

quality,q_100

Hyena 模型是卷积过滤器的组合,每一个卷积层中使用的过滤器中的参数都是一样的。它们彼此建立在一起,而不会引起神经网络参数的大量增加。

卷积模型可以应用于无限量的文本,而不需要越来越多的参数来保证程序的运行。正如作者所说,这是一种“不需要集中注意力”的方法。

Poli 及其团队写道:“Hyena 能够显著缩小与注意力机制的差距,以较小的算力预算来解决同等的困惑。”

为了证明 Hyena 的能力,作者根据一系列基准测试了该程序,这些基准决定了一个语言程序在各种人工智能任务中的表现。

其中一个测试是 The Pile,这是一个由非营利人工智能研究机构 Eleuther.ai 在 2020 年收集的包含有 825 GiB 的开源语言建模数据集。这些文本是由 22 个较小的高质量数据集组合而成的,比如 PubMed、arXiv、GitHub、美国专利局等,相比其他数据集更专业。

该程序面临的主要挑战是,当输入一堆新句子时,如何生成一个新单词。研究人员写道,从 2018 年开始,在计算运行操作减少 20% 的前提下,Hyena 能够达到与 OpenAI 原始 GPT 程序相当的准确性。它是第一个与 GPT 质量相匹配的无注意力机制的卷积模型。

quality,q_100

接下来,作者在被称为 SuperGLUE 的推理任务上测试了该程序,该任务是 2019 年由纽约大学、Facebook 人工智能研究、谷歌 DeepMind 部门和华盛顿大学的学者共同推出的。

例如,当给定“我的身体在草地上投下阴影”这个假设,并给出造成这一现象的两种原因:“太阳升起来了”或“草被割了”,并要求程序选择其中一种合理原因时,其会将“太阳升起来了”作为输出文本。

在处理多任务时,Hyena 模型的得分达到了或接近 GPT 版本的分数,然而其使用的训练数据不及 GPT 的一半。更有趣的是,当作者想试试增加输入字符串长度时会有何变化,结果发现:字符越多,其表现就越好,所需时间就越少。

Poli 和团队认为,他们不仅对 Hyena 尝试了不同的方法,还解决了二次计算复杂性的难题,使程序计算结果的难度发生了质的变化。

他们认为,在未来的道路上,打破二次计算障碍是迈向深度学习的关键一步,例如使用整本教科书作为上下文提示,来创作长段音乐或处理十亿像素级图像。

作者写道,Hyena 能够使用一个可以更有效地扩展成千上万个单词的过滤器,这意味着查询语言程序的上下文实际上没有限制,它甚至可以回忆起文本或先前对话的内容。

他们提出,Hyena 不受人为限制,并且可以学习“输入提示”中的任何元素。此外,除了文字,该程序还可以应用于不同形式的数据,例如图像,也许还有视频和声音。

值得注意的是,与 GPT-4 甚至 GPT-3 相比,论文中显示的 Hyena 程序规模较小。GPT-3 有 1750 亿个参数或权重,而 Hyena 最多只有 13 亿个参数。因此,Hyena 在与 GPT-3 或 GPT-4 进行全面比较时的表现还有待观察。

但如果 Hyena 程序在更大规模层面的应用上也被证明是高效的话,这一程序会广泛流行开的——媲美注意力机制在这过去十年中所达到的那种流行程度。

正如 Poli 及其团队总结的那样:“更简单的二次模型,如 Hyena,基于一套简单的指导原则和机械可解释性基准,将可以成为大型高效语言模型的基础。”

译者:Araon_


AI/ai
互联网
文章推荐