万字长文|论文问世7年改变世界，八名谷歌员工发

3月21日消息，在当前人工智能热潮中，“ 转换器 ”（Transformer）已成为大语言模型和ChatGPT的核心基石。这项技术起源于2017年，由谷歌的八名员工发表的论文《你所需要的是注意力》（Attention Is All You Need）。这篇论文在人工智能界引起了犹如“宇宙大爆炸”的震动，彻底转变了技术的发展路径。目前，这八位谷歌研究人员均已离开谷歌，或是创立了自己的公司，或是加入了新的团队。《连线》杂志的资深编辑史蒂文·利维（Steven Levy）为我们揭开了转换器诞生前后的幕后故事。

尽管转换器模型在学术界和工业界取得了巨大的成功，但它在谷歌内部产生的影响却相对较小。文章分析认为，这种情况部分是因为大公司的官僚机制和对现状的依赖，导致谷歌未能完全发挥转换器模型的潜能。而 OpenAI 等新兴企业却迅速捕捉到了这一机遇。

虽然谷歌在某些方面可能错失了发展先机，但它作为技术创新孵化地的角色仍然不容忽视。

以下为翻译全文：

2017年春，科技论文《你所需要的是注意力》（Attention Is All You Need）问世，署名八位作者，均为谷歌研究人员，尽管其中一人当时已悄然离职。诺姆·沙泽尔（Noam Shazeer）初见论文草稿，惊见自己名列前茅，意识到自己的贡献至关重要，他对此表示：“我从未想过这样的问题。”

在学术圈内，作者排序向来是个敏感而微妙的问题。毕竟每个人都希望站在领导的位置，而不是被挤到后面。然而，在此项研究中，每位参与者均留下了独特印记，为团队成果做出了不可或缺的贡献。随着论文完成在即，研究人员面临打破贡献者排序传统的重要决策。他们最终选择了一种独特且创新的处理方式：在每位作者名字后标注星号，并在脚注明确指出，“各位作者的贡献同等重要，名次排列完全随机”。

论文完成之际，他们果断地提交至一场著名的人工智能会议，其发表无疑引发了领域内的革命性变革。

临近发表七周年之际，这篇论文已成传奇。八位作者以神经网络为基准，打造出前所未有的强大数字系统，其精确程度令人赞叹，仿佛出自外星智能。这种革命性架构，称为“转换器（transformer）”，成为了诸多令人称奇的人工智能产品的秘密武器，包括ChatGPT、Dall-E及Midjourney等图像生成器。

沙泽尔回忆这段历程，戏称若早知论文会如此盛名，他“或许会更加纠结于作者排序”。如今，这八位作者已成为业界知名人士。排名第五的利昂·琼斯（Llion Jones）笑言：“甚至有人找我合影，只因我的名字出现在了这篇论文中！”

杰弗里·辛顿（Geoffrey Hinton），尽管未参与此论文，却是人工智能领域的杰出科学家之一，他高度评价转换器的重要性：“若无转换器，今日之成就不复存在。”他认为，OpenAI及其他公司构建的系统，已能生成可与人类媲美乃至超越人类极限的输出，标志着技术的颠覆性进步。

如今，这篇论文的八位作者都已经离开了谷歌，各奔前程，继续利用他们在2017年共创的系统，以不同方式影响世界。通过与所谓的“转换器八子”（Transformer Eight）深入交流，外媒试图揭开这项突破性技术的诞生过程，他们是如何集合人类的思想与智慧，共创可能最终超越人类的机器？

转换器的故事，要从八位创始作者中排名第四的雅各布·乌斯科瑞特（Jakob Uszkoreit）开始讲起。

机器翻译的改进引发AI革命

乌斯科瑞特在德国完成了大学学业，但最初并没有打算深入研究语言学。他进入研究生阶段后，开始在谷歌山景城的办公室实习，并最终加入了谷歌的翻译团队，从而使他的职业轨迹发生了转变。同时，他还负责管理家族的生意。2012年，乌斯科瑞特做出了一个关键性的决策——放弃攻读博士学位，转而加入谷歌的一个特别团队。这个团队负责开发一个能够在搜索页面直接回答用户问题的前沿系统，而不需要将用户引导至其他网站。

此时，苹果公司刚刚发布了智能助手Siri，承诺能够在日常对话中为用户提供即时答案。这项创新给谷歌的高层带来了巨大的竞争压力，他们担心Siri可能会分流谷歌的搜索流量。因此，谷歌开始更加重视乌斯科瑞特所在的团队。

乌斯科瑞特后来坦言，尽管这种恐慌是不必要的——Siri并未真正对谷歌构成威胁，但他对于有机会深入研究能与人类进行某种形式对话的计算机系统而感到非常兴奋。当时，所谓的循环神经网络（recurrent neural network）开始脱颖而出，超越了其他类型的人工智能方法。这类神经网络包含多个层级，信息在各层间传递，寻找最佳的响应方式。神经网络在图像识别等领域取得了重大突破，标志着人工智能开始复兴。

随着这些新技术的需求增加，谷歌开始全力调整其员工结构，以期构建能够产生类似人类反应的系统，比如自动完成电子邮件或创建简单的客户服务聊天机器人。

然而，循环神经网络在处理长文本序列时面临巨大挑战。例如，为了准确理解描述“Joe是一名棒球运动员，吃了一顿丰盛的早餐后，他去了公园打了会棒球”的文本，语言模型必须记住关于棒球的信息。用人类的语言来说，这就是所谓的“关注力”。为了解决这一问题，业界提出了“长短期记忆”（LSTM，long short-term memory）模型，它允许语言模型处理更长、更复杂的文本序列。然而，计算机仍然需要严格按顺序处理这些序列，即一个单词一个单词地处理，这导致它们可能会错过文本后部的关键上下文线索。乌斯科瑞特对此表示：“我们当时使用的方法就像是创可贴，虽然能暂时解决问题，但无法让正确的方案真正大规模地发挥作用。”

大约在2014年，乌斯科瑞特开始构思一种全新的方法，他称之为“自注意力机制”（Self-Attention），这种机制允许神经网络通过引用文本中的其他部分信息来翻译单词，帮助澄清单词的意图，从而产生更准确的翻译。他解释说：“自注意力机制能够考虑所有因素，并提供一种有效的方式，允许同时查看多个输入，然后有选择性地筛选出某些东西。”尽管人工智能科学家通常避免将神经网络的工作方式与人脑的实际工作方式混为一谈，但乌斯科瑞特却相信“自注意力”机制与人类处理语言的方式有着一定的相似性。他认为，“自注意力”模型不仅可能比循环神经网络更快、更有效。更重要的是，其处理信息的方式非常适合那些为支持机器学习热潮而设计的强大并行处理芯片。它摒弃了传统的逐个单词线性处理方法（即按顺序查看每个单词），转而采用一种并行处理方式，即一次性查看多个单词并处理。乌斯科瑞特推测，如果操作得当，“自注意力”机制可能只需一个算法，就能实现比传统方法更出色的性能。

尽管这一想法充满前景，但并非每个人都认为它会颠覆世界。包括乌斯科瑞特的父亲在内，尽管他已经获得了两项谷歌教授科研奖（Google Faculty Research Awards），但对于儿子在谷歌的工作，他持有保留态度。乌斯科瑞特回忆道：“人们对此感到惊讶，因为它抛弃了所有现有的神经结构模式。放弃循环神经网络？在很多人看来，这几乎是异端邪说！从我和父亲在餐桌上的讨论来看，我们的看法并不总是一致。”

尽管遭遇了质疑，乌斯科瑞特还是坚定地相信自己的理念，并成功地说服了几位同事一同进行关于“自注意力”的实验。这些努力最终取得了显著的成果，并在2016年发表了一篇相关的研究论文。然而，当乌斯科瑞特提议进一步推进研究，探索“自注意力”在处理更大规模文本序列上的潜力时，他的合作者们却纷纷表示不感兴趣。他们似乎更倾向于将已经学到的知识应用于实际项目上，类似于那些带着微薄收益离开赌场的赌徒，他们对已经获得的成果感到满足。

乌斯科瑞特对此感到有些失望，但同时也更加坚信“自注意力”机制的巨大潜力和它在更复杂任务上的应用前景。他说：“这项技术已经被证明是有效的，它不仅被用于谷歌的搜索服务，还被应用于广告等多个不同的领域。从很多方面来看，这是一个惊人的成功。但我不想就此止步。”

为了推动这一理念的实现，乌斯科瑞特决定在位于谷歌园区北端查尔斯顿路的Building 1945大楼概述他的愿景。

八名核心作者分四波加入

2016年的某个午后，乌斯科瑞特与伊利亚·波洛苏欣（Illia Polosukhin）在谷歌的咖啡馆偶遇，两人在共进午餐时讨论了波洛苏欣在工作中遇到的挑战。作为一名在谷歌工作了近三年的科学家，波洛苏欣被分配到了一个技术团队，负责为谷歌搜索领域提供直接回答用户问题的技术支持。然而，事情进展得并不顺利。波洛苏欣解释说：“在谷歌搜索上回答问题，你需要一种既经济又高效的解决方案，因为你只有几毫秒的时间来做出反应。”

正当波洛苏欣为此抱怨时，乌斯科瑞特灵机一动，提出了一个可能的解决方案：“为什么不试试‘自注意力’机制呢？”这个建议引起了波洛苏欣的兴趣，他认为这个想法值得一试。

同时，波洛苏欣与阿希什·瓦斯瓦尼（Ashish Vaswani）在工作上有所交集。瓦斯瓦尼是一位在印度出生、中东长大的科学家，他在南加州大学完成了博士学位，并在该校的精英机器翻译小组取得了卓越成就。之后，瓦斯瓦尼移居到山景城，加入了谷歌的谷歌大脑（Google Brain）团队。瓦斯瓦尼非常看好这个团队，认为它是一个充满活力和创新精神的集体，他深信神经网络将极大地推动人类的理解力。然而，他一直在寻找一个能够充分发挥他才华的大项目。

幸运的是，瓦斯瓦尼在Building 1945大楼工作时，偶然听到了关于“自注意力”机制的讨论，他立刻意识到这可能是他一直在寻找的那个重大项目。

因此，乌斯科瑞特、波洛苏欣和瓦斯瓦尼开始合作，起草了《转换器：迭代“自注意力”和处理的通用架构》这份设计文件。乌斯科瑞特透露，他们之所以选择“转换器”这个名字，是因为这种机制能够转换接收到的信息，使系统能够像人类一样提取尽可能多的理解力。此外，乌斯科瑞特还分享了他童年时的美好回忆，他说：“我很小的时候就有两个小变形金刚玩具。”他们甚至在这份设计文件的结尾附上了一幅卡通图：六个变形金刚在山区互射激光。

然而，就在2017年初，波洛苏欣离开了谷歌，创立了自己的公司。尽管如此，新的合作者开始陆续加入乌斯科瑞特的团队。其中一位是妮基·帕尔玛（Niki Parmar），在移居美国之前一直在印度的一家美国软件公司工作。她于2015年获得南加州大学硕士学位，并收到了多家大型科技公司的聘用邀请。最终，她选择了谷歌，并加入了乌斯科瑞特所在的团队，专注于改进谷歌搜索的模型变体。

另一位新成员是利昂·琼斯（Llion Jones）他在威尔士的乡村长大，从小就对电脑充满兴趣，因为他觉得电脑“不正常”，总是能带来无尽的惊喜。琼斯在伯明翰大学选修了一门人工智能课程，从此对神经网络产生了浓厚的兴趣。2009年，他顺利获得了硕士学位，但在经济衰退的背景下，他一度找不到工作，甚至依靠失业救济金度过了几个月的艰难时光。好在后来他成功加入了谷歌。

琼斯最初是在谷歌研究中心工作，直接上司就是波洛苏欣。一次偶然的机会，他从同事马特·凯尔西（Mat Kelcey）那里听说了“自注意力”的概念，这一创新想法立刻激发了他的浓厚兴趣，他毫不犹豫地加入了转换器团队。

随着时间的推移，谷歌大脑的其他研究人员也开始对转换器项目产生兴趣，他们也在尝试改进大语言模型。第三波加入的成员中，卢卡兹·凯泽（Lukasz Kaiser）和艾丹·戈麦斯（Aidan Gomez）尤为引人注目。凯泽是一位出生在波兰的理论计算机科学家，戈麦斯则是在加拿大安大略省的一个小村庄长大的年轻人。虽然戈麦斯最初只是以实习生的身份加入，但他很快因其才华和热情获得了团队的认可。

凯泽和戈麦斯很快意识到，“自注意力”机制是极具潜力的解决方案，有望解决他们当前面临的问题。戈麦斯表示：“经过深思熟虑的讨论，我们最终决定合并这两个项目，相信这是正确的决定。”

转换器团队着手构建一个基于“自注意力”机制的模型，用于语言翻译。他们采用了名为BLEU（双语替换评测，bilingual evaluation understudy）的基准来衡量模型性能，这个基准通过将机器的翻译结果与人类的翻译进行比较。从一开始，他们的新模型就展示了非凡的性能。乌斯科瑞特兴奋地表示：“我们从没有概念证明到至少拥有了与长短期记忆网络（LSTM）相当的东西。虽然一开始它并没有展现出相对于LSTM的明显优势，但我们相信它的潜力远不止于此。”

然而，尽管早期成果令人鼓舞，但自那以后，他们的工作一直处于停滞状态。直到2017年的一天，诺姆·沙泽尔偶然听说了他们的项目。沙泽尔是谷歌的一位资深员工，自2000年以来一直在谷歌工作，他参与构建了公司早期的广告系统，是公司内部的传奇人物。后来他在深度学习领域摸爬滚打了五年。而近年来，他对大语言模型产生了浓厚的兴趣，但对这些模型在产生流畅对话方面的表现感到失望。

沙泽尔回忆，某一天他正悠闲地走在Building 1965大楼的走廊上漫步时，偶然路过凯泽的工作间，被里面热烈的讨论声所吸引，驻足聆听。他回忆说：“我听到阿希什兴奋地谈论使用‘自注意力’的想法，妮基也对此充满热情。那一刻，我心想，哇，这听起来真是个好主意。这看起来像是一群才华横溢、聪明绝顶的人在做一项前景广阔的工作。”对于当时循环神经网络的局限性感到不满的沙泽尔，心中涌起了一股冲动：“让我们去替换它们吧！”

沙泽尔的加入对项目至关重要。乌斯科瑞特解释说：“这些理论或直觉上的机制，比如‘自注意力’，总需要经验丰富的‘魔术师’来细心实施，才能显现出其生命力。”沙泽尔立即开始施展他的“魔法”。他决定亲自编写转换器项目的代码： “我接受了他们的基本想法，然后自己动手去实现。”在这个过程中，他偶尔会向凯泽请教一些问题，但大部分时间他都是“埋头苦干一段时间，然后带着成果回来，说，‘看，它有效了。’”他运用了团队成员后来称之为“魔法”、“炼金术”和“花里胡哨”的技巧，使这个系统达到了新的高度。

戈麦斯回忆说：“这开启了我们的冲刺模式。”随着即将到来的最后期限——5月19日，即神经信息处理系统会议的论文提交截止日期，团队的动力空前高涨。随着硅谷的冬天渐渐过渡到春天，他们的实验步伐也加快了。团队测试了两种转换器模型：一个是经过12小时训练的标准模型，另一个更强大的“Big”模型则经过了三天半的训练。接着，他们让这些模型开始进行英语到德语的翻译任务。

窗帘图案揭示转换器巨大潜力

转换器模型的基础表现超出了所有人的预期，它轻松超越了所有对手，特别是所谓的Big模型，在展现出更高计算效率的同时，其BLEU分数更是刷新了记录。帕玛尔表示：“我们的处理速度超过了任何人，但这仅仅是开始，因为BLEU分数仍在不断攀升。”听到这番话，乌斯科瑞特激动地立即打开了他在登山车上准备的香槟，与众人共庆这一刻。

在截止日期的最后两周内，团队陷入了疯狂的忙碌中。尽管名义上仍然需要在Building 1945大楼办公，但他们大多数人选择转移到Building 1965大楼工作，原因只是那里的微型厨房里有一台更好的浓缩咖啡机。实习生戈麦斯投入到了疯狂的调试工作中，同时还负责制作论文中的精美可视化资料和图表。他回忆道：“我们尝试了各种可能的技术和模块组合，不断地试验哪些有效，哪些无效。通过不断的迭代、快速试验和纠错，我们终于完成了现在所说的转换器组件。”琼斯也赞扬了沙泽尔在简化工作中的关键作用，称他像是一个真正的“魔法师”，总能化繁为简，提炼出最精华的部分。

瓦斯瓦尼泽回忆道，有一天晚上，当团队正埋头撰写论文时，他累得倒在了办公室的沙发上。在疲惫的恍惚中，他凝视着隔断沙发和房间其他部分的窗帘，上面的图案给了他深刻的启示，他觉得这些图案仿佛大脑中的突触和神经元，错综复杂却又有序。他与在场的戈麦斯分享了这一想法，认为他们正在研究的东西将远远超越机器翻译的范畴。他激动地说：“最终，就像人脑一样，我们需要把语音、音频和视觉等因素统一到一个框架下。我有一种强烈的预感，我们正在探索的，是更为广泛、更为深远的东西。”

然而，在谷歌的高层看来，这可能只是又一个有趣的人工智能项目而已。当《连线》杂志询问项目团队成员，他们的上司是否曾要求他们汇报项目进展时，答案是否定的。但乌斯科瑞特坚信：“我们知道这可能是一件能够改变整个行业的大事件。这使得我们对论文的最后一句话非常着迷，那句话中我们在那里对未来的工作进行了大胆的评论和展望。”

这句话揭示了转换器模型未来的无限潜力——它将基本应用于所有人类表达形式。论文中写道：“我们对基于注意力的模型的未来充满期待。我们计划将转换器拓展到涉及文本以外的输入和输出模式的问题，并深入探讨图像、音频和视频等领域。”

在接近截止日期的几个不眠之夜里，乌斯科瑞特意识到他们需要为这篇论文起一个响亮的标题。琼斯也注意到，团队已经完全放弃了那些被公认为最佳实践的方法，特别是长短期记忆网络（LSTM），转而全心投入到“自注意力”模型的研究中。灵感来自于披头士乐队的一首经典歌曲《你所需要的就是爱》（All You Need Is Love），琼斯脑海中闪现出一个想法：为什么不将论文命名为《你所需要的是注意力》（Attention Is All You Need）？这个标题不仅简洁明了，而且富有深意，完美地契合了他们的研究成果。

在截止日期即将到来的紧张时刻，他们仍在忙碌地收集实验结果。帕玛尔回忆说：“在我们提交论文前的五分钟，英语翻译成法语的数据才刚刚出炉。我坐在Building 1965大楼的微型厨房里，手忙脚乱地在论文中填入最后一个数字。”在离截止时间仅剩不到两分钟的情况下，他们终于提交了论文。

为何谷歌没有最先推出GPT？

和大多数科技公司一样，谷歌很快便为乌斯科瑞特及其团队的工作申请了临时专利。这一做法并非旨在阻碍他人使用这些创新，而是出于建立自身专利库以应对潜在专利争议的考虑。

当转换器团队收到会议同行评审的反馈时，他们感受到了复杂的情绪。帕玛尔表示：“评审反馈既有正面的，也有极为正面的，还有一些是‘一般’。”虽然并非所有评审都给予了极高的评价，但这篇论文最终被接收，参加了一个晚上的海报展示会。

到了12月，这篇论文终于在会议上引起了轰动。12月6日的四小时展示会场内座无虚席，科学家们急切地希望了解更多关于转换器模型的信息。作者们讲解至声音沙哑，直到晚上10点30分会议结束，仍有许多人不愿走。“安保人员不得不劝我们离开，”乌斯科瑞特回忆说。对他而言，最满意的时刻莫过于计算机科学家、长短期记忆网络（LSTM）的共同发明者塞普·霍奇瑞特（Sepp Hochreiter）主动走来表示赞赏。毕竟，LSTM刚刚被转换器模型取代。

虽然转换器模型的潜力巨大，但它并未立即引发全球轰动，甚至在谷歌内部也未引起太多注意。凯泽回忆，论文发表时，沙泽尔曾向谷歌高层提出一个大胆的建议：放弃整个搜索索引，改为训练一个庞大的网络，彻底改变谷歌组织信息的方式。这个提议当时看起来太过前卫，甚至凯泽也认为有些荒谬。

就在转换器论文发表后不久，初创公司OpenAI敏锐地捕捉到了其中的商机。OpenAI的首席研究员伊利亚·苏茨凯弗（Ilya sutskever）在谷歌期间与转换器团队有过接触，他迅速建议OpenAI的科学家阿列克斯·拉德福（Alex Radford）深入研究这一理念。结果，基于转换器模型的第一个产品GPT便应运而生。OpenAI的首席执行官萨姆·奥特曼（Sam Altman）去年表示，当转换器论文发表时，他认为谷歌内部几乎没人意识到其真正的意义。

谷歌内部的实际情况更加复杂。乌斯科瑞特回忆道：“对我们来说，转换器的潜力显而易见，它能够完成真正令人惊叹的事情。你可能会问，为什么谷歌在2018年没有推出类似ChatGPT的产品？实际上，我们完全有可能在2019年甚至2020年推出类似GPT-3或GPT-3.5的产品。但问题的关键不在于我们是否看到了这个机会，而在于我们是否对所看到的采取了行动。这背后的原因复杂且难以解释。”

许多科技行业观察者指出，谷歌正在从一个以创新为核心的企业转变为一个更注重利润的官僚机构。戈麦斯对此深有体会：“他们缺乏改变的勇气。但对于一家长期引领行业、获得巨额利润的大公司而言，做出改变确实需要极大的勇气。”

实际上，谷歌在2018年已经开始尝试将转换器模型融入其产品中，首先是在翻译工具上的应用。同年，谷歌推出了基于转换器的语言模型BERT，并在次年将其应用于搜索功能。然而，相较于OpenAI取得的巨大成功以及微软大胆地将基于转换器的系统整合进其产品线的举措，谷歌的这些底层变革显得相对保守和谨慎。

去年，当被问及为何谷歌没有率先推出类似ChatGPT的大型语言模型时，谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）解释说，在某些情况下，让其他公司先行探索市场可能是有利的。他表示：“我并不完全确定这种做法是否总是行得通。但事实是，当人们看到其他公司如何利用这些技术后，我们有机会做得更多、更好。”

这篇论文的八位作者现已全部离开谷歌，他们凭借在转换器技术领域的深厚积累，纷纷创办了各自的公司。波洛苏欣创立的Near市值达到40亿美元；帕玛尔和瓦斯瓦尼共同创立的Adept估值为10亿美元，他们现正致力于创建第二家公司Essential AI，初期融资达800万美元；琼斯在东京的Sakana AI估值2亿美元；沙泽尔共同创立的Character AI估值高达50亿美元；戈麦斯联合创立的Cohere估值为22亿美元；而乌斯科瑞特的生物技术公司Inception估值达3亿美元。除Near外，这些公司均基于转换器技术成立。

值得注意的是，凯泽是唯一一个没有创立公司的人，他选择加入了OpenAI，参与名为Q*的神秘项目。这个项目被奥特曼描述为能够“揭开无知的面纱，推动探索的前沿”。

面对这些精英人才的离职，谷歌是否会感到遗憾？显然，答案是肯定的。面对“转换器八子”的离职原因，皮查伊坦然回应，指出即便是行业翘楚OpenAI也面临着人才流动的现象。他强调：“人工智能领域本就是一个充满活力的竞技场。”同时，他也自豪地表示，谷歌已经构建了一个鼓励非传统思维的环境。

帕玛尔赞扬道：“谷歌在许多领域都走在时代的前沿。他们投资于卓越的人才，营造了一个允许我们自由探索和挑战极限的环境。人们需要时间来接受新事物，这是正常的。而谷歌所承担的风险，无疑是巨大的。”

转换器的诞生正是在这样一个环境中。这篇论文的作者们，都是谷歌的精英中的精英，他们在多样化的文化背景下共同工作，日常的偶遇和午餐时的随意交谈都可能激发出创新的思想火花。这个团队的多样性是其成功的关键之一：八位作者中，有六位来自美国以外的国家。

在柏林办公室中，乌斯科瑞特分享了他对创新的看法：“创新的关键在于创造适宜的条件。当人们对生活中的美好事物感到兴奋，并且乐在其中的同时，还能解决一些真正重要的问题，那么他们就是幸运的——奇迹自然会发生。”（小小）