西风 衡宇 发自 凹非寺量子位 | 公众号 QbitAI
“怎么老是你???”(How old are you)
近期,网友们纷纷向Transformer家族中的成员之一Noam Shazeer(为了便于阅读,我们暂且称他为沙哥)提出了一个深入灵魂的疑问。
特别是近期,Meta FAIR的研究员朱泽园公布了他们《Physics of Language Models》项目的一系列最新成果,随后有网友注意到,这些成果中涉及的3-token因果卷积技术,实际上沙哥等人早在三年前就已经进行了相关研究。
是的,“又”。
只需浏览他的职业经历,便能明显看出,在人工智能领域,无论是重大还是微小的成就,都留下了他的足迹。
“不是搞个人崇拜,但为什么总是Noam Shazeer?”
朱泽园也自己也站出来表示,沙哥成果超前:
我认为Shazeer或许是一位精通时间旅行的专家。起初,我对他们的门控多层感知机持怀疑态度——记得在撰写第3.3部分时,由于这种机器学习模型导致训练过程不稳定,我对此深表怀疑。然而,在添加了Canon层之后,我的看法发生了转变——在第4.1部分,我们对比了传统多层感知机与门控多层感知机的性能,我对此深信不疑。
正式认识一下,沙哥是谁?
在Transformer的八位创作者中,他被誉为贡献最为突出的个体,他后来转而投身创业,创立了Character.AI,最终又被谷歌收购。
他并非是OpenAI的知名科学家,亦非DeepMind创始人那样频繁出现在公众视野中,然而,若是对当今LLM的核心技术进行深入分析,便会发现他所作出的基础性贡献实际上贯穿始终。
从那篇引用量超过17万次的论文《Attention is all you need》,到谷歌在早期研究中将MoE技术融入LLM,再到Adafactor算法的提出、多查询注意力的应用,以及Transformer模型中门控线性层(GLU)的引入……
有人不禁感叹,实际上,我们正身处一个以“Noam Shazeer”命名的时代之中。
因为如今主流模型架构的演变,就是在其奠定的基础上持续推进。
所以,他都做了什么?
Attention Is All You Need是其一
在人工智能这一领域,涌现出许多短暂的创新者,然而,真正能够持续塑造技术潮流的却寥寥无几。
沙哥显然属于这一类别,他的贡献不仅为现今的大语言模型打下了坚实的基础,而且每当技术面临难关时,他总能带来关键的突破。
其最具影响力的成果非2017年发表的《Attention Is All You Need》莫属。
2017年某日,在谷歌公司工作多年的沙哥,于办公楼的走廊中不经意间听到了Lukasz Kaiser、Niki Parmar、Ashish Vaswani等几位同事的交谈。
他们热烈地讨论着如何运用自注意力机制,沙哥立刻被这一话题所吸引,他感到这是一群充满智慧且富有创造力的伙伴,他们正在进行一项充满潜力的研究。
随后,沙哥在经过一番说服后,决定加入该团队,该团队在此之前已有七名成员,因此沙哥成为了第八位成员,同时也是该团队的最后一位成员。
然而,这位最后抵达的参与者,在短短数周之内,便依照个人见解,对整个项目代码进行了全新编写,成功将系统提升至更高层次,从而为Transformer项目拉开了激烈竞争的序幕。
沙哥才华横溢,却并未意识到这一点。直到在论文初稿中发现自己被标注为首位作者,他仍感到意外。
经过一番讨论,八位作者最终达成共识,决定摒弃传统的一作、二作以及通讯作者等学术排序规则,采取随机排列的方式,同时,在每位作者的名字后均添加星号标记,并在脚注中明确指出,他们均为该研究的平等贡献者。
众所周知,沙哥的加入对团队产生了至关重要的贡献。随后,论文《Attention Is All You Need》引发了广泛的关注和热议。
沙哥的恐怖之处在于,他似乎总能在行业之前数年洞察到技术发展的趋势,Transformer只是其中之一。
在《Attention Is All You Need》一书的周边,沙哥与图灵奖获得者Geoffrey Hinton、谷歌资深员工兼第20号员工Jeff Dean等三位知名学者共同完成了另一项具有显著影响力的研究成果——
《极度庞大的神经网络:稀疏门控混合专家层》。
在早期阶段,便为如今备受瞩目的新型架构Mixture of Experts(MoE)奠定了基础。
该研究创新性地采纳了稀疏门控混合专家模型,将MoE技术应用于语言建模及机器翻译领域,并构建了一种新型架构。在这个架构中,拥有1370亿参数的MoE模型通过卷积方式被嵌入到堆叠的LSTM层之间。
规模放在今天也是超大杯的存在。
尽管MoE的理念在上世纪90年代初便已提出,以Michael I. Jordan和Geoffrey Hinton等人的《Adaptive Mixtures of Local Experts》一文为代表,然而沙哥参与的研究通过动态激活子网络,使得模型能够超越更大规模参数的限制,从而激发了后续众多基于MoE的模型改进与创新的灵感。
且沙哥对MoE的探索远不止于此。
在2020年,谷歌在其论文《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中正式推出了GShard技术。
这种方案带来了一种简便的途径,通过微调现有的模型代码,便能够呈现多样化的并行计算形式。
GShard运用自动分片技术,成功将配备Sparsely-Gated Mixture-of-Experts的多语言神经机器翻译Transformer模型规模扩大,参数量已超过6000亿。
来年,该团队在Switch Transformers领域的研究中,融合了专家协同、模型并行以及数据并行的技术,对MoE的路由算法进行了简化,并推出了一个巨型Switch Transformer模型,其参数量高达1.6万亿。
不仅扩大了语言模型的规模,而且在该时期达到了比T5-XXL模型快四倍的处理速度。
模型规模的增大不仅为自然语言处理领域带来了新的发展机遇,同时也带来了训练阶段的不稳定性和微调阶段质量的不确定性等挑战。
在2022年,一部关于此问题的研究著作《ST-MoE: 构建稳定且可迁移的稀疏专家模型》正式发布。

此项目成功将ST-MoE-32B稀疏模型的参数规模提升至2690亿,其计算开销与参数量为320亿的密集型encoder-decoder Transformer模型相仿。
这林林总总一系列关键性进展的作者名单中,总少不了沙哥。
时间证明沙哥的预判是对的。
当前,GPT-4、DeepSeek系列、阿里Qwen3系列等主流模型,均是在继承和发展该系列研究理念的基础上,实现了MoE与Transformer架构的融合。
说沙哥踩在时代的命门上,不光靠这些。
为了克服大规模模型训练时内存资源紧张的问题,沙哥与其他研究者共同研发了Adafactor优化算法,这一算法在早期谷歌开发的大型模型,例如PaLM中,扮演了不可或缺的角色。
Multi Query Attention(MQA),一种针对大模型推理加速的技术,同样源自他的创作。
MQA这一概念首次在2019年由沙哥独立撰写的论文《Fast Transformer Decoding: One Write-Head is All You Need》中提出,论文的核心目标是针对Transformer在增量推理阶段存在的效率不高的问题进行解决。
此外,他还提出了一种名为Gated Linear Layer(GLU)的技术,该技术已被广泛采纳并应用于众多Transformer模型中。
GLU对Transformer架构进行了显著优化,它通过引入门控技术,能够根据输入信息动态调整信息的传递方式,进而更有效地识别数据中的复杂模式和相互依赖,增强了模型的表达能力。
这种调整机制对模型在处理长序列数据时具有显著优势,能够更高效地运用上下文信息。
网友如此评价,沙哥参与的研究项目通常以简单直接著称,对技术细节进行了详尽的阐述。尽管当时众人可能未能完全领悟其精妙之处,然而随着时间的推移,大家逐渐发现这些研究非常实用。
3岁自学算术,1994年IMO满分
沙哥的技术嗅觉,源自其近乎传奇的成长轨迹。
1974年,沙哥出生于美国,3岁就开始自学算术。
1994年,他参与了国际数学奥林匹克竞赛,经过九个小时的激烈角逐,最终荣获满分。这一壮举在35年赛事历史上尚属首次,值得一提的是,当年还有五名学生与他一同实现了满分的目标。
同年,沙哥进入杜克大学学习数学和计算机科学。
在杜克大学就读期间,沙哥作为该校代表队的成员,在多个数学竞赛中屡获殊荣。其中,1994年和1996年,他在普特南数学竞赛中分别取得了第6名和第10名的优异成绩。
本科毕业后,沙哥选择了UC伯克利继续深造,攻读研究生学位。然而,遗憾的是,他并未顺利完成学业。如今,在他的领英个人资料上,也仅显示了他所接受的本科教育背景。
千禧年钟声敲响之际,沙哥踏入谷歌大家庭,荣膺第200位员工,他凭借卓越才能,从一名普通的软件工程师成长为首席软件工程师。
在2001年,他参与研发的谷歌搜索引擎拼写修正功能正式投入使用,这标志着他早期职业生涯中的一个关键成就。
之后,他进一步研发了谷歌的广告平台PHIL,该平台具备筛选功能,能够确定在特定网页上投放哪些广告联盟的广告,并确保内容既恰当又相关,从而成为谷歌广告联盟体系中的关键组成部分。
2005年,他担任了谷歌广告文本排名团队的技术负责人;紧接着,2006年,他成功打造了谷歌首个基于机器学习的垃圾邮件识别系统;再后来,2008年,他又研发了一款用于对新闻报道进行排序的机器学习工具……
不一一点出来了,但说他在谷歌期间硕果累累,绝不为过。
尽管他在2009年至2012年间曾短暂地离开了谷歌,然而到了2021年,当他着手创立Character.AI时,他已经在谷歌度过了18个春秋。
自2012年重返谷歌并加入Google Brain项目以来,沙哥的工作热情更加高涨——
他将研究焦点转移至深度学习以及神经网络领域,于2016年成功实现了神经机器翻译(NMT)的实际应用,大幅提高了翻译效果;紧接着在2017年,发表了《Attention Is All You Need》这一著作。
去年八月,沙哥告别了创业之路,回归谷歌,担任了工程副总裁以及Gemini项目的联合技术主管之职,时至今日,他在谷歌的工作也将近满一年了。
真·谷歌人,谷歌魂。
这话千真万确,因为沙哥在创业的道路上,始终是与谷歌的同事们并肩作战,齐心协力,共同挥洒汗水。
有多么戏剧呢?
2021年的时光流转。那时,谷歌尚未对外公布由他与同事Daniel De Freitas共同研发的聊天机器人Meena以及其后续项目LaMDA。因此,沙哥与De Freitas果断选择与昔日的雇主告别,挥手作别。
他们经过一番商议,达成共识,决定深入研究更具针对性的高级智能技术,因此,全球范围内诞生了一家名为Character.AI的企业。
历经两年多的稳步发展,Character.AI凭借其多样化的AI角色吸引了超过两千万名用户。
2023年3月,Character.AI成功融资1.5亿美元,估值达到10亿美元,此轮融资由知名投资机构a16z领投,同时,GitHub的前首席执行官Nat Friedman、知名投资人Elad Gil、A Capital以及SV Angel等也参与了投资。
然而,自那以后,这家备受瞩目的AI领域的独角兽企业遭遇了重重挑战,其下一轮融资的进程一直受阻。据去年7月4日的消息,Character.AI正考虑将公司出售给谷歌或Meta。
八月份,所有纷争尘埃落定,谷歌以高达27亿美元的代价收购了Character.AI技术,同时盛情邀请沙哥重返公司,共同担任Gemini项目的联合领导者。
One More Thing
在OpenAI发展的初期阶段,有一位名叫沙哥的人担任了顾问的角色,而这个故事或许并不广为人知。
他曾极力推荐奥特曼来担任OpenAI的CEO。
以及另一件值得一提的事——
2020年,谷歌推出了名为Meena的聊天机器人,随后沙哥撰写了一封内部信件,标题为“Meena征服全球”。
关键结论在于,语言模型将不断以不同形式深入我们的日常生活,并在全球计算能力中占据领先地位。
参考链接:[1][2]
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.