电话:4008119163
关闭
您当前的位置:首页 > 职场资讯 > 职场攻略

Transformer八子之一沙哥为何总能出现在AI界大小突破背后?

来源:网络整理 时间:2025-05-10 作者:佚名 浏览量:

西风 衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

近期,网友们纷纷向Transformer家族中的成员Noam Shazeer(为了便于阅读,我们暂且称他为沙哥)提出了一个深具哲思的问题。

特别是近期,Meta FAIR的研究员朱泽园公布了他们《Physics of Language Models》项目的多项最新成果,随后有网友注意到,其中所提及的3-token因果卷积相关内容,实际上沙哥等人早在三年前就已经进行了相关研究。

是的,“”。

只需浏览他的职业经历,便能轻易察觉,在人工智能领域,无论是何种规模的突破,他的名字总在其中。

“不是搞个人崇拜,但为什么总是Noam Shazeer?”

网友称右下角沙哥图由GPT-4o生成

朱泽园也自己也站出来表示,沙哥成果超前:

正式认识一下,沙哥是谁?

他被视为Transformer团队中贡献最为显著的成员,后来又投身于Character.AI的创业之路,最终又被谷歌公司收购。

他并非是OpenAI的知名科研人员,且不像DeepMind的创始人那样频繁出现在公众视野中,然而,若我们深入探究当前大型语言模型(LLM)的核心技术,便会发现他所作出的基础性贡献始终如一,贯穿其中。

从那篇被引用超过17万次的《Attention is all you need》论文,到谷歌在早期研究中将MoE融入LLM,再到Adafactor算法的提出、多查询注意力的应用,以及Transformer模型中使用的门控线性层(GLU)……

有人不禁感叹,实际上,我们现今正身处一个以“Noam Shazeer”命名的时代之中。

因为如今主流模型架构的演变,就是在其奠定的基础上持续推进。

所以,他都做了什么?

Attention Is All You Need是其一

在人工智能这一领域,虽然涌现出许多昙花一现的创新者,然而真正能够持续塑造技术潮流的人却极为罕见。

沙哥显然是这一类人中的典型代表,他所从事的工作不仅为当前主流的大语言模型打下了坚实的基础,而且在技术遭遇难题时,他总能给出关键的解决方案。

其最具影响力的成果非2017年发表的《Attention Is All You Need》莫属。

在2017年的某日,已在谷歌工作多年的沙哥,在办公楼的走廊中不经意间听到了Lukasz Kaiser、Niki Parmar、Ashish Vaswani等几位同事的交谈。

他们热烈地讨论着如何运用自注意力机制,沙哥立刻被这种讨论所吸引,他发现这些人是充满趣味的智者,正在从事一项充满潜力的研究。

随后,沙哥在说服之下加入了该团队,这个团队原本已有七人,他成为了第八位成员,同时也是该团队的最后一位成员。

然而,这位最后抵达的参与者,在短短数周时间里,便依据个人见解,对整个项目代码进行了全新编写,成功将系统推至更高层次,从而为Transformer项目的冲刺阶段拉开了帷幕。

沙哥才华横溢,却对自己的能力缺乏认识。直到在论文初稿上看到自己的名字被标注为首位作者,他仍感到出乎意料。

经过一番讨论,八位作者最终达成共识,决定摒弃传统的一作、二作及通讯作者等学术排序规则,采取随机排列的方式,同时,在每位作者姓名之后均添加星号标记,并在脚注中明确指出,所有作者均对研究工作做出了同等重要的贡献。

众所周知,沙哥的加入对于团队起到了至关重要的作用。随后,论文《Attention Is All You Need》引发了极大的关注和热议。

沙哥的恐怖之处在于,他似乎总能在行业之前数年洞察到技术发展的趋势,而这并不仅仅局限于Transformer这一领域。

在《Attention Is All You Need》这部作品的前后,沙哥不仅作为主要作者之一,还与图灵奖获得者Geoffrey Hinton以及谷歌的资深成员、编号为20的员工Jeff Dean等人共同完成了一项具有显著影响力的研究成果——

《对极端庞大神经网络的研究:稀疏门控混合专家层》

在早期阶段,就已经为如今备受瞩目的新型范式Mixture of Experts(MoE)奠定了基础。

该研究巧妙地采纳了稀疏门控混合专家模型,将混合专家模型应用于语言建模及机器翻译领域,并设计了一种新型架构。在这个架构中,拥有1370亿参数的MoE模型通过卷积方式被嵌入到堆叠的长短期记忆网络层之间。

规模放在今天也是超大杯的存在。

尽管MoE的概念在上世纪90年代初便已由Michael I. Jordan、Geoffrey Hinton等学者在《Adaptive Mixtures of Local Experts》一文中提出,然而沙哥参与的研究通过引入动态激活子网络,使得模型能够处理更大规模的参数,这一突破为后续基于MoE的模型改进和创新提供了灵感。

且沙哥对MoE的探索远不止于此。

在2020年,谷歌在其论文《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中,正式提出了GShard这一概念。

这种方案带来了一种流畅的处理手段,通过微调既有的模型代码,便能够展现多样化的并行计算策略。

GShard利用自动分片技术,成功将搭载Sparsely-Gated Mixture-of-Experts的多语言神经机器翻译Transformer模型,其参数规模扩展至超过6000亿个。

在来年,通过整合专家协同、模型并行以及数据并行的技术,对MoE的路由算法进行了简化,并成功构建了一个规模庞大的Switch Transformer模型,其参数量高达1.6万亿。

不仅扩大了语言模型的规模,同时也在那个时期达到了比T5-XXL模型快四倍的处理速度。

模型规模的增大不仅为自然语言处理领域带来了新的发展机遇,同时也带来了训练阶段的不稳定性和微调阶段质量的不确定性等挑战。

在2022年,关于这一课题的研究成果——《ST-MoE:构建稳定且可迁移的稀疏专家模型》正式发布。

此项目将ST-MoE-32B稀疏模型的参数量提升至2690亿,其计算开销与参数量为320亿的密集型encoder-decoder Transformer模型相仿。

一个「always」站在大模型技术C位的传奇男子_一个「always」站在大模型技术C位的传奇男子_

这林林总总一系列关键性进展的作者名单中,总少不了沙哥

时间证明沙哥的预判是对的。

目前,GPT-4、DeepSeek系列、阿里Qwen3系列等主流模型,均是在借鉴了该系列研究成果的基础上,将MoE与Transformer架构进行了有效融合。

说沙哥踩在时代的命门上,不光靠这些。

为了克服大规模模型训练时内存资源紧张的问题,沙哥等人共同研发了Adafactor优化算法,这一算法对于早期谷歌开发的大型模型,如PaLM,起到了不可或缺的作用。

Multi Query Attention(MQA),这一针对大模型推理加速的技术,同样源自他的创造。

MQA这一概念首次在2019年由沙哥独立撰写的论文《Fast Transformer Decoding: One Write-Head is All You Need》中提出,论文的目标是针对Transformer在增量推理过程中存在的效率不高的问题进行解决。

此外,他还提出了Gated Linear Layer(GLU),这一层结构已被广泛采纳并应用于众多Transformer模型中。

GLU为Transformer架构注入了显著的优化,它通过引入门控机制,能够根据输入信息灵活地调整信息流动,进而更有效地揭示数据中的复杂模式和相互依赖,增强模型的表达能力。

这种模型具备的灵活调整功能,对于处理较长的数据序列大有裨益,能够更高效地运用语境中的相关信息。

网友这样评价,沙哥参与的研究项目多采用直接了当的方式,对技术细节进行了详尽的阐述。起初,众人或许难以完全领悟其深意,然而随着时间的推移,大家逐渐发现这些研究非常实用。

3岁自学算术,1994年IMO满分

沙哥的技术嗅觉,源自其近乎传奇的成长轨迹。

1974年,沙哥出生于美国,3岁就开始自学算术。

1994年,他参与了国际数学奥林匹克竞赛,在经过九个小时的激烈角逐后,荣获了满分的优异成绩。这一成就,在35年的赛事历史上,还是头一回有选手能够实现(与此同时,还有五名学生也取得了满分的好成绩)。

同年,沙哥进入杜克大学学习数学和计算机科学。

在杜克大学求学期间,沙哥作为该校代表队的成员,在众多数学竞赛中屡获佳绩。例如,他在1994年和1996年的普特南数学竞赛中分别取得了第6名和第10名的优异成绩。

本科毕业后,沙哥选择了前往加州大学伯克利分校继续深造,攻读研究生学位。然而,遗憾的是,他并未能够顺利完成学业。即便是在他的领英个人资料上,目前也仅显示了他所接受的本科教育背景。

随着千禧年的降临,沙哥加盟了谷歌,成为了该公司的第200位员工,他凭借着不懈的努力,从一名普通的软件工程师逐步晋升至首席软件工程师的职位。

在2001年,他参与研发的谷歌搜索引擎拼写纠错功能正式投入使用,这一成果标志着他早期职业生涯中的显著成就之一。

随后,他进一步研发了谷歌的广告平台PHIL,该平台具备筛选功能,可在特定网页上挑选合适的广告联盟广告进行展示,并有效规避不适宜或无关的内容,从而成为谷歌广告联盟体系中的关键组成部分。

2005年,他担任了谷歌广告文本排名团队的技术负责人;紧接着,2006年,他成功打造了谷歌首个基于机器学习的邮件检测系统;再后来,2008年,他又研发了一款针对新闻文章排名的机器学习工具……

垃圾

不一一点出来了,但说他在谷歌期间硕果累累,绝不为过。

尽管他在2009年至2012年间曾短暂地离开了谷歌,然而到了2021年他创立了Character.AI之际,他已在谷歌服务了整整18年。

自2012年重返谷歌并加入Google Brain项目以来,沙哥的工作热情愈发高涨——

他将研究重点转移至深度学习和神经网络领域,2016年成功实现了神经机器翻译(NMT)的实际应用,大幅提高了翻译效果;随后在2017年,他发表了《Attention Is All You Need》一文。

去年八月,沙哥告别了创业之路,重返谷歌,接任工程副总裁及Gemini项目的联合技术主管之职;如今,他在谷歌的工作已接近一年。

真·谷歌人,谷歌魂。

此言非虚,毕竟沙哥在创业的道路上,始终是与谷歌的同事们并肩作战,齐心协力,共同挥洒汗水。

有多么戏剧呢?

2021年,时光倒流。那时,谷歌尚未对外公布由沙哥与Daniel De Freitas共同研发的聊天机器人Meena及其后续项目LaMDA。因此,沙哥与De Freitas毅然决然地告别了他们的前雇主,挥手道别。

他们经过一番商议,决定深入探索更具有针对性的超级智能技术,因此,全球范围内诞生了一家名为Character.AI的新公司。

经过超过两年的成长,Character.AI凭借其丰富的AI角色种类,成功吸引了超过2000万的用户加入。

2023年3月,Character.AI成功融资1.5亿美元,估值达到10亿美元,由知名投资机构a16z领投,同时GitHub前首席执行官Nat Friedman、知名投资人Elad Gil、A Capital以及SV Angel等共同参与投资。

然而,自那时起,该明星AI独角兽企业遭遇了挑战,后续的融资计划一直进展缓慢。去年7月4日,有关Character.AI正考虑将其出售给谷歌或Meta的消息被披露。

八月份,所有纷争得以平息,谷歌以27亿美元的天价收购了Character.AI的技术,同时热切地欢迎沙哥重返团队,并由他携手共同执掌谷歌的Gemini项目。

One More Thing

在OpenAI发展的初期阶段,有一位名叫沙哥的顾问,他的存在或许并不广为人知。

他曾极力推荐奥特曼来担任OpenAI的CEO。

以及另一件值得一提的事——

在2020年,谷歌推出了其聊天机器人Meena,随后沙哥撰写了一封内部邮件,该邮件题为“Meena征服全球”。

其中的关键结论是:

[1]

[2]

客服服务热线
4008119163
24小时服务
微信公众号
手机浏览

Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40

地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com

Powered by PHPYun.

用微信扫一扫