2016年,他从中科大毕业后,孤身一人踏上了前往美国伊利诺伊大学厄巴纳-香槟分校深造的旅程,在那里攻读博士学位。他有幸成为AI视觉领域一代华人宗师黄煦涛的弟子,这段经历为他打下了坚实的学术根基。
黄煦涛,即托马斯·黄(Thomas S. Huang),身为美国工程院院士,同时亦荣获中国工程院外籍院士和中国科学院外籍院士的荣誉。在计算机视觉、模式识别、多媒体等众多领域,他堪称我国最资深且杰出的华人科学家之一。
黄煦涛老师从事教育工作已有五十七载,期间他培育了众多AI领域的杰出人才,例如云从科技的创始人兼首席执行官周曦先生、文远知行公司的创始人兼首席执行官韩旭先生,以及知名AI专家颜水成博士等。
仅仅依靠名师的指导是不够的,真正让余家辉在众人中脱颖而出的,是他所拥有的广泛跨平台的工作经历。
在加盟谷歌之前,他先后在微软亚洲研究院、旷视科技研究院、Adobe公司、Jump Trading(一家顶尖的量化交易公司)、Snap(一家知名的社交媒体企业)、百度美国研发机构以及英伟达等知名企业实习,涵盖从基础架构到高效算法,再到视觉技术的多个领域,四年间共进行了七段实习,这段经历为他积累了宝贵的实战经验。
2019年5月进入谷歌,一待就是4年多时光。
余家辉博士在完成学业的那年,遭遇了不幸,他的导师黄煦涛不幸去世。然而,在谷歌,他邂逅了另一位对他人生影响深远的技术导师——吴永辉。
他们频繁协作,配合无间,共同推出了多篇在行业内具有重大影响力的学术成果。
左为吴永辉,右为余家辉
吴永辉,一位谷歌Fellow级别的杰出人物,同时也是南京大学的校友,他的博士学位是在加州大学河滨分校取得的。在谷歌,他专注于人工智能领域的研究,至今已有近17年的深厚积累。
特别值得关注的是,在今年的2月份,吴永辉从谷歌离职,转而加入了字节Seed,并致力于大模型基础领域的研究工作。
得益于贵人的指导,余家辉迅速崛起,成为谷歌DeepMind团队的中坚力量。在离开谷歌之际,他已担任Gemini多模态项目的联合主管,并且是PaLM-2模型的重要贡献者。
参与谷歌此类高阶项目,表明他不仅拥有卓越的研究才能,而且积累了丰富的规模化工程执行经验。
2023年10月,余家辉加入OpenAI,并担纲感知团队的主导。在短短不到两年的时光里,他带领团队成功研发了40、4.1、03、04-mini等多个备受瞩目的模型,并专注于它们的多模态功能。
今年四月,余家辉在平台上展示了他们取得的重大技术进展——o3和o4-mini模型,这些模型在当时被认为是OpenAI旗下“最为智能且功能强大的模型”。
由于上述种种丰富的经历,余家辉成为了寥寥无几的能够掌握谷歌与OpenAI技术路径的研究者之一,他对这两家公司的工程理念、技术特长以及战略发展方向有着深刻的理解。
对于亟需在人工智能领域实现突破的Meta公司而言,这样的环境无疑是其战略性的资源。
在某种程度上,扎克伯格所看重的不仅是其个人价值,余家辉犹如一棵茂盛大树的关键枝节,凭借其多样的身份,能够吸引并汇聚众多杰出人才投身Meta,追随他的步伐。
技术影响力的硬指标
余家的简历虽然光鲜,然而真正使他在人工智能领域确立地位并稳固立足点的,乃是他所具备的技术创新方面的扎实能力。
数字不会撒谎:34780次引用。
余家辉在谷歌学术平台上的论文被引用次数虽然与Geoffrey Hinton、LeCun、李飞飞等业界泰斗相比有所差距,但在人工智能这一领域,他的影响力依然不容小觑。
他的多篇文章已成功刊登于CVPR、ICCV、ECCV、ICML等国际顶尖的人工智能学术会议。
而真正让硅谷巨头们在意的,是这些研究背后的实用价值。
DeepFill技术攻克了图像修复领域的核心挑战。在黄煦涛的悉心指导下,余家辉分别于2018年推出了DeepFill v1版本,并在2019年发布了DeepFill v2版本,这些成果使得人工智能能够深入理解图像的内涵,而不再是仅仅进行像素的简单填充。
这项技术在图像修复领域实现了重大进展,其影响力在GitHub上得到了3409次的高度认可,不仅学术界,工业界亦深受其益。
举例来说,借助DeepFill v2,您便可以凭借人工智能技术随心所欲地对图片进行编辑处理。
右边那个骑车的人,被擦掉了
同样在业界享有盛誉的还有Conformer模型,该模型是在Transformer架构的基础上进行优化和发展的,它标志着语音识别技术的重大突破。这一成果是由余家辉和吴永辉两位研究者共同研发而成的。

设想一下,当您与手机中的语音助手交谈时,若周围环境嘈杂,它往往难以辨识您的语音;若您语速加快或带有地方口音,它可能完全无法理解;观看视频时,自动生成的字幕常常出现错误;使用语音输入法时,常常出现拼写错误,您不得不频繁进行更正……
Conformer模型的问世,旨在高效地解决上述种种问题。
除此之外,余家辉与吴永辉合力研发的CoCa图文基础模型(发表于2022年,被引用1752次)使得计算机能够更加深入地理解图像与文本之间的内在联系,这一进展极大地促进了多模态人工智能技术的进步,特别是在图像识别、信息检索以及生成描述性内容等方面展现出广阔的应用潜力。
余家辉在计算机视觉、多模态信息处理、语音识别以及神经网络架构等多个AI子领域均有深入研究,并且这些成果和经验已成功应用于实践,因此他被誉为一位难得的“全栈AI科学家”。
然而,相较于以往的技术成就,更令业界瞩目的,或许是余家辉对人工智能未来走向的精准洞察。
比市场早一步的技术判断
在GPT尚未在全球范围内引发轰动之际,他已显现出超越同辈的技术洞察力。
2022年12月,余家辉在「硅谷101」播客中提出的见解,如今审视,几乎每一句话都得到了事实的印证。
面对引起全球轰动的GPT,他表现出了非凡的镇定:“起初并未感到特别惊讶,因为OpenAI在语言生成模型领域已经深耕细作多年。”
这种评估源于对技术演进历程的深刻洞察,以及他一贯秉持的审慎与理性态度。众人眼中是突如其来的爆发,而他的眼中却显现出一种逐步累积的趋势。
当被问及GPT是否能够取代谷歌搜索时,他作出了“降维打击”的论断。聊天机器人并非单纯的产品替代品,而是对交互方式的全新定义。事实上,GPT已经成功开创了全新的人机交互模式。
关于业界十分流行的“大力出奇迹”观点,他当时直接反驳:
起初,你可能以为只要有数据支撑和强大的计算能力就足够了,然而实际操作时却发现,问题接踵而至,层出不穷。
这一观点现已普遍被业界接受。资金与图形处理器固然重要,但工程实力、人才队伍建设以及技术沉淀才是决定性的要素。
余家辉当时归纳出的OpenAI取得成就的四大关键因素,包括时间的沉淀、人才的集聚、组织的积累以及自信的累积。
该理论目前已普遍被视为AI企业取得成功的核心要素,尤其是其中的“组织积累”理念,预示了众多企业随后对AI团队结构的优化与变革。
在商业发展的道路上,他亦表现出了超前的洞察力:长远来看,真正的机遇蕴藏在基础设施建设之中,而真正具有商业潜力的则是应用领域。
中美科技巨头正大力投资于基础设施建设,这一举措使得我们观察到,众多人工智能应用正迅速出现并体现出其实用价值。
而这,还只是他极少数公开发声中的吉光片羽……
在人工智能发展的下半阶段,具备精准判断能力的人才显得尤为宝贵。那些能够洞察技术发展本质轨迹的人,将在这场无声的竞争中赢得主动。
小扎求贤心切,余家辉此刻被Meta选中不是偶然,而是必然。
在人工智能军备竞赛领域,Meta的表现显然处于劣势。与此同时,OpenAI和Google正全力以赴地推进通用人工智能(AGI)的研发。然而,Llama 4的表现并未达到预期目标,而Meta目前甚至无法拿出一个具有竞争力的大型模型。
新成立的超级智能实验室拥有50名成员,由前Scale AI首席执行官Alexandr Wang担任领队,致力于研发新一代模型,旨在履行“为每个人打造专属超级智能”的承诺——这将是Meta抓住最后机会的关键时刻。
Meta购买的并非单一员工,而是获取通往通用人工智能领域门票的钥匙。
对于余家辉而言,踏上Meta的新征程可能充满“令人振奋且具有深远意义”,这与他先前对离任OpenAI同仁的祝福不谋而合。
硅谷的人才争夺战持续进行,显而易见,华人正逐渐成为这场竞争的核心力量。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.