电话:4008119163
关闭
您当前的位置:首页 > 职场资讯 > 职场攻略

北航提出专家协同框架,小尺寸大模型协同效果或优于巨无霸大模型

来源:网络整理 时间:2025-01-29 作者:佚名 浏览量:

具体来说,研究人员抽象总结了两类范式。

第一类是具体样例级的标签。

通过对评测榜单具体任务的一个测试样例进行测试,能够知晓待评测专家模型在这个测试样例上的执行情况。

第二类是科目级的标签。

评测榜单分层级评估大模型的不同能力,如数学、代码、物理等。

“我们可以把具体样例级的标签,看作团队成员在考试时做某道题的正确情况;而科目级的标签则看作团队成员具体的能力评价,如大学期间某门考试的评分或者某类考试的综合分。”黄雷说。

在此基础上,还存在一类必须考虑的问题,即如何评价该团队构建的专家协同模型是否优异。

原因在于,前文提到的路由是基于评测榜单训练的,假如研究人员也在这些评测榜单上评测专家协同模型,可能会导致后者产生过拟合评测榜单的风险。

因此,该课题组考虑了 Naïve 评测、分布内评测和分布外评测这三类评测方式,并通过实验发现,利用科目级的标签简单训练路由模型所构建的专家协同模型,在分布外评测下仍然优于单个最强的模型,这表明该模型具有较好的泛化能力。

不过,也要说明的是,在该研究中,研究人员给整个框架设定了一个基本假设:不存在一个专家模型在各方面都优于其他专家模型。

“我们认为这种假设是合理的,与‘三十六行,行行出状元;高矮胖瘦人,人人有长处’的古语非常相符。”黄雷说。

显然,这种基于专家协同并利用评测榜单来构建集成大模型 Bench-CoE 的方式,在大模型技术部署落地应用方面具有重大潜力。

首先,其训练成本非常低,仅用一块基础的图形处理器就能完成训练。

其次,Bench-CoE 在推理时强调,只选择一个小尺寸大模型去执行任务,开销要比那些“巨无霸”大模型小得多。

最后,由于借助评测榜单可以提前知晓这些小尺寸大模型的擅长之处,因此根据 Bench-CoE 的路由结果,可以比较清晰地知道所要执行的任务属于哪一类,从而能在一定程度上实现推理的可解释性。

而在目前研究的基础上,该课题组也计划进一步针对真实的应用场景构建 Bench-CoE。

例如,在专家模型层面,选择更具差异化、经过领域微调的小尺寸大模型;在路由训练层面,构建层次化路由,以实现输入数据的多模态性。

另外,他们还打算从机器学习的角度入手,更好地理解 Bench-CoE 的分布外泛化能力,并构建分布外泛化能力更强的路由算法。

参考资料:

1. Wang Y, Zhang X, Zhao J, et al. Bench-CoE: a Framework for Collaboration of Experts from Benchmark.arXiv:2412.04167, 2024.

排版:刘雅坤

客服服务热线
4008119163
24小时服务
微信公众号
手机浏览

Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40

地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com

Powered by PHPYun.

用微信扫一扫