【资料图】
10月14日,小米和北京大学联合署名的论文发表于arXiv,曾被曝获小米集团创始人兼CEO雷军以高薪招募的DeepSeek"天才少女"罗福莉出现在论文通讯作者之列。但论文作者中并未标注罗福莉属于小米大模型团队。
罗福莉是95后,本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所。她曾在阿里巴巴达摩院主导开发多语言预训练模型VECO,2022年入职DeepSeek,参与了MoE大模型DeepSeek-V2研发。小米曾被曝以高薪挖角她,但双方至今未公开确认。
这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay(R3)。实验表明,R3在多步更新场景中,GRPO+R3平均得分68.05,比GSPO高1.29分;GSPO+R3进一步提升至69.00。在单步更新场景,R3在SFT模型上比TIS高5.58分,比基础模型高1.51分。所有组合方法全过程无崩盘,训练-推理KL散度始终较低,极端token比例减少一个量级。
强化学习已成为提升大语言模型能力的关键方法,但在MoE模型中,路由机制常引入不稳定性,甚至导致训练崩溃。R3的工作原理是在序列生成期间从推理引擎捕获路由分布,并直接重放到训练引擎中,显著缩小训练和推理之间的差距。实验显示,应用R3后,Qwen3-30B-A3B模型的训练-推理KL散度从1.5×10⁻³降至7.5×10⁻⁴,接近稠密模型的6.4×10⁻⁴水平。
R3的三大贡献是:系统识别和分析了MoE模型中训练和推理的路由分布差异;提出Rollout Routing Replay,重用推理时间路由分布协调训练和推理;在多种RL设置中应用R3,证明其优于GSPO和TIS。
R3同时适用于在线策略和小批量式离线策略强化学习场景。通过路由掩码缓存,R3能与多轮对话场景无缝集成,无需重新预填充。值得注意的是,R3与TIS组合并未带来明显性能提升,甚至可能降低性能,如SFT模型单小步设置下,TIS+R3比R3低1.69分,因为R3已显著降低了策略差异。
实验显示,R3具有更小的梯度范数、更平滑的序列增长和更稳定的熵,能更快捕捉优化方向。在训练开始时,生成序列长度迅速上升,表明R3能快速捕捉优化方向,而其他方法在80步后才缓慢上升,波动明显。
R3的提出为MoE模型训练提供了新思路,通过解决路由分布不一致这一根本问题,实现了训练稳定性与性能的提升,为MoE模型在强化学习中的应用提供了重要支持。
[责任编辑:linlin]
淘宝闪购双十一首日超市便利订单同比增670%_每日看点
焦点简讯:小米"天才少女"罗福莉发论文,破解强化学习崩溃的关键方法,可显著缩小训练-推理差异
每日快讯!蚂蚁集团在西安成立蚂蚁星服科技公司 注册资本1000万
科大讯飞在无锡成立信息科技新公司 注册资本3000万 焦点讯息
美股异动|甲骨文涨2.6%,与微软合作帮助制造商提高供应链效率
通讯!微信更新解限!界面变、功能强、不后悔
聚焦:李想:到2030年可能会出现超越苹果的智能汽车企业
每日关注!汇丰银行将英伟达目标价格从200美元大幅上调至320美元
当前看点!美股异动丨阿里巴巴盘前涨超2% 天猫双11今晚8点开启
看热讯:快克智能(603203.SH):间接服务特斯拉和英伟达
苹果 CEO 库克现身北京,同开发者散步聊天
天天资讯:汇丰研究:升百度目标价至100.4港元 维持“持有”评级