小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。

小米AI实验室研究员罗福莉近日发表新论文,聚焦Agent强化学习资源效率优化。

这篇名为《ARL-Tangram:UnleashtheResourceEfficiencyinAgenticReinforcementLearning》的研究,由罗福莉参与署名,提出了一种创新系统Tangram,旨在显著改善AIAgent在强化学习训练过程中的资源利用情况。

近年来,AI领域正从单纯的模型时代逐步转向Agent时代。传统大模型主要依赖输入-模型-输出的简单结构,核心资源集中在GPU上,竞争焦点围绕参数规模、数据质量和算力展开。然而,随着Agent技术的兴起,系统复杂度大幅增加。Agent不再局限于单次推理,而是通过多步循环实现复杂任务,例如思考、工具调用、代码执行、结果验证等,整个流程涉及GPU推理、CPU计算、API交互、网络传输等多种异构资源。

这种转变使得资源调度成为关键挑战。过去的方法往往采用静态分配,导致部分资源长期闲置,整体效率低下。罗福莉等人的工作正是针对这一痛点,引入动作级精细化调度机制,类似于操作系统中的进程管理,但更适应Agent的动态特性。只有在具体动作需要某种资源时,才进行分配,从而实现多任务间的资源共享与弹性扩展。

实验验证显示,这种方法在真实Agent强化学习任务中带来明显改善:任务平均完成时间大幅缩短,训练步进效率得到提升,外部资源消耗显著降低。对于大规模Agent训练的团队而言,此类底层优化有助于降低整体成本,推动技术向更实用方向演进。

展望未来,随着OpenClaw、ClaudeCode、Devin等框架的快速发展,Agent系统能力已成为行业新焦点。罗福莉的研究为这一浪潮提供了重要底层支撑,标志着AI竞争从模型参数转向完整系统工程能力。 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术

这一进展不仅体现了小米AI实验室在Agent方向的深耕,也反映出国内研究者在全球AI前沿的积极贡献。未来,类似优化有望进一步加速Agent从实验室走向实际应用的进程。 小米AI研究员罗福莉新作问世,Tangram系统破解Agent强化学习资源瓶颈。 IT技术