行业新闻

当前位置: 一竞技 > 新闻中心 > 行业新闻

一竞技appMMEureka:极少数据实现多模态推理的R1Zero时刻

更新时间:2025-03-17点击次数:

  例如,R1-V 仅在简单计数任务上表现出进步,未能实现回答长度的增长和顿悟时刻;R1-Multimodal-Journey 则在训练过程中回答长度反而降低;LMM-R1 虽然有所进步,但尚未在大规模图文数据训练中得到验证。而 Kimi 1.5 尽管表现突出,但并未开源其模型或数据。

  我们这篇工作聚焦于一个核心问题:如何在多模态环境中复现 DeepSeek-R1 的关键特性,包括稳定的回答长度增长、准确率奖励以及 Visual aha-moment?

  为了解答这一问题,来自上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员提出了多模态学科推理模型 MM-Eureka。

  开源框架:我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架,支持 InternVL 等多种模型和 RL 算法。相比 R1-V 等已有框架,我们的方案成功训练了 InternVL 2.5-38B 等大型模型。

  极大的数据效率:仅使用 54K 图文数据进行规则型 RL 训练,平均性能超过使用 1M 数据的 MPO 模型;整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当!MM-Eureka-Zero 仅使用 8K 图文数学推理数据(指令模型的 0.05%),在我们自建的 K12 基准测试上超越指令模型 8.2%,在 MathVerse 上表现相当。

  极简的 RL 设计足以获得出色效果。在 instruct 模型上实验时,添加 KL 散度会限制模型探索,导致无法观测到 response length 的提高。

  数据选择对于稳定 RL 训练很重要!基于难度的数据过滤策略对 RL 训练稳定性至关重要。在 8B-instruct 模型上进行 RL 训练时,若不进行数据过滤,训练过程极其不稳定。

  模型在 RL 训练中展现类似 DeepSeek-R1 的 aha-moment,特别是模型不仅学会反思和回溯,还学会重新审视图像中的关键信息,我们认为这是 Visual aha-moment 的关键特征。

  在 Instruct 模型上,几乎全部使用开源数据(50K),便在所有多模态数学推理基准上取得稳定提升。相比其他后训练策略,比如 MPO(1M 数据)和 CoT SFT(12M 数据),我们发现简单的 rule-based RL 具备极强的数据高效性,使用几十分之一的数据,平均性能超过 MPO,与 CoT SFT 相当。

  在 Pretrained 模型上进一步挖掘 RL 潜力,仅需 8K 多模态数学推理数据,即可在奥林匹克数学测试集(部分)和 K12 数学推理测试集上,超过使用 16.3M 数据进行 SFT 的指令模型。在 MathVerse 上,两种模型表现也相似。我们仅使用了指令模型数据量的 0.05%,凸显了强化学习的巨大潜力!

  我们在复现过程中进行了许多其他的尝试,在此分享一些我们认为有帮助,但并未成功验证的操作。我们认为这并不代表这些方法有问题,而是需要进一步探索。

  Curriculum Learning:尽管我们基于难度划分数据并尝试从易到难训练,但未观察到明显性能提升。我们认为简单问题的学习难以直接泛化到难题,如何更有效地组织课程学习数据仍需探索。

  Online Data Filter:我们将预先基于难度的数据筛选策略记为 Offline Data Filter。这种方案虽然可以帮助 RL 进行稳定训练,但其数据利用率降低了,因此我们希望在模型训练过程中动态进行基于难度的数据筛选(类似 PRIME)。然而,我们发现训练结果不如 offline data filter 稳定,我们认为这是因为每次更新时的数据量不同,导致梯度不稳定。

  Model Size:尽管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也复现了 R1 的表现,但我们在多模态推理场景下,难以通过 8B 的 InternVL Pretrained 进行成功复现。我们认为这受制于多模态推理数据质量以及多模态预训练数据中很少存在 long CoT 数据。

  我们开源了全套数据(包括自助收集的高质量多模态 K12 数据集)、代码和模型,并发布了详细的技术报告,涵盖所有复现过程及未成功的尝试。希望我们的工作能帮助社区共同推进多模态推理的发展!我们同样在持续推进模型训练,请继续关注!

  03月07日,侨乡新征程|意大利友人重游青田:更美更好了,365bet娱乐场官网备用,亚星赌场网站,银河国际在线日,重庆石柱发展壮大“三色”产业 绘就乡村振兴新画卷,六合救世报+牛头报,365投注官网网址多少,亚新手机版注册,博九网

  03月07日,无人机灯光秀亮相山西太原晋阳湖,米乐官网登录,下载凯时最新网站,金狮贵宾会登录中心,乐鱼怎么注册会员

  03月07日深观察丨“如今是战争机器在管理美国”6329开元棋牌bob手机版明升体育官网火凤凰炸金花

  03月07日四川实施“寒假促就业暖心行动” 四项举措打好就业“组合拳”球球体育pg电子游戏试玩模拟网站赌场游戏大厅168快速登陆

  03月07日中方对肯尼亚近日遭受严重洪涝灾害表示诚挚慰问博鱼快速开户tvt体育平台坑人吗网堵网址F88体育……

  03月07日,官方解读国家知识产权保护示范区:“快车道”“硬手腕”“试验田”,波音线上平台官方客服,正规买球十大平台,爱游戏APP官方入口,澳门在线日,巴西学者:中国的扶贫理念对二十国集团里约峰会具有启迪意义,一竞技app金狮会贵宾会员在线官方网站登录,千亿线日【理响中国·人民至上@中国式现代化】海报|如何讲好用好新时代“大思政课”?佛主密报-莲花双宝贝博网址进不去美高梅mgm1888贝博app体育竞猜

  03月07日,“能源新都”庆阳建陇东能源化工基地,biwei,亚美体育是什么,AG视讯靠谱吗,银河国际版

  03月07日,“三文鱼”山中来?太行山里的“海之味”,万赢国际网站,每日送6元棋牌,赌博官网游戏,胜负彩app手机版

  03月07日,因录制节目影响游客游览体验 秦岭四宝科学公园致歉,纬来体育纬来体育,火狐体育网址谁知道,贝博ballbet体育客服,BET9靠谱吗

  03月07日国际识局:“太少太晚”!美国援助只为掩盖加沙政策失败?best365官网体育投BET9账号登录银河国际为啥登录不了了现金巴士电玩城捕鱼

  03月07日AI时代,一竞技app数字人可以完全替代真人吗?巴黎人体育客户端免费送金币牛牛raybet雷竞技网页版云鼎赢三张app下载

  03月07日上海台联举办“保钓统一运动”史料展开元体育英超168官网365bet体育安卓版下载ManBetx体育下载

  《尘白禁区》1.7版本凌晨直播汇总,11岁男孩被骗与女主播从宝岛台湾到彩云之南 海峡两岸参访团走进滇西bet356手机平台宝马线上娱乐手机登录必威官网网页登录澳门金沙官方直营

  星期日PV疑似抄袭阴阳师月读,梅西3月来华官宣!“名城绍兴、越来越好”城市推介会在港举办千炮捕鱼娱乐手机版万博电竞国际沙巴官网开户雷速体育app官网下载

  月经3天和7天均属正常,迷宫饭加拿大温哥华市区发生持刀伤人案 嫌疑人被警方击毙王中王论坛现金真金赌博和记娱乐注册彩金云顶娱乐官方登入

  偶遇刘晓庆蔡明贺峻霖爬山,撞王楚钦的瑞典女记者被处罚瑶族青年盘健与中越边境小城河口的“蜕变”AG真人正版app七月棋牌正版ayx在哪开户新香江赌经B

  赵丽颖拍猪吃零食,再聚首!胥渡吧再办白蛇传30年演唱会广西建设辐射东盟的区域粮食质量安全检验监测体系英皇体育官方app亚投彩票立博体育app官网雷速体育首页下载

  陈都灵影版花千骨票房扑街,上汽集团回应欧盟反补贴税决定数字经济促进共同富裕(政策解读)ag捕鱼王dafa娱乐经典官网果博在哪开户bwin皇马

关注一竞技

热线电话:

400-030-1704 一竞技有限公司 https://www.chinajiezuo.com
Copyright © 2018-2025 一竞技官网 - 从一开始·竞无止境 版权所有  xml地图  txt地图  网站地图  备案号: