2026年6月25日,美团LongCat团队在GitHub上开源了LongCat-Next原生多模态模型。LongCat-Next的核心创新在于其"原生多模态"的架构理念——不是像传统方案那样将文本、视觉和语音模块简单拼接,而是从底层架构设计上就将多种模态视为统一的"原生语言",实现跨模态信息的深度交融。
具体来说,LongCat-Next采用了一种统一的Transformer骨架,所有模态的输入都被编码为共享的隐空间表示。视觉Token、语音Token和文本Token在同一个注意力计算图中进行交互,不存在任何模态之间的"翻译误差"。这一设计与Google Gemini系列的"原生多模态"路线有异曲同工之妙,但在实现细节上进行了多项创新优化。
LongCat-Next在物理世界理解任务上表现出色。在室内场景理解测试中,模型能够同时分析视觉场景(如家具布局、物体位置)和语音指令(如"把冰箱上的红色杯子拿过来"),并生成精确的空间操作指令。在扩展现实(XR)场景中,模型能够实时理解用户的语音命令和手势动作,实现自然的人机交互。
同日,美团LongCat团队还发布了WBench基准测试框架——业界首个专为交互式视频世界模型设计的系统性多轮评估基准。WBench被设计为AI世界模型的"CT扫描仪",能够精确定位当前世界模型从被动视频生成过渡到主动用户驱动交互时的局限性和瓶颈。
WBench的测试场景包括月球漫步、网络城市环境等高度复杂的虚拟环境。在这些场景中,AI需要理解三维空间的物理规则(如重力、碰撞、光照),并根据用户的实时指令修改环境状态。例如,在月球漫步场景中,模型需要模拟月球低重力环境下的物理运动,并根据用户"向左转30度然后跳跃"的指令生成符合物理规律的交互式视频响应。
测试结果表明,当前主流的世界模型在交互式场景下的表现远不如在被动视频生成场景下的表现。所有被测试模型在"物理一致性保持"维度上的得分都低于50%,这意味着当用户主动与虚拟环境交互时,模型对物理规律的理解和保持能力还远远不够。WBench的发布为这一领域提供了清晰的技术路线图。
美团LongCat团队同时开源了AIGC海报生成框架,这是一套基于"生成-编辑-评估"闭环的完整技术系统。与市面上的AI海报生成工具不同,这一框架在自动化生成的基础上,引入了专业的质量控制机制。该框架已经部署在美团外卖等高流量商业场景中,每天处理超过50万张海报的自动生成任务。
框架的工作流程包含三个关键环节:生成环节——基于多模态提示词(文字描述+参考图+品牌规范)生成初始海报设计方案;编辑环节——利用局部条件控制技术对生成结果进行精细化调整,支持元素级别(如替换某个商品图片)、风格级别(如调整色彩方案)和布局级别(如重新排列信息层次)的多层次编辑;评估环节——通过训练的美学评分模型对生成海报进行自动质量评估,不合格的自动打回重生成。
据美团官方数据,这一框架的上线将商业海报的设计周期从平均3天缩短到了3小时,设计成本降低超过80%。同时,框架还内置了AB测试功能,可以根据不同用户群体的点击率和转化率数据自动优化设计方案,形成了持续迭代的学习循环。
美团LongCat团队在计算语言学顶会ACL 2026上的表现同样令人瞩目——6篇研究论文被大会接收,涵盖大模型评估、复杂过程推理、竞赛级数学思维优化、强化学习优化和生成式推荐系统等前沿方向。ACL是自然语言处理领域的顶级国际会议(CCF A类),6篇论文的集中接受代表了国际学术界对美团AI研究实力的高度认可。
其中,关于"General 365推理基准"的论文最受关注。论文详细阐述了General 365的设计理念、测试方法论和实验结果,为评估大模型的推理能力提供了新的理论框架。另一篇关于"长周期任务规划"的论文提出了一种基于分层强化学习的任务分解方法,使AI能够更有效地处理需要数百步操作才能完成的复杂任务。
值得注意的是,美团LongCat团队在ACL 2026上展示的研究工作呈现出明显的"应用驱动"特征——大部分研究方向都与实际业务场景密切相关。这表明美团的AI研究不是纯粹的学术导向,而是产学研紧密结合的典范。通过持续的技术积累和开源共享,美团正在从"消费互联网巨头"向"AI技术输出者"的战略转型中稳步前进。
来源:美团LongCat GitHub、ACL 2026论文集、机器之心、雷锋网、TechCrunch
发布时间:2026-06-26