美团 LongCat 团队发布 LongCat-Video 探索世界模型

美团longcat团队近日正式推出全新视频生成模型longcat-video,致力于通过视频生成技术路径深入探索“世界模型”的构建,为自动驾驶、具身智能等前沿应用场景提供坚实的技术支撑。

美团 LongCat 团队发布 LongCat-Video 探索世界模型

美团 LongCat 团队发布 LongCat-Video 探索世界模型

该模型基于DiT(Diffusion in Time)架构设计,创新性地以“条件帧数量”作为任务区分标准,原生支持文本生成视频、图像生成视频以及视频续写等多种模态任务,实现从输入到输出的完整闭环。模型可生成分辨率为720p、帧率达30fps的高清视频内容,并具备原生支持长达5分钟的长视频生成能力。通过多重技术创新,有效缓解了时序一致性与物理合理性的常见问题;同时,经过三重推理优化,整体推理效率相较基线提升达10.1倍。

美团 LongCat 团队发布 LongCat-Video 探索世界模型

其136亿参数规模的基座模型在文生视频和图生视频任务中表现卓越,达到当前开源领域的SOTA水平,在VBench等多项权威评测中成绩领先。全面评估结果显示,LongCat-Video在通用性能方面表现出色,综合能力位居开源模型前列:

  • 拥有136亿参数的视频生成基础模型,在文生视频与图生视频两大核心任务上,整体性能均达到现有开源模型中的顶尖水准;
  • 在文本-视频对齐、视觉质量、运动连贯性及整体观感四大维度的测试中,于文本匹配度、动态流畅性等关键指标上展现出明显优势;

美团 LongCat 团队发布 LongCat-Video 探索世界模型

美团 LongCat 团队发布 LongCat-Video 探索世界模型

目前,LongCat-Video模型已全面开源,发布于GitHub、Hugging Face等主流平台,面向全球开发者开放使用。

GitHub:https://www.php.cn/link/8e241a00e2905962b86a2e25a7945c70
Hugging Face:https://www.php.cn/link/1f7c4386bf2c9ff0400445c9e27a1594
Project Page:https://www.php.cn/link/13cd49fe3b1b37f47e6c20a256045cc1

网友留言(0 条)

发表评论