震撼！无需依赖语言模型，豆包打破AI视觉次元壁-流量资讯—

首页 > 财经

震撼！无需依赖语言模型，豆包打破AI视觉次元壁

发布时间：2025-02-12 07:58:34 15次浏览

21世纪经济报道记者雷晨北京报道

继DeepSeek大模型之后，国产大模型再度实现突破。

2月10日，字节跳动豆包大模型团队公众号发文宣布，与北京交通大学、中国科学技术大学联合提出的视频生成实验模型“VideoWorld”，在业界首次实现无需依赖语言模型，即可认知世界。该项目代码与模型已开源。

据介绍，VideoWorld仅通过“视觉信息”，即浏览视频数据，就能让机器掌握推理、规划和决策等复杂能力。并且，在仅300M参数量下，VideoWorld已取得可观的模型表现。

近年来，字节跳动持续加码多模态技术研发，凭借其在视频、图像和文本等多领域的深度融合，为AI应用场景的拓展注入新动能。

多位机构分析师认为，随着技术门槛的降低和生态合作的深化，AI应用有望加速繁荣，赋能千行百业，开启智能化新时代。

用“眼”学习的大模型

VideoWorld的独特之处在于，它仅凭借“视觉信息”，也就是通过浏览大量的视频数据，就能让机器掌握推理、规划和决策等复杂能力。

在人工智能领域，以往的许多模型往往依赖语言模型或者标签数据来学习知识，例如Sora、DALL-E、Midjourney等，而VideoWorld打破了这一传统模式。

在模型构建方面，研发团队构建了视频围棋对战和视频机器人模拟操控两个实验环境。在训练过程中，VideoWorld模型通过“观看”包含大量视频演示数据的离线数据集来进行学习。其架构采用的是朴素自回归模型，主要包含VQ-VAE编码器—解码器和自回归Transformer架构。这种架构设计使得模型能够有效地处理视频数据中的时空信息，为后续的推理和决策提供基础。

然而，在研究初期，团队遇到了一个难题，即视频序列知识挖掘效率低于文本形式。为了解决这一问题，团队引入了潜在动态模型（LDM），该模型由以德国慕尼黑大学的研究团队为首的多个研究团队共同构建。LDM能够将帧间视觉变化压缩为紧凑的潜在编码，这不仅提升了知识挖掘效率，还能保留丰富的视觉信息，让VideoWorld可以捕捉视觉序列中的长期依赖关系，从而在长期推理和规划方面表现得更加出色。

据豆包大模型团队介绍，在不依赖任何强化学习搜索或奖励函数机制的前提下，VideoWorld达到了专业5段9x9围棋水平。

此外，VideoWorld还能够在多种环境中执行机器人任务。在机器人模拟操控实验环境中，它可以根据“观看”到的视频数据，学习如何控制机器人完成各种任务，如移动、抓取物品等。

“VideoWorld通过仅依赖‘视觉信息’的方式，让机器能够掌握推理、规划和决策等复杂能力，这无疑是人工智能技术在视觉学习领域的一次重要革新。”盘古智库高级研究员江瀚对记者表示。

不过，尽管VideoWorld在围棋和模拟机器人操控场景中表现卓越，但豆包大模型团队同时指出，在真实世界的应用中，它还面临高质量视频生成和多环境泛化等挑战。