震撼!无需依赖语言模型,豆包打破AI视觉次元壁

15次浏览

21世纪经济报道记者雷晨 北京报道B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

继DeepSeek大模型之后,国产大模型再度实现突破。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

2月10日,字节跳动豆包大模型团队公众号发文宣布,与北京交通大学、中国科学技术大学联合提出的视频生成实验模型“VideoWorld”,在业界首次实现无需依赖语言模型,即可认知世界。该项目代码与模型已开源。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

据介绍,VideoWorld仅通过“视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。并且,在仅300M参数量下,VideoWorld已取得可观的模型表现。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

近年来,字节跳动持续加码多模态技术研发,凭借其在视频、图像和文本等多领域的深度融合,为AI应用场景的拓展注入新动能。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

多位机构分析师认为,随着技术门槛的降低和生态合作的深化,AI应用有望加速繁荣,赋能千行百业,开启智能化新时代。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

用“眼”学习的大模型

VideoWorld的独特之处在于,它仅凭借“视觉信息”,也就是通过浏览大量的视频数据,就能让机器掌握推理、规划和决策等复杂能力。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

在人工智能领域,以往的许多模型往往依赖语言模型或者标签数据来学习知识,例如Sora、DALL-E、Midjourney等,而VideoWorld打破了这一传统模式。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

在模型构建方面,研发团队构建了视频围棋对战和视频机器人模拟操控两个实验环境。在训练过程中,VideoWorld模型通过“观看”包含大量视频演示数据的离线数据集来进行学习。其架构采用的是朴素自回归模型,主要包含VQ-VAE编码器—解码器和自回归Transformer架构。这种架构设计使得模型能够有效地处理视频数据中的时空信息,为后续的推理和决策提供基础。​B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,在研究初期,团队遇到了一个难题,即视频序列知识挖掘效率低于文本形式。为了解决这一问题,团队引入了潜在动态模型(LDM),该模型由以德国慕尼黑大学的研究团队为首的多个研究团队共同构建。LDM能够将帧间视觉变化压缩为紧凑的潜在编码,这不仅提升了知识挖掘效率,还能保留丰富的视觉信息,让VideoWorld可以捕捉视觉序列中的长期依赖关系,从而在长期推理和规划方面表现得更加出色。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

据豆包大模型团队介绍,在不依赖任何强化学习搜索或奖励函数机制的前提下,VideoWorld达到了专业5段9x9围棋水平。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

此外,VideoWorld还能够在多种环境中执行机器人任务。在机器人模拟操控实验环境中,它可以根据“观看”到的视频数据,学习如何控制机器人完成各种任务,如移动、抓取物品等。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

“VideoWorld通过仅依赖‘视觉信息’的方式,让机器能够掌握推理、规划和决策等复杂能力,这无疑是人工智能技术在视觉学习领域的一次重要革新。”盘古智库高级研究员江瀚对记者表示。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过,尽管VideoWorld在围棋和模拟机器人操控场景中表现卓越,但豆包大模型团队同时指出,在真实世界的应用中,它还面临高质量视频生成和多环境泛化等挑战。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

AI应用生态加速繁荣

近年来,字节跳动在多模态技术研发上持续加大投入,从2023年2月探索大模型,到8月开启“豆包”公测,再到2024年5月豆包正式对外服务并掀起大模型价格战,豆包大模型在全球范围内吸引了大量用户,在2024年11月的全球月活跃排行榜上位列第二。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

2月7日,字节跳动旗下即梦AI发布新功能上线预告片,展示了全新的多模态视频生成模型OmniHuman,仅需输入一张图片和一段音频,就能生成生动的AI视频。而VideoWorld的发布,进一步拓展了字节跳动在多模态领域的技术版图。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

豆包大模型团队还表示,VideoWorld项目代码与模型已开源。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

开源不仅是代码和模型的共享,更意味着构建一个创新生态。以往,开发大模型需要巨额资金投入、强大的算力支撑以及深厚的技术积累,这使得许多中小开发者和研究团队难以涉足。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而开源大模型的出现,打破了这一壁垒,降低了技术门槛,让更多的创新力量得以参与到大模型的开发与应用中。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

此前,在OpenAI毅然选择闭源策略后,众多大模型厂商纷纷跟风,闭源仿佛成了新的行业共识。而近期横空出世的DeepSeek却反其道而行之,将高性价比的R1模型开源。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

紧随其后,VideoWorld也选择开源,折射出中国AI产业从单一技术突破向应用生态构建的战略转向。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

可见,产业格局的变革已悄然启动。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

江瀚告诉记者,此次VideoWorld的推出将推动相关产业的快速发展。“例如,在自动驾驶、智能制造、智能安防等领域,VideoWorld的应用将极大地提升系统的智能化水平,推动相关产业的快速发展。”他表示。B5O流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:http://m.llsum.com/show-3-61439-0.html震撼!无需依赖语言模型,豆包打破AI视觉次元壁

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

25省份出台预制菜发展标准 上下游行业等待“国标”出台
  25省份出台预制菜发展标准 上下游行业等待“国标”出台  预制菜行业进入发展的快车道。  从2020年开始,预制菜概念逐渐走入大众视野,市场规模不断扩大。截至2022年,预制菜市场规模已突破4000亿元。到了2023年,政
春节假期中国跨区域人员流动量预计超23亿人次
  春节假期中国跨区域人员流动量预计超23亿人次  中新社北京2月17日电 (记者 刘文文)17日(正月初八)是中国龙年春节假期最后一天。来自2024年综合运输春运工作专班的最新数据显示,2月10日至17日(农历正月初一至初
河北高速养护分公司:春运鏖战风雪,又是一个不眠夜 
中国发展网讯 龙年首场强降雪来袭,2月20日上午,雄安分中心涞源养护队第一时间启动抗冰除雪保畅预案,在集中降雪前,提前进行一次有针对性、低剂量的融雪剂撒布工作,避免路面发生结冰现象,同时突出对重点路
亚布力对话|91科技集团许泽玮:AI将成职场必备技能
  中新经纬2月23日电 (王玉玲 刘雪玉)近期,美国开放人工智能研究中心(OpenAI)的文生视频大模型Sora一经推出,就引爆互联网。有业内人士认为,以Sora为首的多模态大模型,将带人类走向更超乎想象的地方。如何看待Sora的发
啤酒行业高端化方向不变 今年盈利水平有望提升
  啤酒行业高端化方向不变 今年盈利水平有望提升  证券时报记者 严翠  2023年,啤酒行业在存量博弈中保持了增长态势,截至目前,珠江啤酒、重庆啤酒、燕京啤酒等已悉数剧透2023年营收、净利润保持增长的经营业绩,此外
2023年市场监管部门检查涉企收费单位7.9万家
  2023年市场监管部门检查涉企收费单位7.9万家  本报讯 记者万静 近日国家市场监督管理总局对外披露数据显示,2023年我国各级市场监管部门共检查涉企收费单位7.9万家,罚没4.3亿元,退还企业21.6亿元。其中,检查政府部

热点精选

最新推荐

您可能感兴趣