编者按:2024渐行渐远,2025源源而来。各行业如何应变局,如何开新局?中新经纬广邀经济学者,梳理过去关键事件,展望新年潜在机遇,以期为您提供有价值的参考。
中新经纬12月26日电 (袁媛)2024年被称为AI(人工智能)元年。在这一年里,关于AI的大事件不绝于耳:诺贝尔物理学奖颁发给AI领域科学家,英伟达市值一度超越苹果、微软,苹果推出Apple Intelligence AI系统等等。
而在AI大模型方面,最主要事件则是OpenAI推出多模态大模型ChatGPT-4o,这一版本具有实时处理和生成文本、音频以及图像等多种模态的能力,被誉为技术上一个巨大突破。
事实上,中国在AI大模型方面也已有足够竞争力。有数据显示,中国在2024年自然指数科学贡献榜单上名列前茅,而且2014年至2023年,中国生成式AI专利申请量居全球第一。此外,2024年中国生成式AI领域的私人投资较上一年增长更为显著。
而智源研究院近日发布最新一期FlagEval大模型评测。结果显示,2024年下半年,国内大模型发展更聚焦综合能力提升与实际应用,其中,多模态模型发展迅速,涌现了不少新的厂商与新模型。
国内厂商“全面开花”
对于国内大模型的发展趋势,智源研究院智能评测组负责人杨熙表示,中国的AI模型厂商已经在特定领域形成了一定优势。“国产模型在安全评测和用户体验优化方面的表现尤为突出,尤其是在用户意图识别和适应性调整上,国内厂商具备较大的竞争力。”
具体来看,语言模型主观评测显示,目前针对一般中文场景的开放式生成任务,各大模型表现已趋于饱和。字节跳动、百度等国产模型表现优异。不过,在逻辑推理、观点表达等维度,国内厂商仍需进一步与国际巨头看齐。此外,多模态模型发展迅速,特别是在视觉语言模型和文生图、文生视频等方向上取得突破――开源模型如阿里巴巴的Qwen系列在某些任务上表现出色。
随着AI模型能力的提升,隐私保护和安全问题日益成为业界关注的焦点。杨熙指出,在评测中,智源团队特别设计了“引诱问题”,以测试模型在隐私保护和数据安全方面的表现,结果显示,国产大模型在防护隐私数据方面表现较好。
值得注意的是,整体来看,复杂场景的表现依然是国内外所有模型的短板。而动态视频场景中,模型普遍存在物体变形和物理规律认知不足的问题。
智源研究院副院长兼总工程师林咏华指出,未来的AI生态发展将更加注重应用落地与动态评测。“技术的演进不只是能力的叠加,更需要通过实际应用场景反馈,促进模型能力的深度提升。”
在她看来,商业化路径也是模型发展中的一大难题。如何在确保开源精神的同时实现商业价值,是厂商必须面对的现实考验。从技术开发到应用落地,这一过程需要更多的跨界合作和创新模式。
杨熙则谈到,看未来趋势,小模型和大模型的端云结合将成为重要的发展方向。“端侧模型表现出色,而小模型通过精细化训练可以在特定任务中表现更优。端云结合的方式,不仅能降低算力成本,还能为用户提供更加灵活和高效的解决方案。”
模型测评的机遇与挑战
近年来,大模型技术的广泛应用催生了复杂的测评需求。从文本生成到图像识别,从语音分析到多模态理解,模型测评正从学术研究走向产业化。上述智源研究院最新发布的FlagEval秋冬模型测评,评估了全球100多个开源和闭源模型的能力,并且首次加入了金融量化交易等应用场景的专项评测。这些多元化的测评结果,在一定程度上为AI模型的能力边界提供了标尺。
模型测评市场为何能引发关注?林咏华认为,一方面,测评为企业提供了清晰的技术能力对比,有助于优化资源配置。另一方面,测评结果为资本选择投资对象提供了有力依据。在资本密集型的AI行业中,测评已成为“资本看得懂”的标准工具。此外,模型参与者格局日趋复杂,从传统的学术机构到全球科技巨头,从互联网大厂到创业公司,竞争的广度和深度都在加剧。
然而,模型测评也面临多重挑战。首先是数据问题。测评结果的准确性和可信度,依赖于高质量、多样化的数据集。然而,数据孤岛和数据泄露问题限制了评测的深度和广度。此外,缺乏统一的评测标准,也让不同机构的评测结果缺乏可比性。林咏华在谈及这一问题时表示,“评测体系的开放性和科学性是关键,要实现统一标准,仍需克服多方利益博弈的障碍。”
在林咏华看来,随着技术的不断发展,单一任务测评正向多任务和多模态评测转型。而随着AI在医疗、教育、金融等领域的深度渗透,垂直领域的专项评测需求也在快速增长。(中新经纬APP)
中新经纬版权所有,未经授权,不得转载或以其他方式使用。
责任编辑:张芷菡
本文链接:http://m.llsum.com/show-2-9997-0.html透视2025丨中国AI模型厂商已在特定领域形成一定优势
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。