首页 > 科技频道 > IT互联网 >

能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型

网友分享 268746

分享

快科技5月6日消息,今日,火山引擎宣布,Doubao-Seed-2.0-lite升级新版本,这是豆包大模型家族首款全模态理解模型。

据介绍,新版Doubao-Seed-2.0-lite支持视频、图像、音频、文本的原生统一理解,Agent、Coding与GUI能力也同步升级,进一步面向复杂业务场景增强多模态推理能力。

在视觉理解方面,Doubao-Seed-2.0-lite继续大幅提升,在物理HiPhO、医疗MedXpertQA等高阶学科推理任务上,新版本表现已大幅超越今年2月发布的Doubao-Seed-2.0-pro。

同时,该模型在细粒度感知BabyVision、WorldVQA,以及具身理解ERQA等关键领域达到SOTA水平,更适合企业在高价值场景中进行规模化部署。

能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型
加粗表示最优结果,下划线表示次优结果

此次升级的一大重点是融入语音理解能力,新版本可同时理解多种输入模态,并完成跨模态联合推理,能够直接处理那些必须“音画结合”才能判断的复杂业务需求。

例如在视频理解场景下,Doubao-Seed-2.0-lite可以联合分析视频画面与音频信息,精准判断视频中的视听一致性,也就是“看到的”和“听到的”是否匹配。

它还支持根据自然语言指令,在视频中精准定位特定事件发生的时间点,并能跨越多个时间段提取关键线索,持续追踪人物与事件发展,基于画面进行多步逻辑推理,还原事件关系与行为脉络。

音频能力方面,新模型支持19个语种的精准语音转写,以及中英文与其他14个语种互译。

此外,它还能捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。

能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型

根据公开评测集,Doubao-Seed-2.0-lite在语音识别、翻译等多项音频理解基准上优于Gemini-3.1-Pro。

值得一提的是,Doubao-Seed-2.0-lite还深度适配OpenClaw、Hermes Agent等框架,强化深度搜索与Skill动态调用,可在执行任务过程中持续沉淀经验,实现“越用越聪明”。

能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型

AD位1

相关推荐

人教版五四制小学道德与法治电子课本免费下载(含旧课标版)

电子课本

【部编人教版】小学一年级到六年级语文电子课本(可免费下载打印)

电子课本

2025年河南多地期末考试时间(必看)

动态要闻

新课标人教版小学道德与法治电子课本免费下载(含旧课标版)

电子课本

风云人物,贯朽粟陈。重过江南更千里。东箭南金,炼石补天。七条瘦玉叩寒星。指是代表什么生肖,释义解释词语落实

传统文化
AD位2

热门图文

AD3

上一篇:烧钱换增长模式玩不转 昔日“网红”自嗨锅进入破产清算

下一篇:估值逼近450亿美元!DeepSeek被传首轮融资获国家大基金领投