新闻中心

科大讯飞ICDAR 2025:图文识别再创辉煌,收获四项冠军

2023-11-08
浏览次数:
返回列表

icdar 2025(国际文档分析与识别会议)作为文档图像分析识别领域最重要的国际会议之一,最近传来了令人振奋的消息:

科大讯飞研究院与中科大语音及语言信息处理国家工程研究中心(以下简称研究中心)在多行公式识别、文档信息定位与提取、结构化文本信息抽取三项比赛中获得四个冠军。

MLHME之冠:聚焦“多行书写”,复杂度上再突破

MLHME(多行公式识别比赛)考查输入包含手写数学公式的图像后,算法输出对应LaTex字符串正确率。值得一提的是,相比此前数学公式识别赛事,此次比赛业内首次将“多行书写”设为主要挑战对象,且不同于之前识别扫描、在线手写的公式,本次以识别拍照的手写多行公式为主。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

科大讯飞研究院图文识别团队以67.9%的成绩赢得了冠军,并在主要评价指标—公式召回率上远远超过其他参赛团队

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

公式召回率与榜单中Submit Results相对应

多行公式相比单行结构复杂度更高,同一个字符在公式里多次出现时尺寸大小也会有变化;同时,比赛使用的数据集来自真实场景,拍照的手写公式图片更是存在质量低下、背景干扰、文字干扰、涂抹和批注干扰等问题。这些因素让比赛难度陡增。

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

公式结构复杂,占用多行

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

图片质量不高、批改干扰

针对公式结构复杂,占用多行问题,团队使用大卷积核的Conv2former作为编码器结构,扩大了模型的视野,更好地捕捉多行公式的结构特征;创新性提出基于transformer的结构化序列解码器SSD,显式对多行公式内部的层次关系做了精细化建模,极大提升了复杂结构的泛化性,更好地建模了结构化语义。

针对图片质量问题所引起的字符歧义问题,团队创新性提出了语义增强的解码器训练算法,通过语义和视觉的联合训练,让解码器具备内在的领域知识。当字符难以辨认时,模型能够自适应利用领域知识做出推理,给出最合理的识别结果。

针对字符尺寸变化大的问题,团队提出了一种自适应字符尺度估计算法和多尺度融合解码策略,极大提升了模型对字符大小变化的鲁棒性。

DocILE之冠:“行里挑一”,文档信息定位与提取比赛双赛道登顶榜首

DocILE(文档信息定位与提取比赛)评估机器学习方法在半结构化的商业文档中,对关键信息定位、提取和行项识别的性能。

该比赛分为KILE和LIR两个赛道任务。KILE任务需要定位文档中预定义类别的关键信息位置,LIR任务则在此基础上进一步将每个关键信息分组为不同的行项条目(Line Item),比如表格中某一行单个对象(数量、价格)等。讯飞与研究中心最终在两个赛道中获得冠军

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军KILE赛道榜单

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

LIR赛道排行榜

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

左为KILE赛道说明,右为LIR赛道说明

从赛事官方给出的任务图示可以看出,文档中待抽取的信息种类非常繁杂。其中,KILE任务不仅需要提取预定义类别的关键信息,还要得到关键信息的具体位置;LIR任务中,一个行项在单个表格中可能有多行文本。加上此次赛事数据集中信息种类多、文档版式复杂多样,大大增加了挑战性。

联合团队在算法层面提出了两项技术创新方案:

在预训练阶段,我们设计了一个基于OCR质量的文档过滤器,通过从主办方提供的无标注文档中提取274万页的文档图像。然后,我们使用预训练语言模型来获取文档中每个文本行的语义表征,并使用掩码语句表征恢复任务,在不同的Top-K配置下进行预训练(GraphDoc模型中关于文档的注意力范围的一个超参数)

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

在数据集微调阶段,团队使用了预训练后的GraphDoc提取文本框的多模态表征,并进行分类操作。在分类结果的基础上,将多模态表征送入低层注意力融合模块进行实例的聚合,在实例聚集的基础上,使用高层注意力融合模块实现行项实例的聚集,所提出的注意力融合模块结构相同、但彼此不共享参数,可以同时用于KILE和LIR任务且具有很好的效果。

Glean Glean

Glean是一个专为企业团队设计的AI搜索和知识发现工具

Glean 210 查看详情 Glean

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

SVRD之冠:零样本票证结构化信息抽取任务第一,预训练模型大考验

SVRD(结构化文本信息抽取)比赛分为4个赛道子任务,讯飞与研究中心在难度颇高的零样本结构化信息抽取子赛道(Task3:E2E零样本结构化文本抽取)获得第一名

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

排名次序

在官方指定不同类型发票需要提取的关键要素背景下,该赛道要求参赛团队利用模型输出这些关键要素在图片中的对应内容,“零样本”则代表训练集和测试集的发票类型并无交集;赛道考查模型端到端预测准确率,取score1、score2加权平均值作为最终评价指标。

对于预训练模型,零样本提出了更高的要求。与此同时,在比赛中使用的发票版式多种多样,各个版式中的乘车站点、发车时间等要素名称各不相同。此外,发票照片存在着背景干扰、反光、文字重叠等问题,这进一步增加了识别和提取的难度

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

不同版式的发票

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

发票受到条纹背景的干扰

团队最初采用了复制-生成双分支解码策略来进行要素抽取模型,当前端OCR结果置信度较高时,直接复制OCR结果;而当OCR结果置信度较低时,则生成新的预测结果,以此缓解前端OCR模型所引入的识别错误

此外,团队还基于OCR结果提取句子级的graphdoc特征作为要素抽取模型输入,该特征融合了图像、文本、位置、版面多模态特征,相比于单模态的纯文本输入具有更强的特征表示。

团队在此基础上,还结合了UniLM、LiLT、DocPrompt等多个要素抽取模型,进一步提升了最终的要素抽取效果,使其在不同场景和语种下表现出更好的性能优势

教育、金融、医疗等已落地应用,助力大模型提升多模态能力

此次选择ICDAR 2025的相关赛事进行挑战,来源于科大讯飞在实际业务中的真实场景需求;赛事相关的技术也已经深入教育、金融、医疗、司法、智能硬件等领域,赋能多项业务与产品。

在教育领域,手写公式识别的技术能力被高频使用,机器能给予精准的识别、判断和批改。例如讯飞AI学习机中的个性化精准学、AI诊断;老师上课所使用的“讯飞智慧窗”教学大屏、学生的个性化学习手册等,都已发挥了很大成效;

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

不久前科大讯飞全球1024开发者节主论坛上发布的星火科研助手,三大核心功能之一的论文研读可实现智能解读论文,快速回答相关问题。后续在高精度公式识别基础上进阶有机化学结构式、图形、图标、流程图、表格等结构化场景识别的效果,这项功能也会更好助力科研工作者提升效率;

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

文档信息定位与抽取技术在金融领域得到广泛应用,如合同要素抽取与审核、银行票据要素抽取、营销内容消保审查等场景。这些技术可以实现文档或文件的数据解析、信息抽取和比对审核等功能,帮助业务数据快速录入、抽取和比对,从而提高审核过程的效率,降低成本

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

在这次1024主论坛上发布的个人AI健康助手是讯飞晓医。它不仅可以扫描检查单和化验单,并给出分析和建议,还可以扫描药盒,并进一步询问并提供辅助用药建议。对于体检报告,用户可以拍照上传,讯飞晓医可以识别关键信息,并综合解读异常指标,主动询问并提供更多帮助。这个功能背后依赖于文档信息定位与抽取技术的支持

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

科大讯飞的图文识别技术在算法方面不断突破,从单字识别、文本行识别,到更复杂的二维结构识别、篇章级识别。更强大的图文识别技术能够提升多模态大模型在图像描述、图像问答、识图创作、文档理解与处理等方面的效果和潜力

与此同时,图文识别技术也结合语音识别、语音合成、机器翻译等技术形成系统性创新,赋能产品应用后展现出更强大的功能与更明显的价值优势,相关项目也获得了2025年度吴文俊人工智能科技进步奖一等奖。新一程里,在ICDAR 2025数个比赛中“多点开花”,既是科大讯飞在图文识别理解技术深度上持续进步的回馈,也是广度上不断铺开的肯定。

以上就是科大讯飞ICDAR 2025:图文识别再创辉煌,收获四项冠军的详细内容,更多请关注其它相关文章!


# 句话  # 境内媒体有哪些网站推广  # 靖西网站制作推广运营  # 安丘营销网络推广  # 张大奕网络营销推广体系  # 商业地产项目关键词排名  # 小红书怎么避免营销推广  # 新疆建设开发官网网站  # 张掖seo优化推广软件  # python推广网站  # 网站优化seo常见试题  # 产业  # 更高  # 之冠  # 也会  # 多模  # 基础上  # 提出了  # 结构化  # 文档  # 科大  # 科大讯飞 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 4800日元等于多少人民币  typescript和es6先学哪个  春运抢票可以抢几次票  animal是什么意思  awk命令如何对两列加分隔符  固态硬盘如何安装win10系统安装  夸克文字口令是什么意思  怎么打印数组j*a  苹果16有哪些自带配件  typescript接口怎么选  电动车power灯亮是什么意思  汽车收音机power是什么意思  如何在固态硬盘上安装win7系统  品道音响上的power键是什么意思  typescript中文怎么读  manager是什么意思  固态硬盘如何检查  ts什么意思  望远镜上power是什么意思  春运高速高铁抢票攻略  空调控制面板power灯一直亮是什么意思  夸克搜题的原理是什么  哪个品牌有折叠屏手机卖  如何查看固态硬盘分区  如何辨别固态硬盘坏块  如何用命令查看本机的操作系统  如何打开命令框  花呗征信不好如何恢复 如何修复不良的花呗征信  单片机怎么发送can 信号  typescript中怎么引用js文件  为什么都做折叠屏手机呢  虚拟机如何用命令清除垃圾  如何用dos命令启动u盘  typescript怎么拼接  如何修改cad中的命令  市盈率估值1stdv是什么意思  电瓶车的power是什么意思  typescript的语法格式是什么  如何自己加装固态硬盘  平仓是什么意思?  充电器上的power是什么意思  put linux命令如何书写  typescript哪个最好  j*a map数组怎么取值  typescript解决了什么  如何打开管理员命令提示符  区块链的热闹将何去何从?  j*a 怎么清空数组元素  oppo手机nfc功能是什么意思  如何通过命令行聊天 

搜索