一次多模态大模型表格识别解析探索小实践记录

发布于 2024-11-21 10:14
浏览
0收藏

表格识别作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。 ​​【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路​

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

前期文章也介绍了传统视觉的方法进行表格结构识别的方法,​​【文档智能】轻量级级表格识别算法模型-SLANet​

关于表格识别在这里就不做过多的介绍了。

国庆期间,笔者利用一个较长的时间段,训练了一个多模态的表格识别模型,效果还不错,特此记录一下多模态的效果。

  • 训练资源:H100*8
  • 训练数据:200w table image - table html对(html的表示表格的优势,可以准确表示一些复杂表格,如合并单元格等,这点是mardown格式无法做到的。)
  • 模型参数量:7B
  • 自建测评数据TEDS:0.97~0.98

小总结:

  1. 训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是​​max-length=8192​​。
  2. 模型参数量目前较大,推理速度比较慢。

效果记录: 下面的一些case来源于网络的表格截图。

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case1


一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case2


一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case3


一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case4


一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case5


一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case6


一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case7


本文转载自公众号大模型自然语言处理  作者:余俊晖

原文链接:​​https://mp.weixin.qq.com/s/MrlNdZKvO5byUIi21sBinw​

已于2024-11-28 18:51:29修改
收藏
回复
举报
回复
相关推荐