回复
一次多模态大模型表格识别解析探索小实践记录
表格识别作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路
前期文章也介绍了传统视觉的方法进行表格结构识别的方法,【文档智能】轻量级级表格识别算法模型-SLANet
关于表格识别在这里就不做过多的介绍了。
国庆期间,笔者利用一个较长的时间段,训练了一个多模态的表格识别模型,效果还不错,特此记录一下多模态的效果。
- 训练资源:H100*8
- 训练数据:200w table image - table html对(html的表示表格的优势,可以准确表示一些复杂表格,如合并单元格等,这点是mardown格式无法做到的。)
- 模型参数量:7B
- 自建测评数据TEDS:0.97~0.98
小总结:
- 训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是
max-length=8192
。 - 模型参数量目前较大,推理速度比较慢。
效果记录: 下面的一些case来源于网络的表格截图。
case1
case2
case3
case4
case5
case6
case7
本文转载自公众号大模型自然语言处理 作者:余俊晖
已于2024-11-28 18:51:29修改
赞
收藏
回复
相关推荐