一次多模态大模型表格识别解析探索小实践记录

大模型自然语言处理

发布于 2024-11-21 10:14

浏览

0收藏

表格识别作为文档智能的重要组成部分，面临着复杂结构和多样化格式的挑战。【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

前期文章也介绍了传统视觉的方法进行表格结构识别的方法，【文档智能】轻量级级表格识别算法模型-SLANet

关于表格识别在这里就不做过多的介绍了。

国庆期间，笔者利用一个较长的时间段，训练了一个多模态的表格识别模型，效果还不错，特此记录一下多模态的效果。

训练资源：H100*8
训练数据：200w table image - table html对（html的表示表格的优势，可以准确表示一些复杂表格，如合并单元格等，这点是mardown格式无法做到的。）
模型参数量：7B
自建测评数据TEDS：0.97~0.98

小总结：

训练数据质量大于一切，含大量数据的超长文本表格目前还不能准确识别，因为笔者训练的是max-length=8192。
模型参数量目前较大，推理速度比较慢。

效果记录：下面的一些case来源于网络的表格截图。

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case1

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case2

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case3

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case4

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case5

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case6

一次多模态大模型表格识别解析探索小实践记录-AI.x社区

case7

本文转载自公众号大模型自然语言处理作者：余俊晖

原文链接：https://mp.weixin.qq.com/s/MrlNdZKvO5byUIi21sBinw

标签

多模态

文档智能

已于2024-11-28 18:51:29修改

相关推荐

大模型应用实践：AIGC探索之旅

pangguiyu • 5323浏览 • 0回复
一次预测多个token，Meta新模型推理加速3倍，编程任务提高17%

Crystalcxt • 1980浏览 • 0回复
Meta 违背经典模型结构，一次预测多个token，路径可行，大模型大幅提速指日可待！

51CTO技术栈 • 2285浏览 • 0回复
GPT-4o热潮来袭：探索图生文本的奥秘（多模态大模型系列之一）

鱼虫子 • 5339浏览 • 0回复
一次可输入多张图像，还能多轮对话！最新开源数据集，让AI聊天更接近现实

Crystalcxt • 1746浏览 • 0回复
大模型提示词进阶，零样本提示, 一次样本提示和少样本提示以及思维链(Chain of Thought, Cot)

AI探索时代 • 3224浏览 • 0回复
记一次关于人工智能应用方向的面试以及带来的思考

AI探索时代 • 1770浏览 • 0回复
不走寻常路的面壁智能，又一次“掀桌子”了！

51CTO技术栈 • 1792浏览 • 0回复
多模态与伪多模态大模型

AI探索时代 • 1809浏览 • 0回复
科普神文，一次性讲透AI大模型的核心概念

ermulong • 2435浏览 • 0回复
记一次ComfyUI工作流bug查找过程

AI探索时代 • 2045浏览 • 0回复
多模态大模型数据分析与实践

zhcs333 • 3278浏览 • 0回复
【多模态&RAG】多模态RAG ColPali实践

大模型自然语言处理 • 1597浏览 • 0回复
轻量级级表格识别算法模型-SLANet

大模型自然语言处理 • 2037浏览 • 0回复
文本文字识别、公式识别、表格文字识别核心算法及思路及实践-DBNet、CRNN、TrOCR

大模型自然语言处理 • 1963浏览 • 0回复
多模态大模型在表格解析任务上效果如何？亲身经历全是泪！

NLP工作站 • 1199浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 1705浏览 • 0回复
多模态理解和生成：多模态理解与生成统一奖励模型；将奖励模型多模态情绪识别上

AI研究前瞻 • 1121浏览 • 0回复
Gemini2.5 Pro测试，代码能力飙升，但多模态表格解析依旧不理想

NLP工作站 • 629浏览 • 0回复

51CTO

51CTO博客

51CTO学堂

一次多模态大模型表格识别解析探索小实践记录