当GPT-4学会看图文，一场生产力革命已势不可挡-51CTO.COM

「太卷了！」

在经历了 GPT-4 和微软 Microsoft 365 Copilot 的连续轰炸后，相信很多人都有这样的感想。

与 GPT-3.5 相比，GPT-4 在很多方面都实现了大幅提升，比如在模拟律师考试中，它从原来的倒数 10% 进化到了正数 10%。当然，普通人对于这些专业考试可能没什么概念。但如果给你看一张图，你就明白它的提升有多么恐怖了：

图源：清华大学计算机系教授唐杰微博。链接：https://m.weibo.cn/detail/4880331053992765

这是一道物理题，GPT-4 被要求根据图文逐步解题，这是 GPT-3.5（此处指升级之前的 ChatGPT 所依赖的模型）所不具备的能力。一方面，GPT-3.5 只被训练用来理解文字，题中的图它是看不懂的。另一方面，GPT-3.5 的解题能力也很薄弱，鸡兔同笼都能把它难倒。但这一次，两个问题似乎都被解决得非常漂亮。

当所有人都以为这就是王炸的时候，微软又放出了一个重磅炸弹：GPT-4 这些能力已经被整合到一个名为 Microsoft 365 Copilot 的新应用中。凭借强大的图文处理能力，Microsoft 365 Copilot 不仅可以帮你写各种文档，还能轻松地将文档转换成 PPT、将 Excel 数据自动总结成图表……

从技术亮相到产品落地，OpenAI 和微软只给了大众两天的反应时间。似乎在一夜之间，一场新的生产力革命已经到来。

由于变革来得太快，学界和业界都或多或少地处于一种迷茫和「FOMO（fear of missing out，怕错过）」的状态。当前，所有人都想知道一个答案：在这场浪潮中，我们能做些什么？有哪些机会可以抓住？而从微软发布的 demo 中，我们可以找到一个清晰的突破口：图文智能处理。

在现实场景中，各行各业的很多工作都和图文处理有关系，比如把非结构化数据整理成图表、根据图表写报告、从海量的图文信息中抽取出有用信息等等。也正因如此，这场革命的影响可能远比很多人想象得还要深远。OpenAI 和沃顿商学院最近发布的一篇重磅论文对这种影响做了预测：约 80% 的美国劳动力至少有 10% 的工作任务可能会受到 GPT 引入的影响，而约 19% 的工人可能会看到至少 50% 的任务受到影响。可以预见，这里面很大一部分工作是涉及图文智能的。

在这样一个切入点上，哪些研究工作或工程努力是值得探索的呢？在近期中国图象图形学学会（CSIG）主办，合合信息、CSIG 文档图像分析与识别专业委员会联合承办的 CSIG 企业行活动中，来自学界和业界的多位研究者围绕「 图文智能处理技术与多场景应用技术」展开了深入探讨，或许能给关注图文智能处理领域的研究者、从业者提供一些启发。

处理图文，从做好底层视觉开始

前面提到，GPT-4 的图文处理能力是非常令人震撼的。除了上面那个物理题，OpenAI 的技术报告里还举了其他例子，比如让 GPT-4 读论文图：

不过，要想让这样的技术广泛落地，可能还有很多基础工作要做，底层视觉便是其中之一。

底层视觉的特征非常明显：输入是图像，输出也是图像。图像预处理、滤波、恢复和增强等都属于这一范畴。

「底层视觉的理论和方法在众多领域都有着广泛的应用，如手机、医疗图像分析、安防监控等。重视图像、视频内容质量的企业、机构不能不关注底层视觉方向的研究。如果底层视觉没做好，很多 high-level 视觉系统（如检测、识别、理解）无法真正落地。」合合信息图像算法研发总监郭丰俊在 CSIG 企业行活动分享中表示。

这句话要怎么理解？我们可以看一些例子：

和 OpenAI、微软 demo 中所展示的理想情况不同，现实世界的图文总是以充满挑战的形式存在，比如存在形变、阴影、摩尔纹，这会加大后续识别、理解等工作的难度。郭丰俊团队的目标就是在初始阶段把这些问题解决好。

为此，他们将这项任务分成了几个模块，包括感兴趣区域（RoI）的提取、形变矫正、图像恢复（如去除阴影、摩尔纹）、质量增强（如增强锐化、清晰度）等。

这些技术组合起来可以打造一些非常有意思的应用。经过多年的摸索，这些模块已经实现了相当不错的效果，相关技术已被应用于公司旗下的智能文字识别产品「扫描全能王」里。

从字到表，再到篇章，一步步读懂图文

图像处理好之后，接下来的工作就是识别上面的图文内容。这也是一个非常细致的工作，甚至可能以「字」为单位。

在很多现实场景中，字不一定会以规范的印刷体的形式出现，这就给字的识别带来了挑战。

以教育场景为例。假设你是一位老师，你肯定想让 AI 直接帮你把学生作业全部批改好，同时把学生对各部分知识的掌握情况汇总一下，最好还能把错题、错别字及改正建议给出来。中国科学技术大学语音及语言信息处理国家工程实验室副教授杜俊就在做这方面的工作。

具体来说，他们创建了一套基于部首的汉字识别、生成与评测系统，因为与整字建模相比，部首的组合要少得多。其中，识别与生成是联合优化的，这有点像学生学习时识字与写字互相强化的过程。评测的工作以往大多聚焦在语法层面，而杜俊的团队设计了一种可以直接从图像中找出错别字并详细说明错误之处的方法。这种方法在智能阅卷等场景中将非常有用。

文字之外，表格的识别与处理其实也是一大难点，因为你不仅要识别里面的内容，还要理清这些内容之间的结构关系，而且有些表可能连线框都没有。为此，杜俊团队设计了一种「先分割，后合并」的方法，即先把表格图像拆分成一系列基础网格，然后再通过合并的方式做进一步纠正。

杜俊团队「先分割，后合并」的表格识别方法。

当然，所有这些工作最后都会在篇章级别的文档结构化和理解方面发挥作用。在现实环境中，模型所面临的文档大多不止一页（比如一篇论文）。在这一方向，杜俊团队的工作聚焦于跨页文档要素分类、跨页文档结构恢复等。不过，这些方法在多版式的场景下还存在局限性。

大模型、多模态、世界模型…… 未来路在何方？

聊到篇章级别的图文处理与理解，其实我们离 GPT-4 就不远了。「多模态的 GPT-4 出来后，我们也在想能不能在这些方面做些事情」，杜俊在活动现场说到。相信很多图文处理领域的研究者或从业者都有此想法。

一直以来，GPT 系列模型的目标都是努力提高通用性，最终实现通用人工智能（AGI）。此次 GPT-4 所展现出的强大的图文理解能力是这种通用能力的重要组成部分。要想做出一个拥有类似能力的模型，OpenAI 给出了一些借鉴，也留下了不少谜团和未解决的问题。

首先，GPT-4 的成功表明，大模型 + 多模态的做法是可行的。但大模型要研究哪些问题，多模态的夸张算力需求如何解决都是摆在研究者眼前的挑战。

对于第一个问题，复旦大学计算机学院教授邱锡鹏给出了一些值得参考的方向。根据 OpenAI 之前透露的一些信息，我们知道 ChatGPT 离不开几项关键技术，包括情景学习（in-context learning）、思维链（chain of thought）和指令学习（learn from instructions）等。邱锡鹏在分享中指出，这几个方向都还有很多待探讨的问题，比如这些能力从哪里来、如何继续提高、如何利用它们去改造已有的学习范式等。此外，他还分享了对话式大型语言模型构建时应该考虑的能力以及将这些模型与现实世界对齐可以考虑的研究方向。

对于第二个问题，厦门大学南强特聘教授纪荣嵘贡献了一个重要思路。他认为，语言和视觉存在着天然的联系，二者的联合学习已经是大势所趋。但面对这波浪潮，任何一个高校或实验室的力量都显得微不足道。所以他现在从自己就职的厦大开始，尝试说服研究人员将算力整合起来，形成一个网络去做多模态大模型。其实，在前段时间的一个活动上，专注于 AI for Science 的鄂维南院士也发表了类似看法，希望各界「敢于在原始创新方向上集中资源」。

不过，GPT-4 所走的路就一定会通向通用人工智能吗？对此，有些研究者是存疑的，图灵奖得主 Yann LeCun 便是其中之一。他认为，当前的这些大模型对于数据、算力的需求大得惊人，但学习效率却很低（比如自动驾驶汽车）。因此，他创立了一套名为「世界模型」（即世界如何运作的内部模型）的理论，认为学习世界模型（可以理解为为真实世界跑个模拟）可能是实现 AGI 的关键。在活动现场，上海交通大学教授杨小康分享了他们在这个方向上的工作。具体来说，他的团队着眼于视觉直觉的世界模型（因为视觉直觉信息量大），试图把视觉、直觉以及对时间、空间的感知建模好。最后，他还强调了数学、物理、信息认知与计算机学科交叉对这类研究的重要性。

「毛毛虫从食物中提取营养，然后变成蝴蝶。人们已经提取了数十亿条理解的线索，GPT-4 是人类的蝴蝶。」在 GPT-4 发布的第二天，深度学习之父 Geoffrey Hinton 发了这样一条推文。

目前，还没有人能够断定这只蝴蝶将掀起多大的飓风。但可以肯定的是，这还不是一只完美的蝴蝶，整个 AGI 世界的拼图也尚未完成。每位研究者、从业者都还有机会。