谷歌多模态大模型ScreenAI：带来人机界面交互新方式原创

鱼虫子

发布于 2024-5-24 11:30

浏览

0收藏

一、人机交互发展史

先简单了解下人机交互的历史。

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

打孔卡

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

命令行（CLI）

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

图形用户界面（GUI）

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

AR/VR/MR

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

语音助手

像Siri，小爱同学等语音助手虽然也能通过自然语言交互，只能打开某个应用，或者搜索互联网，一般不能理解UI中的元素。

二、ScreenAI：多模态大模型

谷歌近期推出多模态大模型ScreenAI，带来人机界面交互新方式。ScreenAI不仅能够理解UI上的元素，还具有推理能力，并且能根据用户指令与UI进行交互。

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

项目主页：https://research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/
论文：https://arxiv.org/pdf/2402.04615.pdf
代码：https://github.com/kyegomez/ScreenAI

只需要输入一张图片，以及一个文本指令，ScreenAI则会输出文本。根据用户指令不同，输出可以是：

导航指令

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

总结

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

标注信息

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

问答

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

ScreenAI是一个基于PALI的视觉语言模型。由一个多模态编码器和一个自回归解码器组成，编码器用于编码视觉和文本输入，解码器则能够输出文本。

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

三、训练数据

先从手机、电脑、平板电脑等不同设备上截屏。
获取截图布局信息，主要通过DETR目标检测模型识别UI上的元素，如图像，按钮，文本等元素以及位置信息。
对识别的ICON进一步分类
使用PALI大模型或者OCR提取ICON文本信息。

得到如下标注信息。

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区

6.使用大语言模型基于上面的标注信息去生成多任务问答，总结，导航等训练数据

针对不同任务，需要精心设计Prompt，如下Prompt则是用于生成问答训练数据。

You only speak JSON. Do not write text that isn’t JSON.
You are given the following mobile screenshot, described in words. Can you generate 5 questions regarding the content of the screenshot as well as the corresponding short answers to them?


The answer should be as short as possible, containing only the necessary information. Your answer should be structured as follows:
questions: [
{{question: the question,
answer: the answer
}},
...
]


{THE SCREEN SCHEMA}

整个训练数据制作流程如下：

谷歌多模态大模型ScreenAI：带来人机界面交互新方式 -AI.x社区