回复
谷歌多模态大模型ScreenAI:带来人机界面交互新方式 原创
一、人机交互发展史
先简单了解下人机交互的历史。
打孔卡
命令行(CLI)
图形用户界面(GUI)
AR/VR/MR
语音助手
像Siri,小爱同学等语音助手虽然也能通过自然语言交互,只能打开某个应用,或者搜索互联网,一般不能理解UI中的元素。
二、ScreenAI:多模态大模型
谷歌近期推出多模态大模型ScreenAI,带来人机界面交互新方式。ScreenAI不仅能够理解UI上的元素,还具有推理能力,并且能根据用户指令与UI进行交互。
项目主页:https://research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/
论文:https://arxiv.org/pdf/2402.04615.pdf
代码:https://github.com/kyegomez/ScreenAI
只需要输入一张图片,以及一个文本指令,ScreenAI则会输出文本。根据用户指令不同,输出可以是:
导航指令
总结
标注信息
问答
ScreenAI是一个基于PALI的视觉语言模型。由一个多模态编码器和一个自回归解码器组成,编码器用于编码视觉和文本输入,解码器则能够输出文本。
三、训练数据
- 先从手机、电脑、平板电脑等不同设备上截屏。
- 获取截图布局信息,主要通过DETR目标检测模型识别UI上的元素,如图像,按钮,文本等元素以及位置信息。
- 对识别的ICON进一步分类
- 使用PALI大模型或者OCR提取ICON文本信息。
得到如下标注信息。
6.使用大语言模型基于上面的标注信息去生成多任务问答,总结,导航等训练数据
针对不同任务,需要精心设计Prompt,如下Prompt则是用于生成问答训练数据。
You only speak JSON. Do not write text that isn’t JSON.
You are given the following mobile screenshot, described in words. Can you generate 5 questions regarding the content of the screenshot as well as the corresponding short answers to them?
The answer should be as short as possible, containing only the necessary information. Your answer should be structured as follows:
questions: [
{{question: the question,
answer: the answer
}},
...
]
{THE SCREEN SCHEMA}
整个训练数据制作流程如下:
本文转载自公众号人工智能大讲堂
原文链接:https://mp.weixin.qq.com/s/TSOkh5LEnE0sraE6yGRaCw
©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
赞
收藏
回复
相关推荐