哈佛、麻省推出面向医学多模态助手—PathChat

Aceryt

发布于 2024-7-5 10:10

浏览

0收藏

哈佛医学院、麻省理工学院、俄亥俄州立大学韦克斯纳医学等研究人员联合推出了，面向医学领域的多模态AI助手——PathChat。

PathChat不仅能理解、分析复杂的医学图像，还能基于多轮文本对话，为临床医生、医护人员提供精准和个性化的病理学指导。

论文地址：https://www.nature.com/articles/s41586-024-07618-3

哈佛、麻省推出面向医学多模态助手—PathChat-AI.x社区

为了提升PathChat的多功能处理能力，使用了一个多模态架构由视觉编码器、多模态投影和大语言模型三大块组成。

视觉编码器充当PathChat的“眼睛”也是整个架构的核心模块之一，可将高分辨率的病理学图像转换成机器可以处理的低维特征表示，使得视觉信息能够被语言模型理解和处理。视觉编码器使了自监督学习方法，可以从未标记的图像中学习。

哈佛、麻省推出面向医学多模态助手—PathChat-AI.x社区

多模态投影模块作为视觉与语言的桥梁，接收了图像特征的进一步处理。该模块通过注意力池化层和多层感知器（MLP）来实现，将视觉特征图转换为固定长度的图像标记序列。这些图像标记随后被映射到与语言模型的嵌入维度相同的空间，为后续的语言模型处理做好了准备。

大语言模型方面，PathChat使用的是Meta开源的Llama 2家族的130亿参数变体作为其核心模型。

这是一个基于Transformer架构的自回归语言模型，包含40层Transformer，每层有40个注意力头，嵌入维度为5,120，隐藏维度为13,824，并采用了旋转位置编码，能够处理长达4,096的上下文序列。不仅能够处理文本，还能在接收到视觉特征后，给出准确的文本回应。

哈佛、麻省推出面向医学多模态助手—PathChat-AI.x社区

PathChat的训练过程分为两个阶段。在预训练阶段，大语言模型的权重被冻结，只有多模态投影模块接收参数更新。

该阶段的目的是让投影模块学会如何将视觉编码器的输出即图像的低维特征表示——映射到与大语言模型的文本嵌入空间相同的维度，使用了大约100,000对图像和字幕对。

随后，进入PathChat指令微调阶段，大语言模型和投影模块共同接受端到端的训练，以生成对多样化指令的响应。

这些指令包括了自然语言和视觉输入，反映了病理学领域内的真实查询。通过这种方式，PathChat能够学习如何理解和生成与病理学相关的复杂响应。

哈佛、麻省推出面向医学多模态助手—PathChat-AI.x社区

为了验证其性能，PathChat在多项选择诊断问题和开放性问答场景中接受了测试。结果显示，在面对公开和私有病例的诊断测试时，PathChat相比LLaVa-1.5、GPT-4V等模型具有显著优势，尤其在综合考量了图像和临床情境的诊断问题上，其准确率超出20%以上。

除了在测试中的优异表现，PathChat还展现了其在多种应用场景中的潜力。例如，它能分析不同器官部位的病理图像，参与人机交互的鉴别诊断过程，尤其在资源有限或处理如未知原发性癌症等复杂情况时，PathChat通过与病人的多轮深度对话，逐步缩小鉴别范围，辅助医生作出更精确的诊断。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/qWjgi6JRARaxZGy2q89QZA

标签

PathChat

相关推荐

苹果推出多模态大模型MM1，能解释图像和文本数据

laojean • 2192浏览 • 0回复
ICLR 2024 | UIUC等提出BioBridge：用知识图谱构建多模态生物医学基础模型

zhangyannni • 2727浏览 • 0回复
谷歌推出多模态视频模型，自动生成丰富动作视频

Aceryt • 2886浏览 • 0回复
面向大语言模型的控制理论

AIGC最前线 • 2929浏览 • 0回复
什么是多模态大模型？为什么需要多模态大模型？

AI探索时代 • 4013浏览 • 0回复
多模态与伪多模态大模型

AI探索时代 • 1911浏览 • 0回复
破解AI多模态理解难题：浙江大学与字节跳动联手推出Molecule-Space新方法

AI论文解读 • 2263浏览 • 0回复
《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

xuxiangda • 2775浏览 • 0回复
AI助手Tutor CoPilot：让每个教师都能成为优秀导师 | Mamba模型：医学影像分析的新纪元

sbf_2000 • 1774浏览 • 0回复
从秒级到小时级：TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述

angel • 4870浏览 • 0回复
多模态大模型中，多模态融合后怎样知道最终结果受哪种模态影响更大？

shizhi02 • 1613浏览 • 0回复
多模态大模型：基础架构

鲁班模锤1 • 1890浏览 • 0回复
多模态RAG-VisRAG：基于视觉的检索增强生成在多模态文档上的应用

大模型自然语言处理 • 2133浏览 • 0回复
什么是多模态大模型

AI探索时代 • 2278浏览 • 0回复
【多模态&RAG】多模态RAG ColPali实践

大模型自然语言处理 • 1699浏览 • 0回复
医学领域大模型与多模态大模型的综合调查

知识图谱科技 • 1831浏览 • 0回复
BiomedGPT：一种用于多样化生物医学任务的通用型跨模态基础模型 - 宾州Lehigh大学、佐治亚大学、哈佛医学院

知识图谱科技 • 2032浏览 • 0回复
多模态理解和生成：多模态理解与生成统一奖励模型；将奖励模型多模态情绪识别上

AI研究前瞻 • 1295浏览 • 0回复
DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）

angel • 850浏览 • 0回复

Aceryt

LV.7

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

190

帖子

1666

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

哈佛、麻省推出面向医学多模态助手—PathChat