知识图谱增强营养健康大模型:迈向改进的管理、可重复性和验证 - RPI等
摘要
生成式大型语言模型(LLMs)通过实现快速、类人的文本生成改变了人工智能领域,但它们面临挑战,包括管理不准确的信息生成。诸如提示工程、检索增强生成(RAG)以及整合特定领域知识图谱(KGs)等策略旨在解决这些问题。然而,尤其是在通过Web API使用封闭访问LLM的开发者中,实现实验的管理、可重复性和验证所需水平仍存在挑战,这增加了与外部工具集成的复杂性。为解决这一问题,我们正在探索一种软件架构,通过优先考虑灵活性和可追溯性来增强LLM工作流程,同时促进更准确和可解释的输出。我们描述了我们采用的方法,并提供了一个营养案例研究,展示了其将大型语言模型(LLMs)与RAG和知识图谱(KGs)整合以获得更强大AI解决方案的能力。
LLM experimentation through knowledge graphs: Towards improved management, repeatability, and verification - ScienceDirect
https://www.sciencedirect.com/science/article/pii/S1570826824000398
核心速览
研究背景
- 研究问题:这篇文章要解决的问题是如何通过知识图谱(Knowledge Graphs, KGs)和检索增强生成(Retrieval-Augmented Generation, RAG)来改进大型语言模型(LLMs)的管理、可重复性和验证。LLMs在生成类似人类的文本方面取得了显著进展,但面临着生成不准确信息的挑战。
- 研究难点:该问题的研究难点包括:实现LLMs实验的管理、可重复性和验证的期望水平,特别是对于通过Web API使用封闭访问LLMs的开发者,这简化了与外部工具的集成。
- 相关工作:该问题的研究相关工作包括:prompt工程、RAG框架和基于权威领域本体的知识图谱(KGs)的使用。现有的RAG框架旨在缓解LLMs响应中的幻觉和过时知识或缺失信息的问题。KGs作为结构化的外部信息源,已被用于增强LLMs的可靠性和可解释性。
研究方法
这篇论文提出了一种软件架构,用于增强LLMs的工作流程,优先考虑灵活性、可追溯性和可重复性,同时促进更准确和可解释的输出。具体来说,
- 灵活性和可追溯性:ChatBS-NexGen架构允许用户交互式地定制和组合高级提示策略,而无需编程知识。通过直观的界面,用户可以轻松配置提示策略(如少样本学习、思维链、验证链)、动态槽位的信息告知系统和用户提示,以及输入数据集。此外,还包括设置模型温度、提示重新提交次数和选择不同的LLMs等选项。所有这些特性共同促进了LLMs实验的灵活性。
- RAG和KG增强的LLMs实验:评估模块旨在通过将LLMs的主要实体与领域知识图谱或开放网络连接起来,进行验证、基准测试和专家分析。实验使用的KG平台是Whyis,一个下一代的、具有动态代理交互的有知觉黑板架构。评估模块包括子模块用于实体识别和构建标记实体图,利用Whyis的高级功能,使跨多个LLMs和单个LLMs的多次重新提交的响应之间的比较成为可能。
- 营养案例研究:使用一个包含100名患者数据的食品和营养领域的数据集进行实验。目标是评估LLMs生成的饮食建议的适用性,考虑到个人因素如性别、年龄、性别、体重、健康指标、慢性疾病诊断以及饮食限制和偏好。
实验设计
- 数据收集:实验使用了包含100名患者数据的食品和营养领域的数据集。每个患者的个人信息包括性别、年龄、性别、体重、健康指标、慢性疾病诊断、饮食限制和偏好等。
- 实验设计:在典型的测试运行中,用户(营养研究组的成员)使用ChatBS-NexGen用户界面输入以下信息和选择数据源:提示策略、LLMs、提示重新提交次数、KG链接等。然后,ChatBS-NexGen执行提示设计子模块,实例化100个提示并提交给选定的LLMs。提交控制器子模块提交(并重新提交10次)每个实例化的提示,接收其响应并将其传递给评估步骤。
- 样本选择:选择了100名患者的数据进行实验,每个患者的提示实例化和重新提交10次。
- 参数配置:用户可以选择不同的提示策略(如少样本学习、思维链、验证链)、LLMs(如GPT-4o mini和Llama 3.1-8B)、提示重新提交次数等。
结果与分析
- 验证结果:在100名患者的实验中,LLMs推荐了483种不同的食物类型,其中178种(36.8%)可以通过FoodKG进行验证。对于30名糖尿病患者,LLMs推荐了260种不同的食物类型,其中123种(47.3%)可以通过FoodKG进行验证。
- 高GI食物的推荐:在推荐的10种高GI(≥50)食物中,LLMs对糖尿病患者提出了不同的建议。例如,Llama 3.1向10名糖尿病患者推荐了“蜂蜜”,占糖尿病患者的33%,而GPT-4o mini推荐了“菠萝”,占30%。
- 响应一致性:通过计算不同LLMs和同一LLMs的多次响应之间的Jaccard相似系数,发现不同LLMs之间以及同一LLMs的不同响应之间的一致性较低。例如,GPT-4o mini对同一患者的10个响应之间的Jaccard相似系数为0.05,表明只有5%的食物在所有响应中被共享。
总体结论
这篇论文提出了一种新的架构ChatBS-NexGen,用于改进LLMs实验的管理、可重复性和验证。通过结合RAG和KGs,该架构能够提供更准确和可解释的输出,并通过详细的日志记录确保实验的可追溯性。未来的研究方向包括支持多模态输入输出、自动提示策略、与XAI框架的集成、逻辑一致性验证器和对抗场景模拟器等。
论文评价
优点与创新
- 灵活的架构设计:ChatBS-NexGen架构通过直观的界面和模块化的设计,支持多种提示策略、不同的LLM架构、数据输入和实验设置,确保了实验的灵活性。
- 可追溯性:整个实验过程被详细记录,包括时间戳、提示数据、模型版本、响应元数据等,确保了实验的可追溯性。
- 重复性控制:通过日志记录和多次执行,可以重现相同的实验条件,评估LLMs响应的变化,增强了实验的重复性。
- RAG和KG集成:该架构支持检索增强生成(RAG)和知识图谱(KG)的集成,显著提高了响应的验证性和解释能力。
- 营养案例研究:通过真实的医疗项目案例,展示了该架构在实际应用中的潜力,特别是在处理LLMs生成的饮食建议时,能够识别不适当的推荐和高变异性。
- 多模型支持:支持多种LLMs的交互和评估,增强了平台的通用性和实用性。
不足与反思
- 知识图谱的局限性:在应用领域中,知识图谱的数据不完整和查询构建的复杂性是主要限制因素。许多知识图谱缺乏关键属性或完全缺失,限制了其在详细和可靠分析中的应用。
- 标准化本体的重要性:采用标准化和权威本体对于增强不同系统之间的互操作性至关重要。需要开发方法将详细的溯源元数据嵌入知识图谱中,并展示其在提高可靠性和实用性方面的应用。
- 查询机制的改进:需要改进知识图谱查询机制,简化领域特定数据的检索过程,以便用户更容易使用。
- 未来研究方向:包括支持多模态输入输出、引入自动提示策略、通过与XAI框架集成提供高级解释能力、整合逻辑一致性验证器和对抗场景模拟器、动态集成多样化指标进行上下文评估、关注安全验证和偏见缓解等方面的工作。
关键问题及回答
问题1:ChatBS-NexGen架构如何实现LLMs实验的灵活性和可追溯性?
ChatBS-NexGen架构通过以下方式实现LLMs实验的灵活性和可追溯性:
- 灵活性:用户可以通过直观的界面交互式地定制和组合高级提示策略,如少样本学习、思维链(CoT)、验证链等。用户还可以输入动态槽位和相应的数据集,并设置模型温度、提示重提交次数和选择不同的LLMs。这些功能使得平台能够适应多样化的实验要求和用例。
- 可追溯性:整个实验过程被详细记录,包括时间戳、输入提示、模型版本、响应元数据、实验参数和外部集成等信息。这些日志确保了每一步骤都可以被追踪和审计,从而提高了实验的透明度和可重复性。
问题2:在营养案例研究中,ChatBS-NexGen如何利用知识图谱(KGs)验证LLMs生成的饮食建议?
- 实体识别:首先,ChatBS-NexGen识别出LLMs响应中的食物名称。
- 链接到KG:然后,将这些食物名称链接到FoodKG和WhatToMake本体。FoodKG包含了食物的详细信息,如血糖指数(GI),这些信息用于验证LLMs的建议是否适合特定的健康状况。
- 验证和分析:通过比对FoodKG中的信息,ChatBS-NexGen能够验证LLMs推荐的食物是否合适。例如,对于糖尿病患者,系统可以检查推荐食物的高GI值,并提供相应的反馈。
问题3:ChatBS-NexGen在处理LLMs响应的相似性分析时采用了哪些方法?这些方法揭示了什么?
ChatBS-NexGen采用了两种方法来分析LLMs响应的相似性:
- 跨LLMs比较:通过计算不同LLMs(如Llama-3.1和GPT-4o mini)之间响应的Jaccard相似系数,来比较它们对同一患者的推荐结果。例如,Llama-3.1和GPT-4o mini对同一患者推荐的食品覆盖范围分别为42%和39%。
- 同一LLMs内部比较:通过计算同一LLMs(如GPT-4o mini)多次响应之间的Jaccard相似系数,来评估其一致性。例如,GPT-4o mini对同一患者生成的10个响应的Jaccard相似系数为0.05,表明不同响应之间的一致性很低,推荐结果存在显著差异。
这些方法揭示了LLMs在生成推荐时存在的高变异性和一致性挑战,强调了在管理和验证LLMs响应时需要更多的自动化和结构化工具。
本文转载自 知识图谱科技,作者:KGGPT