
基于DeepSeek推理的文本聚类 原创
开发人员需要开发和理解一种新的文本聚类方法,并使用DeepSeek推理模型解释推理结果。
本文将探索大型语言模型(LLM)中的推理领域,并介绍DeepSeek这款优秀工具,它能帮助人们解释推论结果,构建能让终端用户更加信赖的机器学习系统。
在默认情况下,机器学习模型是一种黑盒,不会为决策提供开箱即用的解释(XAI)。本文介绍如何使用DeepSeek模型,并尝试将解释或推理能力添加到机器学习世界中。
方法
首先构建自定义嵌入和嵌入函数来创建向量数据存储,并使用DeepSeek模型来执行推理。
以下是展示整个流程的一个简单的流程图。
数据
(1)选择一个新闻文章数据集来识别新文章的类别。该数据集可在Kaggle网站上下载。
(2)从数据集中,使用short_description进行向量嵌入,并使用类别特征为每篇文章分配适当的标签。
(3)数据集相当干净,不需要对其进行预处理。
(4)使用pandas库加载数据集,并使用scikit-learn将其拆分为训练和测试数据集。
生成文本嵌入
使用以下库进行文本嵌入:
- langchain—用于创建示例提示和语义相似性选择器
- langchain_chroma—用于创建嵌入并将其存储在数据存储中
接下来,将构建自定义嵌入和嵌入函数。这些自定义函数将允许查询部署在本地或远程实例上的模型。
阅读器可以为部署在远程实例上的实例合并必要的安全机制(HTTPS、数据加密等),并调用REST端点来检索模型嵌入。
将定义一个简单的函数,它将为新闻文章创建一个语义相似性选择器。选择器将用于使用训练数据集创建向量嵌入。
调用上面的函数来生成新闻文章的嵌入。需要注意的是,训练过程可能很耗时,可以将其并行化以使其更快运行。
色度向量数据存储用于存储各种新闻文章及其相关标签的向量表示。然后使用数据存储中的嵌入来执行与测试数据集中文章的语义相似性,并检查该方法的准确性。
将调用DeepSeek REST端点,并将从语义相似性选择器接收到的响应和实际结果传递给测试数据集。随后,将创建一个包含DeepSeek模型进行推理所需信息的上下文。
以下解析测试数据集,并从DeepSeek模型中获取解释。
结果
以下将分享测试数据集中一些场景的结果。
第一个例子是当从语义相似性中捕获的答案与测试数据集中的实际答案不匹配时。这种洞察力使人们能够了解模型在做出预测时是否合理。think标签提供了DeepSeek模型的初始思维过程,以理解问题陈述,然后为最终用户整理答案。
在第一个例子中,DeepSeek可以解释为什么模型得到了错误的答案。该模型只考虑句子中的旅游(TRAVEL)方面,而没有考虑娱乐(ENTERTAINMENT)方面。这意味着嵌入模型需要更多的娱乐示例进行训练。
需要考虑模型的答案和实际答案不匹配的场景。然而,该模型在预测方面是合理的。
在第二个例子中,发生在法国的持械抢劫是一种犯罪(CRIME),因此将用户文章标记为犯罪的模型不一定是错误的。DeepSeek的推理能够为结果提供合理的理由。
当模型和实际答案匹配时,将考虑推理。
匹配结果背后的推理增强了人们的信任,并建立了对模型预测的信心。
结论
推理的力量使用户对模型的功能有了宝贵的了解,并凸显了其优势与不足。它增强了对系统的理解,并提供了改进系统的路径。
设想一个只提供推理决策而不提供任何解释的模型,那么用户将永远无法理解为什么模型会提供这些决策,并且可能难以对其产生信心。
原文标题:Text Clustering With Deepseek Reasoning,作者:Kalpan Dharamshi
