DeepSeek开源模型重塑法证审计,个人本地做RAG+微调,25年多试试

人工智能
本文介绍一个基于DeepSeek本地部署模型(或商用 API)的自动化法证邮件分析系统,源码已在Github 开源。

全球82亿人口,网民55.6亿,而ChatGPT坐拥3.5亿全球月活,渗透率算下来也有6%左右了。但这还是DeepSeek-R1开源之前的故事。1/20 开源以来,DeepSeek-R1属实又硬拉高了一大波全球 AI的渗透率,或者换句话说,是解锁了更多的应用场景。

其实,本来就有个烂大街的共识是,截止 24 年年底大模型的tokens成本已经足够低、基座模型的智能程度也已经足够高,25年是可预见的AI Agent爆发的一年。也就是预计会在更个细分领域和细分场景上,涌现一批一大堆专注于特定任务的智能体。现在看起来,这个共识似乎已经开始变成常识了。

Anyway,这篇来给各位介绍一个基于DeepSeek本地部署模型(或商用 API)的自动化法证邮件分析系统。源码已在Github 开源,项目地址是:https://github.com/weiwill88/Email_audit, 欢迎大家试用后交流。

图片

1、开发背景

开发的起点是,一个小红书上的盆友来咨询说,自己做法证审计经常需要查阅嫌疑人的工作邮箱,但是目前主要是人工根据经验设计关键词去做邮件过筛,然后再人肉的看完过去两年左右的邮件。当然,还需要根据蛛丝马迹来梳理线索,so 问了下是否能用DeepSeek自动完成这个过程。我当时直接回复说,这个没有 deepseek也能干,后来在实际做的过程中又想了下,可能也不是。

一年期用 Claude 3 或者 GPT 4o确实能力上没问题,但问题是 API 贵啊。那当时能否部署开源模型到本地呢,既不要钱还保证信息安全,也不是不行,只是普通电脑如果只有集成显卡,基本也就跑个7b,这个尺寸下原有的开源模型比较拉胯,效果很差,那还不如不用。 

现在的变化是,DeepSeek-R1蒸馏过的几个小尺寸模型也已五脏俱全,凑活下也能用。至少针对核心敏感数据的本地处理可以应付下,大批量的脱敏数据条件允许下,也可以考虑使用商用API 来加快下速度。另外用 DeepSeek 的GRPO 方法也可以选择对本地部署的小尺寸模型进一步进行微调,可以使用 Unsloth工具,7G显存就能微调小尺寸模型。用自己的数据打造专属模型,本也是本地部署的终极意义。

图片

言归正传,Unsloth 微调的教程和案例后续再发文,接下来先介绍下这个项目本身。

2、项目定位

本系统旨在利用大语言模型实现对被分析对象 outlook 邮箱中海量邮件的自动化分析和快速摘要,帮助法证审计人员迅速捕捉邮件中的蛛丝马迹,降低人工筛查工作量。特别针对长期邮件(如员工两年内的全部邮件)进行重点优化,实现自动摘要、疑点提示及重点预警功能。

3、邮件模拟

本来是拿自己的 outlook 邮箱来做的样例去试代码逻辑,但发现我只有充斥着广告的收件箱,发件箱几乎为空,完全不具备代表性。于是,就用 DeepSeek-r1 按照法证审计中的一些风险要点,去模拟了一个案例,然后再用 Deepseek-V3 生成了具体的模拟邮件内容(100 封)。

图片

看完这个模拟邮件的设计文档和生成邮件结果,我忽然也发现,我其实很多项目的数据样例都可以让 DeepSeek-r1 来生成,这样或许测试数据还具备代表性。

4、快速开始

4.1 环境要求

Python 3.8+、DeepSeek API Key(默认模式)或 Ollama(离线模式)

4.2 安装依赖

pip install -r requirements.txt

4.3 模型选择

本项目支持两种模式运行:

1. 在线模式(默认,推荐)

使用 DeepSeek V3 API:

✅ 优点:分析速度更快(约 5-10 倍)结果更准确无需本地部署资源占用少

⚠️ 注意事项:需要联网需要 API 密钥邮件内容会发送至 API 服务器

配置方法:

在 .env 文件中设置你的 API 密钥:

DEEPSEEK_API_KEY=你的密钥
DEFAULT_MODEL=deepseek_api

2. 离线模式

使用本地 Ollama 模型:

✅ 优点:完全离线运行数据本地处理无需 API 密钥

⚠️ 注意事项:需要较高配置(建议至少 16GB 内存)首次运行需要下载模型(约 7GB)分析速度较慢

配置方法:

安装 Ollama:https://ollama.ai/ ( https://ollama.ai/ )

下载模型:

ollama pull deepseek-r1:7b

在 .env 文件中修改配置:

DEFAULT_MODEL=ollama
OLLAMA_MODEL=deepseek-r1:7b

4.4 数据安全说明

在线模式(DeepSeek API):邮件内容会通过 HTTPS 发送至 API 服务器建议处理敏感数据时使用离线模式 API 提供商承诺不存储用户数据

离线模式(Ollama):所有数据本地处理无需网络连接适合处理敏感信息

5、系统流程

5.1 使用方法

图片

PST 文件解析:

python pst_parser.py

将自动解析指定路径下的 PST 文件,生成 CSV 格式的邮件元数据。

邮件分析:

python email_analyzer.py

默认使用 DeepSeek API 进行分析。如需切换到离线模式:

python email_analyzer.py --model ollama

对解析后的邮件进行智能分析,生成审计报告。

5.2 配置说明

程序会自动在当前目录的 output 文件夹下查找 metadata_report.csv 文件。 请确保 PST 解析后的文件被保存在正确的位置。

公司邮箱配置

在 .env 文件中设置公司邮箱域名:

COMPANY_DOMAIN=你的公司邮箱域名

此配置用于识别外部邮件,这是风险评估的重要指标。如果有多个域名,可以用逗号分隔。

6、输出示例

6.1 时间线分析

图片

6.2 关系网络

图片

6.3 审计报告

风险等级分布、关键发现列表、详细分析结果、建议措施

图片

7、后续迭代计划

生成的报告还要经过很多完善才可能能用,计划后续结合前期介绍的 RAG 智能对话系统,可以针对特定问题进行全量邮件的检索回答。

图片

1. 邮件向量化与存储

基于 ChromaDB 构建本地向量数据库实现增量数据更新机制支持多维度向量索引(正文、主题、时间等)优化向量压缩和检索性能

2. 智能问答系统

实现基于上下文的多轮对话支持复杂查询和条件过滤添加时间范围和关键词筛选集成实体识别和关系提取

图片

图片

3. 深度分析功能

邮件线索追踪和关联分析人物关系图谱构建事件脉络自动梳理异常行为模式识别(完)

责任编辑:庞桂玉 来源: 韦东东
相关推荐

2022-05-27 08:16:37

Thread类Runnable接口

2025-01-14 10:56:14

2025-02-19 12:23:52

2025-02-13 08:30:11

2025-02-17 03:00:00

RAG开源DeepSeek

2025-02-17 05:00:00

工具项目Cursor

2025-02-14 00:00:35

2024-07-10 14:35:19

2024-10-09 08:27:30

2024-11-19 13:05:40

2025-01-17 08:39:14

RAGPython工具包

2025-02-13 09:45:31

2024-02-19 00:06:50

AI模型

2025-02-13 00:00:12

LangServeDeepsee大模型

2025-01-27 12:41:00

2025-02-14 10:00:00

DeepSeekAI大模型

2025-02-11 12:15:57

2024-02-05 14:12:37

大模型RAG架构

2024-10-14 14:45:00

数据模型

2024-07-29 13:38:06

点赞
收藏

51CTO技术栈公众号