译者 | 核子可乐
审校 | 重楼
如今,内容审核已经成为各类数字平台的重要组成部分,堪称用户信任与安全保障的前提。尽管人工审核能够处理部分任务,但随着平台规模的扩展,AI驱动的实时审核变得愈发重要。机器学习(ML)驱动的系统能够成规模且高效开展内容审核,同时将再训练与运营成本降低至最低。本份指南将为你概述部署AI驱动型实时审核系统的方法。
实时审核系统的核心属性
实时内容审核系统负责评估用户提交的内容(文本、图像、视频或其他格式的数据),确保其符合平台政策。此类系统的核心属性包括:
- 速度:在不影响用户体验或引入显著延迟的前提下审核内容。
- 可扩展性:能够及时处理每秒数千次请求。
- 准确性:尽量减少误报与漏报,提高可靠性。
部署AI内容审核系统的分步指南
步骤1:定义政策
政策是一切内容审核系统的基础,用以定义内容评估规则。你可以设置不同的政策,分别管控仇恨言论、欺诈预防、成人及色情内容等等。下面我们以X定义的政策为例,进行具体分析。
这些政策被设定为客观规则,可作为配置进行存储以备访问和评估。
步骤2:数据收集与预处理
政策定义完成后,我们需要收集数据以作为机器学习模型的训练样本。数据集应包含平台上多种预期内容类型的良好组合,涵盖与政策相符/不符的对应示例,同时避免偏见。
数据来源:
- 合成数据生成:使用生成式AI创建数据。
- 开源数据集:从其他平台及开源网站上选择符合需求的数据集。
- 历史用户生成内容:以符合道德要求的方式使用用户发布的历史内容。
数据收集完成后,则由训练有素的人工审核员进行标注。审核员需要对平台政策具备深入理解,标注完成的数据则作为“标准集”以用于训练或微调ML模型。
在ML模型执行实际数据操作并生成结果之前,首先应对数据进行处理以提高效率与兼容性。相关预处理技术包括但不限于:
- 文本数据:通过删除禁用词并将其拆分为n-gram以规范化文本,具体视数据使用方式而定。
- 图像数据:将图像标准化为特定分辨率、像素、大小或格式,以保证与模型相兼容。
- 视频:提取不同帧并将其按图像进行处理。
- 音频:使用各类自然语言处理(NLP)模型将音频转录为文本,而后使用文本模型。但这种方法可能会遗漏须审核的非语言内容。
步骤3:模型训练与选择
根据平台需求及所支持的内容类型,可以使用各类模型,具体包括以下选项:
文本
- 词袋/词频-逆文档频率(TF-IDF):可为有害或违反政策的词语分配高权重,确保及时发现较为罕见的违规内容。但这种方法亦有其局限性,因为用于匹配违规文本的词汇列表有限,老练的发布者往往可以刻意回避。
- Transformers:作为GPT的底层技术,此架构能够有效捕捉委婉表达或有害文本的各类变体。可以考虑根据平台政策对GPT模型进行微调。
图像
- 预训练卷积神经网络(CNN): 这类模型在大量图像数据集上训练而成,可以识别出裸露、暴力等有害内容。典型代表包括VGG、ResNet等。
- 自定义CNN: 为提高准确率与召回率,CNN可针对特定类别进行微调,并根据平台政策再做调整。
上述模型都必须针对“标准数据集”进行训练和评估,确保在部署前可达到所需性能。你亦可训练模型以生成标签,再对标签进行处理以支持内容审核决策。
步骤4:部署
在模型准备就绪后,即可使用API进行公开。其他服务可以调用这些API以实现实时审核。对于不需要实时审核的非紧急任务,则可设置批量处理系统。
步骤5:人工审核
AI/ML系统往往无法以高置信度做出所有决策。当预测ML得分低于可信决策的阈值时,模型可能给出模棱两可的结论。此时,应当由人工审核员接手以做出准确判断。人工审核员的介入对于解决AI误报问题至关重要,其可以使用决策树(以决策树形式编码的政策)生成与ML模型类似的标签,据此做出最终判定。
步骤6:标签处理器
标签处理器用于解释ML系统和人工审核员生成的标签,并将其转换为可供用户操作的决策。其流程可以相对简单,仅将系统生成的字符串映射为人类可读的字符串。
步骤7:分析与报告
Tableau和Power BI等工具均可对审核指标进行跟踪与可视化,Apache AirFlow则可用于生成见解。需要监控的关键指标包括ML系统的准确率和召回率、人工审核时间、吞吐量以及响应时间。
总结
构建和部署由AI驱动的实时审核系统可确保数字平台的可扩展性与安全性。本指南努力在速度、准确性与人工监督等要素之间寻求平衡,确保内容符合平台政策与价值主张。
原文标题:A Guide to Deploying AI for Real-Time Content Moderation,作者:Rahul JAIN