鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

生产环境测试模型的四种方法

发布于 2024-11-15 11:22

1277浏览

0收藏

尽管在本地（通过验证集和测试集）对机器学习模型进行了严格测试，但立即用新模型替换旧模型仍不是一个好想法。

生产环境测试模型的四种方法-AI.x社区

一种更可靠的策略是在生产环境中测试模型（基于真实的实时数据）。虽然这听起来有些冒险，但现实中经常这么做，而且并不复杂。下图展示了四种常见策略：

生产环境测试模型的四种方法-AI.x社区

● 当前模型称为“旧模型”（legacy model）。

● 新模型称为“候选模型”（candidate model）。

#1）A/B测试

生产环境测试模型的四种方法-AI.x社区

● 将传入的请求不均匀地分配给旧模型和候选模型。

● 故意限制候选模型的暴露程度，以避免潜在风险。因此，发送到候选模型的请求数量一定要少。

2#）金丝雀测试（Canary Testing）

生产环境测试模型的四种方法-AI.x社区

● 在 A/B 测试中，由于流量被随机重定向到任一模型，而不考虑用户特征，因此可能会影响所有用户。

● 在金丝雀测试中，候选模型首先向生产环境中的一小部分用户发布，并逐步向更多用户推广。

像OpenAI发布新模型时就采用这种策略。

3#）交错测试

生产环境测试模型的四种方法-AI.x社区

● 这涉及将多个模型的预测结果混合在响应中。

● 以亚马逊的推荐引擎为例。在交错部署中，主页上显示的推荐一部分可能来自旧模型，而另一部分则来自候选模型。

4#）影子测试（Shadow Testing）

生产环境测试模型的四种方法-AI.x社区

● 以上所有技术都会影响一些（或所有）用户。

● 影子测试（或暗启动）让我们在不影响用户体验的情况下，在生产环境中测试新模型。

● 候选模型与现有的旧模型一起部署，并像旧模型一样处理请求。然而，输出不会发送回用户，而是被记录下来，供稍后使用，以便与旧模型进行性能对比。

● 我们明确地部署候选模型，而不是离线测试，因为生产环境很难在离线环境中复制。

影子测试提供了在生产环境中无风险测试候选模型的机会。

本文转载自公众号人工智能大讲堂

原文链接：https://mp.weixin.qq.com/s/1GkbH4P_mQ76trphKLMBrA

标签

赞

收藏

回复

举报

回复

相关推荐

这28种方法值得一看

51CTO技术栈 • 1948浏览 • 0回复
除了RAG，还有这五种方法消除大模型幻觉

51CTO技术栈 • 3946浏览 • 0回复
利用大语言模型增强网络抓取：一种现代化的方法

51CTO内容精选 • 3478浏览 • 0回复
LLM 预训练加速的新方法：八种模型增长方案总结

amei2000go • 3432浏览 • 0回复
好莱坞级视频模型：4种混合模型，颠覆传统生成方法

Aceryt • 1670浏览 • 0回复
使用 OpenAI o1 的五种方法「详细指南」

51CTO技术栈 • 4299浏览 • 0回复
Binary Block Masking：加快稀疏 Attention 的一种新方法

amei2000go • 2827浏览 • 0回复
关于大模型在企业生产环境中的独立部署问题

AI探索时代 • 1812浏览 • 0回复
为什么将RAG扩展到生产环境如此困难？

丢翅膀的鱼 • 1286浏览 • 0回复
改进RAG管道检索文档质量的五种方法

51CTO内容精选 • 1696浏览 • 0回复
提高深度学习模型效率的三种模型压缩方法

51CTO内容精选 • 1780浏览 • 0回复
一文看懂：四种多Agent范式哪种最好

大语言模型论文跟踪 • 2374浏览 • 0回复
环境型代理（Ambient Agents）的新探索

ermulong • 1004浏览 • 0回复
三种文本相似计算方法：规则、向量与大模型裁判

AI悠闲区 • 1388浏览 • 0回复
AI 编程必备：用 Cline 的四个命令实现无缝上下文管理

凝固的雨_1 • 3697浏览 • 0回复
S1：简单高效的测试时推理能力扩展方法

上堵吟1 • 987浏览 • 0回复
DeepSeek的三种接入使用方法

一起AI技术 • 1235浏览 • 0回复
【模型测试】大模型评测工具OpenCompass使用方法总结

一起AI技术 • 633浏览 • 0回复
ZeroHSI-一种零样本的四维人类-场景交互合成方法

shizhi02 • 312浏览 • 0回复

LV.3

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

31

帖子

260

声望

0

粉丝

关注

最近发布

训练大模型时，显存都哪去了？ 2024-11-19 12:41:34发布
什么是主动学习？ 2024-11-15 10:22:00发布

热门推荐

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

解锁Transformer核心！一文吃透自注意力机制 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

上一篇：什么是主动学习？

下一篇：训练大模型时，显存都哪去了？

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载