鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

线性回归中，为什么使用均方误差损失函数？

发布于 2024-11-4 16:32

1711浏览

0收藏

在线性回归中，通常使用均方误差作为损失函数。

线性回归中，为什么使用均方误差损失函数？-AI.x社区

但你知道为什么用它吗？

要知道，很多函数都能衡量预测值和真实值之间的不同，在所有候选者中，均方误差有什么特殊之处吗？

线性回归中，为什么使用均方误差损失函数？-AI.x社区

据我所知，很多人都会回答：

1.均方误差是可微的，所以才作为损失函数。->错

2.与绝对误差相比，均方误差对大的误差惩罚更多 ->错

很遗憾，上述回答都是错的。

也许从概率视角出发，可以帮助我们更好理解，为什么均方误差更合适。

在线性回归中，通过输入X预测目标变量y。

线性回归中，为什么使用均方误差损失函数？-AI.x社区

线性回归中，为什么使用均方误差损失函数？-AI.x社区

作为误差项，捕获数据点i的随机噪声。

根据中心极限定理，假设噪声服从均值为0的高斯分布。

线性回归中，为什么使用均方误差损失函数？-AI.x社区

误差项的概率密度函数可以写成如下形式：

线性回归中，为什么使用均方误差损失函数？-AI.x社区

带入线性回归公式中的误差项：

线性回归中，为什么使用均方误差损失函数？-AI.x社区

上述公式表明，在某个参数下，观察到数据点i的似然。

接下来，我们可以定义似然函数：

线性回归中，为什么使用均方误差损失函数？-AI.x社区

这意味着通过改变𝜃，我们可以拟合一个分布到观测数据并量化观察到它的可能性。

我们进一步将其写成各个数据点的乘积，因为我们假设所有观测是独立的。

线性回归中，为什么使用均方误差损失函数？-AI.x社区

因此，得到：

线性回归中，为什么使用均方误差损失函数？-AI.x社区

由于对数函数是单调的，我们使用对数似然并对其进行最大化。这被称为最大似然估计（MLE）。

线性回归中，为什么使用均方误差损失函数？-AI.x社区

简化后，得到:

线性回归中，为什么使用均方误差损失函数？-AI.x社区

重申一下，目标是找到能够最大化上述表达式的𝜃。但是，第一个项与𝜃无关。

因此，最大化上述表达式等价于最小化第二个项。

线性回归中，为什么使用均方误差损失函数？-AI.x社区

如果你仔细观察，这正是平方误差。

因此，你可以通过最小化平方误差来最大化对数似然。这就是在线性回归中使用最小二乘法的起源。

可以看到，在线性回归中使用平方误差作为损失函数是有明确的证明和推理的。机器学习中的一切都不是凭空产生的。

本文转载自公众号人工智能大讲堂

原文链接：https://mp.weixin.qq.com/s/0-hO-91C_gVIYlnEjt-A6A

标签

赞

收藏

回复

举报

回复

相关推荐

为什么我们劝你弃用LangChain？

51CTO技术栈 • 5593浏览 • 0回复
什么是提示词工程(prompt engineering)？为什么需要提示词工程？

AI探索时代 • 5397浏览 • 0回复
为什么最新的LLM使用混合专家(MoE)架构

51CTO内容精选 • 2604浏览 • 0回复
什么是多模态大模型？为什么需要多模态大模型？

AI探索时代 • 3984浏览 • 0回复
【机器学习】图解线性回归

鱼虫子 • 2041浏览 • 0回复
【机器学习】图解多重线性回归

鱼虫子 • 1709浏览 • 0回复
为什么预训练大模型要使用无监督学习的方式？

AI探索时代 • 2076浏览 • 0回复
深入理解预训练与微调，为什么需要预训练，什么是微调？

AI探索时代 • 3363浏览 • 0回复
什么是序列到序列(Seq2Seq)模型？以及为什么图像理解领域主要使用的是CNN网络而不是Transformer网络？

AI探索时代 • 1462浏览 • 0回复
人工智能小白到高手：什么是损失函数

AI取经路 • 1558浏览 • 0回复
神经网络之损失函数与优化函数——梯度下降

AI探索时代 • 1554浏览 • 0回复
深度学习的‘黄金法则’：为什么选择ReLU？

人工智能训练营 • 1628浏览 • 0回复
人工智能基础：Softmax 函数和分类交叉熵损失的导数

sbf_2000 • 1207浏览 • 0回复
原来机器学习这么简单—线性回归

宝宝数模AI • 1277浏览 • 0回复
你为什么要用GraphGAG？

熵减AI • 1202浏览 • 0回复
X-CLR：通过新型对比损失函数提升图像识别能力

51CTO内容精选 • 1231浏览 • 0回复
为什么 RAG 一定需要 Rerank？

玄姐聊AGI • 1197浏览 • 0回复
「DeepSeek-V3 技术解析」：无辅助损失函数的负载均衡

Baihai_IDP • 599浏览 • 0回复
哈佛大学：高维回归中的Scaling Law是重整化的自然结果

ceesoft • 519浏览 • 0回复

LV.3

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

31

帖子

260

声望

0

粉丝

关注

最近发布

训练大模型时，显存都哪去了？ 2024-11-19 12:41:34发布
生产环境测试模型的四种方法 2024-11-15 11:22:05发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

MCP协议之MCP-server(sse方式)实践 0回复

暴论：2025年，程序员必学技能就是 MCP 0回复

上一篇：什么时候Mahalanobis距离比欧式距离更合适？

下一篇：什么是主动学习？

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载