鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

对连续概率分布的一个常见误解原创

发布于 2024-10-17 13:19

浏览

0收藏

考虑下面这个连续概率分布的概率密度函数，它表示的是从A点到B点可能花费的时间。

对连续概率分布的一个常见误解-AI.x社区

这是一个连续随机变量t取值区间为[1,5]的均匀分布，其概率密度函数可以表示成下面形式。

对连续概率分布的一个常见误解-AI.x社区

那么，问题来了！

Q）他从A点到达B点花费3分钟的概率P(T=3)是多少？

对连续概率分布的一个常见误解-AI.x社区

哇哦！上述答案都是错的，正确答案是：0。

有的人可能会立马抗议，并表示为什么在掷色子中每个点的概率就是1/6呢？

对连续概率分布的一个常见误解-AI.x社区

因为掷色子实验结果是离散的，离散随机变量的概率分布称为概率质量函数（PMF），PMF中的每个值代表的就是概率。

而连续随机变量的概率分布称为概率密度函数（PDF），PDF中每个点对应的值不是概率，而是概率密度，也就是在该点附近取值的相对可能性。

对连续概率分布的一个常见误解-AI.x社区

是不是有点绕？不过没关系，只要知道它不是概率就行了，后面我们讲似然的时候还会提到。

对于概率密度函数，我们只能通过积分来计算某个区间的概率。

对连续概率分布的一个常见误解-AI.x社区

例如，一个人从A点到达B点花费2到4分钟的概率。

对连续概率分布的一个常见误解-AI.x社区

扩展阅读

似然vs概率

首先让我们先来看一下概率和似然的区别。

先来看下剑桥词典给出的解释。

● Probability: the level of possibility of something happening or being true.

● Likelihood: the chance that something will happen.

对连续概率分布的一个常见误解-AI.x社区

这两个概念非常容易被混淆，在字典中似然被解释成概率的代名词。

然而，在统计学中，似然和概率却有着非常大的区别。

概率通常用于预测一个事件发生的可能性。

例如，掷色子出现偶数的概率，机器学习模型预测输入是猫的概率。

对连续概率分布的一个常见误解-AI.x社区

在计算概率时，模型的参数是已知的，并且是可信的。

例如，我们计算抛硬币正反面的概率时，通常会假设并且相信硬币是无偏的。

相反，似然用于解释已经发生的事件。

与概率不同（参数已知，且可信），似然是在已知观测数据下，帮助我们判定参数是否可靠。

例如，我们将在2D数据上拟合一条直线，参数是斜率m和截距c。

对连续概率分布的一个常见误解-AI.x社区

在此，似然被定义为数据点为某些特定参数值提供的支持。

当m=2，c=1时，观测数据的似然是多少？

当m=3，c=2时，观测数据的似然是多少？

最大似然估计（MLE）

上面的定义就被应用到了最大似然估计（MLE）中。

MLE用于根据已知的观测数据来估计模型的参数。其核心思想是，通过寻找使观测数据最有可能（即似然最大）的参数值。

对连续概率分布的一个常见误解-AI.x社区

举个例子。

线性回归模型的参数有多种求解方法，例如，最小二乘法（OLS），梯度下降法。

今天我们应用概率方法，用最大似然估计（MLE）来求解模型的参数。

定义模型

对连续概率分布的一个常见误解-AI.x社区

β0、β1为待求解参数。

假设误差项服从正太分布：

对连续概率分布的一个常见误解-AI.x社区

也就是说y服从正太分布：

对连续概率分布的一个常见误解-AI.x社区

y的概率密度函数为：

对连续概率分布的一个常见误解-AI.x社区

2.构造似然函数

根据独立同分布假设，整个数据集的似然函数就是各个数据点在PDF中对应概率密度的乘积：

对连续概率分布的一个常见误解-AI.x社区

带入f：

对连续概率分布的一个常见误解-AI.x社区

3.取对数似然

根据对数函数的性质，可以将上述似然函数转换为对数似然函数：

对连续概率分布的一个常见误解-AI.x社区

进一步简化：

对连续概率分布的一个常见误解-AI.x社区

4.最大化似然函数

对数似然函数对参数导数，并令导数为零，得到参数的最大似然估计值：

对连续概率分布的一个常见误解-AI.x社区

对连续概率分布的一个常见误解-AI.x社区

本文转载自公众号人工智能大讲堂

原文链接：https://mp.weixin.qq.com/s/vMLzJMoxbCGxiX0PxDT43g

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

我们 Gemini 时代的下一个篇章

lazihuman • 1129浏览 • 0回复
手动实现一个扩散模型DDPM

pangguiyu • 4058浏览 • 0回复
AI下一个重大飞跃是理解情感！第一个具有情商的对话型AI来了

duhorse • 1488浏览 • 0回复
一文回顾常见图像融合方法

angel • 2724浏览 • 0回复
一个小技巧，解锁ChatGPT「预测未来」？

duhorse • 1147浏览 • 0回复
Agents需要一个代码解释器

51CTO技术栈 • 1024浏览 • 0回复
Gptpdf：一个简单巧妙的复杂Pdf解析工具，提升RAG效果

Syrupup • 3366浏览 • 0回复
一个更小、更快、更干净的 GraphRAG！！

玄姐聊AGI • 2159浏览 • 0回复
LabelU：一个强大且易用的多模态数据标注工具

AIGC观察者 • 3720浏览 • 0回复
RAGLAB：又来一个RAG框架，还是模块化的

大语言模型论文跟踪 • 941浏览 • 0回复
一个开源、清晰、强大且可定制的RAG UI

PaperAgent • 1440浏览 • 0回复
一个关于学习大模型技术的方法论

AI探索时代 • 674浏览 • 0回复
Agent遇上4万个工具？一个Token搞定！

探索AGI • 682浏览 • 0回复
怎么设计一个自己的大模型？设计一个大模型需要哪些能力？

AI探索时代 • 1590浏览 • 0回复
一个轻量级RAG文本切块项目Chonkie

PaperAgent • 860浏览 • 0回复
一个很强大的集成学习算法：XGBoost!

宝宝数模AI • 654浏览 • 0回复
机器学习的下一个前沿—量子扩展

51CTO内容精选 • 542浏览 • 0回复
一个强大的集成学习算法：随机森林

宝宝数模AI • 534浏览 • 0回复
一个强大的集成学习算法：梯度提升树！

宝宝数模AI • 336浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

训练大模型时，显存都哪去了？ 2024-11-19 12:41:34发布
生产环境测试模型的四种方法 2024-11-15 11:22:05发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

一文说清楚"知识蒸馏"（让“小模型”也能拥有“大智慧”） 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

被 DeepSeek 带火的蒸馏到底是啥 0回复

上一篇： Top-k Accuracy：模型优化策略不一定徒劳无功

下一篇：什么时候Mahalanobis距离比欧式距离更合适？

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载