众所周知,贝叶斯定理是一种在已知其他概率的情况下求概率的方法:
那我们怎么去理解这个传说中不黄但很暴力的贝叶斯定理呢,贝叶斯定理是如何暴力狂虐数学界的?
首先,对于贝叶斯定理,还是要先了解各个概率所对应的事件。
P(A|B) 是在 B 发生的情况下 A 发生的概率;
P(A) 是 A 发生的概率;
P(B|A) 是在 A 发生的情况下 B 发生的概率;
P(B) 是 B 发生的概率。
1
要理解贝叶斯定理,我们先来看一个“对方到底喜不喜欢你?”的例子。小李经常单独找晓陈聊天,而晓陈想知道小李是不是喜欢自己。在这里,小李喜欢晓陈是事件A,而小李经常和晓陈聊天是事件B。
在这里,我们先认识一些数学符号,P(A)表示A发生的概率,P(B|A)表示在A发生的条件下,B发生的概率,P(A∩B)则表示A和B两事件都发生的概率,其他同理。
根据条件概率的定义,在事件 B 发生的条件下事件 A 发生的概率为:
同样地,在事件 A 发生的条件下事件 B 发生的概率为:
通过P(A∩B),我们可以得到:P(A)×P(B|A)=P(B)×P(A|B),进行简单的变换,就可以得到以上著名的贝叶斯定理了:
以上是我们得到最基本的贝叶斯公式的推导过程。在贝叶斯定理中,A是你要考察的目标事件(如喜不喜欢晓陈),P(A)是在没有其他任何信息帮助下,这个目标事件的概率,被称为初始概率。公式左边P(A|B)是指当发生B事件(如单独聊天)后,我们得到的新的观察,被称为后验概率,也就是我们最终寻求的事件概率。
在现实生活中,我们大脑决策的过程就是应用贝叶斯定理的过程。我们的手中只有有限的信息,而决策就是要利用有限的信息,尽量做出一个最优的预测。正如法国著名的天文学家和数学家皮埃尔·西蒙·拉普拉斯所说的一样:“人生最重要的问题,在绝大多数情况下,真的就只是概率问题。”概率是个主观值,完全就是我们自己的判断,我们可以先估计一个初始概率 ,然后每次根据出现的新情况,掌握的新信息,对这个初始概率进行修正,随着信息的增多,慢慢逼近真实的概率。这个方法完美的解决了信息少的问题,我们不用等样本累积到一定程度,先猜一个就行动起来了。
让我们回到小李和晓陈身上。晓陈如何推测小李喜欢自己的概率呢?首先,晓陈只能主观想出一个初始概率,在没发生B(小李单独找晓陈聊天)之前,晓陈推测小李喜欢自己的概率很低,只有5%(P(A))。
假设如果一个人喜欢另一个人,那么他经常找对方聊天的概率是80%;一个人不喜欢另外一个人,他经常找对方聊天的概率只有20%。即P(B|A)=0.8,P(B|非A)=0.2。
注意经常找对方单独聊天的情况存在两种:喜欢并单独聊天或不喜欢也单独聊天,因此P(B)=P(B|A)×P(A)+P(B|非A)×P(非A)=0.8×0.05+0.2×0.95=0.23。
在小李喜欢找晓陈聊天的情况下,小李喜欢晓陈的概率涨到了:P(A|B)=P(A)×P(B|A)/0.23=0.05×0.8÷0.23=17.4%。
如果随着晓陈后来的观察,她又发现了别的“蛛丝马迹”,如小李经常偷看自己,那么利用贝叶斯定理,小李喜欢晓陈的概率肯定还会进一步上升。
2
还没看懂。。。那我还举个例子吧
京西大旅馆为了庆祝开业三周年的好日子,老板刘强西准备带着实习生小李去郊外旅游,不过一大早天空多云:
糟了!50%的雨天的早上是多云的!
但多云的早上其实挺多的(大约40%的日子早上是多云的)!
这个月干旱为主(平均30天里一般只有3天会下雨,10%)!
刘强西45°角仰望天空,想着要不要去郊游。。。
作为聪明的实习生,小李立马拿出他的小本子:
此时,我们用"雨"来代表今天下雨,"云"来代表早上多云。
当早上多云时,当天会下雨的可能性是 P(雨|云)。
P(雨|云) = P(雨)·P(云|雨) /P(云)
P(雨) 是今天下雨的概率 = 10%
P(云|雨) 是在下雨天早上有云的概率 = 50%
P(云) 早上多云的概率 = 40%
基本的概率情况已经确定,那就简单了
P(雨|云) =0.1×0.5/0.4=0.125
小李:刘老板,不用看天气了,今天下午的概率只有12.5%,可以去郊游的。
刘强西听完后:行,那赶紧上车!
然而,“小李”算不如天算,你看,天就下雨了。。。
小李尴尬ing
故事到这里还没结束,当时我们在学习贝叶斯定理的时候,时常会记不住到底是B在前,还是A在前,公式该怎么写
直到有一次,小李(这个小李是做监控的小李,不是上面说的刘强西的小李)看我在写贝叶斯公式,说出:AB AB AB。
所以对于贝叶斯公式,记住AB AB AB,然后再做分组:"AB = A×BA/B"。
别急,假如“A”还有两个可能,插入新举例
各位监控君,你们听说“假阳性”、“假阴性”这两个词吗?
是的,没错,就是某些疾病检测一般喜欢用名词,医学院的同学赶紧拿好小板凳,接下来就是考试重点了。
贝叶斯定理虽然只是一个概率计算公式,但其最著名的一个用途便是“假阳性”和“假阴性”检测。
3
再丢个例子。。。
上次没出成郊游,刘强西却在路边捡了一只小流浪猫回京西大旅馆,每天就顾着撸猫。。。
两天过后,刘强西突然浑身发痒,小李就想起来是不是刘强西对猫过敏,于是刘强西就做了一个简单的过敏检测:
对于真的有这种过敏的人,检测有 80% 的机会给回 "有" 的结果;
对于没有这种过敏的人,检测有 10% 的机会给回 "有" 的结果(而这种情况,称之为"假阳性")。
从实际情况看,京西大旅馆的村子有 1% 的人有这种过敏,而刘强西的检测结果是 "有",那么刘强西真的有这种过敏的可能性有多大?
P(过敏) 是有这种过敏的概率 = 1%
P(有|过敏) 是对于真的有这种过敏的人,检测的结果是 "有" = 80%
P(有) 是对于任何人,检测的结果是 "有" = ??%
糟糕!我们并不知道检测结果是 "有" 的一般可能性是多少……
不过我们可以把有这种过敏和没有这种过敏的概率相加来求这个一般概率:
1% 的人有这种过敏,检测对 80% 的这些人说 "有"
99% 的人没有这种过敏,检测对 10% 的这些人说 "有"
把概率加起来:
P(有) = 1% × 80% + 99% × 10% = 10.7%
就是说大约 10.7% 的人会得到 "有" 的检测结果。
那此时我们就可以计算出,刘强西真正对猫过敏的概率为
P(过敏|有) = 1% × 80%/10.7%= 7.48%
所以此时也就有了贝叶斯定理特别版:
最后说多两句:
贝叶斯统计作为常用的基础算法,不要小看其作用,其在机器学习中是占据重要的一席之地。尤其是在数据处理方面,针对事件发生的概率以及事件可信度分析上具有良好的分类效果,在人工智能监控领域,作者也很期待贝斯叶架构带算法和处理一体的芯片到来!