点击上方关注,All in AI中国
根据维基百科,以法国数学家SiméonDenisPoisson命名的泊松分布(Poisson Distribution)是一个离散概率分布,表示如果这些事件以已知的恒定速率发生,则在固定的时间或空间间隔内发生给定数量事件的概率。
让我们了解这究竟是什么意思。
环境设置
清理
加载库
数据
在本练习中,我一直在寻找FIFA比赛数据,并使用我们朋友在谷歌(谷歌数据集搜索)上的最新资源,我发现这个惊人的数据集国际足球比赛结果是从1872年到2018年的记录。这是所有足球的数据集1872年至2018年的比赛,总共39,669场!(数据集传送门:https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017)
探索
看起来数据是完整和整洁的。让我们一起去看一些有趣的发现
- 数据从1872年11月30日到2018年7月10日。
- 最大home_score值为31,最大off_score为21?!
- 大约25%的比赛是在中立的区域进行的。这些都是世界杯比赛吗?
让我们生成一些更有趣的功能
Poisson分布何时适用?
要使一个随机变量k是泊松,它需要保持以下4个条件(维基百科)
- k是事件在一个区间内发生的次数,k可以取值0,1,2,....即,k需要是整数(与更流行的高斯分布的主要区别,其中变量是连续的)。
- 一个事件的发生不会影响第二个事件发生的概率。也就是说,事件独立发生。
- 事件发生的速率是不变的。某些时间间隔的速率不能更高,而其他时间间隔的速率更低。
- 两个事件不可能在同一时刻发生;相反,在每个非常小的子间隔中恰好发生或不发生一个事件。
要么
实际概率分布由二项分布给出,试验次数远大于人们所要求的成功次数。
现在,让我们首先确定我们的k和间隔,看看它们是否符合上述4个条件。让我们探讨以下3个选项 -
- k是目标总数,间隔是1年。
- k是目标总数,间隔是1天。
- k是目标总数,间隔是1场比赛。
虽然我们保留了3个选项,条件1和2总是保持不变,即目标数总是一个整数,1个目标独立于另一个目标(大部分)。但我们需要探索每个选项的条件3和4。
1. k是目标总数,间隔是1年
正如我们在上面的2个图中看到的那样,即使平均目标数量多年来或多或少保持不变,但每年的目标总数增加,这违反了我们的条件3,因为它是泊松分布。此外,根据条件4,试验次数应该比成功次数大得多,在这种情况下也会违反,因为我们有147次试验(即数据集中的年数),成功次数约为1000或更多(即每年的总进球数)。
即使在逻辑上,我们也可以认为如果一年中有更多的比赛,那么那一年的总进球数将会更多,这违反了条件3。
基于上述情况,我们还可以假设我们的选项2(即1天内的目标总数),虽然与选项1相比更接近泊松分布,但它仍然不会因为更多的匹配数量日将意味着更多的目标将违反条件3,即事件发生的速率需要保持不变。让我们看一下选项2。
2. k是目标总数,间隔是1天