我的命中率比杜兰特要高?

我的命中率比杜兰特要高?
如果你体育课投球10个,进了6个,然后高兴地说,我的命中率比大多数NBA球星要高。那么,恭喜你,你落入了统计学陷阱。先从国外的一所大学入手。假设存在两个学院,一个数理学院一个人文社科学院。数理学院每年 500 个申请者,100 个女生,400 个男生,女申请者有 80% 的可能被录取,男申请者有 75% 的可能被录取;人文学院每年 200 个申请者,160 个女生,40

如果你体育课投球10个,进了6个,然后高兴地说,我的命中率比大多数NBA球星要高。那么,恭喜你,你落入了统计学陷阱。

先从国外的一所大学入手。假设存在两个学院,一个数理学院一个人文社科学院。

数理学院每年 500 个申请者,100 个女生,400 个男生,女申请者有 80% 的可能被录取,男申请者有 75% 的可能被录取;人文学院每年 200 个申请者,160 个女生,40 个男生,女生有 20% 的可能被录取,男申请者有 15% 的可能被录取。

在两个院女申请者被录取率都比男申请者高的情况下,全校录取率男生更高。通过计算我们不难求出来,这是个事实。

道理很简单,像下面图片一样,全校的男生录取率和女生录取率相当于一个加权平均,但是男生和女生分别由两个录取率非常不同的群体组成(文科生和理科生),并且这两个群体的比例在男生和女生中非常不同(男生理科生多,女生文科生多),加权平均的结果会一个更接近文科录取率、一个更接近理科录取率。

![宽客网,量化投资,宽客俱乐部](https://v1cdn.cnq.net/file/2010/461lsxmw4ofu1u.png" />

所以,虽然大家都觉得美国有色人种的犯罪率更高,但实际上控制了年龄、父母收入、受教育程度几个变量之后,人种对犯罪率的影响是不显著的(这是 Thomas Sowell 在 black rednecks and white liberals 里面说的),细看黑人和白人的人口结构,其实只是黑人里面十五到三十岁这个范围内的人比例更高,而无论人种,都是年纪轻轻还教育不足、游手好闲的人犯罪比较多嘛。黑人最近三五十年一直生育率较白人为高,年轻人所占比例更高,所以整体犯罪率也会更高。

宽客网,量化投资,宽客俱乐部

Stein's paradox:这个好像不够“基础”。

假设我们有 n 个独立的正态分布样本(每个 X 都是含有许多样本点的 sample)

![宽客网,量化投资,宽客俱乐部](https://v1cdn.cnq.net/file/2010/463za55nb034cy.png" />

当 n 大于等于 3 时,如果考虑的是所有 n 个均值的 squared error risk:
![宽客网,量化投资,宽客俱乐部](https://v1cdn.cnq.net/file/2010/464eseqx3uphgb.png" />

那么有比直观考虑每一维均值的

![宽客网,量化投资,宽客俱乐部](https://v1cdn.cnq.net/file/2010/465t4c5ipz2y12.png" />

更好的估计量,这个估计量不会像上述统计量那样单独处理每一维度,而是将它们整合起来的如下估计量:

![宽客网,量化投资,宽客俱乐部](https://v1cdn.cnq.net/file/2010/466n54cxtctsg5.png" />

其中
![宽客网,量化投资,宽客俱乐部](https://v1cdn.cnq.net/file/2010/467tygpzlinzf3.png" />
是所有样本的均值(grand mean),而
![宽客网,量化投资,宽客俱乐部](https://v1cdn.cnq.net/file/2010/4682pkvkqyap1u.png" />
是每一个样本的单独均值,c 被成为“收缩因子”(shrinkage factor),它的计算方法如下

![宽客网,量化投资,宽客俱乐部](https://v1cdn.cnq.net/file/2010/469mioroz0304y.png" />

这个 paradox 的反直觉之处在于,以上结论在这些 X 相互独立的情况下也成立,换一个说人话的例子来说,我想要估计科比、詹姆斯、保罗、杜兰特、安东尼、邓肯这六个人职业生涯投篮命中率这样一个向量,那么,最好的估计量并不是算出这六个人分别出道以来的投篮命中率,而是先把六个人整个的总投篮次数和总命中次数加起来,算一个总平均,然后每个人分别向自己的那个投篮命中率统计稍微挪一点。换句话说,想要同时估计这些人的命中率,那就得在杜兰特的预测值里面掺上一点科比的数据,才能获得最低的平方误差,即使这两个人自己投自己的,互相没有什么影响。

Stein's Paradox in Statistics 这篇文章里面用的例子来自于棒球里面打击率(batting average,简化一点就是轮到一个人打击时他击出安打的概率)的估计作例子,用下图表示直觉的均值估计量和 Stein's estimator 的对比

宽客网,量化投资,宽客俱乐部
这里就可以直观地看出 shrinkage 的含义:每一维度上的估计都向 grand mean 方向收缩了。在这张图中,虽然大家的打击率估计都被改变了,但相对位置没有变化,排名维持不变。

在每一组数据方差相互不同的情况下,shrinkage 实际上可能会导致不同球员之间的顺序发生变化。

宽客网,量化投资,宽客俱乐部

直觉上其实也很好理解,如果我刚巧被某个不懂统计学的教练选中,在无关紧要的比赛里打了打酱油,5 投 4 中,然后就被裁掉了,我能之后在简历上写上“比杜兰特高 29%的命中率”去跟各队要求顶薪吗?由于数据量太少,我的投篮命中率并不是一个对于我的真实篮球水平的好的衡量,所以需要加入其他运动员的平均数据来加以修正。杜兰特 467 投 238 中命中率高于全NBA均值 6.2 个百分点,比我 5 投 4 中命中率高于全NBA均值 35.2 个百分点,在 Stein's estimator 和教练眼里一样,都要值钱得多。

简而言之,取样要足够多而且足够代表性。好歹别一节课手气不错就产生“命中率高于某个球星“的结论,坚持一个学期才是真理。

Via:中财千帆数学社

数模场景征集开始啦,详情请点击右下角主菜单【∞】选择 场景征集 了解详情,一起聊聊你印象中的数学建模
金融工程, 数学算法, 命中率, 均值

原文发布于宽客论坛,点击阅读原文