不想去健身房的我,最后被贝叶斯分析说服了...
作者:CQITer小编 时间:2018-07-29 21:03

大数据文摘出品
编译:Zhifu、JonyKai、汤圆、夏雅薇
可能经常你会听到一些很主观的评价比如“你太瘦了”或者“你怎么那么高”,但这里瘦或者高都是基于评价者的主观判断和视觉记忆做出的评述,并没有严格的参照。
作者从小被人说体型瘦小,于是他用了贝叶斯分析最终得出了自己的体重确实低于本国平均水平的结论。没有比直白的数字更有说服力了,想要说服自己健身的小伙伴不妨也试试作者的统计学暴击法!
这篇文章将叙述一个在线性回归理论中应用贝叶斯分析的有趣试验(一个小秘密:我在这篇文章中使用了公制计量单位呦)。
如文章标题所述,我将会对自己的体格进行一番科学的研究。
在开始之前,我希望大家多了解我一些:我在越南出生,在新加坡上高中,现在在美国上大学。我经常因为身形瘦小被人们取笑,说我应该多去健身房锻炼增肌,拥有更强壮的体魄。这些评价我一般都一笑置之。对于一个身高169厘米(5尺6寸),体重58公斤(127磅)的人来说,我的BMI指数(20.3)几近完美。

仔细一想,大家可能没说错:我比一般的越南男性要高,但却只有平均体重(维基百科里越南男性的平均体重是58公斤,平均身高是162厘米),“看起来”可能是要稍微瘦一些。
这里“看起来”是关键:背后的逻辑很清楚,不是吗?如果你把自己抻长一些,体重不变,那确实应该看起来苗条一些。我把这个看作是严肃的科学问题,并准备深入研究。
对于一个169厘米高的越南男性来说,我到底轻了多少呢?
我们需要一种有理有据的方式来研究这个问题。有个好方法是尽可能多地找到越南男子身高和体重的数据,来判断我在这个样本中的位置。
越南人口数据
在浏览各种网页后,我找到了一份调查研究数据,包含超过10,000名越南人的人口统计信息。将抽样条件设置为年龄18-29岁的越南男性,从而得到数量为383的样本,这个样本足以用来进行接下来的分析啦。
首先,通过人口体重的直方图,看看我在年轻越南男性中的体重分布位置。

红线表示样本的中位数,而橙色线表示平均值
这张直方图表明我的体重略低于383名年轻越南男子的体重平均值和中位数。看起来是与我们要研究的相关呀!然而问题并不在于我的体重与这个样本本身的比较,是假设这383个人可以代表越南男性,在身高169厘米的情况下,我的体重与整个越南人口相比处于一个什么位置。为此,我们需要进行回归分析。
首先绘制一个身高和体重的二维散点图

好吧,看起来我处在平均水平。但是如果我们只看身高169厘米的数据(想象一条垂直x轴于169厘米这个刻度并穿过红点的直线),我的体重在他们之中处于下游。
另一个重要的发现是越南男性身高和体重呈正相关。我们将进行定量分析来进一步了解这种关系。
首先,让我们快速添加“普通最小二乘”线。我稍后会详细介绍这一点,现在先在图上展示出来。

最小二乘线可以表示为y = -86.32 + 0.889x,这表明通常情况下,我这个年龄的越南男性,每增加1厘米的身高,体重会增加0.88千克。
但是,这并没有解决我们的问题;身高169厘米,体重58公斤到底是太沉,太轻还是刚刚好呢?要以定量的方式进一步解释这个问题,如果有所有身高1米68的人的体重分布,那么我的体重排在前25%,50%或75%的几率是多少?要弄清这一点,我们需要深入学习并理解回归背后的理论。
线性回归理论
在线性回归模型中,Y变量(在我们的例子中,是人的体重)是x(身高)的线性函数。在这个线性关系中截距和斜率分别为β0和β1;也就是说,假设E(Y | X = x)=β0+β1x。我们不知道β0和β1是多少,所以将它们视为未知参数。
在大多数标准线性回归模型中,我们进一步假设给定X = x的情况下,Y的条件分布是正态分布的。
这就是基本的线性回归模型:
可以被改写成:
注意,在许多模型中,我们可以用精度参数τ替换方差参数σ,其中τ= 1 /σ。
总结:因变量Y遵循由平均数μi和精度参数τ决定的正态分布。μi是由β0和β1决定的X的线性函数。
最后,我们还需假设未知方差不依赖于x;这种假设称为同方差性。
涉及的内容很多,都涵括在下面这张图里啦。

图像来源:Joseph Chang(耶鲁大学)



