中国高校SAS数据分析大赛2018宣讲会-华南赛区巡讲

迪奥成长营丨助您轻松拿下心动的offer(六)

20200225



01

经典的两种参数估计方法:最小二乘法和极大似然估计法,这两者有什么样的区别?


最小二乘法:从模型总体随机抽取n组样本观测值后,假定模型方程,要求的参数是模型方程中的参数,求参数估计值的准则是,参数估计值应该是使模型的估计值与实际观测值之差的平方和最小。


极大似然法:从模型总体随机抽取n组样本观测值后,假定总体的概率分布,要求的参数是概率分布函数中的参数,求参数估计值的准则是,参数估计值应该是使抽取该n组样本观测值的概率最大,即联合概率密度值最大。


不同点:他们是从两个不同原理出发的两种参数估计方法。


1、在极大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,通常指似然函数最大,而似然函数又往往指数据的概率分布函数。总体的概率分布是不知道,一般都是假定总体服从正态分布。在这种情况下,极大似然估计和最小二乘估计的结果相同。


2、最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数。



02

已知   , 甲、乙厂生产的产品的次品率分别是 1% 和 2%,现在由   甲、乙 产品分别占 60%、40% 的样品中随机抽一件,若取到的是次品,求此次品是 乙厂生产的概率。

考查贝叶斯定理的应用。


这类问题首先将待求结果与条件用数学语言表达出来。

设事件A = 该产品来自乙厂,事件B = 该产品为次品

求 P(A | B)。


由贝叶斯公式展开得:

P(A | B) = P(A) * P(B | A) / P(B)。

其中,P(A) = 40%,P(B | A) = 2%。


由全概率公式可得:P(B) = P(B | A) * P(A)   + P(B | A’) * P(A’),其中P(A’) = 60%。


故P(B) = 2% * 40% + 1% * 60% = 1.4%。

P(A|B) = 40% * 2% / 1.4% = 57.14%



03

不用任何公开参考资料,估算中国今年新生儿出生数量。主要讲方法思路(参考资料是指公开现成的预计今年新生儿的数量)


1、采用两层模型(人群画像x人群转化):

新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率

(一般面试中采用这种方法,即费米估计问题,可以参考《这也能想到?——巧妙解答无厘头问题》)


2、从数字到数字:如果有前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测


3、找先兆指标,如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。

Xn/新生儿n为该年新生儿家庭用户的转化率,如X2018/新生儿2018为2018年新生儿家庭用户的转化率。

该转化率会随平台发展而发展,可以根据往年数量推出今年的大致转化率,并根据今年新增新生儿家庭用户数量推出今年估计的新生儿数量。



商务合作
BD@ibbd.net
简历投递
fuwu@ibbd.net
关于迪奥
产品中心
联系我们
行业应用
公司简介
新闻动态
人才招聘
自然语言理解
场景文字识别
文档OCR识别
金融行业
政府&公共事业
零售行业
020-29179586
工作日:9:30-18:30
广州市天河区华观路田头岗二路一横街起点国际三层
能源行业
文本数据挖掘