SEO外包平台,我们为您提供专业的企业网站SEO整站优化外包服务 SEO设置

SEO外包平台

专注于企业网站SEO整站优化外包服务

如何回答数据职位面试中,T-Test Z-Test 的区别?

作者:jcmp      发布时间:2021-04-28      浏览量:0
在北美求职大数据工作岗位的同学,在

在北美求职大数据工作岗位的同学,在面试中都会被问到一些统计概念。

其中最常被问到的就是请说一下,t test 和 z test 的区别是什么。

还有一些面试官,喜欢变着花样问,比如他们给你一组数据,问你这组数据应该用哪种统计方法来检验?

我们首先想一想,面试官为什么会问这个问题?

有同学说,我记得大学统计课学了很多种不同的检验啊。为什么面试问的“最多”的是这两种检验,而不是其他的检验呢?

因为,在互联网行业中,我们会做大量的AB测试,比如哪种颜色的支付按钮支付率会高,哪种页面设置,会让用户多下单?

为了评价这种实验的结果,我们用到的就是z test 或者 t test。

答题的要点

不太好的回答

我培训过不少学生,也面试过不少求职者。有几种不理想的回答是这样子的:

1)完全不懂

2)概念搞混。和很多其他统计测试搞混。比如会和F检验,卡方检验概念搞错

3)不系统。想到什么说什么

4)纯背诵。因为知道面试经常问这类问题,所以把他们区别背了下。但,面试官紧跟着问了一个问题的话,面试同学就完全不知道如何解答了

好的回答

什么是好的回答呢?

一个好的回答,要有系统性,回答要有框架。

其实有框架套用在所有的面试回答中,哪怕是case study,回答也是需要framework。

框架可以帮你理清你的思路,也可以让倾听者更容易理解。

这道题目如何套用框架呢?

首先我们知道几乎所有的统计检验,都有几个必要组成元素。

1)假设(assumption)

2)样本量(sample size)

3)公式(formula)

4)分布图(distribution chart)

5)查表(P value lookup table)

1)假设(assumption)

从assumption来看,他们需要所有的样本点都是随机且独立的。从这一点来说,两者都一样,没有区别。

(特例:t test 里有一种paired samples, 也叫dependent sample t-test,它assumption的样本是非独立的。我们不用深究这个。第一,面试普通数据职位通常不会涉及这个概念,第二,这一种类型的t test不常用,所以我们不展开)

2)样本量

通常z test 要求至少大于30,t test 没有样本要求,所以小于30的样本可以用t test。

那问题来了,如果样本都大于30呢?两个都能用吗?我们看看公式。

3)公式

我们看到分母部分的标准差有区别,一个是σ,一个需要带入总体标准差,而t带入的是样本标准差。

从公式,我们可以知道,如果知道总体标准差的话,我们可以用z test,但是如果总体标准差,我们无法得知的话,那就用t test。

具体的例子有什么呢?

小C觉得他们公司的女孩子的体重应该都是100斤以下的,然后他问了50个女孩子的体重,得出平均体重是98斤,方差是20斤。

这种呢,就属于总体方差未知,但是知道样本方差的。 所以我们用t检验。

4) 分布图

我们看到 t test 有好多个正态分布的线,随着样本量的不同他们的形状发生相应的变化,

而z test 的分布图只有一根正态分布,它没有因为样本的数据而发生变化,我们也把z test的分布图叫做 standard normal distribution。

如果把他们放在一起看的话,我们发现当样本量小于30的时候(前两张图),他们两者之间的形状还是有些区别的,但是当样本大于30的时候,他们的形状已经趋近一致了。

这个动态的网站,可以体验一下,非常直观了解两者区别。
Normal Distribution vs. t-distribution

5)查表

我们发现z test只需要根据公式得出z score,带着z score,和置信区间,查表得出P value 就可以

而t test,不仅需要带入t 值,还需要结合样本量一起看,查找P value

总结

通过这5种比较,是不是t test 和 z test 的区别就非常清楚了?

有没有发现关键因素就在于总体方差是否已知,样本量是多少?

我们最后用树形图理一下思路。

最后再提一句,由于北美面试的对话风格是问什么回答什么,啰里八嗦说一堆,可能会让人觉得不切要点。
所以,我的建议的是如果你非常了解这两者区别的话,直接说,方差和样本量,也未尝不可。但是要注意,随时准备你回答完毕之后,面试官可能follow up的问题。

后续

有同学会问,那工作中的A/B测试中的t test, z test,也是这么用的吗?课堂里的统计课好像没有互联网AB测试的例子,我的概念还是很模糊。

其实工作中的AB测试会复杂一点,主要是two samples,而不是我们上面举的one sample的例子,但是以上文章开头提到的基本5点是不变的。

下一篇文章会继续分析AB测试如何用tow sample test里的t test和 z test。

完。