转跳到内容

[統計學] 马尔可夫不等式、大数定律及中心极限定理的一點理解


推荐贴

最近在學習一點基礎的統計學,歡迎各位批評指正。

-------------------------

設一次採樣(Sampling) 中包含n項的結果(experiment outcomes). 為本次採樣的平均值。現考慮 的平均值及標準差(又稱標準誤)。

qPAVJo.png

 

马尔可夫不等式( Markov’s Inequality)

24iJgr.png

(隱形前提: X,Ɛ為正)

直觀例子:不超过1/n的人会有超过平均工资的n倍的工资

Markov 的本質是運用了平均值本身的性質。設工資平均值為k, 總人數為10人。那麼總體的財富就是10k。設為10k, 那麼P(X> 10k) = 0.1, 說明最多只有1個人能夠拿到10k的工資。在這種情況下,其他人的工資必為0。如果有另一人獲得非0的工資,或者10k工資者加薪,本來的平均數就必須上調。

 

故,不等式右邊等於左邊的情況是: 右邊的人已佔據了全樣本所有的財富,他們的工資全部為Ɛ

 

切比雪夫不等式(Chebyshev’s inequality):

exEp6g.png

直觀思考: 切比雪夫不等式與上面Markov 一樣,都是"部分數據佔用了所有限額"的情況,只不過這次例子由工資換成了距離值。

同樣,設σ為10,n為10。 那麼整個sample的"距離值平方"上限是10^2*100 = 10000.  那麼假設有一個data point的"距離值平方" 是10000(即|X-μ|=100), 那麼這一項就已經將所有"距離值平方"上限都佔光了,任何其他資源點都必須在平均值上,否則標準差就需要調高。

 

大數定律(Law of large number):

6R70fv.png當一次sampling中的結果數n增至無限時,標準誤依概率收敛于0。按切比雪夫不等式, 不等於平均值的概率收敛于0。

 

中央極限定理 (Central Limit Theorem):

注意增加"一次採樣中的結果數"與"採樣次數"的分別。

當"採樣次數"增加至無限時,的分佈接近於常態分佈。然而這個性質只是來寫程序驗證CLT本身,沒有什麼用途。

"一次採樣中的結果數(n)"增加至無限(實用要求至少30)時,x̅的分佈接近於常態分佈。此分佈的標準差= s5mhtw.png, 隨n增加而接近於0。DPaqi0.png則接近mean = 0, variance = σ的常態分佈。本項特質即為中央極限定理。

 

---------------------------------------------------------------------------------

嗚嗚....好難好難.......CLT 我弄了好久還不懂確定是不是真懂了。"一次採樣中的結果數"與"採樣次數"兩個方向實在很容易混淆呢。

 

歡迎各位一起討論。有其他統計學方面的學習參考之類也歡迎。

,由NierPod042修改
多發幾份
注释
苍雨瞬 苍雨瞬 100.00节操 研究辛苦了...(但咱看不明白...)
ZERC ZERC 1.00节操 希望同盟能支持Latex。。。
链接到点评
1 小时前, NierPod042 说道:

一次採樣中的結果數"與"採樣次數"兩個方向實在很容易混淆呢。

确实不大一样.jpg

大数定律是说,你采了无数次样本,算数平均值等于期望值。sample_num = 1, sample_times = +inf

中心极限定律说,你采了1次样本,但是样本数为n个(n->+inf),这次样本的分布服从N(nμ,n*σ^2)的正态分布叭。  sample_num = +inf, sample_times = 1

,由mylifeyouwill修改

乱跑的泰兰德 获得了红包 10节操

注释
Kami丶米 Kami丶米 1.00节操 OTZ给大佬擦鞋
NierPod042 NierPod042 1.00节操 老大是活動Tutor, 也是數學Tutor(
EX0w0 EX0w0 1.00节操 你这牌子真好康!
EX0w0 EX0w0 1.00节操 我在同萌学数学系列专题.jpg
链接到点评

采样次数增加到无限这个x_bar不是趋近于正态分布吧。举个例子,一枚骰子(sample size=1),当采样次数无限的时候x_bar的分布是uniform distribution而不是正态分布。简单的说,当采样次数接近无穷时,得到的分布应该是结果本身的概率分布。(比如一个正常骰子从1到6是均匀分布的)

当样本数(sample size)n增大时,比如说你一次丢100个骰子,丢很多次之后得到的x_bar们会是正态分布(就是丢一次记录一次x_bar,丢个几千次)

还有,variance是方差,standard deviation是标准差,(sigma∧2)/n是方差不是标准差,整体开根号后才是标准差。

可洛 获得了红包 10节操

可洛目睹该饮使用黑魔法和萌懒签订契约使其成为了妹妹,得到2节操并碎了一地

注释
NierPod042 NierPod042 2.00节操 對對, n = 1 的結果和其他情況的分佈差很遠
链接到点评
13 小时前, NierPod042 说道:

中央極限定理 (Central Limit Theorem):

注意增加"一次採樣中的結果數"與"採樣次數"的分別。

當"採樣次數"增加至無限時,的分佈接近於常態分佈。然而這個性質只是來寫程序驗證CLT本身,沒有什麼用途。

"一次採樣中的結果數(n)"增加至無限(實用要求至少30)時,x̅的分佈接近於常態分佈。此分佈的標準差= s5mhtw.png, 隨n增加而接近於0。DPaqi0.png則接近mean = 0, variance = σ的常態分佈。本項特質即為中央極限定理。

马尔可夫不等式规定均值资源占用上限

切比雪夫不等式规定方差资源占用上限

大数定理,指样本量摧毁标准误差。

中心极限定理,指抽样次数抹平样本均值分布差别。

 

中心极限定理表明,所研究的随机变量如果是有大量独立的而且均匀的随机变量相加而成,那么它的分布将近似于正态分布。

所以其实这四条想导出的结果很简单,就是:

“如果你样本足够大,抽样次数足够多,就可以用正态分布近似完美的模拟一切(大量独立的而且均匀的随机变量相加而成)分布。”

这也是很多应用统计分析的理论基础。

11 小时前, 可洛 说道:

采样次数增加到无限这个x_bar不是趋近于正态分布吧。举个例子,一枚骰子(sample size=1),当采样次数无限的时候x_bar的分布是uniform distribution而不是正态分布。简单的说,当采样次数接近无穷时,得到的分布应该是结果本身的概率分布。(比如一个正常骰子从1到6是均匀分布的)

当样本数(sample size)n增大时,比如说你一次丢100个骰子,丢很多次之后得到的x_bar们会是正态分布(就是丢一次记录一次x_bar,丢个几千次)

还有,variance是方差,standard deviation是标准差,(sigma∧2)/n是方差不是标准差,整体开根号后才是标准差。

有一说一,“一枚骰子(sample size=1),当采样次数无限的时候x_bar的分布”还真不是uniform distribution。

你想想n=1的时候的x_bar,和n=2的时候的x_bar就知道了。

是求和啊,求和~~~

求和不是纵向叠加...

苍云静岳 获得了红包 10节操

注释
NierPod042 NierPod042 2.00节操 站長由專八到統計,什麼都懂.jpg
链接到点评
1 小时前, 苍云静岳 说道:

有一说一,“一枚骰子(sample size=1),当采样次数无限的时候x_bar的分布”还真不是uniform distribution。

你想想n=1的时候的x_bar,和n=2的时候的x_bar就知道了。

是求和啊,求和~~~

求和不是纵向叠加...

这我不能同意,一枚骰子和两枚的情况完全不一样,一枚是单纯的从1到6,没有求和的过程,两枚的情况就不一样了,会变成【2 3 3 4 4 4 5 5 5 5 6 6 6 6 6 7 7 7 7 7 7 8 8 8 8 8 9 9 9 9 10 10 10 11 11 12】(卧槽打这个累死我了)所以分布情况就不一样了(倾向于正态分布),所以实质上当样本数量从1到2的时候平均值本身就出现了正态分布的情况,

所以这里只讨论n=1,不考虑增加样本数量对样本均值正态分布的影响

(所以才说是采样次数无限,不增加样本数量嘛)

,由可洛修改

可洛在路上看到一个蘑菇,捡起时被一个从天而降的木桶击中脑袋,花费了医药费 -4节操

链接到点评
8 小时前, NierPod042 说道:

最近在學習一點基礎的統計學,歡迎各位批評指正。

-------------------------

設一次採樣(Sampling) 中包含n項的結果(experiment outcomes). 為本次採樣的平均值。現考慮 的平均值及標準差(又稱標準誤)。

qPAVJo.png

 

马尔可夫不等式( Markov’s Inequality)

24iJgr.png

(隱形前提: X,Ɛ為正)

直觀例子:不超过1/n的人会有超过平均工资的n倍的工资

Markov 的本質是運用了平均值本身的性質。設工資平均值為k, 總人數為10人。那麼總體的財富就是10k。設為10k, 那麼P(X> 10k) = 0.1, 說明最多只有1個人能夠拿到10k的工資。在這種情況下,其他人的工資必為0。如果有另一人獲得非0的工資,或者10k工資者加薪,本來的平均數就必須上調。

 

故,不等式右邊等於左邊的情況是: 右邊的人已佔據了全樣本所有的財富,他們的工資全部為Ɛ

 

切比雪夫不等式(Chebyshev’s inequality):

exEp6g.png

直觀思考: 切比雪夫不等式與上面Markov 一樣,都是"部分數據佔用了所有限額"的情況,只不過這次例子由工資換成了距離值。

同樣,設σ為10,n為10。 那麼整個sample的"距離值平方"上限是10^2*100 = 10000.  那麼假設有一個data point的"距離值平方" 是10000(即|X-μ|=100), 那麼這一項就已經將所有"距離值平方"上限都佔光了,任何其他資源點都必須在平均值上,否則標準差就需要調高。

 

大數定律(Law of large number):

6R70fv.png當一次sampling中的結果數n增至無限時,標準誤依概率收敛于0。按切比雪夫不等式, 不等於平均值的概率收敛于0。

 

中央極限定理 (Central Limit Theorem):

注意增加"一次採樣中的結果數"與"採樣次數"的分別。

當"採樣次數"增加至無限時,的分佈接近於常態分佈。然而這個性質只是來寫程序驗證CLT本身,沒有什麼用途。

"一次採樣中的結果數(n)"增加至無限(實用要求至少30)時,x̅的分佈接近於常態分佈。此分佈的標準差= s5mhtw.png, 隨n增加而接近於0。DPaqi0.png則接近mean = 0, variance = σ的常態分佈。本項特質即為中央極限定理。

 

---------------------------------------------------------------------------------

嗚嗚....好難好難.......CLT 我弄了好久還不懂確定是不是真懂了。"一次採樣中的結果數"與"採樣次數"兩個方向實在很容易混淆呢。

 

歡迎各位一起討論。有其他統計學方面的學習參考之類也歡迎。

我勒個大草,我都大學畢業快十年了,數學這種東西我高中畢業就不想碰了,沒想到在同盟會看到這種令人頭痛的東西:mx072:

链接到点评
7 小时前, 可洛 说道:

这我不能同意,一枚骰子和两枚的情况完全不一样,一枚是单纯的从1到6,没有求和的过程,两枚的情况就不一样了,会变成【2 3 3 4 4 4 5 5 5 5 6 6 6 6 6 7 7 7 7 7 7 8 8 8 8 8 9 9 9 9 10 10 10 11 11 12】(卧槽打这个累死我了)所以分布情况就不一样了(倾向于正态分布),所以实质上当样本数量从1到2的时候平均值本身就出现了正态分布的情况,

所以这里只讨论n=1,不考虑增加样本数量对样本均值正态分布的影响

(所以才说是采样次数无限,不增加样本数量嘛)

就是说,你搞错了中心极限定理的定义。

中心极限定理说的就是n个独立同分布的随机变量之和服从正态分布...

7 小时前, 可洛 说道:

所以这里只讨论n=1,不考虑增加样本数量对样本均值正态分布的影响

所以,你说的n,和我说的这个n不是同一个n~【笑】

你说的n是样本容量,我说的n是抽样次数。

而中心极限定理的n,指的就是抽样次数...

——当然,有可能你认为的x_bar的含义和我认为的x_bar的含义也不一样【笑】

链接到点评
2 小时前, 苍云静岳 说道:

你说的n是样本容量,我说的n是抽样次数。

而中心极限定理的n,指的就是抽样次数...

等一下,混亂了:NEKOMIMI_PARADISE_28:

中心极限定理的n, 是不是標準誤差s5mhtw.png中的n, 也就是說, "一次抽樣抽出n個樣本, 合為一項x̅"那一個n?

我最搞不懂就是這一點: 中心极限定理是在描述"一次取樣得出x̅這件事做n次", 還是"一次的樣本量是n"?

,由NierPod042修改
链接到点评
1 小时前, NierPod042 说道:

中心极限定理是在描述"一次取樣得出x̅這件事做n次"

是指这个。

而且指的是x_bar之和是趋于正态分布的。

所以说啦,n这个字母用太多次就会引起误会的w

 

你可以这么理解,和一次的样本量越来越大相关的,是大数定理;和抽取次数越来越多相关的,是中心极限定理。

苍云静岳收和谐资源时被小萝莉围观良心发现失去-3节操

链接到点评
4 小时前, 苍云静岳 说道:

就是说,你搞错了中心极限定理的定义。

中心极限定理说的就是n个独立同分布的随机变量之和服从正态分布...

所以,你说的n,和我说的这个n不是同一个n~【笑】

你说的n是样本容量,我说的n是抽样次数。

而中心极限定理的n,指的就是抽样次数...

——当然,有可能你认为的x_bar的含义和我认为的x_bar的含义也不一样【笑】

hhhh那应该是我对这个定理的理解有问题吧

x_bar我指的是一次取样的样本均值,n指的是样本容量(sample size)

n个独立同分布的随机变量之和服从正态分布...”这么说我感觉就懂了www

说实话统计这个东西定理什么的已经很久很久没接触过了...大概从高中开始

可洛在新手区仔细阅读版规时,意外收到来自小小坛娘奖励的6节操。

链接到点评
×
×
  • 新建...

重要消息

为使您更好地使用该站点,请仔细阅读以下内容: 使用条款