最近在學習一點基礎的統計學,歡迎各位批評指正。
-------------------------
設一次採樣(Sampling) 中包含n項的結果(experiment outcomes). x̅ 為本次採樣的平均值。現考慮x̅ 的平均值及標準差(又稱標準誤)。
马尔可夫不等式( Markov’s Inequality)
(隱形前提: X,Ɛ為正)
直觀例子:不超过1/n的人会有超过平均工资的n倍的工资
Markov 的本質是運用了平均值本身的性質。設工資平均值為k, 總人數為10人。那麼總體的財富就是10k。設為10k, 那麼P(X> 10k) = 0.1, 說明最多只有1個人能夠拿到10k的工資。在這種情況下,其他人的工資必為0。如果有另一人獲得非0的工資,或者10k工資者加薪,本來的平均數就必須上調。
故,不等式右邊等於左邊的情況是: 右邊的人已佔據了全樣本所有的財富,他們的工資全部為Ɛ.
切比雪夫不等式(Chebyshev’s inequality):
直觀思考: 切比雪夫不等式與上面Markov 一樣,都是"部分數據佔用了所有限額"的情況,只不過這次例子由工資換成了距離值。
同樣,設σ為10,n為10。 那麼整個sample的"距離值平方"上限是10^2*100 = 10000. 那麼假設有一個data point的"距離值平方" 是10000(即|X-μ|=100), 那麼這一項就已經將所有"距離值平方"上限都佔光了,任何其他資源點都必須在平均值上,否則標準差就需要調高。
大數定律(Law of large number):
按,當一次sampling中的結果數n增至無限時,標準誤依概率收敛于0。按切比雪夫不等式, x̅不等於平均值的概率收敛于0。
中央極限定理 (Central Limit Theorem):
注意增加"一次採樣中的結果數"與"採樣次數"的分別。
當"採樣次數"增加至無限時,x̅的分佈接近於常態分佈。然而這個性質只是來寫程序驗證CLT本身,沒有什麼用途。
當"一次採樣中的結果數(n)"增加至無限(實用要求至少30)時,x̅的分佈接近於常態分佈。此分佈的標準差= , 隨n增加而接近於0。則接近mean = 0, variance = σ2 的常態分佈。本項特質即為中央極限定理。
---------------------------------------------------------------------------------
嗚嗚....好難好難.......CLT 我弄了好久還不懂確定是不是真懂了。"一次採樣中的結果數"與"採樣次數"兩個方向實在很容易混淆呢。
歡迎各位一起討論。有其他統計學方面的學習參考之類也歡迎。