2011年2月28日 星期一

第4章 常態分佈 第一節 常態分佈的特性 (1)

第4章
常態分佈
第一節 常態分佈的特性 (1)
• 如果調查台灣1000位成年男性的身高,將會發現身高特別高和特別低的人佔極少數,絕大多數的人身高都在中間(例如170公分)附近。
• 如果這1000人的平均身高是170公分,那麼身高離170公分越遠的人,所佔的比例就越少。簡單的說,大略呈現以170公分為中心,並往兩旁遞減的分佈圖。如下圖所示。

第一節 常態分佈的特性 (2)
• 如果調查的是體重、收入、智力等變項,也很可能出現類似上圖的分佈。
• 上圖的分佈是間斷的,可是理論上身高是連續的,因為任何兩個人之間,存在第三個人,其身高介在他們之間。
• 如果調查更多的人(如10萬人),那麼上圖的長條圖中間斷現象逐漸會消除。一旦調查人數非常之大,那麼上圖的長條圖會變成平滑的曲線圖,如下圖中的平滑曲線所示。

第一節 常態分佈的特性 (3)
• 上圖的平滑線左右對稱,好像一座山,或者類似「銅鐘」的形狀。也就是中間最高,往兩旁遞減,這就是所謂的常態分佈(normal distribution)。
• 由於是左右對稱,且由中間往兩旁遞減,因此中心點最高的位置就是平均數,也就是眾數、和中位數,三者合而為一。
• 常態分佈是連續的曲線,但是現實中,並沒有連續的曲線存在。頂多只是類似常態分佈,可是當樣本數很大時,會越接近常態分佈。
第一節 常態分佈的特性 (4)
• 早在18世紀就有數學家和天文學家開始探討這樣的一條曲線。德國天文家兼數學家高斯(Carl Friedrich Gauss,1777-1855)利用常態分佈研究天文學觀察中誤差的分佈情形,因此常態分佈又稱高斯分佈。
• 後來高登爵士(Sir Francis Galton, 1822-1911)將高斯分佈用於心理測驗的研究中。
• 另一位著名的數學和統計學家Karl Pearson(1857-1936)將高斯分佈稱為常態分佈。
第一節 常態分佈的特性 (5)
• 這條曲線的數學函數為



• 其中 = 3.1416,e是自然對數之底2.7183,X介在正負無限大,是平均數,是標準差。一旦確定平均數和標準差後,帶入公式算得f(X)。

第一節 常態分佈的特性 (6)
• 要決定常態分佈的形狀,就必須知道平均數和變異數(或者標準差)。常態分佈取決於兩個參數(parameter):和。
• 只要設定這兩個參數,就可以畫出那條常態分佈曲線。只要或不同,曲線就不同。
• 這也就是為何在上述公式裡,表明
• 其中分號後面代表的就是決定這個函數的參數。假如變數X服從常態分佈,平均數為,變異數為2,則寫成:X ~ N(, 2),其中~表示服從,N表示常態分佈。
第一節 常態分佈的特性 (7)
• 下圖(機率密度函數圖,probability density function plot)呈現三條常態分佈曲線,其中A曲線的平均數和標準差分別為170和5,B曲線的平均數和標準差分別為175和5,C曲線的平均數和標準差分別為170和10。
• 比較A和B,可以發現當平均數不同而標準差相同時,整個曲線只是位移而已。
• 比較A和C可以發現如果標準差不同,整個圖形就改變了,即使他們的平均數相同。例如C便得比A來得平坦多了,那是因為C的標準差遠比A來得大所致。

第一節 常態分佈的特性 (8)
• 如果是間斷變項,例如骰子出現的點數,那麼就可以說出現3點的機率(probability)是1/6,即p(X = 3) = 1/6。
• 換做連續變項,不宜宣稱X等於某個值的機率。
• 假如把身高當作連續變項,那麼身高是170公分整的機率是多少?嚴格的說,在連續變項中任何一點出現的機率都是0,因此170公分整的機率等於0。
第一節 常態分佈的特性 (9)
• 連續變項既然無點出現的機率,改稱為機率密度(probability density)。在平均數為170,標準差為5的常態分佈中170的機率密度等於



第一節 常態分佈的特性 (10)
• 機率密度函數圖只能看出各個點的機率密度,但機率密度無多大意義,因此該圖並不實用。
• 對使用者而言,不關心170公分的機率密度,而是關心170公分以下的機率,或是165至175的機率,因此應該換另外一個能夠呈現這種意義的圖。
• 就數學而言,要得到這樣的圖,必須透過積分以計算某段區間的面積。令整個曲線所涵蓋面積為1,那麼某段區間所佔的面積就是該區段的機率。
第一節 常態分佈的特性 (11)
• 下圖呈現常態分佈(平均數170,標準差5)的累積分佈函數圖(cumulative distribution function)。
• 如果要計算170公分以下的機率,就直接從170處往上劃至該曲線,然後往左劃,即可算得。同理,要計算任何一個區段(如165至175)的面積,也可如此,輕易算得機率了。

第一節 常態分佈的特性 (12)
• 如果要計算170公分以下的機率,就直接從170處往上劃至該曲線,然後往左劃,即可算得。同理,要計算任何一個區段(如165至175)的面積,也可如此算得機率。
• 不過畢竟要如此計算機率,必須先有此累積分佈函數圖。可惜,通常不易獲得該圖。此外用畫線的方式也只能得到粗略的數值。
第一節 常態分佈的特性 (13)
• 一般的統計學教科書的附錄裡,都可以查到常態分佈的機率密度函數和累積分佈函數。
• Excel的函數NORMDIST和NORMINV,直接可以查詢。 例如要查詢平均數為170,變異數為25的常態分佈,寫成N(170, 25),170的機率密度,就鍵入「=NORMDIST(170,170,5,FALSE)」得機率密度為0.0798。
• 其中NORMDIST就是查詢常態分佈的函數,第一個170就是要查的數值,第二個170為該常態分佈的平均數,5是標準差,FALSE表示要查的是機率密度。
第一節 常態分佈的特性 (14)
• 若要查負無限大到170的機率(同樣是N(170, 25)),鍵入
• 「=NORMDIST(170,170,5,TRUE)」,其中TRUE表示要查的是累積機率,得到0.5。這表示在平均數為170,變異數為25的常態分佈中,負無限大到170的機率就是0.5,也就是說170左邊的面積佔0.5。

第一節 常態分佈的特性 (15)
• 假如我們會想知道中間的80%(或90%,95%等)的成年男子的身高介在那裡至那裡之間。如果身高是平均數170,標準差5的常態分佈,那麼80%的成年男子的身高將介於170某個範圍。以平均數170為中心點,左右兩邊各佔40%,合計80%。
• 這可利用下圖的累積分佈函數圖窺知。在Y軸上的0.1和0.9處往右劃至曲線,再往下劃至X軸即得,分別為164和176。身高在164和176之間的人佔80%。

第一節 常態分佈的特性 (16)
• 上圖的作法等於在計算累積分佈函數的反函數,Excel提供了這項函數NORMINV。
• 我們要算從分佈的左邊起算,面積為0.1的數值是多少,以及面積為0.9的數值為多少。
• 鍵入「=NORMINV(0.1,170,5)」得163.59,這表示在平均數為170,標準差為5的常態分佈中,左邊起算到163.59的面積為0.1。
• 鍵入「=NORMINV(0.9,170,5)」得176.41,這表示從左邊起算至176.41的面積為0.9。因此在163.59到176.41的數值占的面積為0.8。
第一節 常態分佈的特性 (17)
• 例子1
• 如果全國成年男性的身高為常態分佈(嚴格的說是非常近似常態分佈),平均數為170,標準差為5。身高在平均數上下0.5個標準差的人約佔多少?在平均數上下1個標準差的人約佔多少?在平均數上下1.645個標準差、上下1.96個標準差、上下3個標準差的人約佔多少?
第一節 常態分佈的特性 (18)
• 作法
• 已知1個標準差為5,因此在平均數上下0.5個標準差的數值就是1702.5。即167.5和 172.5 。
• 從負無限大到167.5的面積為0.31,這可以利用NORMDIST函數求得,鍵入「=NORMDIST(167.5,170,5,TRUE)」。由於常態分佈是左右對稱,因此從172.5到無限大的面積也是0.31。扣除兩邊面積各0.31後,中間167.5到172.5的面積就是0.38。
第一節 常態分佈的特性 (19)
• 平均數上下1個標準差的數值為165和175。從負無限大到165的面積為0.16,從負無限大到175的面積為0.84。因此在平均數上下1 個標準差之間的面積0.68。
• 平均數上下1.645個標準差的數值為161.775和178.225。從負無限大到161.775的面積為0.05,從負無限大到178.225的面積為0.95。因此在平均數上下1.645個標準差之間的面 積就是0.90。
第一節 常態分佈的特性 (20)
• 平均數上下1.96個標準差的數值為160.2和179.8。從負無限大到160.2的面積為0.025,從負無限大到179.8的面積為0.975。 平均數上下1.96個標準差之間的面積就是0.95。
• 平均數上下3個標準差的數值為155和185。從負無限大到155的面積為0.0014,從負無限大到185的面積為0.9987。因此在平均數上下3個標準差之間的面積就是0.9973。
第一節 常態分佈的特性 (21)
• 對任何的常態分佈而言,平均數上下0.5個標準差之間的面積為 0.38;上下1個標準差之間的面積為 0.68;上下1.645個標準差之間的面積為 0.90;上下1.96個標準差之間的面積為 0.95;上下3個標準差之間的面積為 0.997。
第一節 常態分佈的特性 (22)
• 例子2
• 假設某廠牌汽車電池的壽命是常態分佈,平均數為800天,標準差為100天。現隨機抽取一個汽車電池,其壽命小於500天的機率有多大?大於1000天的機率有多大?介於700天至900天的機率有多大?
• 如果該公司想訂定一個保固期,在保固期限內可以免費更換電池,公司最多可以承擔1%的免費更換,保固期應該定多久?
第一節 常態分佈的特性 (23)
• 作法
• 鍵入「=NORMDIST(500,800,100,TRUE)」得0.001,因此小於500天的機率為0.001。
• 鍵入「=NORMDIST(1000,800,100,TRUE)」得0.977,這是小於1000天的機率。大於1000天的機率為1 – 0.977 = 0.023。
第一節 常態分佈的特性 (24)
• 鍵入「=NORMDIST(700,800,100,TRUE)」得0.159。鍵入「=NORMDIST(900,800,100, TRUE)」得0.841。介於700天到900天的機率就是0.841 – 0.159 = 0.683。
• 由於最多承擔1%的免費更換,等於要找到一個電池壽命的天數, 其左邊的面積為1%。鍵入「=NORMINV(0.01,800,100)」得 567天。電池壽命小於567天的機率為1%。
第二節 標準常態分佈(1)
• 標準常態分佈(standard normal distribution),又稱Z分佈,就是將平均數訂為0,變異數訂為1的常態分佈。
• 任何常態分佈都可以換做標準常態分佈,只要它的值減去平均數再除以標準差。即
第二節 標準常態分佈(2)
• 此Z變項所形成的分佈稱為標準常態分佈,又稱Z分佈。此分佈的機率密度函數為:


第二節 標準常態分佈(3)
• 對Z分佈而言,其值介於 ±0.5的機率為38%;其值介於 ±1的機率為68%;介於±1.645的機率為90%,介於±1.96的機率為95%,介於±3的機率為99.7%。
• 定義z/2為Z分佈「右邊」起算面積為2的z值,如下圖所示,由於Z分佈左右對稱於0,因此
• z/2 = - z
• Z介於- z是z的機率為1- :
• P(- z < Z < z) = 1- 

第二節 標準常態分佈(4)
• 利用Excel計算Z分佈的累積分佈函數及其反函數,除了可以援用上述常態分佈的函數NORMDIST和NORMINV外(此時請鍵入平均數0,標準差1。)還可以利用NORMSDIST和NORMSINV。
• 不過若要計算Z分佈的機率密度函數,還得用NORMDIST,因為NORMSDIST只能計算累積分佈函數。
第二節 標準常態分佈(5)
• 在進行線性轉換之前,X變項是常態分佈,由於線性轉換不會改變其分佈形狀,因此Z變項仍是常態分佈。
• 如果X變項原本就不是常態分佈,即使進行線性轉換成為Z變項,並不使得Z變項變為常態。
第三節 峰度與偏態 (1)
• 峰度(kurtosis)和偏態(skewness)常被分別用於描述資料分佈的高度和左右對稱性。
• 常態分佈的峰度等於0。如果資料的峰度大於0,那麼該資料的分佈較高聳且狹窄,稱為高狹峰分佈(platykurtic distribution)。
• 如果峰度小於0,資料的分佈較平坦且寬闊,稱為低闊峰分佈(leptokurtic distribution)。

第三節 峰度與偏態 (2)
• 峰度的公式是



• 如果是樣本的話,峰度為:
第三節 峰度與偏態 (3)
• Excel資料分析的「敘述統計」功能可計算峰度。
• 或利用KURT的函數。例如資料為1, 2, 3, 4, 5, 6, 7,鍵入「=KURT(1,2,3,4,5,6,7)」就得峰度-1.2。該值小於0,因為1到7這些值的分佈比常態分佈來得平坦。
• 如果數值換為1, 2, 2, 2, 2, 2, 3,此7個值的分佈中間非常陡峭(2的次數非常多),鍵入「=KURT(1,2,2,2,2,2,3)」得峰度為3。
第三節 峰度與偏態 (4)
• 偏態也和峰度一樣在描述資料分佈的形狀,如果分數往右邊延伸,其偏態值會大於0,故稱正偏態或右偏態。
• 如果分數往左邊延伸,偏態值小於0,故稱負偏態或左偏態;如果對稱分佈,偏態值等於0。
• 第三章變異量數的圖2(c)就是負(左)偏態,2(d)則是正(右)偏態。
第三節 峰度與偏態 (5)
• 偏態的公式為



• 如果是樣本的話,則是:
第三節 峰度與偏態 (6)
• Excel的SKEW的函數可用來計算偏態。
• 例如資料為1, 2, 3, 4, 5, 6, 7,鍵入「=SKEW(1,2,3,4,5,6,7)」得偏態為0。
• 數值換為1, 1, 1, 1, 2, 3, 4,此7個值左邊(數值較小者)較多,右邊較少,因此是右偏態。鍵入「=SKEW(1,1,1,1,2,3,4)」得偏態為1.15。
• 如果是1, 2, 3, 4, 4, 4, 4,此7個值右邊(數值較大者)較多,左邊較少,因此是左偏態,鍵入「=SKEW(1,2,3,4,4,4,4)」得偏態為-1.15。

沒有留言:

張貼留言