2011年7月3日 星期日

實驗數據的處理與分析

實驗數據的處理與分析

物理是個實驗科學,免不了要從事測量。很多同學常常疑惑的是

不知道如何正確的分析與處理實驗的數據。

希望本單元能對你(妳)有所幫助!

為了減少本網頁篇幅,歡迎繼續參考 物理實驗 相關網頁。

誤差 = 測量值 - 真值

談實驗數據往往會先談到 誤差的定義。於是出現了上面的式子。 誤差 就是 所測得的數值 與 被測量物理量 真正數值之間的差別。

好像很有道理,又好像在講廢話!
先想一想,為什麼我們要從事測量?(才能有測量值!) 如果 我已經知道 想測量的物理量的真值,我為什麼還要去測它?

難道就為了要 知道測量的誤差嗎?

就是因為不知道 物理量的真值才要測量。

那! 誤差的定義 又有什麼用呢?
實驗數據的處理與分析 便是想運用統計的方法, 讓我們從多次的測量數據中,估算出 最接近 真值 的數據。

也就是我們所想要的測量結果。並藉由 誤差的分析,讓我們瞭解

我們所做的估算,可信度有多高!並探討實驗誤差的可能來源。

拿一杯開(茶)水或咖啡,以下可有好一陣子讓妳(你)想一想的!

誤差的種類:(依照來源)

一般而言,可以分為 系統誤差(systematic error)與 隨機誤差(random error)。

1. 『系統誤差』:
所謂測量,乃是大家事先公定有一測量 單位(標準),例如 公尺。

然後依據製造出含刻度的測量工具(例如 尺),

將測量工具 和待測物相互比較,而判得 測量值。

如果測量工具本身所顯示的刻度,因為
校正時疏忽,造成不正確。

或因為 環境的因素(例如溫度 壓力等),使得數值產生變化。

或因 人為不正確(或不熟練)操作或 觀測方法錯誤。
都是可能產生 系統誤差的來源。

對於某些非 直接測量的物理量,依據某 原理或方法設計出來的實驗。

也有可能因為 實驗時 無法充分滿足 原理所假設的狀況,

或根本設計原理有失誤,而造成系統誤差。(這也是很多人常忽略的)

通常 『系統誤差』會使得所有測量值 都過高或過低的偏差,
偏差量大致相同,不含機率分佈的因素。 2. 『隨機誤差』:
實驗的基本方法,往往是希望能 控制變因,
以找出 物理量受 個別變因的影響。 因此 總是希望 控制所有影響的變因,一次只讓一種變因變化。

實驗的設計便是盡量能達到上述的目的。

而且為了實驗簡便,往往也忽略對實驗影響較微小的因素。(也比較實際)

但實際操作時,不見得盡如人意。

這些不易控制(有時候無法控制)的小變因,
便會使測量值產生隨機分佈的誤差。

也就是說 有些測量值會過高,有些則會稍低。

降低 『系統誤差』的方法,當然只有靠 正確分析誤差來源:

儀器造成的 → 設法改良儀器。

環境造成的 → 設法控制實驗環境。

操作不良的→ 只好 加強訓練自己了喔!
理論上 或許可能將儀器誤差完全消除,

但是 前兩項的改善,並不需要做到 最完美的情形! ???
奇怪! 不是儀器越精良,環境越穩定 實驗結果越好嗎? 因為 這些改善的要求,牽涉到 對測量值 所要求的『精密度』
與實際環境與經費等的考量 。 而且改善時 應該以所有誤差來源 所造成測量誤差的比例,
能以約略相同的比例 減少才有效。 例如:把所有經費大部份都買最精密(也最昂貴)的儀器,
環境因素卻因為能力不夠改善(或已經改善至最好境界),

但仍然造成較大比例誤差,則精密的儀器不過是 花冤枉錢 吧了!

碳的 電阻係數(resistivity) 的溫度係數 = -0.0005 (於 20oC )

也就是說 碳的 電阻值 當溫度升高 1 Co時,電阻值會減少 萬分之五。

若是使用 6位有效位數的電表(數萬元)來測量實驗過程中的電阻值,

但實驗過程中並未注意(或控制)溫度變化,而使得 碳電阻器的溫度

有好幾度的變化,則 效果和只用 3-4位有效位數的電表(數千元)一樣。

降低『隨機誤差』的方法,則是我們以下所要探討的:

藉由 統計的方法,提供我們如何(藉由增加測量次數)

最有效率的改善『隨機誤差』。

準確度與精密度:

精密度:當多次重複測量時,不同測量值彼此間偏差量的大小。如果多次測量時,
彼此間結果皆很接近,則稱為精密度較高。

準確度:準確度的定義是 測量值與 真值(或公認值)的偏差程度。
公認值通常指 使用已知較準確且精密度高的實驗儀器,

在優良訓練的實驗人員重複操作下,所得出精密度相當高的 實驗結果。

但實驗時 不見得有所謂公認值存在。
問題: 你認為 精密度與準確度之間有直接的關係嗎?
精密度高的結果,準確度一定高嗎?

準確度高的結果(平均值),精密度一定高嗎?

測量本身必然造成誤差。(抬槓篇)

當去測量 待測物時,需要去觀測它,也就因此改變了待測物。
例如:用溫度計去測量物體溫度,則溫度計溫度因而改變至與待測物相同,
溫度計所變化的溫度是 兩者能量交流的結果。

也因此待測物 測後溫度已經不同於 測量前了。
問題:難道 用尺去測量長度也會影響待測物長度嗎?
當然這種影響很小(但還是存在 --抬槓嘛!)

當你要用尺去測量物體時,會要求兩者之間無相對運動,

(相對運動也可以,但一樣會牽涉到時間與其他的問題)

則必然要對他們施力,於是造成 通常很微弱的形變。

再不行,我還有最後法寶 --- 測不準原理。

(有學問的名詞吧!抬槓,可別太介意!)
當然 測量的方法,也有所謂的 非破壞性測量。
也就是說不主動去干擾 待測物,而只是測量 待測物所 產生的訊號。 例如:利用物體的黑體輻射測量其溫度,
但物體會輻射也就表示 其物理量(溫度)在變動。該回主題了!

統計分析方法

母分佈:

每一個待測物理量,我們可以假想 存在一個『真值』(只是不知道)。

假設只有隨機誤差而完全前沒有系統誤差的情況下,

如果我們對同一物理量,測量次數一直增加。
則隨機誤差的影響 使得 測量值大於真值與小於真值的機率分佈一樣, 則 所有測量值的平均值,將隨著測量次數得增加而越接近 真值。

當 測量次數等於 無窮多次 時,測量值的分佈 稱為 母分佈。
(橫軸為測量不同數值,縱軸為每個測量值被測到的次數)

無窮多次:什麼意思嘛!怎樣才算?
由於我們不可能 無窮多次 的測量,所測得有限次的測量屬於
母分佈的部份樣本 --> 就稱為『樣本分佈』好嗎? 於是 有限次數的 算數平均值 是我們對於真值 所能給(猜)的最好的估計值。

算數平均值(mean) :

偏差(deviation):

為了想瞭解測量數據與平均值的偏離程度,於是定義
每一個數據與平均值的差值,稱為偏差。

但偏差量有正有負,且所有偏差量的總和必為零。

為了想 量化 實驗數據的精密度,且解決偏差量總和必為零的情形。

我們可以將 偏差量平方後相加,而定義出

方差(Variance):

為 偏差平方的平均值。

當然將偏差量取絕對值後相加,也可以顯示實驗的精密度,但是數學計算上

採用方差 ,比較方便。

方差計算時 可簡化為 平方的平均值 減去 平均值的平方。

比直接用公式計算,簡單多了!

標準偏差(Standard Deviation):

對於母分佈而言(n→∞)時,取方差的平方根(與測量量相同單位)

定義 母分佈的 標準偏差(代表實驗數據分佈的精密度)***註:下圖中d23應該修正為d22

為 偏差平方的平均值 的根號,稱為『方均根』。

方均根英文為 root(根)mean(均)square(方).
如果直接利用上面的定義來 處理 有限次數的 測量數據時,
會發生矛盾的情形? 例如:如果對於某一物理待測量,只有測量一個數據,
則 平均值等於唯一測量值,因此偏差為零。

當然 偏差的方均根值必為零。也就是有最良好的精密度。

那豈不是所有測量皆測一次就夠了!?
問題出在哪兒呢?
因為計算 n 個數據的個別偏差時,需先計算 平均值。

當有平均值時,只要有 n-1 個數據便可以算出所有的偏差量。

也就是 計算方差(偏差量平方的平均值)時,

數據中的獨立變數僅有 n-1 個,因此計算平均值時
分母若改為 n-1 較為合理。 因此 樣本分佈(有限次數)數據的 標準差定義為
如此一來只測量一次時,上式中分子分母皆為零,

也就是 無法確定 標準差(合理吧!)

當(n→∞)時則分母為 n 或 n-1 已經沒有差別了。

*** 工程用 計算機上有 σn 與 σn-1 差別便在於分母。
以上定義的 標準差代表 所有測量數據與 平均值之間
平均的 偏差量(也就是每一測量數據的精密度的平均值)。 可是通常我們也關心所計算出 平均值的可信度是多少?

也就是 實驗結果的 精密度有多高?

平均值的精密度 應該要高於 個別測量數據的精密度。

我們先寫下 依據統計理論所得出的結果。

平均值 的標準差(standard error of the mean)

(想知道知為何如此,先再去泡杯茶,休息一下,再繼續看下去...)

多次實驗測量結果 寫為

也就是 測量(平均)量 加上 所對應的標準差(俗稱 不準量 :uncertainty)。

註: 實驗結果不見得一定都是 平均值,例如 測量 電阻的溫度係數,
溫度一直再改變,測量不同溫度時 電阻值的變化量。

可以用 最小方差計算法 計算出斜率(變化率)。

並利用『誤差傳遞』方法計算其 標準差。

標準偏差所代表的意義與運用:

通常當 測量次數多時,測量數據的 隨機分佈 滿足
常態分佈 (normal or gaussian distribution):

P 是測量值 為 x 的機率。(次數少時為二項式分佈)。

如下圖為平均值為 50, 標準差為 10. 的常態分佈,

測量值 出現在
範圍內的機率為 68.3%。(2:1)

範圍內的機率為 95.4%。(20:1)

範圍內的機率為 99.7%。(350:1)

範圍內的機率為 99.994%。(15000:1)
當從事多次測量時,有時候會某些數據與平均值相差的較多,
懷疑是因為測量時不小心 觀測錯誤或 ... ,怎樣判斷該不該捨去那些數據呢? 例如:測量某物體長度100次,計算出 平均值與標準差(非 平均值的標準差)後,
發現 有 3 組數據 落在 3 倍標準差外,4 組 落在 2倍與3倍之間,

其餘皆在 平均值與 標準差之間。
若採用常態分佈, 由於數據 落在2 倍標準內的機率有 4.6%。
因此 那四組數據是合理的。 但是數據 落在 3 倍標準差外的機率應 小於 千分之三。

因此 應該重新檢討 那三組數據,(除非肯定數據沒問題)通常可以捨去
那三組數據捨去後,重新計算 平均值 與 標準差 。再檢視都沒有問題後, 並計算平均值的標準差後,寫出 測量結果。

平均值的標準差的意義:
每次(組)多次實驗所得平均值都不會相同。這些平均值也會形成一種分佈。

平均值的標準差便是 代表這些不同的平均值的可能差異性(精密度)。
綜合說來:

實驗數據的 標準差(standard deviation)
顯示單一個測量值與平均值間可能偏差的程度。

重複(增加實驗次數)並不會減少其數值。(單一測量的精密度)
平均值的標準差(standard error of the mean): 則
顯示 所得平均值的可重覆性程度,(結果的精密度)。

如果多組重覆測量 所計算出平均值 的 標準差。

其數值可以藉由 增加測量次數而減少,與 成反比。

因此 10000 次測量平均值的標準差為 100 次測量 的 1/10.

為了增加一位有效位數,次數由 100 增加到 10000. 可真是不容易。

誤差傳遞:

經常一個物理量 是經由測量 數個 物理量,再藉由 關係式 計算而得出。

例如:動量是由測量值 質量與速度相乘而得(速度又由位移與時間測量值得出)。
當測量時,質量、位移與時間的個別誤差 將影響最後結果的誤差。 假設 X 代表某一個物理量,由 等測量值所決定。



而以 分別代表等分量樣本分佈的平均值。

則 平均值

對於某一組測量樣本數據,可以表示為 則

測量值的方差

其中

,,

而 稱為 協方差(corvarance)。

如果 u 和 v (測量物理量)彼此不相關,則協方差為零。

(通常 測量時的個別參數間是互不相干的)

於是 方差可以簡化為

當測量物體密度時,質量與體積的測量通常不相干,因此可用上式

計算 質量與體積的誤差所造成 密度測量的誤差。

但是體積測量誤差的計算,若體積是由 長、寬、高等測量值相乘而得。

當 長、寬、高 都是用同一量具同樣方式測量時,往往彼此間的誤差是相關的。

尤其當量具 的系統誤差 大於隨機誤差時,

由於 校正所造成誤差將造成長、寬、高的系統誤差。

則體積的百分誤差 將直接等於 長、寬、高 百分誤差之和。

(而非 長、寬、高 百分誤差平方之和 開根號)。

當使用誤差傳遞時 要辨別測量值間是否彼此相關。

讓我們運用上式 計算 平均值的標準差。

平均值 是由 各測量值 取平均而得到(視為 以各測量值為獨立變數的函數)。

若 各測量值的標準差皆相同時,上式可以簡化為

於是平均值的 標準差

讓我們再做幾個例題:

1.

例如: (3.1257 ± 0.0138) - ( 1.892 ± 0.0095)
= (3.1257 - 1.892) ± (0.01382 + 0.00952)1/2

= 1.234 ± 0.017
注意: 誤差並非 0.0138 + 0.0095 ? 為什麼呢?

3.1257 ± 0.0138 表示 測量值在 3.1257-0.0138 與 3.1257+0.0138之間,

多次測量時應該越接近 3.1257 的數值越多,離開越遠的機率越少

(滿足常態分佈)。因為隨機分佈的關係,大於平均與小於平均的機率皆相等。

當兩測量值相加時,兩者偏差皆為最大正偏差或皆為最大負偏差的機率,

應該很小,經統計分析以 平方相加開根號為較適當。
2.

若 協方差為零時,則 結果的百分誤差的平方
等於個別參數的百分誤差的平方和。 參數間為相除的情形時,也有相同結果,請你自以試一試。 3. 換人做做看!該你練習了喔!

分別練習計算 以上三種函數的標準差。

以上皆討論 獨立變數間的誤差皆互不相干,彼此不受影響。

若是討論包含系統誤差的情形,或是 變數間相互影像時,就必須考慮 協方差。

例如: 體積是由三個測量值 長,寬,高 相乘而得,
假使測量的尺因為溫度的變化而收縮。

用同一把尺測量,則 長寬高 誤差皆會有相同趨勢(同時過大或過小)。

則百分誤差不再是 平方後相加再開根號,而是直接相加。

有效位數的說明:

當使用測量工具從事測量時,工具的最小刻度限制了測量值的有效位數。

通常我們以儀器最小能讀到的刻度值 外加一位估計值 作為記錄的結果。

但是 由於科技的進步,現代很多儀表顯示時都已經 數位化(直接顯示數值),

在正常的情形下,最後一位顯示的數值,已經包含了儀器幫你估計的成分。

(事實上,你也無從估計!)

但是:並非數位化的儀器所顯示的數值,完全都是必須記錄的。
儀器顯示的最小刻度值,應該要配合儀器的精密度。 但是儀器商生產不同精密度的儀器時,為了成本問題很可能使用相同的顯示元件。
因此某些儀器顯示的數值,可能多於實際的精密度。 另外一種情形是,儀器也的確夠精密,但是你所測量的環境本身造成的影響,
超過儀器精密度的範圍。 例如:使用 6位半的精密電表去量 溫度沒有適當控制環境下的電阻。
結果數值後幾位連續不斷的跳動。(也就是選用太過精密的儀器) 多記了後面一直變動的數值,有用嗎?
(這也是一般學生常犯的毛病,所有數值皆記下來) 基本原則:實驗記錄所顯示的最小刻度值,也應該要配合測量的精密度。

否則只是增加自己計算的負擔而已!可能只是增加記錄的負擔而已,

數據處理時...

反正用計算機在計算,可能計算完畢,還多了好多位 有效位數呢!

用 10 位顯示的計算機, 實驗結果變成 10 位有效位數。

如果用 12 位顯示的計算機, 實驗結果變成 12 位有效位數。

好像 實驗的精密度 取決於計算機的功能!???

這不是笑話!這是現代很多學生的毛病,甚至在 科學展覽的會場都會見到。

這已經變成一種習慣,不是說一說就改的過來!要一直的提醒自己!

(其實在 正式的刊物,偶而也會見到類似的錯誤)

在過去要用 手算 的時代,就不容易出現這樣的問題!(科技帶來的影響)

舉一個實例:如下表

測量序號 長度 L (cm) 寬度 W (cm)
1 10.78 8.21
2 10.80 8.20
3 10.75 8.22
4 10.73 8.21
5 10.78 8.22
平均值

標準差

平均值的標準差

結果
10.77

±0.02

±0.01

10.77±0.01
8.212

±0.008

±0.004

8.212±0.004

從以上的例子,是否看出該怎樣選取 記錄的有效位數。

和 試驗數據的標準差, 有怎樣的關係呢?

決定好有效位數後 多出來的位數, 便利用
四捨 六入 五成雙的原則。 四捨 六入 大概你得很清楚,可是什麼是 五成雙呢?
嚴格一點說:應該是 捨去的第一位如果大於 5 則 進位。

但如果恰好等於 5 則依照數據最後一位來決定,
奇數則進位,偶數則捨去。 主要是 我想是為了 數據常要除以 獨立變數等運算,

如果每次遇 5 皆進位,有可能經過數次運算後 連續進位好幾次。

而用上法 來試圖抵銷。
例如:

(取有效位數)處理前 (取有效位數)處理後
3.154 3.15
3.151 3.16
3.155 3.16
3.145 3.14
可是 如果最後的結果 是利用好幾層的關係式 計算而得到的,
是否每計算一次 就要將數據 取至適當的有效位數,再繼續算下去。 還是 反正用計算機一直算,最後在取有效位數。

我提供的原則是:
當數據計算時,運算的數目來源是 由於數學推導的常數或物理常數,

則最後 再取有效位數便可。(視常數完全有效)

但是若遇到 測量值,則必須運算完後,馬上取 至適當的有效位數。

例如:面積等於常乘寬,算出後馬上要決定 適當的有效位數,

再繼續運算下去。你認為這樣的原則合理嗎?

好像還有問題耶! 9.8×1.28 該取幾位有效位數?

12.54 還是 12.5 還是 13.

雖然通常 加,減,乘,除等運算時 有效位數以最不準確的因子的 有效位數為基準。

但是 上面的運算 取 13. 就似乎不太合理。

事實上,當處理數據時,你可以用 數據的標準差 作為最適當的判斷依據。

附記:當使用游標尺時,有沒有所謂的估計值呢?

補充說明:

1. 有限次數的平均值 是我們對於真值所能給(猜)的最好的估計值

由於方差代表著 數據的偏差量,對於一組數據而言,

若是此偏差量越小越好。問題改換成:

採用 怎樣的平均值計算方式 會有 較小的方差?
取 方差對平均值(偏)微分等於零的結果如下:

所以採用 算數平均值 的計算方式時,方差有最小值。

(不信的話,你也可以自己試一試 幾何平均值,看看結果如何)

2. 最小平方作圖法:

實驗時,我們常會需要測量 某物理量(應變數)隨 物理參數(自變數)變化時,

彼此間的關係。例如:電阻(縱軸)隨溫度(橫軸)的變化。

最小平方曲線作圖法 便是在 所繪出 數據圖中(電阻--溫度圖),

描繪出一條曲線,使的所有數據點到曲線距離平方總和(方差)為最小。

用 f(xi,yi) 表示數據點,我們希望找出(最小方差曲線),使得
有最小值。 以上假設 自變量 沒有誤差(或相對很小):

以下我們以常見的線性關係為例,希望找出 a, b

使得 有極小值。
也就是找出 最能代表 測量數據線性關係的直線。 欲 使方差有 最小值 ==>

聯立解 上兩個方程式,可得到

上式中 a 為直線斜率,b 為其截距。

經常 所測量物理量之間的關係式並非如 如此簡單的關係,

可以仿造上面計算最小方差的方式,找出各係數的值。

但是大多數情況,皆可以利用 變數變換的方式,將關係式轉換成簡單線性關係。

例如:電容放電時,電容電壓隨時間變化的關係
Vc(t) = Vo e-t/RC

實驗時測得 電壓 V 隨時間 t 變化的數值,欲求得 Vo 以及 放電時間 RC值。

可將所測得 電壓取對數

lnVc(t) = lnVo - t/RC

令 y =Vc(t),x = t 則 有 y = a x + b 的關係。

利用上面最小平方法 求得
斜率 a = -1./RC,截距 b = lnVo

接下來的問題是:

1. 這樣計算出來的直線,用來代表原有數據的關係 好不好呢?

提示: 當然 方差 越小越好喔!

可是如何判斷呢?(你應該知道為何除以 n-2 了吧!)

2. 所計算出來的 直線斜率 a 和 截距 b 的誤差又是多少呢?
提示: 利用 誤差傳遞 的計算法 去計算。

將 a,b 視為 xi 以及 yi 的函數,但是上面的計算中皆假設 xi 沒有誤差。

因此 只需要 計算由於 yi的誤差所傳遞給 a,b 係數的誤差。

令 (Δ ≦ 0. 對嗎?)

則 且

於是得到

若是 所有測量數據 標準差相同 ,

我們又可將原點平移(任選原點)使得

於是上面結果可以簡化為

對於任何數據我們皆可以 代入上面最小平方法找出一條直線

可是 數據 x,y 之間,是否真的適合用 線性關係描述呢?

我們用這樣的想法來評斷:若 兩者之間真的滿足 y = a x + b

則 若是我們改用 x' = a' y + b' 去描述,應該也可以得到適當的曲線。

理想情況應當滿足

於是我們可以檢驗用 以上兩種直線方式所得出之斜率相乘積越接近於 1

表示 x,y 間越相關,於是定義 (linear-correlation coefficient)

若是 γ值越接近於 1.0 則表示 x-y 數據間 越適合用上述 線性關係描述。

你的頭腦還清醒嗎? 總算可以休息了!

為了減少本網頁的篇幅,請繼續參考 物理實驗 網頁。

參考資料:

1. 國立台灣師範大學物理系 普通物理實驗手冊

2. 國際奧林匹亞物理競賽 國家代表隊 選訓時,林明瑞 教授 講授
『實驗數據的處理』的講義。 3. "Data Reduction and Error Analysis for the Physical Sciences", Philip R. Bevington

如有 疏漏之處,請批評指教!或有相關問題仍不明瞭,歡迎來信一起討論。(97/9/21)

歡迎批評指教!電子郵件 : 請按 hwang@phy03.phy.ntnu.edu.tw

作者:國立台灣師範大學物理系 黃福坤

最後修訂時間: 07/05/2011 10:31:36

since 2011/06/20 phpMyVisites

沒有留言:

張貼留言