請問智商180
180這個數字是怎麼計算的?
又以什麼為依據?
智商等級又如何區分? 最佳解答網友票選.. 回答者: 軒軒 ( 初學者 5 級 )
回答時間: 2005-03-18 18:52:04
[ 檢舉 ] .早期的智力測驗
回顧智力測驗的發展史,吾人可以發現智力測驗的誕生基於實務需求遠多於理論建構。
英國的Galton是第一個嘗試發展智力測驗的人。Galton個人對於天才以及優生學有極大的興趣,他主張智力高的人應該是一個有敏銳感官的人,因而進行一系列的感官、動作、生理反應之測量,並透過相關係數前身的統計方法來進行所謂的生理計量。但是一些學者指出Galton根本誤解了智力此一構念,他的測量結果根本無法與一些適切代表認知能力的變項(例如GPA)產生有意義的關聯。
法國的Binet則是真正被視為第一個編製智力測驗的人。1905年他在法國教育部(Minister of Public Instruction)的協助下發展出能夠鑑別班級裡低能兒童智力測驗工具。但是一如Galton此工具也是缺乏理論依據。Binet深受英國哲學家Mill的影響(而非心理學家),主張智力是單一而且整體的能力,包含記憶、判斷、推理以及社會理解能力等層面,並可透過作業計量來加以測量。Binet對於智力測驗的貢獻包括將智力測驗的編製重點放在語文能力而非Galton的非語文技能之測量,提出心理年齡以及IQ的計算方式等等。不過他最大的貢獻應是他受到Mill啟發所提出的:人類智力的測量免不了有誤差的存在。
美國Stanford大學的Termen翻譯引用Binet-Simon Scale至美國,並更進一步於1916年修正發展出適合美國文化的Stanford-Binet Intelligence Scale,同時以更新的方法學來介紹所謂的IQ概念。他強調測驗的標準化之重要,根據美國不同年紀兒童的實際大量測驗結果而非套用Binet的作業評量來解釋智力測驗的結果。不過,Termen畢竟還是沒有跳脫所謂的普通因素(g)取向以及區分篩選智力不足兒童的實用目的。
1917年美國參加第一次世界大戰,大量的新兵急需快速的測驗工具來協助分類與任務指派。軍方在心理學家的協助下發展出語文式團體智力測驗Army Alpha、非語文團體智力測驗Army Beta(適用英文不佳或根本不會英文的移民)以及個別施測的Army Performance Scale Examination(用途為確認受試者是真的智力低下亦或裝病逃避當兵)。在整個第一次大戰期間,在APA的協助之下,軍方這一系列的智力測驗之問世貢獻諸多,包括將Binet的個別智力測驗轉化成省時的團體施測格式,整合語文以及非語文智力測驗(而非語文智力測驗內涵又超越Galton的感官動作能力之評量提出一些問題解決的測量項目),將IQ測量從原本的兒童階層擴大至成人,將IQ的運用從原本的篩選智能低下用途擴大至挑選具有高級心智功能的人(以便賦予重任)。然而將這高達兩百萬樣本的資料加以統計分析之後,雖然展現了智力測驗的實用性與有效性,卻也引發了不少論戰。諸如種族優越偏見與次等人民歧視的紛擾,IQ的價值意義以及其對社會影響的爭論等等。
從第一次大戰期間過渡到當代的智力測驗的發展與實際應用,Wechsler扮演一個穿針引線的關鍵角色。Wechsler曾經實際參與Army Alpha的計分工作,也曾經擔任新Standford-Binet和Yerkes非語文測驗的施測工作。受到這些實務工作影響,Wechsler深深覺得有必要公平評鑑那些英文能力不佳的受試者以及發展成人取向的智力測驗。從而堅持每一個人都應該接受語文以及非語文量表的測量,並提供每一個人他的智力測驗成績剖面圖(智力輪廓profiles),以供了解個體不同能力的差異或是理解總分計算的結果。
於是他借用Standford-Binet與Army Alpha的設計去發展他的語文量表,仿效Army Beta和Army Performance Scale Examination 去發展他的非語文量表。因而造就了一系列至今為止都仍相當受用的智力測驗。從1939年他發展出Wechsler-Bellevue Intelligence Scale開始引發,到1981年Wechsler過世後,後人繼續沿用修訂Wechsler Preschool and Primary Scale of Intelligence-Revised(1989年WPPSI-R適用3至7歲)、Wechsler Intelligence Scale for Children-Third Edition(1991年WISC-III適用6到16歲)、Wechsler Adult Intelligence Scale-Third Edition(1997年WAIS-III適用16到89歲)。
Wechsler雖然也是普通因素(g)的忠實擁護者,但睽諸其實際運作,他更想判斷個體是如何在不同情境下運用語文亦或非語文方式(如語文vs視覺動作)來展現他的普通智力(g)。他關切受試者如何解題以及如何選擇字彙來回答問題,而非只是答案的對與錯。
儘管後人發現Wechsle的語文IQ與實作IQ之區分,其實分別符應大腦功能分化理論中的左右半球大腦功能缺陷,以及Horn-Cattell理論的晶體智力(crystallized intelligence, Gc)與流體智力(fluid intelligence, Gf)。但不可否認的事實是,Wechsle發展智力量表完全是根基於實務以及臨床使用的觀點,與理論全然無關。
理論依據的智力測驗之發展
1970年代後期開始出現不同於Binet和Wechsler量表的智力測驗,1980年代直接應用心理學理論的智力測驗正式問世。這些有理論基礎的智力測驗雖然也是採取臨床使用設計以及個別施測,但其使用目的卻是根基心理學的個別化評量。
而在團體施測的智力測驗部份,心理計量方法的影響力大於心理學理論依據。常見的團體智力測驗主要有兩類,多重水準(multilevel)以及多重向度(multiple aptitude)。多重水準的智力測驗包括Otis-Lennon School Ability Test(OLSAT)、Cognitive Ability Test(CogAT)等等,主要用途是教育以及生涯輔導,其通常以選擇題形式呈現,具有容易施測以及計分客觀等特色。再加上心理計量方法協助量表的信效度建構以及標準化的處理,其施測結果可以方便的比較不同能力水準。多重向度的智力測驗則可以更進一步評量同一個人在不同向度的能力,例如Differential Aptitude Tests(DAT)可以評量語文理解、空間關係、拼字等八種向度的能力。心理計量理論如Rasch潛在特質模式(latent-trait model)、題目反應理論(item response theory, IRT)的運用更進一步使得團體智力測驗的結果可以進行跨階段(水準)的連結。
但是儘管如此,團體智力測驗的實施依然有其限制,諸如缺乏訓練有素的施測人員來整合受試者在施測時的表現以及實際測得分數,因而無法更進一步詳盡的說明解釋受試者的各項反應。以下論述兩個直接應用心理學理論的個別智力測驗。
一、Kaufman Assessment Battery for Children(K-ABC)
K-ABC智力量表的編製根基於「系列性與並列性訊息處理」(sequential and simultaneous information processing)的理論架構,而所謂的「系列性與並列性訊息處理」源自於Luria的訊息處理理論以及Sperry的大腦功能分化理論。Luria從神經心理學的觀察以及實證研究中發現兩種個體處理訊息類型,一種是連續或者依序線性分析的訊息處理取向,另一種是統整或同時的訊息處理取向。兩種不同訊息處理取向的人在組織運用訊息以解決問題的方式不同,前者偏好依照先後順序來處理訊息,後者則偏好同步處理訊息。若是從Sperry的大腦功能分化理論來看,這兩種訊息處理型態分別代表兩種不同的問題解決策略,前者是屬於左腦型擅長系統分析,後者屬右腦型擅長以完形統整分析。
K-ABC智力量表編製的目的是希望測驗所得分數有助於教育上的應用,若能根據測驗發現來理解有利兒童的訊息處理模式,便可據此進行補救以提昇其學業成就表現。
二、The Standford-Binet : Fourth edition (Binet-IV)
Binet-Iv的理論基礎源自一般智力理論(g)、Horn-Cattell的晶體(Gc)與流體(Gf)智力理論以及Thurstone的基本心理能力理論所構成的三階層認知能力結構模式。在最高階層由一般普通能力(g)所統管,第二階層分化成晶體能力(Gc)、流體能力(Gf)以及短期記憶能力。在第三階層晶體能力(Gc)包括語文理解以及數量理解等分量表,流體能力包括非語文、視覺動作、抽象視覺理解等分量表。不過不管是探索性因素分析還是驗證性因素分析都無法確認這樣的智力結構假設之成立。
智力測驗的哲學
所謂智力測驗哲學(intelligence test pohilosophy)是指解釋以及運用智力測驗的方法,在智力測驗哲學中的核心概念是只有受過高度訓練的科學家—實務人員才可以合法且合乎倫理的執行以及解釋智力測驗。這些人必須具有學習、認知、人格、發展、記憶、神經心理學、特殊教育等相關領域的知識,對於有關的實證研究需相當熟悉,並在督導員的指導下接受現場實地的行為觀察。無論如何,評量應該是屬於個人的,針對個人所考量的,提供個人服務的(assessment is of the individual, by the individual, and for the individual)。智力測驗的解釋與運用有以下五大基本原則:
一、智力測驗所測量的只是受試者學習所得
雖然相關研究顯示智力測驗分數可以有效預測學業成績,但我們不宜妄加解釋為一個IQ低的學生在學校的表現將會很糟。因為不管是語文還是非語文的智力測驗作業其所評量的都是個體已經學習所得的部份,我們宜將智力測驗分數轉化成有效的教育介入方案,建設性的解釋智力測驗結果,對如何幫助兒童發展提供有益的建議。
二、智力測驗只是對受試者的行為的取樣
由於施測時間限制,個別智力測驗所包含的分測驗往往只是人類行為的樣本,而非完全囊括所有的智力功能。又根據Sternberg的三元智力理論,傳統的智力測驗往往強調的乃是分析能力的評量,卻嚴重忽略了個體的創造力、實務知識以及內隱知識。像WISC-III之類的IQ測量其實應該結合其他評量工具一起施測,並在其他測驗工具所提供的分數的脈絡下來詮釋IQ。因此,在解釋單一智力測驗分數時不宜妄加推論到所有心智功能。比較正面的做法應該是去建議個體就其能力所及可以做好什麼事,以及是什麼原因導致他們某些地方做的不夠好。
三、智力測驗的心理功能評量受限於人為的固定情境
為了客觀起見,智力測驗的施測以及計分必須達到所謂的標準化。然而這種人為刻意安排的情境與真實自然的生活情境是大異其趣的,在此遠離真實情境下所測得的分數在實際應用上有極大的限制存在。若要提高智力測驗的價值,施測者必須仔細觀察受試者在接受測驗過程中的行為反應,並深入了解受試者的實際生活狀況,如此在分析解釋智力剖面圖才有意義。
四、透過訊息處理模式解析智力測驗各分測驗更有實用性
訊息處理模式建議施測者依照訊息處理的歷程,檢驗資訊如何從感覺器官進入大腦(輸入),資訊如何被解釋與處理(統整),資訊如何儲存以便日後檢索(儲存),以及資訊如何透過語文或動作來表達(輸出)。施測者若能藉此模式來組織測驗資料,將可將各分測驗提供的分數作有意義的處理,以便釐清受試者的優勢與劣勢領域。
五、智力測驗剖面圖所提供的訊息應有多重來源資料支持
施測過程中的行為觀察,不同分測驗的反應模式分析,家長、教師、治療師、受試者本身提供的背景資料,先前測驗資料乃至施測者增加的分測驗測量等等多重證據都有助於將IQ智力測驗做有意義的最佳解釋。
當代重要智力測驗
一、Wechsler Scale
理論基礎
儘管Wechsler將智力界定為:個體理解與適切處理其週遭環境的整體能力。但量表的編制與發展並未按照他的理論界定,而是引用既有智力測驗。此外,一如Binet的看法,Wechsler主張智力並無法直接測得,但是可以從一個人面對不同刺激時如何思考、談論、移動、反應來間接推斷。
1.Wechsler Preschool and Primary Scale of Intelligence-Revised(WPPSI-R)
簡介
WPPSI-R(1989年)適用對象為三歲至七歲三個月的幼兒,透過語文以及實作量表兩種方法來測量幼兒的單一整體智力。語文量表部份的分測驗:1.常識測驗2.理解測驗3.算術測驗4.詞彙測驗5.類同測驗6.句子測驗(可做或不做的替代測驗)。實作量表的分測驗:1.物型配置測驗2.積木設計測驗3.迷宮測驗4.圖形完成測驗5.幾何圖形設計測驗6.動物樁測驗(可做或不做的替代測驗)。
一如K-ABC,在施測過程中可協助或指示幼兒,以確保幼兒真正理解測驗要求其完成的任務。
心理計量特質
語文量表、實作量表以及總量表的計分皆採平均數100、標準差15的標準化分數。WPPSI-R標準化樣本來自1700名3歲至7歲3月的幼兒,其各項背景變項分布舉凡性別、種族、地理位置、雙親職業與教育程度,尚且符合1986年美國人口普查局的估計。WPPSI-R有良好的信效度,語文量表、實作量表以及全量表的內部一致性在.92到.95之間,全量表的重測信度為.91,因素分析結果也確認各分測驗分別歸屬於語文或實作量表的適切性。
2.Wechsler Intelligence Scale for Children-Third Edition (WISC-III)
簡介
WISC-III(1991年)適用對象為6歲到16歲11月的兒童,透過語文以及實作量表兩種方法來測量兒童的單一整體智力。語文量表、實作量表以及總量表的計分皆採平均數100、標準差15的標準化分數。因素分析結果發現四個因素,語文理解、知覺組織、分心程度、處理速度,前二者構成語文量表分測驗,後二者構成實作量表分測驗。
語文量表部份的分測驗:1.常識測驗2.類同測驗3.算術測驗4.詞彙測驗5.語文理解測驗 6.記憶廣度測驗(可做或不做的替代測驗)。實作量表的分測驗:1.圖形完成測驗2.圖形排列測驗3.積木設計測驗4.物型配置測驗5.符號替代測驗6.迷宮測驗7.符號尋找測驗(6與7都是可做或不做的替代測驗)。
心理計量特質
WISC-III標準化樣本來自2200名6歲至16歲兒童,並可在性別、種族、地理位置、雙親教育程度等變項做適當的分層。語文IQ、實作IO以及總量表IQ的信度分別是.95、.91、.96。不管是探索性還是驗證性因素分析的結果都發現WISC-III有良好的構念效度。
3.Wechsler Adult Intelligence Scale -Third Edition (WAIS-III)
簡介
WAIS-III(1997年)適用對象為16歲到89歲的成人,透過語文以及實作量表兩種方法來測量兒童的單一整體智力。語文量表、實作量表以及總量表的計分皆採平均數100、標準差15的標準化分數。因素分析結果發現四個因素,語文理解、知覺組織、處理速度、工作記憶,前二者構成語文量表分測驗,後二者構成實作量表分測驗。語文量表部份的分測驗:1.詞彙測驗2.類同測驗3.算術測驗4.記憶廣度測驗5.常識測驗6.語文理解測驗7.數-字序列測驗(替代測驗)。實作量表部分的分測驗:1.圖形完成測驗2.圖形排列測驗3.積木設計測驗4.矩陣推理測驗5.數字符號-替代6.符號尋找測驗7.物型配置測驗(6與7都是可做或不做的替代測驗)。
心理計量特質
WAIS-III標準化樣本來自2450成人受試者,其乃根據1995年人口普查資料進行年齡、性別、種族、地理位置以及教育程度等變項分層抽樣以取得樣本,從16-17歲到85-89歲共可分成13個年齡分組。橫跨13個年齡分組WAIS-III平均的折半信度分別是語文IQ.97、實作IQ.94、總量表IQ.98。重測信度穩定係數分別是語文IQ.94-.97、實作IQ.88-.92、總量表IQ.95-.97。探索性與驗證性因素分析結果支持WAIS-III四個因素的構念效度。
魏氏量表的理論批判
若是從當前盛行的智力理論來評鑑魏氏量表絕對是未臻理想也不盡人意。例如從Sternberg的三元智力理論來檢視魏氏量表,則其勉強可以測量記憶分析能力,卻拙於評量統合創造能力以及實用情境能力。另外,Sternberg更進一步指出WISC-III只能評量Gardner多元智力中的語文、邏輯-數學以及空間智力。這些認知理論並無法提供這種臨床智力一個合適的分析架構或者比較的依據。事實上,與WISC-III較有關的理論是腦側化理論與流體-晶體智力理論。
早期的腦側化理論對於大腦左右半球的功能的看法,著重在左腦負責語文能力,右腦負責非語文空間能力。就此而言,魏氏量表的語文量表以及實作量表之評量符應腦側化理論架構。儘管早期研究發現也確認這樣的理論假定,但是後續的研究卻指出早期研究在方法學上是有瑕疵的,研究結果發現魏氏量表與腦側化的關聯並沒有先前研究所聲稱的那麼密切。例如Kaufman(1990)腦傷的研究指出實作IQ的確受到右腦損傷影響,但語文IQ受到左腦損傷的影響卻極為有限。或許腦側化理論在魏氏量表的應用受限與此理論早期發展時未能真正反應大腦兩個半球所影響的能力有關,隨著Sperry與其同事的不斷研究發現,早期以量表內容的語文與非語文來區分左右腦半球功能的見解逐漸被分析-序列與完形-統整的訊息處理型態所取代。而魏氏量表基本上是根據作業內容來組織各分測驗成語文及實作量表,而非根據作業所需的處理型態來建構量表。因此憑直覺來連結IQ測驗與心理學理論事實上是很難令人信服的。
Matarazoo(1972)最早指出Horn-Cattell的流體-晶體智力分別符應魏氏量表的實作IQ以及語文IQ,一些研究成人IQ變化的研究者也普遍接受這樣的論點。當Horn(1985,1989)修正擴充其流體-晶體智力理論之後,一些其他能力陸續納入其理論架構。根據Horn最新的理論觀點,魏氏量表的語文量表符應晶體智力(Gc)以及短期理解與檢索能力(SAR),而實作量表反映流體智力(Gf)、視覺表徵能力(Gv)以及迅速處理能力(Gs)。在實證研究上,Stone(1992)的研究結果指出魏氏量表的實作量表其實表較傾向測量視覺表徵能力(Gv)而非流體智力(Gf),Woodcock(1990)以因素分析研究發現實作量表的因素負荷量落在視覺空間(Gv)而非推理取向的能力(Gf)。簡言之,魏氏量表非常符合Horn早期的流體-晶體智力構念,而部分有限的符應Horn之後的新理論觀點。
二、近來三個有理論依據的IQ測驗
1.Woodcock-John Psycho-Education Battery-Revised: Tests of Cognitive Ability(WJ-R)
簡介
WJ-R(1989年)是一套適用2歲至90多歲的臨床診斷測驗,包含認知以及成就兩部份,其理論依據乃是Horn(1985,1989)修正的流體-晶體智力模式。根據Horn的智力模式,有以下八種分離的能力:長期檢索(Glr或TSR)、短期記憶(Gsm或SAR)、處理速度(Gs)、聽覺處理(Ga)、視覺處理(Gv)、知識理解(晶體智力Gc)、流體推理(Gf)、計量能力(Gq)。Horn所指的前七種能力由WJ-R的認知部份各分測驗涵蓋,第八種能力則由成就部份的分測驗所測量。WJ-R的21個分測驗可由臨床工作人員視其評量目的挑選其中若干幾個分測驗來施測,不一定要全部施測。每一個分測驗和集群(符應Horn前七種能力)分數皆是平均數100、標準差15的標準化分數。雖然總分也可以平均數100、標準差15的標準化分數計算,但一般並不鼓勵採用。
心理計量特質
WJ-R建立常模的標準化樣本包括705名學前幼兒、3245名k-12的學校學生、916名大學生以及1493名14歲至90多歲的校外人士。這樣本可以性別、地理位置、社區大小以及種族做適當的分層。從2歲到79歲取中位數來看,內部一致性在.69到.93之間。因素分析結果強烈支持其符合Horn的理論構念。
然而,McGrew等人(1997)卻提出警告,Gf-Gc理論乃是線性迴歸的產物而非因素分析的結果。
2.Kaufman Adolescent and Adult Intelligence Test(KAIT)
簡介
KAIT(1993年)適用於11至85歲以上的青少年與成人,可提供流體IQ、晶體IQ與總和IQ,且皆以平均數100標準差15的標準化分數呈現。其包含六個主要分測驗,三個屬於流體智力、另外三個屬於晶體智力,和一個包含替代測驗的綜合測驗。
KAIT的主要理論基礎是Horn的廣義Gf-Gc理論而非WJ-R所依據的各種分離能力,其透過標準化的刺激測量受試者從學校教育、文化經驗中以及語文概念發展中所得的知識、解決問題能力來評估晶體IQ,並透過語文以及非語文的刺激測量受試者調適與彈性變通能力來評估流體IQ。此外,Piaget的形式操作期以及Luria的計劃能力概念也應用到KAIT作業的發展中。Piaget的形式操作期指涉一種假設演繹抽象推理能力,認知能力發展到此階段將能提出、評鑑與測試假設。Luria的計劃能力概念則指涉一種決策、假設評估以及彈性因應的能力,其與哺乳動物大腦的高度發展有關。在大約11歲至12歲時的大腦前額葉與計劃能力之成熟發展有密切關係,而此年齡階層也正符應Piaget形式操作期的起始年齡之說。綜合Piaget的形式操作期以及Luria的計劃能力,KAIT將最低適用年齡設定在11歲,且發展出強調抽象思考與決策的高度心智發展評量作業。誠如Flanagan(1995)所言,KAIT剛好結合發展(Piaget)、神經心理學(Luria)、實驗認知(Horn-Cattell)理論。
心理計量特質
KAIT建立常模的樣本包括2000名11歲到94歲的受試者,可以在性別、種族、地理位置和社經地位等變項作適當的分層。平均折半信度是流體IQ.95、晶體IQ.95與總和IQ.97。平均重測信度是流體IQ.94、晶體IQ.87與總和IQ.94。探索性與驗證性因素分析結果指出KAIT有良好的構念效度。關聯效度也不錯,總和IQ與WISC-R相關為.82,總和IQ與WAIS-R相關為.85。
3.Cognitive Assessment System(CAS)
簡介
Das-Naglieri的CAS適用5歲到17歲,其編製與發展根基於PASS智力理論。PASS理論主張人類認知功能乃根基於計劃(planning)、注意(attention)、並列處理(simultaneous processing)以及序列處理(successive processing)四個主要成分。符應此理論主張,CAS包括四個量表:計劃量表要求受試者設計、選擇、運用有效的行動計劃去解決測驗問題,控制計劃的效能,並在必要時自我校正;注意量表要求受試者專注選擇特定的刺激物,避免受干擾刺激物影響而分心:並列處理量表要求受試者統整刺激物成一群體以形成一個互有關聯的整體;序列處理量表要求受試者將刺激物整合成一特定序列(順序)以形成一個鏈條般直線,不容其他部分從中插入。CAS計劃、注意、並列處理以及序列處理四個量表以及總量表皆以平均數100標準差15的標準化分數呈現。
心理計量特質
CAS建立常模的標準化樣本為2200名5歲到17歲的受試者,可以年齡、性別、種族、地理位置、教育安置以及雙親教育程度來分層。平均信度係數分別是計劃量表.88、注意量表.88、並列處理量表.93、序列處理量表.93、總量表.96。重測信度分別是計劃量表.85、注意量表.82、並列處理量表.81、序列處理量表.86、總量表.91。驗證性因素分析支持四個SPSS成分的構念效度,與各種相關效標計算相關係數所得的效標關聯效度亦非常良好。而CAS與特殊族群學習成就的相關以及ADHD、腦傷患者以及閱讀障礙者呈現的PASS剖面圖,已然開啟理論基礎智力評量和教育介入之間的關聯。
綜覽
早期智力測驗的發展,在Binet以及第一次世界大戰心理學家主導時期的智力測驗是實務以及心理計量取向,在Wechsler主導時期的智力測驗是臨床以及人本取向。這種IQ界定時至今日依然盛行不已,因為幾經修正的魏氏量表目前仍在學校、醫院以及臨床上廣泛使用。而在理論依據的IQ測驗問世之後,臨床工作者有了更多的選擇,例如包含少數構念的KAIT,中度數量構念的CAS,以及包含多數構念的WJ-R。
無論如何,要有效使用個別智力測驗,施測者必須清楚了解測驗的理論基礎,以及有關該測驗的相關研究報告,致力於將理論轉化成實務。同時在解釋測驗的結果時必須結合臨床的行為觀察,掌握受試者的背景資料,以促使智力測驗剖面圖的分析具有實質意義。測驗的研發者則需具備臨床經驗,充分理解智力測驗的非認知層面,以促使智力測驗的使用能提供豐富多元的資訊。此外,測驗的研發者必須具備最新的心理計量技術,如潛在特質模式、題目反應理論、題目偏誤統計(item-bias statistics)等等,並能夠運用神經心理學的知識,充分理解測驗表現與大腦功能運作的關聯。
但是遺憾的是智力測驗發行者通常是保守一族,往往投注大筆經費努力維持現狀,而非研發新的智力測量方法,結果理論往往在實用取向的考量下被捨棄。此外,電腦科技的廣泛應用,造成適性測驗的風潮,頗有取代團體智力測驗之勢。拜網路發達之賜,測驗發行者更是一窩蜂的開發運用網際網路的智力測驗。在電腦精密的計算功能以及省時省力的優勢之下,未來臨床觀察或許將被這些電腦提供的資料所取代。儘管先進的高科技測量工具可能陸續研發,並提供更具有心理計量特質以及實用性的智力測驗以及解釋。吾人不應放棄理論在智力測驗的重要角色,而必須更努力的全面應用適切的理論。現有的臨床智力評量也不應輕言放棄,除非真的有重大價值的工具出現,方可援用來取代現有的智力測驗工具。
第二十一章
Interpretation of Intelligence Test Scores
智力模式
近代智力測驗所依據的理論模式主要有二,其一是心理計量的階層能力模式,其二是Das-Luria的神經心理學模式。在心理計量的階層能力模式方面有兩個主要版本,Gf-Gc理論以及三層理論,兩者皆指出八種廣泛的能力(broad ability):流體智力、晶體智力、視覺處理、聽覺處理、短期記憶、長期檢索、一般認知速度、核對決定速度。在神經心理學方面,Das-Luria的模式指出訊息處理的水準或者單位有三,其一是覺察以及注意,其二是序列或並列資訊處理,其三是計劃或者監控之類的執行控制功能。神經心理學模式關注的焦點在訊息處理而非能力。但不論是心理計量模式還是神經心理學模式都是多層構面,根基於此的智力綜合測驗可以提供一些個別分測驗分數以及總和分數。
調查的方法
智力測驗的分測驗以及總量表究竟是在評量什麼,有相關係數分析、探索性因素分析以及驗證性因素分析三種調查研究方法。探索性因素分析的運用,如Carroll(1993)以超過400筆資料進行因素分析,根據因素負荷量來釐清更細微的能力(narrow ability)是否歸屬於某一廣泛的能力。根據這些研究所得將有助於測量工具的內容與作業分析。相關分析主要用在兩個以上智力測驗之間聯效度之建立。屬於結構方程模式(SEM)一部份的驗證性因素分析則是最強而有力的工具,其可比較各分測驗之間的關聯模式是否符應理論根據,而實際觀察與預期之間的不調和程度之估量則有助於發展出更新的假設。若是兩三個綜合智力測驗一起分析,還可以確認不同智力測驗的分量表所測量的是否是同一種能力。
理解因素vs理解量表
驗證性因素分析的運用以及廣被接受的心理計量能力模式的出現促進了有關智力測驗構念效度的豐碩研究。然而,這些研究所提供的資訊往往只是告訴我們測驗工具所評量的是什麼,卻未能提供另一個一樣重要問題的答案:特定的量表其能評量其潛在的因素到什麼程度。
效度有點像是量表分數與其潛在因素間的關聯強度,並可從以下幾點來加以探討。其一當各分測驗由共同因素所決定(解釋)的變異量增加時,各分測驗間的共同變異量對於總和量表分數的影響力就越大。其二,一個測驗若要提昇效度,則可選擇比較不相近的分測驗,其共同變異量乃是廣泛的能力變異量,而各分測驗特有的變異量對總分的影響降至最低。其三,當各分測驗的信度變低時,就需要更多的分測驗來提昇整體量表的效度。
就特定的量表其能評量其潛在的因素到什麼程度此一議題而言,實有必要計算量表與因素間的相關。在單一測驗中,普遍運用的統計分析方法是將各分量表相加所得總分與其潛在特質(由因素分析結果所界定)來求相關。而若能將相近類似的測驗進行比較分析,得到一個由超過一個測驗所界定的共同因素,此因素將會更貼近理論建構的能力構面,有助於參照解釋運用。
總分
任何智力測驗都會有一個總分,但是總分的意義與解釋卻不盡相同,端視測驗編製者的想法以及實際設計。支持一般普通能力(g)存在的測驗編製者,其所設計的智力測驗,各分測驗所測量的能力,經由階層因素分析可以求得一個最高階的一般能力因素,此時各分測驗成績加總也才有總分的意義。反之,主張一般能力不是一個有意義的構念的測驗編製者,其設計智力測驗的總分就無法適切的代表各分測驗所測的能力之交互關聯。不過這種不承認g存在的智力測驗設計,造成測驗使用者無法適切解釋總分的意義,往往忽略總分,而偏重在較低階分量表分數之詮釋。
較低階的量表分數
在總分之下便是量表分數,而量表分數的解釋則端視量表究竟是測量什麼。就心理計量能力模式而言,一般能力(g)由總分代表,量表分數代表所謂的廣泛能力(broad ability),其階層或者水準在一般普通能力之下。在Das-Luria的神經心理學模式,量表分數則是代表所謂的訊息處理類型(processing style)。
在單一智力綜合測驗中,透過因素分析可以建立量表的構念效度,使得各分測驗可以聚合在一起,分享共同變異來源,並使得各分測驗分數加總有意義。如果是用驗證性因素分析,更能將綜合測驗的因素分析結構與理論階層模式結合,使得量表分數具有構念的意義。不過量表分數畢竟是由分測驗分數加總,各分測驗分數與量表所欲測量的能力因素是否有密切關聯影響量表的構念效度。各分測驗分數在因素分析中的因素負荷量大小,說明構成量表的這些分測驗是否能適切反映量表所欲測量的能力。若非如此,則量表分數將會包含一堆與其所要測量能力無關的變異量,也法確認這些分測驗都是測量同一個廣泛能力。
解釋能力之間關係的模式
Gustafsson與Undheim(1996)提出兩種階層模式有助於我們解釋智力測驗的結果。第一種模式由上而下建構,被稱之為弱(weak)階層模式,其做法是先從觀察分數(如分測驗分數)抽取因素,然後從這些因素中再抽取第二階的因素。第二種模式由上而下建構,被稱之為強(strong)階層模式,其做法是先確認普通因素,將其變異量自所有變項中移除,較低階的因素從這些殘差變異量中求取,這些低階因素代表殘差能力(獨立於普通能力之外)。
一、由上而下的取向(Top-DownApproach)
依照強(strong)階層模式的運作方式,由上而下的解釋取向先根據總分推論受試者的普通能力,接著進行量表分數的變異量考驗,從量表分數中評估受試者非g的廣泛能力(殘差能力)是否顯著的高或低。評估的方法可以將量表分數與該分數中由普通能力所預測的作比較分析。換言之,量表分數分別由普通能力與廣泛能力所解釋,必須去除普通能力的影響才能精確評估受試者在廣泛能力上的表現。依此做法,更進一步分析受試者在更下一層的細微能力之強弱。
就理論觀念上的探討而言,由上而下的解釋模式固然可以分析比較純粹的能力,但在實際生活中能力的展現往往受到來自不同階層因素的影響。例如,一個在視覺處理殘差能力成績計算不佳的人,可能因為普通能力佳而在視覺處理作業上表現不俗。就統計測量而言,殘差能力其實是一種自比分數(ipsative scores),一種差異分數,其與原始分數比起來有信度偏低的問題。
二、結構分析(configural analysis)
依照弱(weak)階層模式的運作方式,結構分析的重點不在比較廣泛能力與普通能力,而是同時比較不同的廣泛能力。其做法乃是將受試者分數直接與常模分數做比較,根據樣本所建構的原型剖面圖來解釋受試者的智力成績剖面圖。但在實務上,結構分析已經逐漸式微。因為在臨床使用上藉由結構分析進行診斷效果不佳。
三、詳細具體說明(specificity)
綜合由上而下取向以及結構分析的解釋方式稱之為詳細具體說明,其操作型定義乃是分數變異量中可信的以及獨特的(量表或者分測驗專屬)比率說明解釋。
參考資料
http://www.nknu.edu.tw/~ecp/intelligence/0809%28%A4C%29share.htm
沒有留言:
張貼留言