Lec. 3 抽樣設計與測量

1

Lec. 3 Lec. 3 抽樣設計與測量

2

Part 1 抽樣設計

3

抽樣設計 (sampling design ) 抽樣設計的主要重點有三項 : 1. 有哪些機率抽樣方法 ?特性為何 ? 2. 有哪些非機率抽樣方法 ?特性為何 ? 3. 抽樣時要考慮哪些因素 ?

4

抽樣本質所謂的「抽樣」 (sampling) 是自母群體中選取部分元素 /基本單位為樣本，並且認為從選取的樣本可以知道母體的特徵。

5

抽樣的關鍵名詞 1. 母群體 (population): 一組具有共同特性的集合。2. 母體參數 (population parameters): 特徵描述值。3. 隨機 (random): 照均勻原則，任其自然出現。4. 樣本 (sample): 是指從母群體中所抽出的個體或元素的小集合體，抽樣 (sampling) 即上述動作的過程。5.抽樣單位 (sampling unit): 是指構成母體群之基本單位或元素6. 抽樣偏差 (sampling bias): 有意或無意抽到具有特殊特徵值得基本單位。7. 抽樣偏誤 (sampling error): 樣本中包含某些特殊基本單位8. 普查 (census): 研究母體每一分子。

6

抽樣的重要性在 1960 年代， Demin 發現「抽樣」不但比普查來得經濟，且比普查所得結果品質來得好。其主要的優點有 : 1. 可以避免收集到有缺失、可疑、有誤的資訊。 2. 省時、快速地得到研究結果。

7

「好」的樣本特性 1. 正確性 (accuracy): 指樣本能否代表母體群特徵值之程度。2. 精準性 (precision): 由於所抽樣的過程會有隨機變異產生，使得樣本與母體間有抽樣誤差，導致樣本與母體群很難完全一致吻合。所謂「精準性」是指標準誤差 (standard erro

r) 之估計值，值越小表示精準性越高。

8

抽樣程序1. 先釐清研究的母體群。2.設法取得一份完整而正確的抽樣單位之母體群體名單。3.根據這份母群體名單，採用適的得抽樣技術，抽取具有代表的樣本。4.要抽取夠大的樣本，方能代表母體群體的特質。

9

1. 選定母體群 2. 選擇抽樣架構( 名冊 )

3. 選擇抽樣方法

4. 選擇抽樣單位5. 界定誤差範圍6. 決定樣本大小

抽樣程序

10

抽樣的種類大約分為兩類 :隨機抽樣與非隨機抽樣。隨機 (機率 )抽樣係採用隨機作為選取樣本的控制非隨機 (機率 )抽樣則改以研究的判斷作為樣本的選取控制，而非隨機採樣則無法說明每一個抽樣單位被抽取的機率。

11

機率型非機率型抽樣基本型態元素類型未限制抽樣限制抽樣

簡單隨機抽樣簡便抽樣複雜隨機抽樣1. 系統抽樣2. 分層抽樣3. 集群抽樣4. 雙重抽樣

計畫抽樣1. 判斷抽樣2. 配額抽樣3. 滾雪球抽樣

抽樣的類型 ( 種類 )

12

隨機抽樣方法一、簡單隨機抽樣 (simple random sampling) 二、系統抽樣 (systematic sampling) 三、分層抽樣 (stratifies sampling) 四、集群抽樣 (cluster sampling) 五、雙重抽樣 ( 序列抽樣法或多階段抽樣法 )

13

簡單隨機抽樣此方法可以採用摸彩法，或利用亂數表，僅限於構成群體的個體均屬於同質 (Ho

mogenous) 時使用較佳。適用環境

母體中每一元素都有已知非零的選擇機率母體每一元素被選擇機會皆已知且相等構成群體的個體均屬於同質時使用較佳

14

系統抽樣1. 在資料上記編號，確定資料總數、抽樣比率。2. 從母體中第 1至 k 個值之中隨機抽取一個樣本，以後每隔 k 個元素抽取一個。例如：統一編號、顧客帳戶的最後幾個數字

3. 抽樣區間 (sampling interval): 兩個樣本間的標準距離。

15

系統抽樣 ( 續 ) 優點 :簡單，富彈性問題 : 抽樣的區間與樣本區間若相同，則很容易產生誤差。問題之避免

• 抽樣前隨機重排母體• 抽樣中連續數次更改隨機開始的數字

16

分層抽樣1. 取樣前，根據與研究目的有關已有的某種標準，將群體中的個體分為若干類，每類稱一為一層 ;各層彼此互斥。2.在各層隨機取出個體作為樣本。3.層與層間主要變數均數差異最大 (層與層之間為異質 )，層內變異數最小 (層內元素同質 )。通常分層數愈多愈能達上述目標 , 但分層數若超過 6 個以上 , 則此法的效益將顯著降低。

17

抽樣

分層抽樣示意圖母體群樣本

18

選用分層抽樣的理由增加樣本的統計效率提供各次群體足的分析資料不同的層次可使用不同的研究方法及分析步驟

19

群集抽樣應用於當抽樣的母體群非常的大，或母群體之抽樣單位分布非常廣且散時，或個別元素組成的抽樣主體不易取得。特性為下列 :1. 以集 (cluster) 為單位，而不以個體為單位。2.將群體按某種標準 (如班級、地區 ) 分為若干類，稱之為群體，對群體隨機取樣抽取若干小團體。3.對小團體中各成員全部加以訪問。

20

群體的成員被抽取的樣本

群集五

群集二群集三群集四

群集一 S1,S2,S3,……….S8,S9,S10S11,S12……..…S19,S20

S21,S22………..S19,S20

S31,S32,……….S39,S40

S41,S42.….…….S49,S50

沒有被選取中沒有被選取中

沒有被選取中

S11,S12……..…S19,S20

S31,S32,……….S39,S40

集體抽樣示意圖

21

分層抽樣與集群抽樣的比較分層抽樣集群抽樣

1. 母體被分成少數次群體，每個次群體所含元素數目相當多，其分類係依據與研究變數有關的特定標準為之。

1. 母體被分成相當多個次群體，每個次群體所含元素少，其分類係依據資料蒐集時簡單易得的標準為之。2.企圖使次群體內同質，而次群體間異質。 2.企圖使次群體內異質，次群體間同質，但通常結果相反。3.抽樣時從次群體內隨機選取元素。 3. 抽樣隨機選取次群體做為研究對象。

22

雙重抽樣 ( 序列抽樣法或多階段抽樣法 )理由當母體非常大時，採用簡單隨機抽樣法，其抽出率相對的會很小，如此母體參數估計的準確度相對的也會變小；同理，執行分層機抽樣法時，為了將相類似的元素放在同一個層級中則層級個數勢必也相對的變大，如此便失去分層的意義；同理，執行集群隨機抽樣法時，每個群集的群集大小勢必也相對的會很大，如此，群集抽樣便失去了同時達到經濟與準確的目的了。方法將母體分成若干群體，用隨機方式抽取若干群體，再依據群體所含訊息選擇次樣本。適用場合經濟效率要求較高時

23

雙重抽樣法範例問題

主計處想調查全國人民的平均年所得方法

先以全國各個縣市為抽樣單位 (第一階段 )執行隨行抽樣，被抽出之縣市稱為第一抽樣單位 (primary-stage sampling units； psu) 再以各個鄉鎮為抽樣單位 (第二階段 ) 而在第一抽樣單位中被抽出的鄉鎮稱為第二抽樣單位 (secondary-stage sampling units； ssu)

24

地區抽樣一、簡單一階段地區抽樣(one-stage sampling) 從一城市所有 N街道區，隨機抽選取n街道為樣本區後進行普查。二、簡單二階段地區抽樣(two-stage sampling) 從一城市中所有的 N街道區，隨機抽選n街道為樣本街道後，從樣本街道中抽取某一特性之樣本 (例如，門牌號為雙號 )。

25

街道中的住戶被抽取的樣本街道一 (40 戶 )街道二 (60 戶 )街道三 (50 戶 )…………….

街道 N(56 戶 )……………………… ……………………….

S1,S2………..,S39,S40

S41,S42……….,S99,S100

S101,S102,……..S149,S150

SN1,SN2………SNN

S1,S2………..,S39,S40

SN1,SN2………SNN

沒被抽中沒被抽中

一階地區抽樣

26

街道中的住戶被抽取的樣本 ( 門牌為雙數 )街道一 (40 戶 )街道二 (60 戶 )街道三 (50 戶 )…………….

街道 N(56 戶 )……………………… ……………………….

S1,S2………..,S39,S40

S41,S42……….,S99,S100

S101,S102,……..S149,S150

SN1,SN2………SNN

S2,S4,S6……..,S38,S40

SN2,SN4………SNN

沒被抽中沒被抽中

二階地區抽樣

27

地區抽樣 ( 續 )三、單位大小不等的二階段地區抽樣先以大地區 (州或縣 ) 為單位，從中隨機挑選幾個“大地區” (州或縣 ) 中具有某些特性之樣本。缺點為容易估錯樣本。

28

非隨機抽樣根據人為意志從抽樣母體中抽出比較具有代表性的樣本，故又稱為意志抽樣或計畫抽樣法 (purposive sampling) 。非隨機抽樣，最大的優點，就是簡單方便，但所抽到的樣本缺乏代表性，故此研究設計外部效益較差。

29

非機率抽樣使用理由若一研究不需概化 (generalize) 整個母體，就不需要考慮樣本是否充分反映母體。成本與時間因素理論上機率抽樣法較優，但會受限於人為因素的影響。

30

非隨機抽樣 ( 續 ) 可分為下列四種 :一、便利抽樣 (convenience sampling):如街頭訪問。二、判斷抽樣 (judgment sampling):又稱 [意志(purposive) 抽樣 ]，它是依據研究者的主觀認定，去選取最能適合期研究目的之樣本。三、配額抽樣 (quota sampling)四、滾雪球抽樣 (snowball sampling) 1. 先找幾個 [ 初始 ]樣本幫抽樣的種子。 2. 在以這些 [ 初始 ]樣本推至相關樣本單位。

31

便利抽樣方法

研究人員自由選擇遇見的任何人。特性

最容易最便宜最不可靠適用於探索性研究之初期訊息取得

32

判斷抽樣 ( 立意抽樣， purposive sampling)

方法根據研究人員主觀設定某些標準的抽樣法。

特性適用於探索性研究之初期訊息取得

33

配額抽樣方法研究人員遵照某些既定的標準來抽樣。用以分配的屬性須符合兩點要求可用來推估母體分配與研究主題有直接關聯適用環境民意調查，行銷研究…等

34

滾雪球抽樣方法

先找幾個初始樣本當抽樣的種子，再以這些樣本外推至相關樣本單位。適用環境

研究對象不易辨識但可循特定網路尋找時適用。 (吸毒文化 ,幫派活動… )

35

抽樣方法的選擇1. 成本 :隨機抽樣成本大於非隨機抽樣。2.時間 :隨機抽樣所花費時間大於非隨機抽樣。3.母體特性資訊。4.研究目的。

36

抽樣應注意事項一、樣本框架 (Sampling frame) 的問題 :例如 : 有人宣稱 [政治大學的水準高 ]，那我們就應注意其研究的框架是國內各大學 ? 或歐美各大學 ?許多的 MIS研究為何要選取這個框架。大部分是以便利為原則來選定當地的協會會員，或廠商客戶，一些學生為基本框架。

37

抽樣應注意事項 ( 續 )二、樣本的代表性問題 :Pinsonnesult & Kraemer(1993) 發現有 70% 的 MIS調查研究利用非系統的抽樣方法，另外 Grover等人 (1933)也發現，只有 58.6% 的調查研究有樣本的代表性的說明。在研究調查中如果樣本的表性有問題，則此研究的概化或所謂的外部效度會受到很大的質疑，即使樣本數目再多也沒也用。

38

抽樣應注意事項 ( 續 )三、樣本大小的問題 :

樣本數 100至 200左右，衡量的精確性可大幅提高 (Flower ， 1984)

39

抽樣應注意事項 ( 續 )樣本大小考慮的準則 :1. 研究的特殊性。2.研究的類型。3.研究的假設。4.經費的來源，與可用的人力。5.研究結果愈重要，樣本則要愈大。 6. 研究的變數愈多，或無法控制的變數愈多時，則所需的樣本則需要大。7. 資料的收集的樣本異質性愈高，或不一致愈大，則所需的樣本就要愈大。8. 要求的研究結果之正確性 /精確度愈高，則所需的樣本愈大。9. 母體群的大小 :母體群愈大，則所需的樣本比例就要愈小。

40

單一樣本大小的公式根據中央極限定理， Z= 常態分配值，若我們欲使研究達到 95%的信賴區間，則 Z=1.96。

Z= X -S / n = e

S / nS= 樣本標準差n= 我們所需的抽取之樣本個數= 母體平均數e= 樣本平均數減去母體平均數

41

單一樣本大小的公式 (續 ) 由上述公式可以推導出所需樣本空間 n 的大小 :

1.當母體群變異數 2已知時 (1) 母群體變異數 2愈大，則所需樣本數 n愈大。 (2) 可容忍誤差 e愈小，則所需樣本數 n愈大。 (3)欲使信賴水準愈大，則 z值愈高，則所需樣本數 n愈大。

Z22n=

e2

42

單一樣本大小的公式 (續 ) 2.當母體群變異數 2未知時 : 母體群變異數 2未知時，我們可以採取下列方式來估計變異係數 : (1) 以過去的研究調查資料來估算。 (2) 小規模研究先做個預試，以估計樣本便異數。 (3) 取母群體全距 /6。

43

單一樣本大小的公式 (續 ) 3.當抽樣資料為離散時由於 [誤差比率 e] 公式 : 可以推算出所需樣本空間

where p = 1 - q

e=

Z * (pq/n)

n=

Z2pqe2

44

信度與效度的問題1. 要增加信度與效度，最好的方法是使用學理上驗證過的工具。2.如果自己根據定義創造出的衡量尺度，或整合修改以前的工具，則必須非常嚴謹的設計過程。

45

Part II Part II 測量測量

46

測量 (Measurement) 的定義針對某一個特定對象、人或組織，有關某種特徵或行為，賦予其一個值，使其數值能代表構念中所代表的概念或狀況根據一定「規則」將數值 (或其他符號 ) 指派給物體或事物 ( 變數 )身上之一種程序三個程序：

選擇對象─選擇可觀察的「個體或事物」數值系統 (numerical system)以數字或符號代表事件的特性依據「指派規則」賦予觀察值一個符號或數字此種「規則」就是“操作型定義”

47

測量的定義 (續 ) 構念─具特定意義的符號，用來表示某種物體、現象、特性、認知。未必真實存在，但可衡量。概念與構念的比較概念不可衡量，構念可衡量如：“聰明”指概念，“ IQ”指構念構念有二種層次的定義

(1) 構念型定義對構念粗淺的定義，具有一般性及彈性(2)操作型定義將構念“操作化”，即“變數化” 即將構念轉成 ECV( 知識論上的對應變數 )

48

測量的定義 (續 ) 例如：構念：兩人的相愛程度構念型定義： (1)關心對方的程度 (2)對方在心目中所佔的比率程度操作型定義： (1) 認為對方在心目中的定義 1. 先生 /老婆 2.情人 3.朋友 4.陌生人 (2) 用山來形容對方在你心目中的印象 1.八卦山 2.阿里山 3.玉山 4.喜馬拉雅山 (3) 說“我愛你”的次數 1.0~5次 2.6~10次 3.11~15次 4.16 次以上 (4)打電話給對方的次數 1. 每天一次 2. 每天二次 3. 每天三次 4. 每天四次

49

測量程序範例研究方法課程學習成效—考試成績成績為介於 0~100之正整數根據答題正確率給予對等比例分數

50

測量程序範例實際觀察參觀人員性別出席人員滿意程度分派法則若為男性 M若為女性 F 非常滿意 5滿意 4沒意見 3不滿意 2非常不滿意 1符號或數字 (M ， F)

(1-5)

51

四大類數值系統名目 (nominal) 資料：此種變數可做「分類」。沒有大小，沒有距離，例如性別。順序 (ordinal) 資料：此種變數可比大小及前後，但前後距離不等。只有大小沒有距離。例如 5

> 4 ，但 5 – 4 ≠ 1 。例如，研究者常用 Likert五點計分量表所得數據，可能是１～５分，亦可能是 -2～ +2 分，這種資料屬於順序變數。又例如肉的煮熟度。

52

四大類數值系統 (續 ) 區間 (interval) 資料：具有前兩者的資料特性，且可以比較差距。前後距離相等，但沒有倍數關係，所以沒有絕對的 0( 有距離，但沒有絕對的零點，例如，時間、溫度… ) 。例如 5-4=

1, 但 4≠2×2 。例如：早上 3 點到 6 點經過的時間等於早上 4 點到 7 點，但早上 6 點不為早上 3 點倍數。

比例 (ratio) 資料：具有前三者的資料特性，且可以做倍數比較。有距離，有絕對的零點。例如， 4=2×2,貨幣價值 ,人口 ,距離 , 年齡等。

53

各種尺度用的敘述統計尺度的種類數值的操作敘述性統計名目尺度計數 (counting) 每一類可做頻率計算

每一類可做百分比的計算順序尺度排列順序可計算中位數

可排列順序可計百分等級

區間尺度區問的數值可做算數運算可計算平均數、標準差、變異數比率尺度可以實際數值做算數運算可以算幾何平均數、變異數

54

變數種類分成四種：自變數：又稱“因”變數或實驗變數依變數：又稱“果”變數或反應變數外生變數：除自變數以外，可能影響結果之因變數中介變數：會對研究結果產生作用的內在歷程

55

數值指派的「規則」a-> 測量的結果 A->構念程度

a

Aa

a

a

構念 A 構念 A

構念 A 構念 A

有信度低效度

高信度高效度

低信度低效度

無信度無效度

構念與ECV

之四種關

係

56

數值指派的「規則」a,b-> 測量變數構念 A 兩個構念操作化之三種情

況構念 B

a b

ab

構念 A 構念 Bba

57

測量誤差差異的來源：

變數及研究概念或構念間存有“真正差異” 測量本身或測量環境對測量活動產生了影響實得分數 (X) = 真實分數 (T) + 誤差分數 (E)

測量誤差：指「真正差異」以外任何引起測量分數的差異

58

測量誤差 (續 ) 測量誤差的來源：

系統性誤差：會對測量結果產生一致性固定的影響系統性誤差 (systemtic errors)只要使用測量工具，它就會產生。系統性誤差對個案間及研究間的影響方式都是「固定」不變的。換言之，對相同情境受訪者或不同情境受訪者的同一位受訪者，均產生同樣的影響。例如 :測量儀器偏誤 ,量表設計偏差… 隨機性誤差：主要來自受訪者身心狀況 (情緒、性格、動機… ) 、情境因素 (噪音、太太在場、趕飛機、太熱… ) 、及測量試題 (內容太長、太難… )的干擾影響

59

測量誤差 (續 ) 系統性誤差

對個案間及研究間的影響方式都是「固定」不變的隨機性誤差

受測者誤差情境因素施測者誤差量表的使用方式資料分析處理之影響測量工具誤差

系統性誤差是屬「信度」的問題隨機性誤差是屬「效度」的問題

60

範例本次研究方法考試，全班都不及格… ( 系統性誤差 ) 小花說：「這次小考，我唸的老師都沒出…。」 ( 隨機性誤差 ) 老哥高中聯考時拉肚子，因此名落孫山。

( 隨機性誤差 )

61

測量誤差之主要來源受測者誤差

因受測者本身特質 (如隨和性 ) 不同、當時個人的情緒好壞，都會導致測量結果的不同。例如：受測者之地位、社群、階級、生理因素、心理因素、不願表示負面意見…

62

誤差之主要來源情境因素

訪談時任何外力的影響施測者誤差

例如，訪談者的解釋、重述、語氣、態度和藹可親、肢體動作、草率的資料處理…等等。量表的使用方式

是由訪問員代填，還是受訪者親自填答。資料的分析處理之影響

63

誤差之主要來源測量工具誤差

測量工具內容：混淆 (區別效度不佳 ) 、語意不清 (信度不佳 ) 、編排不良 (建構效度不佳 )…等；測量項目不足，未能涵蓋所欲測量的特性

( 即內容效度不佳 ) 、項目的篩選有沒有引導作答的嫌疑…等等。

64

評量測量工具的準則效度 (validity)：是否真能測量到欲衡量的特性，使得實得分數＝真實分數信度 (reliability)：結果是否具有穩定性、一致性敏感度 (sensitivity)：事物起了變化，是否能顯出差異實用性 (practicality)：測量工具的經濟性、便利性、可解釋性

65

量表 (scale) 的設計所謂「量表化」 (scaling) ，它是一種測量的程序，旨在將衡量對象或欲衡量的特性 (property)指派某些數值，以便將測量對象之特性數值化。衡量「變數」可用單一問項來量衡量「構念」則要用量表來量。量表是用一個以上的指標 (indicant ,item, manifested) 來測量某個體 /事物的特性。

66

量表類別之考慮因素目的

測量受測者本身的特質測量受測者對一件事物或刺激的看法

填答的類型類別量表 (categorical scale) ， (評分量表， rating scale) 比較量表 (comparative scale) ， (排序量表， ranking sca

le) 偏好的程度

有關個人偏好之量表無關個人偏好之量表

67

量表類別之考慮因素 (續 ) 尺度的特性層面的多寡

單一構面量表多構面量表

量表建構的技術主觀決斷方式共識量表 (consensus

scale) 累計量表 (cumulative

scale) 因素量表 (factor scal

e)

68

評分量表 (rating scale)1

圖形式量表受測者依據對問題的反應，在一條直線上選定一個點。

缺點通常極端的負面敘述不會被勾選「有時」與「通常」的定義模糊無法維持量表的一致性及穩定性。讓受測者覺得他的反應被限制在兩端答案之間。

69


項目式量表：由一系列的描述句組成，受測者選擇最能反應他們情況的論述。此員工與其他同事相處的情形如何 ?

幾乎都會與同事有些衝突或爭執通常會與同事有爭吵 , 其次數大於員工平均值有時會與人發生衝突 , 但次數大約等於員工平均值與其他人發生爭執的次數不多幾乎不會與其他員工有衝突的情況發生

70


項目式量表之評論建立困難陳述不一定可以真確地代表受測者提供受測者較多訊息使受測者能夠建立與研究者相同的參照架構，可增加量表的信度

71

使用評分量表的問題 1

假設受測者有能力且願意去做出恰當判斷可能發生三種錯誤

極端效果或同情效應 (leniency) 例如：好好先生及刁難先生，評估者認知到有此偏誤，想要反向平衡。處理方式：在量表設計時預估控制，例如，使用不對稱圖形式量表— ( 差 - 普通 - 好 - 很好 -卓越 )

72

使用評分量表的問題 2 趨中效應 (central tendency)

解決方式調整描述詞語的強度在圖形式量表加大詞語間的距離使兩端的語意差別比中間來得小使用較多點的量表

月暈效應 (halo effect) ：指人們對一般性的印象造成的誤差。例如，預期第一次考試得高分的同學，第二次也會表現得好。解決方法：讓所有受測者每次僅對一項屬性或特質進行評估。

73

問題畢業旅行地點與投票結果

花東： 12票蘭嶼： 15票綠島： 18票

決定到綠島 ? ? ?

74

排序量表 (ranking scale) 多個項目，要求受測者直接比較挑選最好的或較喜愛的。此量表在多選一時較不明確

例如：三種模型，問受測者最喜愛那一種， 40% 的人選 A ， 30% 的人選 B ， 30% 的人選 C 。其中 A最受喜愛 ?(60% 的人不是選 A) 解決方法

配對比較法 (method of paired comparisons) 次序排列法 (method of rank order) 連續區間法 (successive intervals)

75

配對比較法以兩兩比較方式來決定排序判斷次數為比較項目最好不要超過 15 個 (105 個比較 ) 可降低每個受測者所需做的比較次數，亦即一個人不用做全部的配對比較，但必須注意的是每一配對的次數必須相等。

2

12

nnC n

76

配對比較法範例 200 名工會成員對五種「工會談判計畫」之成對比較

77

次序排列法直接要求受測者將所有的選項排列次序。將次序加總做為選項次序的指標，再用混合標準法，將次序量表轉換為 z 值及 Ri值進行比較。優點

快速，簡單缺點

當排序的選項超過 10 個時，受測者可能無法明確判別。解決方法：可降低每個受測者所需做的比較項目

78

連續區間法利用卡片 ( 每一項目各一張 )讓受測者以卡片對項目進行排序動作，歸類後的順序即代表此項目的分數。

79

「量表」設計的技術主觀式量表 (arbitrary scale) 李克特 (Likert) 量表共識量表 :Thurstone 量表 (scale) 語意差異量表 (semantic differential scale) 累計量表 :Guttman 量表

80

主觀式量表研究者可能依據本身對主題的瞭解，設計出一些可測量此項概念的題目，而形成主觀式量表。優點

花費不大，容易實施 , 提供的訊息有用且恰當。缺點

結果的好壞仰賴編制者的邏輯是否正確無法證明受測者對此項概念的參照架構是與研究者一致

例如，管理學之考題：試述 Maslow 需求層級的內涵…。

81

主觀式量表—範例對公司印象之量表1. 是個工作的地方壞好2. 是公共設施計劃的贊助者壞好3. 會考量到經濟生態的重要性壞好4. 是弱勢團體的公司壞好

上述問題之可行析方法就個別項目進行分析就不同公司進行比較就不同公司在個別項目上進行比較就公司在四個項目之總分進行分析

82

Likert 量表屬『評分加總式量表』 (summated rating scale)

的一種。屬同一「構念」的「這些項目」是用「加總」方式來計分，單獨或個別項目是無意義的。「評分加總式量表」是對某一概念 / 構念所設計的數個項目，測量每位受訪者對它們的態度反應 ( 同意程度 )。每一個反應都給一個數值，以代表受訪者對該項目的贊同程度，將每位受訪者在這些項目的得分加總，即是受訪者對該題的態度。計分方式：最多人採用五點量表〈例如，從１代表『非常不同意』，到５代表『非常同意』〉。

83

Likert 量表設計步驟步驟一：建立大量有關某一「態度」構念之題庫，每一個情況 (statement) 等於一個項目 (item) ，並隨機式排列這些項目。步驟二：邀請一組樣本，請各受訪者對上述態度各項目表達立場。 ( 預試 )步驟三：進行項目分析 (item analysis) :旨在對量表之題庫做篩選，它是假定每一項目都具有相同的量值。項目的好壞是依據其是否具有區別力判定。被判定為較差區別力之項目，則刪除它。

Likert 量表範例表 6-1 資訊團隊授權之量表

1. 資訊團隊對自己很有信心。----------------------------------- 1 2 3 4 52. 資訊團隊相信自己能有高的工作品質。-------------------- 1 2 3 4 53. 資訊團隊期望自己被認為是有好的表現。----------------- 1 2 3 4 54. 資訊團隊感到自己能解決任何出現的問題。-------------- 1 2 3 4 55. 資訊團隊相信自己深具生產力。----------------------------- 1 2 3 4 56. 資訊團隊認真工作時，可以完成很多工作量。----------- 1 2 3 4 57. 資訊團隊相信自己沒有太難的工作。----------------------- 1 2 3 4 58. 資訊團隊期望自己有很大的影響力。----------------------- 1 2 3 4 59. 資訊團隊在乎自己的作為。----------------------------------- 1 2 3 4 510. 資訊團隊認為自己的工作是有價值的。-------------------- 1 2 3 4 511. 資訊團隊認為自己的工作是重要的。----------------------- 1 2 3 4 512. 資訊團隊認為團隊的共同目的是重要的。----------------- 1 2 3 4 513. 資訊團隊覺得自己的工作是有意義的。-------------------- 1 2 3 4 514. 資訊團隊感到自己的辛苦是有代價的。-------------------- 1 2 3 4 515. 資訊團隊可以選擇不同的方式去做自己的工作。-------- 1 2 3 4 516. 資訊團隊可自己決定團隊內的事該如何完成。----------- 1 2 3 4 517. 資訊團隊對自己的作為有自由感。-------------------------- 1 2 3 4 518. 資訊團隊可決定團隊內有什麼事需要先完成。----------- 1 2 3 4 519. 資訊團隊可自己下決定，並不需要管理階層來指導。-- 1 2 3 4 520. 資訊團隊對自己的工作有很大的選擇空間。-------------- 1 2 3 4 521. 資訊團隊在工作上有很大斬獲。----------------------------- 1 2 3 4 522. 資訊團隊對依賴他的員工有正面影響力。----------------- 1 2 3 4 523. 資訊團隊對於公司顧客有正面影響。----------------------- 1 2 3 4 524. 資訊團隊可完成自定的目標。-------------------------------- 1 2 3 4 525. 資訊團隊從事對公司有意義的工作。----------------------- 1 2 3 4 526. 資訊團隊能使組織產生一些變革。-------------------------- 1 2 3 4 5

非常

不同

意

不同

意

普通

同意

非常

同意

85

Likert 量表項目分析旨在對量表之題庫做篩選，它是假定每一項目都具有相同的量值。根據受試者的反應改予分數，以所有項目分析之和，表示受試者在量尺上連續函數上的位置，此即代表受試者在量尺上感受的程度。分析方法：　 (1) 相關分析法 correlation analysis(區別指數， Rti 值 ) (2) 內部一致性效標 correlation of internal

consistency (ＣＲ值 )

86

相關分析 Rti

計算每一項目與總分的積差相關 ( 以符號Rti 表示 ) ，當作該題的「區別指數」，區別指數偏低者，即表示該題未能區分受試者的反應程度，沒有區別效果，可予剔除。

87

內部一致性效標分析將所有受試者在預試量表得分的總和依高低分排序，然後由最高分者起算總人數的 25% 為高分組，由最低分者起算，總人數的 25% 為低分組。爾後以高分組受試者在某一項目 (題 )得分之平均數減低分組受試者在同一題得分之平均數，其差即代表此題的鑑別力。

鑑別力的數值應訂多大作為選題依據，並無一定標準。

88

決斷值 (critical ratio ， CR) 決斷值 (critical ratio ， CR)(Green, 1954; Edwards, 1

957) 針對某一項目 (題 ) 在高分組與低分組之分數進行 t檢定。

2 2H L H H L LCR X X / S / N S / N

89

範例研究者初擬了一份五點量表，內含 10 個項目，預試人數為 32 人。

計算每一受試者在這 10 個項目分的總分。將分數排序。選取總分在前 25% 的人 (8 人 ) 為高分組；總分在最後 25% 者 (8 人 ) 為低分組。計算各組之平均數與變異數。計算 CR 值。未顯著之問題予以刪除。

90

Thurstone 量表俗稱『共識 (consensus)量表』，是由 L.L.Thurstone 及 E. J. Chave(1929) 所創。由一群專家 ( 一般在 50人以上 )依據下列三個準則來篩選項目： (1) 與研究主題有關聯性 (2) 題意是否模糊〈即專家對該題去留意見不一致者〉 (3) 項目所表達之態度層次此量表為其他量表編制技術的先驅〈基礎〉此量表本身是以「等距表現法」來製作某一〝態度”衡量量表，故又稱「等距量表」。

91

Thurstone量表 Thurstone量表能否編製成功之關鍵點，是在編製過程，專家們要能去除個人情感好惡來表達其對每一項目去留之意見，接著再將專家意見 (該題去留 ) 不一致的項目刪除 (Q3-Q1太大之項目 )

92

Thurstone量表問題採 11 點計分方式 (1 分表示非常不滿意， 1

1 分表示非常滿意 ) 選擇四分位差較小者之項目 12 到 18題。求出專家對此 12 到 18題，每一題去留評分之平均數 ( 或中位數 ) 此平均數就當作正式問卷之該題目之得分。

93

Thurstone量表編製 Thurstone scale 的最終目標是：該量表中一個題目的中位數要能均勻分配到 1至 11 每一格 ( 以 1~11 之等距表現時 ) ，而且專家們對該題目的意見非一致。對受訪者施測時，每位受訪者只勾選 2至 3題最能代表自己態度之選項，最後再依這 2至 3題所對應之 2至 3 個平均數求其中位數來表示該受訪者的態度得分。

Thurstone 量表範例表 6-3 某態度之 Thurstone 量表

專案評分之平均數四分差 (Q) 原題號項目10.79.89.28.27.97.86.96.24.43.23.02.4

0.91.72.83.03.23.11.84.02.71.23.34.6

18313822241330219122028

我認為----------。如果-------------。一般人----------。我應該----------。我聽到----------。有人說----------。為了要----------。我認為----------。好的做法-------。如果我----------。我願意----------。我想我會-------。

95

Likert 量表較 Thurstone 量表受歡迎的理由 Likert量表編製過程簡單。 Thurstone量表易受到專家好惡的限制。凡與研究主題有關的題目皆可納入 Likert量表，測量範圍較廣。 Likert量表內項目若愈多，其 Cronbach’s alpha 值就愈高。但 Thurstone量表是以中位數來計分，沒有一致性之信度可衡量。 Likert量表有較深度及精確性。

96

語意差異量表由 Osgood(1957) 所創，旨在了解受訪者對事物的認知程度〈形象、競爭優勢…〉語意差異是假設事物的意含可能有多種層面，而這些特質層面之空間，謂之語意空間 (semantic space) 。從傳統量表中選擇『兩極化的形容詞』，須兼顧三個原則： (1) 兩極化的形容詞的組合，應均勻含蓋：評估性、力量性、活動性等三種成份之形容詞，且計分權重都一視同仁。 (2) 形容詞應與研究概念息息相關，並以受訪者容易理解為原則。 (3) 選用量表對不同受訪者之重測信度要高、不同概念之間要有區別效度。

97

語意差異量表此量表常用來衡量：商業品牌、企業形象、政治議題、組織研究、人格特質．．．等主題。兩極化形容詞的組合

評估性 (evaluation) 力量性 (power) 活動性 (activity) 好的壞的強的弱的快速的緩慢的樂觀悲觀重的輕的快的慢的正面的負向的固執的服從的快樂的悲傷的時髦的落伍的硬的軟的關心的冷漠的

98

語意差異量表之設計步驟先建立題庫 ( 一組項目 ) ，並對「態度」目標物，就受訪者可能的反應，選擇其兩極化的形容詞，來橫跨「 1至

7 」之選答區，以便受訪者填答對受訪者所回收資料進行資料分析，計算出每題 ( 變數 )的平均數。依據項目順序，將每題 ( 變數 )平均數集結起來，以形成整個量表之特徵輪廓

語意差異量表範例表 6-5 公司內外環境評估之量表一、整體而言，本公司在以下各種環境的穩定性 (Environmental stability) 如何？

1. 技術上的改變多 1 2 3 4 5 少2. 通貨膨脹率高 1 2 3 4 5 低3. 需求變動程度大 1 2 3 4 5 小4. 競爭性產品的價格範圍寬 1 2 3 4 5 窄5. 市場進入障礙少 1 2 3 4 5 多6. 競爭壓力高 1 2 3 4 5 低7. 需求價格彈性高彈性 1 2 3 4 5 低彈性

二、整體而言，本公司在以下各種產業強度 (Industry strength) 如何？1. 成長潛力低 1 2 3 4 5 高2. 獲利潛力低 1 2 3 4 5 高3. 財務穩定度低 1 2 3 4 5 高4. 技術上的 Know-how 簡單 1 2 3 4 5 複雜5. 資源的使用程度無效率 1 2 3 4 5 有效率6. 進入市場的容易度容易 1 2 3 4 5 困難7. 生產力、產能使用程度低 1 2 3 4 5 高

三、相對於主要競爭對手，您認為本公司在以下各種競爭優勢如何？1. 本公司的市場佔有率2. 「產品／服務」的品質小 1 2 3 4 5 大3. 「產品／服務」的生命週期低 1 2 3 4 5 高4. 「產品／服務」的替代週期晚期 1 2 3 4 5 早期5. 顧客忠誠度變動的 1 2 3 4 5 固定的6. 競爭性的產能使用程度低 1 2 3 4 5 高7. 技術上的 Know-how 低 1 2 3 4 5 高8. 垂直整合程度低 1 2 3 4 5 高9. 員工的生產力低 1 2 3 4 5 高10. 對產業環境改變的敏銳知覺低 1 2 3 4 5 高11. 顧客對本公司「產品／服務」的的滿意度低 1 2 3 4 5 高12. 本公司「產品／服務」的創新能力低 1 2 3 4 5 高13. 本公司的營運效能低 1 2 3 4 5 高

四、相對於主要競爭對手，本公司在以下各種財務強度 (Financial strength) 如何？1. 投資報酬率低 1 2 3 4 5 高2. 財務槓桿不平衡 1 2 3 4 5 平衡3. 流動性不平衡 1 2 3 4 5 平衡4. 資本額高 1 2 3 4 5 低5. 現金流量低 1 2 3 4 5 高6. 退出市場的容易度容易 1 2 3 4 5 困難7. 企業風險高 1 2 3 4 5 低

100

Guttman 量表前述三種量表都是談如何建構一個多構面之量表，而

Guttman 量表則可用來檢定具有不同強弱程度之一組項目是否都屬單一構面 ( 指受訪者對項目所反應的態度，均集中在某一方向上 )。屬於累計量表 (cumulative scale) 的一種。此量表較適合於衡量高結構化行為〈構念〉。例如，組織階層、社會差距、種族歧視、自主性 (反權威、反傳統、開放性 )…等等。量表中的項目間的關係及排列方式是有次序性。

101

Guttman量表編製步驟首先建立可以用來測量某事實之具體句子或項目。選取一組樣本 (20~30人 )進行前測 (pre-test) ，將那些被 8

0%受訪者填答「同意」或「不同意」的項目刪除。測完後，保留 3至 6題左右。 ( 或採內部一致性效標法檢定 ) 後測時，約找 100人以上受訪者對上述 3至 6題勾選意見。整理後測回收資料，將彙總後的數據代入 CR公式，以求出「複製係數」 (Coefficient of reproducibility ，若 CR 值在 0.

8 以上者，才可以說：「這些強烈程度題確實屬於同一構面」。

Guttman 量表範例有一個用來衡量種子歧視之三個項目，歧視強弱依序：把女兒嫁給黑人，到黑人家中作客、與黑人一起上課。找一批人對這三道項目填答，資料回收後有三種情況是合理的〈如表６－６左側〉，有三種情況的回答是不合理的〈如表６－６右側〉。

表 6-6 「種族歧視」一致性之統計表

受訪者填答強弱程度

回答一致性者不合理情況

把女兒嫁給黑人

到黑人家中作客強弱

與黑人一起上課

分數 3分 2分 1分 0分 2分 2分 1分 1分

人數 18人 20人 7人 11人 13人 10人 13人 8人

103

複製係數 (coefficient of reproducibility ， CR) e= 誤差的人數 n=問題項目數 N=受訪者總人數

CR=1-∑ en(N)

範例之 CR=1-(44/3100)=0.853因為大於 0.80 ，故可稱上述三個強烈程度不同的項目是屬單構面 (種族歧視 ) 。

104

效度量表（ Scale ）會有信度（ reliability ）、效度（ validity）問題發生，主要是量表本身有「測量誤差」（measurement error）存在。量表之信度過低，則沒有效度；相對地，效度過低，則信度沒有意義。「有效度有信度」。評量某一「測量工具」的好壞時，是以量表的信度、效度、實用性（包括經濟性、便利性、解釋性）為評估主要指標。效度除了內、外部效度分類外，常見的效度，有下列三種：

內容效度效標關聯（ criterion-related）效度建構效度

105

內容效度內容（ content）效度：是指量表 ( 測量工具 ) 「內容的適切性」，及量表內容是否涵蓋所要衡量的構念。易言之，內容效度是指一個測量本身所包含概念（構念）意義範圍或程度。 1. 抽樣（ sampling）效度：量表所包含的項目是否能代表母體構念的項目。內容效度的高低，端賴項目（ item）取樣代表性之大小而定。 2. 表面（ face）效度：是指量表項目和形式上，給人的主觀印象，如果量表從外表來看，似乎確實可適切地測量其預測的特質或行為，便稱它具有表面效度。

106

效標關聯效度效標關聯（ criterion-related ）效度，又稱為實用效度或實証效度，意指這種效度應建立在實証資料上。並不涉及構念的問題。指測量工具的內容具有預測或估計的能力，而其有效程度則依據測量結果與效標的關聯程度而定。依據效標不同，效標關聯效度可分為同時 (concurrent)效標及預測 (predictive)效標。

107

1. 同時（ concurrent）效標：是指測量工具與效標同時出現。所謂「效標」，是用來顯示測量工具所欲測量（或預測）的特質之獨立量數，以作為檢定效度的參考標準。如某學者自編「成就測驗」（量表）即可用「當時」研究生英文成績當效標，求兩者相關係數，若 r 值高表示，則代表該「成就測驗」（量表）同時效標高。例如，以「口袋中零用錢」 ( 屬測量工具 ) 衡量受訪者的「所得」 ( 屬效標 ) 高低，假如兩者相關很高，則「同時效度」高。又如：心理測驗、星座、血型、行為之人格分析…。

效標關聯效度 (續 )

108

2.預測（ predictive）效標：是指測量工具出現在效標之前。例如，某學者自編「成就測驗」（量表）即可用「預測」二年後研究生英文成績當效標，求兩者相關係數，若 r 值高表示，則代表該「成就測驗」（量表）預測效標高。例如，民意調查可正確預測選舉結果…

效標關聯效度 (續 )

109

建構效度建構（ construct）效度是指「量表能測量理論上某概念或特質的程度」，即構念是否能真實反應實際狀況。建構效度強調的是量表所衡量的是否能代表所要衡量的構念。常見的建構效度有兩類：

收斂（ convergent）效度區別（ discriminant）效度

110

收斂效度收斂效度：是指來自相同構念的這些項目，彼此之間相關要高。例如，若要衡量相同的東西（筆試、口試），則所得分數（結果）應相同（筆試與口試成績之相關要高）。反之亦然。若以「多特質多方法」之角度來看，就是不同方法，測同一特質（ trait），相關要高。

111

區別效度區別效度是指測量工具中描述某一構念的項目與其他構念的相關性 . 將不同的兩個概念進行量測，量測之過程不管是使用相同的方法或是不同的方法，若結果進行相關分析，而其相關程度很低，即代表兩個研究之概念量測之構面具有區別效度。

112

區別效度區別效度：是指來自不構念之項目（ items），彼此相關應低。若以「多特質多方法」之角度來看，就是相同方法，測不同特質，兩者相關要低。以因素分析後「因素負荷量」角度來看，就是各項目只能在其屬的因素中「因素負荷量」大於 0.50（要接近 1），反之，各項目在其非屬的因素中「因素負荷量」要愈小愈好（接近 0）。

113

構念效度之檢定方法收歛效度及區別效度常用的「統計檢定」有三種方法：

(1)相關分析 (2) 因素分析：求量表各項目之因素結構矩陣，再由結構矩陣所表列之因素負荷量大小來判定建構效度好壞。 (3) 多特質多方法 (multi-traits multi-methods, MTM

M)

114

相關分析以「相關分析」來計算某一構念之這些項目的 r 值，並將 r 值得顯著性（ p 值）排列程二維矩陣，再由顯著性之 p 值矩陣，來判斷是否屬於同一構念之項目，若每一個 r 值彼此都達到顯著水準之個數愈多（即二維矩陣中「 p<0.05 」的個數），則表示該量表建構效度愈佳。如表 6-7 所示「工作意義」構念，它包含 6 個項目，故有 15 個相關分析之顯著性 P 值，其中高達 14 個 p 值達到 0.05顯著水準，因此（ 14/15）可證明此量表具有高的收斂效度。相反地，在區別效度檢定方面，表 6-7 所示 r 值顯著性矩陣中，若屬於不同構念的項目間之 p 值不顯著（即 p>0.05）者個數愈多，則表示該量表之區別效度越高。

115

表 6-7 授權量表各項目單尾相關矩陣之 p值

116

因素分析以「因素分析」（ factor analysis）求量表個項目之因素結構矩陣，再由結構矩陣所表列之因素負荷量（ factor loading）大小來判定建構效度好壞。同一構念中，若因素負荷量的值愈大（通常取 0.5以上者才保留該「項目」，否則刪除後再重新執行一次因素分析），表示收斂效度愈高。表 6-8 所示「工作有意義」、「自主權」、「團隊潛力」、「團隊成果」四個構念，其對應的個項目之因素負荷量均大於 0.5 ，故可宣稱該「授權量表」收斂效度佳。相對地，在區別效度檢定方面，每一個項目只能在其所屬構念中，出現一個大於 0.5 以上之因素負荷量，符合這個條件的項目愈多，則量表的區別效度愈高。

117

表 6-8 授權量表因素分析結果

118

多特質多方法以「多特質多方法」（multi-traits multi-methods, MTMM）來檢定信度及效度：其做法是用同一個「異質的特質」測量工具，以不同的「方法」（如：「調查法 vs.觀察法」、「自陳量表、投射測驗、同伴評分」），分前後二期對同一批樣本（受訪者）重測二次。此種信度（重測信度）及效度（建構效度）檢定方法是最嚴謹的方式，但因「經濟性」以及「便利性」的考量下，常被研究者遺忘使用。

119

例如，某研究者以「自陳量表、投射測驗、同伴評分」三種不同「方法」，對同一批 15 名受訪者，分別觀察測量其「依賴性、社會性、成就動機」三種異質的「特質」，所得數據如表 6-9 所示，其中，變數 A 代表「依賴性」，變數 B 代表「社會性」，變數 C 代表「成就動機」。

多特質多方法 (續 )

120

表 6-9 對 15 名受訪者以三種「方法」測量其三種不同的特質所得數據

121

多特質多方法自陳量表 ( 方法 1) 投射測驗 ( 方法 2) 同伴評分 ( 方法 3)依賴社會成就依賴社會成就依賴社會成就

特質 A1 B1 C1 A2 B2 C2 A3 B3 C3自陳量表( 方法 1)

A1 0.98

B1 0.40 0.98

C1 -.94* -047 0.87投射測驗( 方法 2)

A2 0.95* 0.10 -.89* 0.96

B2 0.35 0.99* -.48 0.07 0.97

C2 -.93* -.67* 0.97* -.80* -.65* 0.95同伴評分( 方法 3)

A3 0.94* 0.11 -.90* 0.99* 0.08 -.80* 0.94

B3 0.37 0.97* -.51 0.11 0.99* -.67* 0.12 0.99

C3 -.93* -.65* 0.96* -.81* -.63* 0.99* -.81* -.64* 0.96

122

多特質多方法 * 代表 p<0.05 黑字為重測信度 (r 值應最大 ) 藍字為收歛效度 ( 不同方法測相同特質， r 值應第二大 ) 黃字為區別效度 (相同方法測不同特質， r 值應第三大 ) 綠字為不同方法不同特質， r 值應最小

123

效度的另一種分類效度除了上述所談三大分類外，亦有人將它分成下列四種：

1. 測量效度：反應真實的程度愈高，則效度愈高。2. 設計效度：研究設計中，變數關係是否如預期的，不受外來（用隨機分派受測者）的影響，可透過控制外生變數來提昇設計效度。3. 分析效度：進行統計分析後，所發現的結果是否如預期的。4. 推論效度：又稱外部效度，即研究結果可推論到母群的程度。可採用「隨機分派」受測者提昇外部效度。外部效度是指「研究成果概化（一般化）的能力」；而內部效度則指「工具設計能測出真正特質的程度」。

124

效度之檢定順序首先評估有那些項目可作為測量工具之理論基礎 (內容效度 ) 定義內容母體的項目，再從中抽取具有代表性樣本 (建構效度 ) 觀察資料回收後，評估測量工具與外在效標

( 標準測驗 ) 之相關，以衡量該測量工具的經驗(預測 )效度

125

影響效度的因素影響效度的因素：

1. 樣本性質：樣本多樣性、代表性愈高，測量工具效度就愈高。故樣本取樣時，應力求他們具有「母群代表性」。2. 測驗信度：由公式，效度≦ ， ≦ ，可看出，若信度太低，則效度亦低。3. 干擾（moderator）變數：指存在於測驗所欲測特質及其效標之外，但卻與兩者間具有某種相關程度的變數。如：年齡層、性別、環境背景…等。

信度 xyr xxr

126

效度評估摘要類型測量內容評估方法

內容效度測量內容能夠代表所有攸關項目的程度主觀判斷或小組評估其內容效度比值效標關聯效度測量工具掌握效標攸關要素的程度相關分析同時效度現況的描述 :效標資料可同時得到相關分析預測效度未來預測 :由未來結果判定其效度迴歸分析

構念效度測量的變異為何 ?企圖確認所欲測量構念並判定測量值與之相符程度相關分析 , 區別分析 , 因素分析 , 多特質多重方法矩陣

127

信度信度（ reliability）是指一個測量工具包含「變數誤差」（ variable errors）的程度。信度是指測量資料的可靠性，即一個測量工具在測量某持久性心理特質（態度）的「一致性」或「穩定性」。信度在觀念上的定義：真實分數（ true score）變異數對觀察所得分數（ obtained scores）總變異的比值：

其中， x=觀察所得分數， t=真實分數， e= 誤差分數。在真實測量情況下「真實分數」是不可知的。

信度 = σ t2σ x2 =

σx2-σ e2

σ x2 =1-σ e2

σ x2

128

信度種類及算法測量工具的信度有多種，他們都是用「相關分析」之 r 值大小當作信度的高低。常見信度可分為下列三大類：

1. 等值性（ equivalence）。2. 穩定性（ stability）。3. 一致性（ consistency）。

129

等值性等值性：又稱「複本法」，專門為檢定同一測驗中不同複本（ equivalent forms）上分數的一致。等值性信度又可分為：

複本信度（ alternate forms）：不同研究者運用同一量表，對不同一批的樣本施測，結果的一致性。常見的標準化測驗（如：團體測驗）通常備有多個複本，它們與標準化測驗的內容、試題、形式、編製方法、施測步驟評分標準都非常類似。複本信度愈高，表示複本上分數之一致性也愈高。折半係數（ split-half）：將同一量表中「項目內容相似」，折成二半（單數題、偶數題），求這兩個「各半」測驗總分之相關。

130

穩定性穩定性：對同一批樣本，前後二期測兩次，若兩者的相關愈高，則表示該測驗的穩定係數愈高。所謂再側信度（ test-retest）乃是將同一個測驗以同方法，再不同時間重複對同一樣本施測，求得各次測驗間分數的穩定性。某測驗之施測 ---經過時間 ---該測驗對同一樣本再施測一次將兩次測驗成績，求 Pearson積差相關（ r 值）。

131

一致性一致性：旨在檢定某量表在各種不同層面的一致性。例如，像量表單獨項目（ item）與總分是否一致性…等。此種信度又可分為折半信度、庫李信度、 Cronbach’s α信度…等幾類。 1.折半法：折半信度（ split-half reliability），就是將一份測驗「折」程相等的兩半，每一半各形成另一個別的測驗或單元，受測者在每一半可得一個總分，最後求這兩個總分的 Pearson r 相關係數。又稱「內部一致性係數」。適合難度測驗 (答對給 1 分，答錯給 0 分 )

132

一致性 (續 )2. 庫李（ Kuder-Richardson ）法：折半法及庫李法兩者都適合難度測驗。如是非或選擇題，答對給 1 分，答錯給 0 分。然而，這兩種方法都不適合做速度測驗（如打字速度測驗）。庫李法分為庫李 20 與庫李 21 兩種：庫李 20：其中， k=試題的總個數， = 整個測驗之變異數， p=答對該是提之人數 %（該試題的難度）， q=1-p（答錯該試題之人數）， pq= 整個測驗每一試題答對及答錯人數 % 成績之總和。

220 11 S

pqkkKR

2s

133

一致性 (續 ) 假設有一試驗中有 5試題，對 30人施測（如表 6-11），求得變異數為 2.5 ， pq=1.09 ，將數值帶入公式，求得：

相對的，庫李 21公式如下：其中， k=試題的總個數， = 整個測驗之變異數，M=測驗之平均數。

71.05.2

09.1115

520

KR

221 1

1 SkMkM

kkKR

2S

134

一致性 (續 ) 試題　　　答對人數　 P q pq　　　　 15 15/30=0.5 1-p=0.5 0.25 10 10/30=0.33 1-0.33=0.67 0.22 12 12/30=0.4 1-0.4=0.6 0.24 20 20/30=0.67 1-0.67=0.33 0.22 6 6/30=0.20 1-0.2=0.8 0.16

表 6-11　測驗中有 5 試題

135

一致性 (續 )3. Cronbach’s α係數：又稱「內部一致性」信度。特別適合測量人格特質、態度…等量表（即李克特量表）。為了改善庫李信度只能應用於二分法測驗之計分方式， Cronbach’s 將　　修定成可以測量多重評分（如李克特量表五點計分方式）之公式： Cronbach’s 其中， k=試題的總個數，　 = 整個測驗之變異數，　為每一試題之變異數。事實上，　　可視為 Cronbach’sα的特例，因為當試題作答退化成二分計分法時，　　即為　　　。

20KR

2

2

11 S

Skk i

2S 2iS

20KR 2

iS pq

136

信度之一般水準在實際應用上， Cronbach’s α 值至少要大於 0.

5 ，最好能 α>0.7(Nunnally, 1978) 在行銷界有名的學術期刊論文中，有 85%論文之量表 α 值大於 0.5 ，有 69%量表 α 值大於 0.7

137

信度種類及算法信度構念量表（ Scale）施測時間施測對象使用項目研究者1. 同值性相同不同 Scale 相同相同相同相同2. 一致性相同相同相同相同不同 items 相同3.等值性相同相同相同相同相同不同研究者4.穩定性相同相同不同時間相同相同相同

表 6-13　四種信度之差異比較

138

影響信度的因素信度與誤差變異之間有密切關係，誤差變異愈大，則信度愈小。誤差變異來源可分成五大類：1. 受測者：身心狀況、動機、注意力、持久性、態度配合…。2. 施測者：是否按規定施測、施測氣氛、給予協助…。3. 測驗內容：試題取樣是否適當、內部一致性高嗎、題數是否太少…。4. 施測情境：太熱、太吵、太暗、太太在場…。5. 時間：前測及後側的間隔時間太長時，其他變數介入的可能性愈高，受外界干擾就愈多。

139

信度估計之適用情況的比較信度適用情況施測時間1.穩定性（再測法）

只適合測量人格這類特質，不適合做成就測驗或 IQ測驗。兩次測驗時間愈長，信度係數愈低。2.等值性（複本法）

沒限那一種測驗或量表。可「同時」或「間隔」施測。若間隔施測時間愈長，信度係數愈低。3. 一致性法其中，折半及庫李法只適合於答對給 1 分，查錯給 0 分這種二分計分方式，如成就測驗、 IQ測驗。相對地， Chronbach’s α適用於檢定李克特量表這類五點（七點）計分方式之量表的信度。

140

信度與效度關係信度公式為，信度效度，得公式為，效度 =信度 - ，可得兩者的關係為效度 <= • 此不等是之邏輯關係，是「效度 ->信度」（若 p 則 q關係式）。換句話說，有效度一定有信度；但有信度不一定有效度；無信度一定無效度。

2

2

2

2

2

2

2

2

1X

E

x

e

x

x

t

txx S

SSS

SS

SSr

2

2

2

2

2

2

2

2

2

2

2

2

1x

IR

x

E

x

E

x

IR

x

x

x

RxY S

SSS

SS

SS

SS

SSr

xYr 2

2

x

IR

SS

xYr 信度

141

計量變項與非計量變項可使用的統計(Subhash Sharma ， 1996)1

計量 (metric) 變項區間尺度比率尺度

非計量 (nonmetric) 變項名目尺度順序尺度

142

計量變項與非計量變項可使用的統計(Subhash Sharma ， 1996)2

一個一個以上計量非計量計量非計量

一個計量迴歸 (Regression)區別分析 (Discriminant analysis)羅吉斯迴歸 (Logistic Regression)

典型相關(Canonical Correlation)

複區別分析(Multiple Discriminant Analysis ， MDA)一個非計量 t-test 不連續 (discrete)區別分析 MANOV

A不連續MDA

一個以上計量複迴歸 (Multiple Regression)區別分析羅吉斯迴歸

典型相關 MDA

一個以上非計量ANOVA 不連續區別分析聯合分析 (Conjoint Analysis

MANOVA

不連續MDA

自變項依變項

Documents

Lec. 3 抽樣設計與測量