第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義：用人工智慧的方式，以現有資料庫對新資料進行分類與預測。記憶基礎理解 (Memory-based

第六章第六章記憶基礎理解記憶基礎理解

((Memory-based reasoning, MBR)Memory-based reasoning, MBR)

定義：用人工智慧的方式，以現有資料庫對新資料進行分類與預測。

記憶基礎理解((Memory-based reasoning, MBR)Memory-based reasoning, MBR)

記憶基礎理解記憶基礎理解可以應用的行業 :

● 詐欺案件判斷。

● 顧客反應預測。

● 醫療服務追蹤。

● 問卷資料分類。

如何進行如何進行 (( 學習階段學習階段 ))

如何進行如何進行 (( 預測階段預測階段 ))

解決問題的三個主題解決問題的三個主題

1.1. 選擇適當的歷史資料選擇適當的歷史資料關鍵：資料的範圍必須能涵蓋原始資關鍵：資料的範圍必須能涵蓋原始資

料料抽樣方法抽樣方法 : :

2.2. 找出具效率的方式代表歷史資料找出具效率的方式代表歷史資料減少歷史資料庫的記錄數量減少歷史資料庫的記錄數量 (( 圖圖 9.39.3 、、

9.4)9.4)

3.3. 設定距離函數、組合函數、和鄰近資設定距離函數、組合函數、和鄰近資料的組數料的組數 ((KK 值值 ))

案例研究 – 新聞報導分類

類別類別編碼數編碼數文件數文件數總出現數總出現數政府政府 2828 3,9263,926 4,2004,200

工業工業 112112 38,30838,308 57,43057,430

市場市場 99 38,56238,562 42,05842,058

產品產品 2121 2,2422,242 2,5232,523

地區地區 121121 47,08347,083 116,358116,358

主題主題 7070 41,90241,902 52,75152,751


1.選擇測試資料組 : 49,652 則新聞稿 , 每一則平均 2700 字

與 8 個編碼

2. 設定距離函數利用一個叫 “相關回饋

(Relevance Feedback)” 的測試標準 , 比對任何文件的相似度 ( 參見課本 ) ; B 與 A 的距離 :

d(A, B) = 1 - Score(A, B) / Score(A, A)


3. 設定組合函數為未分類的新聞找出最相似者

相似者距離距離權重權重編碼編碼

11 0.0760.076 0.9240.924 FE, CA, COFE, CA, CO

22 0.3460.346 0.6540.654 FE, JA, CAFE, JA, CA

33 0.3690.369 0.6310.631 FE, JA, MIFE, JA, MI

44 0.3930.393 0.6070.607 FE, JA, CAFE, JA, CA


3. 設定組合函數為未分類的新聞評分 ( 門檻值為

1)編碼編碼 11 22 33 44 評分評分CACA 0.9240.924 0.6540.654 00 0.6070.607 2.1852.185

COCO 0.9240.924 00 00 00 0.9240.924

FEFE 0.9240.924 0.6540.654 0.6310.631 0.6070.607 2.1852.185

JAJA 00 0.6540.654 0.6310.631 0.6070.607 1.8921.892

MIMI 00 00 0.6310.631 00 0.6310.631


4. 設定鄰近資料組數• 1 – 11 組• 若要配置在單一編碼 , 則選

擇較少組數較合適


5. 結果 (200 則 , 半數同意才合格 )


MBRMBR 編碼編碼正確編碼正確編碼反查反查準度準度A,B,C,DA,B,C,D A,B,C,DA,B,C,D 4/44/4 4/44/4

A,BA,B A,B,C,DA,B,C,D 2/42/4 2/22/2

A,B,C,D,E,F,G,HA,B,C,D,E,F,G,H A,B,C,DA,B,C,D 4/44/4 4/84/8

E,FE,F A,B,C,DA,B,C,D 0/40/4 0/20/2

A,B,E,FA,B,E,F A,B,C,DA,B,C,D 2/42/4 2/42/4

測量評分的效用 : 反查反查 ((Recall) 與準度準度((Precision)

距離函數距離函數

關鍵特性：關鍵特性：1. 1. 明確界定明確界定 ((Well-defined) : d(A, B) >= 0Well-defined) : d(A, B) >= 0

2. 2. 區辨性區辨性 ((Identity) : d(A, A) = 0Identity) : d(A, A) = 0

3. 3. 可互換性可互換性 ((Commutability) : d(A, B) = d(B, A)Commutability) : d(A, B) = d(B, A)

4. 4. 三角不等式三角不等式 ((Triangle Inequality) : d(A, C) <=Triangle Inequality) : d(A, C) <=

d(A, B)+d(B, C) d(A, B)+d(B, C) 絕對值絕對值 : : |A-B| ; |A-B| ; 平方差平方差 : (: (A-B)^2 ;A-B)^2 ; 標準化絕對值標準化絕對值 : |: |A-B|/(A-B|/( 最大差值最大差值 ))

組合函數組合函數

民主方式民主方式 (( 投票方式投票方式 )) 讓最近似的讓最近似的 KK 個鄰近資料以「投票」的方個鄰近資料以「投票」的方式選出答案。式選出答案。

加權投票加權投票著重在“加權”著重在“加權” 最適用問題：類別變數最適用問題：類別變數加權對於結果和信心水準只有加權對於結果和信心水準只有小幅度小幅度影響，影響，在部份鄰近資料比較近，而部份比較遠的在部份鄰近資料比較近，而部份比較遠的情況下，加權才會有較大的效果。情況下，加權才會有較大的效果。

加入迴歸分析加入迴歸分析

例子例子

一次建立一個單變數的距離函數一次建立一個單變數的距離函數

紀錄編號紀錄編號性別性別年齡年齡薪水薪水11 FF 2727 19,00019,000

22 MM 5151 64,00064,000

33 MM 5252 105,000105,000

44 FF 3333 55,00055,000

55 MM 4545 45,00045,000

例子例子

例子例子

採用標準化絕對值與將三種距離加總標準化絕對值與將三種距離加總

年齡年齡 2727 5151 5252 3333 4545

2727 00 .96.96 11 .24.24 .72.72

5151 .96.96 00 .04.04 .72.72 .24.24

5252 11 .04.04 00 .76.76 .28.28

3333 .24.24 .72.72 .76.76 00 .48.48

4545 .72.72 .24.24 .28.28 .48.48 00

例子例子

同理也可對薪水做距離矩陣同理也可對薪水做距離矩陣加總加總 : : ddsumsum(A,B)=d(A,B)=dss(A,B)+d(A,B)+doo(A,B)(A,B)+d+dii(A,B)(A,B)

標準化加總標準化加總 : : ddsumsum(A,B)/max{d(A,B)/max{dsumsum(A,B)}(A,B)}

歐幾里德距離歐幾里德距離 : :

SQTR(dSQTR(dss(A,B)^2+d(A,B)^2+doo(A,B)^2+d(A,B)^2+dii(A,B)^2)(A,B)^2)

性別性別 FF MM

FF 00 11

MM 11 00

例子例子

每一點在三種距離函數下的最近似組合每一點在三種距離函數下的最近似組合dd 加總加總 dd 標準加總標準加總 dd 歐幾里德距離歐幾里德距離

11 1414523523 1452314523 1452314523

22 2532534141 2534125341 2534125341

33 3253254141 3254132541 3254132541

44 4141523523 4152341523 41524152

55 5235234141 5234152341 5234152341

例子例子

加入新顧客加入新顧客紀錄編號紀錄編號性別性別年齡年齡薪水薪水

55 FF 4545 100,000100,000

11 22 33 44 55 相似者相似者

dd 加總加總 1.6621.662 1.6591.659 1.3381.338 1.0031.003 1.6401.640 4352143521

dd 標準加總標準加總 0.5540.554 0.5530.553 0.4460.446 0.3340.334 0.5470.547 4352143521

dd 歐幾里德距歐幾里德距離離

0.8710.871 1.0521.052 1.2511.251 0.4940.494 11 4152341523

例子例子

使用使用 MBRMBR 與投票來判斷新顧客是否會流失與信心水與投票來判斷新顧客是否會流失與信心水準準

相似者相似者相似者流相似者流失狀況失狀況 k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5

dd 加總加總 4352143521 yynynyynyn yy yy yy yy yy

dd 歐幾里歐幾里德距德距

離離

4152341523 ynnyyynnyy yy ?? nn ?? yy

k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5

dd 加總加總 y, 100%y, 100% y, 100%y, 100% y, 67%y, 67% y, 75%y, 75% y, 60%y, 60%

dd 歐幾里德距離歐幾里德距離 y, 100%y, 100% y, 50%y, 50% n, 67%n, 67% y, 50%y, 50% y, 60%y, 60%

例子例子

使用使用 MBRMBR 與加權來判斷新顧客是否會流失預測與加權來判斷新顧客是否會流失預測相似者相似者相似者流相似者流

失狀況失狀況 k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5

dd 標準加標準加總總 4352143521 yynynyynyn

.749.74900

1.4411.44100

1.4411.4410.6470.647

2.0852.0850.6470.647

2.0852.0851.2901.290

dd 歐幾里歐幾里德距離德距離

4152341523 ynnyyynnyy0.6690.669

000.6690.6690.5340.534

0.6690.6691.0621.062

1.1571.1571.0621.062

1.6011.6011.0621.062

k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5

dd 標準加總標準加總 y, 100%y, 100% y, 100%y, 100% y, 69%y, 69% y, 76%y, 76% y, 62%y, 62%

dd 歐幾里德距離歐幾里德距離 y, 100%y, 100% y, 54%y, 54% n, 61%n, 61% y, 52%y, 52% y, 60%y, 60%

組合函數組合函數

加入迴歸分析加入迴歸分析處理數值或順序變數處理數值或順序變數最適用問題：連續數值最適用問題：連續數值迴歸分析：將數據去適配到某些已迴歸分析：將數據去適配到某些已知的函數，然後運用函數推算出未知的函數，然後運用函數推算出未知值。知值。

實例：以實例：以通貨膨脹率通貨膨脹率推算推算股市漲跌股市漲跌 (( 圖圖 9.8 , 9.8 , 圖圖 9.9)9.9)

其他距離函數其他距離函數

其他資料型態的應用其他資料型態的應用五位數郵遞區號五位數郵遞區號

ddzipzip(A, B) = 0 (A, B) = 0 前前 33 碼一樣碼一樣 ddzipzip(A, B) = 1 (A, B) = 1 前前 33 碼不一樣碼不一樣

ddzip-refinedzip-refined(A, B)=0.0(A, B)=0.0 ddzip-refinedzip-refined(A, B)=0.1 ex. “(A, B)=0.1 ex. “20020008” “08” “20020015”15” ddzip-refinedzip-refined(A, B)=0.5 ex. “(A, B)=0.5 ex. “995050” “5050” “998125”8125” ddzip-refinedzip-refined(A, B)=1.0 ex. “02138” “90024”(A, B)=1.0 ex. “02138” “90024”

如何獲得最佳結果如何獲得最佳結果

選擇正確的訓練資料組選擇正確的訓練資料組增加罕見分類項的資料數量增加罕見分類項的資料數量

距離函數距離函數鄰近資料數量鄰近資料數量 ((kk 值值 )) 的考量的考量

無一定數量的限制無一定數量的限制組合函數組合函數

類別性資料類別性資料加權投票加權投票連續性數值連續性數值結合迴歸分析與最似鄰結合迴歸分析與最似鄰近方法近方法

MBRMBR 的優點的優點

結論容易推測結論容易推測

能運用在任何資料型態、甚至是非能運用在任何資料型態、甚至是非關聯式資料上關聯式資料上

在任何數量的變數下都能運作良好在任何數量的變數下都能運作良好

訓練資料組容易建立訓練資料組容易建立

MBRMBR 的缺點的缺點

在預測階段上運算作業繁複在預測階段上運算作業繁複

訓練資料組需要大量記錄訓練資料組需要大量記錄

高度依賴距離函數和組合函數高度依賴距離函數和組合函數

Documents

第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義：用人工智慧的方式，以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義：用人工智慧的方式，以現有資料庫對新資料進行分類與預測。記憶基礎理解 (Memory-based