View
238
Download
0
Embed Size (px)
Citation preview
第六章第六章記憶基礎理解記憶基礎理解
((Memory-based reasoning, MBR)Memory-based reasoning, MBR)
定義:用人工智慧的方式,以現有資料庫對新資料進行分類與預測。
記憶基礎理解((Memory-based reasoning, MBR)Memory-based reasoning, MBR)
記憶基礎理解記憶基礎理解可以應用的行業 :
● 詐欺案件判斷。
● 顧客反應預測。
● 醫療服務追蹤。
● 問卷資料分類。
如何進行 如何進行 (( 學習階段學習階段 ))
如何進行 如何進行 (( 預測階段預測階段 ))
解決問題的三個主題解決問題的三個主題
1.1. 選擇適當的歷史資料選擇適當的歷史資料 關鍵:資料的範圍必須能涵蓋原始資關鍵:資料的範圍必須能涵蓋原始資
料料 抽樣方法抽樣方法 : :
2.2. 找出具效率的方式代表歷史資料找出具效率的方式代表歷史資料 減少歷史資料庫的記錄數量 減少歷史資料庫的記錄數量 (( 圖圖 9.39.3 、、
9.4)9.4)
3.3. 設定距離函數、組合函數、和鄰近資設定距離函數、組合函數、和鄰近資料的組數 料的組數 ((KK 值值 ))
案例研究 – 新聞報導分類
類別類別 編碼數編碼數 文件數文件數 總出現數總出現數政府政府 2828 3,9263,926 4,2004,200
工業工業 112112 38,30838,308 57,43057,430
市場市場 99 38,56238,562 42,05842,058
產品產品 2121 2,2422,242 2,5232,523
地區地區 121121 47,08347,083 116,358116,358
主題主題 7070 41,90241,902 52,75152,751
案例研究 – 新聞報導分類
1.選擇測試資料組 : 49,652 則新聞稿 , 每一則平均 2700 字
與 8 個編碼
2. 設定距離函數 利用一個叫 “相關回饋
(Relevance Feedback)” 的測試標準 , 比對任何文件的相似度 ( 參見課本 ) ; B 與 A 的距離 :
d(A, B) = 1 - Score(A, B) / Score(A, A)
案例研究 – 新聞報導分類
3. 設定組合函數 為未分類的新聞找出最相似者
相似者 距離距離 權重權重 編碼編碼
11 0.0760.076 0.9240.924 FE, CA, COFE, CA, CO
22 0.3460.346 0.6540.654 FE, JA, CAFE, JA, CA
33 0.3690.369 0.6310.631 FE, JA, MIFE, JA, MI
44 0.3930.393 0.6070.607 FE, JA, CAFE, JA, CA
案例研究 – 新聞報導分類
3. 設定組合函數 為未分類的新聞評分 ( 門檻值為
1)編碼編碼 11 22 33 44 評分評分CACA 0.9240.924 0.6540.654 00 0.6070.607 2.1852.185
COCO 0.9240.924 00 00 00 0.9240.924
FEFE 0.9240.924 0.6540.654 0.6310.631 0.6070.607 2.1852.185
JAJA 00 0.6540.654 0.6310.631 0.6070.607 1.8921.892
MIMI 00 00 0.6310.631 00 0.6310.631
案例研究 – 新聞報導分類
4. 設定鄰近資料組數• 1 – 11 組• 若要配置在單一編碼 , 則選
擇 較少組數較合適
案例研究 – 新聞報導分類
5. 結果 (200 則 , 半數同意才合格 )
案例研究 – 新聞報導分類
MBRMBR 編碼編碼 正確編碼正確編碼 反查反查 準度準度A,B,C,DA,B,C,D A,B,C,DA,B,C,D 4/44/4 4/44/4
A,BA,B A,B,C,DA,B,C,D 2/42/4 2/22/2
A,B,C,D,E,F,G,HA,B,C,D,E,F,G,H A,B,C,DA,B,C,D 4/44/4 4/84/8
E,FE,F A,B,C,DA,B,C,D 0/40/4 0/20/2
A,B,E,FA,B,E,F A,B,C,DA,B,C,D 2/42/4 2/42/4
測量評分的效用 : 反查反查 ((Recall) 與準度準度((Precision)
距離函數距離函數
關鍵特性:關鍵特性:1. 1. 明確界定明確界定 ((Well-defined) : d(A, B) >= 0Well-defined) : d(A, B) >= 0
2. 2. 區辨性區辨性 ((Identity) : d(A, A) = 0Identity) : d(A, A) = 0
3. 3. 可互換性可互換性 ((Commutability) : d(A, B) = d(B, A)Commutability) : d(A, B) = d(B, A)
4. 4. 三角不等式三角不等式 ((Triangle Inequality) : d(A, C) <=Triangle Inequality) : d(A, C) <=
d(A, B)+d(B, C) d(A, B)+d(B, C) 絕對值 絕對值 : : |A-B| ; |A-B| ; 平方差 平方差 : (: (A-B)^2 ;A-B)^2 ; 標準化絕對值 標準化絕對值 : |: |A-B|/(A-B|/( 最大差值最大差值 ))
組合函數組合函數
民主方式 民主方式 (( 投票方式投票方式 )) 讓最近似的讓最近似的 KK 個鄰近資料以「投票」的方個鄰近資料以「投票」的方式選出答案。式選出答案。
加權投票加權投票 著重在“加權”著重在“加權” 最適用問題:類別變數最適用問題:類別變數 加權對於結果和信心水準只有加權對於結果和信心水準只有小幅度小幅度影響,影響,在部份鄰近資料比較近,而部份比較遠的在部份鄰近資料比較近,而部份比較遠的情況下,加權才會有較大的效果。情況下,加權才會有較大的效果。
加入迴歸分析加入迴歸分析
例 子例 子
一次建立一個單變數的距離函數一次建立一個單變數的距離函數
紀錄編號紀錄編號 性別性別 年齡年齡 薪水薪水11 FF 2727 19,00019,000
22 MM 5151 64,00064,000
33 MM 5252 105,000105,000
44 FF 3333 55,00055,000
55 MM 4545 45,00045,000
例 子例 子
例 子例 子
採用標準化絕對值與將三種距離加總 標準化絕對值與將三種距離加總
年齡年齡 2727 5151 5252 3333 4545
2727 00 .96.96 11 .24.24 .72.72
5151 .96.96 00 .04.04 .72.72 .24.24
5252 11 .04.04 00 .76.76 .28.28
3333 .24.24 .72.72 .76.76 00 .48.48
4545 .72.72 .24.24 .28.28 .48.48 00
例 子例 子
同理也可對薪水做距離矩陣同理也可對薪水做距離矩陣加總 加總 : : ddsumsum(A,B)=d(A,B)=dss(A,B)+d(A,B)+doo(A,B)(A,B)+d+dii(A,B)(A,B)
標準化加總 標準化加總 : : ddsumsum(A,B)/max{d(A,B)/max{dsumsum(A,B)}(A,B)}
歐幾里德距離 歐幾里德距離 : :
SQTR(dSQTR(dss(A,B)^2+d(A,B)^2+doo(A,B)^2+d(A,B)^2+dii(A,B)^2)(A,B)^2)
性別性別 FF MM
FF 00 11
MM 11 00
例 子例 子
每一點在三種距離函數下的最近似組合每一點在三種距離函數下的最近似組合dd 加總加總 dd 標準加總標準加總 dd 歐幾里德距離歐幾里德距離
11 1414523523 1452314523 1452314523
22 2532534141 2534125341 2534125341
33 3253254141 3254132541 3254132541
44 4141523523 4152341523 41524152
55 5235234141 5234152341 5234152341
例 子例 子
加入新顧客加入新顧客紀錄編號紀錄編號 性別性別 年齡年齡 薪水薪水
55 FF 4545 100,000100,000
11 22 33 44 55 相似者相似者
dd 加總加總 1.6621.662 1.6591.659 1.3381.338 1.0031.003 1.6401.640 4352143521
dd 標準加總標準加總 0.5540.554 0.5530.553 0.4460.446 0.3340.334 0.5470.547 4352143521
dd 歐幾里德距歐幾里德距離離
0.8710.871 1.0521.052 1.2511.251 0.4940.494 11 4152341523
例 子例 子
使用使用 MBRMBR 與投票來判斷新顧客是否會流失與信心水與投票來判斷新顧客是否會流失與信心水準準
相似者相似者 相似者流相似者流失狀況失狀況 k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5
dd 加總加總 4352143521 yynynyynyn yy yy yy yy yy
dd 歐幾里 歐幾里 德距德距
離離
4152341523 ynnyyynnyy yy ?? nn ?? yy
k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5
dd 加總加總 y, 100%y, 100% y, 100%y, 100% y, 67%y, 67% y, 75%y, 75% y, 60%y, 60%
dd 歐幾里德距離歐幾里德距離 y, 100%y, 100% y, 50%y, 50% n, 67%n, 67% y, 50%y, 50% y, 60%y, 60%
例 子例 子
使用使用 MBRMBR 與加權來判斷新顧客是否會流失預測與加權來判斷新顧客是否會流失預測相似者相似者 相似者流相似者流
失狀況失狀況 k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5
dd 標準加標準加總總 4352143521 yynynyynyn
.749.74900
1.4411.44100
1.4411.4410.6470.647
2.0852.0850.6470.647
2.0852.0851.2901.290
dd 歐幾里歐幾里 德距離德距離
4152341523 ynnyyynnyy0.6690.669
000.6690.6690.5340.534
0.6690.6691.0621.062
1.1571.1571.0621.062
1.6011.6011.0621.062
k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5
dd 標準加總標準加總 y, 100%y, 100% y, 100%y, 100% y, 69%y, 69% y, 76%y, 76% y, 62%y, 62%
dd 歐幾里德距離歐幾里德距離 y, 100%y, 100% y, 54%y, 54% n, 61%n, 61% y, 52%y, 52% y, 60%y, 60%
組合函數組合函數
加入迴歸分析加入迴歸分析 處理數值或順序變數處理數值或順序變數 最適用問題:連續數值最適用問題:連續數值 迴歸分析:將數據去適配到某些已迴歸分析:將數據去適配到某些已知的函數,然後運用函數推算出未知的函數,然後運用函數推算出未知值。知值。
實例:以實例:以通貨膨脹率通貨膨脹率推算推算股市漲跌 股市漲跌 (( 圖圖 9.8 , 9.8 , 圖圖 9.9)9.9)
其他距離函數其他距離函數
其他資料型態的應用其他資料型態的應用 五位數郵遞區號五位數郵遞區號
ddzipzip(A, B) = 0 (A, B) = 0 前前 33 碼一樣碼一樣 ddzipzip(A, B) = 1 (A, B) = 1 前前 33 碼不一樣碼不一樣
ddzip-refinedzip-refined(A, B)=0.0(A, B)=0.0 ddzip-refinedzip-refined(A, B)=0.1 ex. “(A, B)=0.1 ex. “20020008” “08” “20020015”15” ddzip-refinedzip-refined(A, B)=0.5 ex. “(A, B)=0.5 ex. “995050” “5050” “998125”8125” ddzip-refinedzip-refined(A, B)=1.0 ex. “02138” “90024”(A, B)=1.0 ex. “02138” “90024”
如何獲得最佳結果如何獲得最佳結果
選擇正確的訓練資料組選擇正確的訓練資料組 增加罕見分類項的資料數量增加罕見分類項的資料數量
距離函數距離函數 鄰近資料數量鄰近資料數量 ((kk 值值 )) 的考量的考量
無一定數量的限制無一定數量的限制 組合函數組合函數
類別性資料類別性資料加權投票加權投票 連續性數值連續性數值結合迴歸分析與最似鄰結合迴歸分析與最似鄰近方法近方法
MBRMBR 的優點的優點
結論容易推測結論容易推測
能運用在任何資料型態、甚至是非能運用在任何資料型態、甚至是非關聯式資料上關聯式資料上
在任何數量的變數下都能運作良好在任何數量的變數下都能運作良好
訓練資料組容易建立訓練資料組容易建立
MBRMBR 的缺點的缺點
在預測階段上運算作業繁複在預測階段上運算作業繁複
訓練資料組需要大量記錄訓練資料組需要大量記錄
高度依賴距離函數和組合函數高度依賴距離函數和組合函數