30
第第第 第第第 第第第第第第 第第第第第第 ( ( Memory-based reasoning, Memory-based reasoning, MBR) MBR)

第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

  • View
    238

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

第六章第六章記憶基礎理解記憶基礎理解

((Memory-based reasoning, MBR)Memory-based reasoning, MBR)

Page 2: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

定義:用人工智慧的方式,以現有資料庫對新資料進行分類與預測。

記憶基礎理解((Memory-based reasoning, MBR)Memory-based reasoning, MBR)

Page 3: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

記憶基礎理解記憶基礎理解可以應用的行業 :

● 詐欺案件判斷。

● 顧客反應預測。

● 醫療服務追蹤。

● 問卷資料分類。

Page 4: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

如何進行 如何進行 (( 學習階段學習階段 ))

Page 5: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

如何進行 如何進行 (( 預測階段預測階段 ))

Page 6: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

解決問題的三個主題解決問題的三個主題

1.1. 選擇適當的歷史資料選擇適當的歷史資料 關鍵:資料的範圍必須能涵蓋原始資關鍵:資料的範圍必須能涵蓋原始資

料料 抽樣方法抽樣方法 : :

2.2. 找出具效率的方式代表歷史資料找出具效率的方式代表歷史資料 減少歷史資料庫的記錄數量 減少歷史資料庫的記錄數量 (( 圖圖 9.39.3 、、

9.4)9.4)

3.3. 設定距離函數、組合函數、和鄰近資設定距離函數、組合函數、和鄰近資料的組數 料的組數 ((KK 值值 ))

Page 7: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

案例研究 – 新聞報導分類

類別類別 編碼數編碼數 文件數文件數 總出現數總出現數政府政府 2828 3,9263,926 4,2004,200

工業工業 112112 38,30838,308 57,43057,430

市場市場 99 38,56238,562 42,05842,058

產品產品 2121 2,2422,242 2,5232,523

地區地區 121121 47,08347,083 116,358116,358

主題主題 7070 41,90241,902 52,75152,751

Page 8: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

案例研究 – 新聞報導分類

1.選擇測試資料組 : 49,652 則新聞稿 , 每一則平均 2700 字

與 8 個編碼

2. 設定距離函數 利用一個叫 “相關回饋

(Relevance Feedback)” 的測試標準 , 比對任何文件的相似度 ( 參見課本 ) ; B 與 A 的距離 :

d(A, B) = 1 - Score(A, B) / Score(A, A)

Page 9: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

案例研究 – 新聞報導分類

3. 設定組合函數 為未分類的新聞找出最相似者

相似者 距離距離 權重權重 編碼編碼

11 0.0760.076 0.9240.924 FE, CA, COFE, CA, CO

22 0.3460.346 0.6540.654 FE, JA, CAFE, JA, CA

33 0.3690.369 0.6310.631 FE, JA, MIFE, JA, MI

44 0.3930.393 0.6070.607 FE, JA, CAFE, JA, CA

Page 10: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

案例研究 – 新聞報導分類

3. 設定組合函數 為未分類的新聞評分 ( 門檻值為

1)編碼編碼 11 22 33 44 評分評分CACA 0.9240.924 0.6540.654 00 0.6070.607 2.1852.185

COCO 0.9240.924 00 00 00 0.9240.924

FEFE 0.9240.924 0.6540.654 0.6310.631 0.6070.607 2.1852.185

JAJA 00 0.6540.654 0.6310.631 0.6070.607 1.8921.892

MIMI 00 00 0.6310.631 00 0.6310.631

Page 11: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

案例研究 – 新聞報導分類

4. 設定鄰近資料組數• 1 – 11 組• 若要配置在單一編碼 , 則選

擇 較少組數較合適

Page 12: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

案例研究 – 新聞報導分類

5. 結果 (200 則 , 半數同意才合格 )

Page 13: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

案例研究 – 新聞報導分類

MBRMBR 編碼編碼 正確編碼正確編碼 反查反查 準度準度A,B,C,DA,B,C,D A,B,C,DA,B,C,D 4/44/4 4/44/4

A,BA,B A,B,C,DA,B,C,D 2/42/4 2/22/2

A,B,C,D,E,F,G,HA,B,C,D,E,F,G,H A,B,C,DA,B,C,D 4/44/4 4/84/8

E,FE,F A,B,C,DA,B,C,D 0/40/4 0/20/2

A,B,E,FA,B,E,F A,B,C,DA,B,C,D 2/42/4 2/42/4

測量評分的效用 : 反查反查 ((Recall) 與準度準度((Precision)

Page 14: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

距離函數距離函數

關鍵特性:關鍵特性:1. 1. 明確界定明確界定 ((Well-defined) : d(A, B) >= 0Well-defined) : d(A, B) >= 0

2. 2. 區辨性區辨性 ((Identity) : d(A, A) = 0Identity) : d(A, A) = 0

3. 3. 可互換性可互換性 ((Commutability) : d(A, B) = d(B, A)Commutability) : d(A, B) = d(B, A)

4. 4. 三角不等式三角不等式 ((Triangle Inequality) : d(A, C) <=Triangle Inequality) : d(A, C) <=

d(A, B)+d(B, C) d(A, B)+d(B, C) 絕對值 絕對值 : : |A-B| ; |A-B| ; 平方差 平方差 : (: (A-B)^2 ;A-B)^2 ; 標準化絕對值 標準化絕對值 : |: |A-B|/(A-B|/( 最大差值最大差值 ))

Page 15: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

組合函數組合函數

民主方式 民主方式 (( 投票方式投票方式 )) 讓最近似的讓最近似的 KK 個鄰近資料以「投票」的方個鄰近資料以「投票」的方式選出答案。式選出答案。

加權投票加權投票 著重在“加權”著重在“加權” 最適用問題:類別變數最適用問題:類別變數 加權對於結果和信心水準只有加權對於結果和信心水準只有小幅度小幅度影響,影響,在部份鄰近資料比較近,而部份比較遠的在部份鄰近資料比較近,而部份比較遠的情況下,加權才會有較大的效果。情況下,加權才會有較大的效果。

加入迴歸分析加入迴歸分析

Page 16: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

例 子例 子

一次建立一個單變數的距離函數一次建立一個單變數的距離函數

紀錄編號紀錄編號 性別性別 年齡年齡 薪水薪水11 FF 2727 19,00019,000

22 MM 5151 64,00064,000

33 MM 5252 105,000105,000

44 FF 3333 55,00055,000

55 MM 4545 45,00045,000

Page 17: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

例 子例 子

Page 18: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

例 子例 子

採用標準化絕對值與將三種距離加總 標準化絕對值與將三種距離加總

年齡年齡 2727 5151 5252 3333 4545

2727 00 .96.96 11 .24.24 .72.72

5151 .96.96 00 .04.04 .72.72 .24.24

5252 11 .04.04 00 .76.76 .28.28

3333 .24.24 .72.72 .76.76 00 .48.48

4545 .72.72 .24.24 .28.28 .48.48 00

Page 19: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

例 子例 子

同理也可對薪水做距離矩陣同理也可對薪水做距離矩陣加總 加總 : : ddsumsum(A,B)=d(A,B)=dss(A,B)+d(A,B)+doo(A,B)(A,B)+d+dii(A,B)(A,B)

標準化加總 標準化加總 : : ddsumsum(A,B)/max{d(A,B)/max{dsumsum(A,B)}(A,B)}

歐幾里德距離 歐幾里德距離 : :

SQTR(dSQTR(dss(A,B)^2+d(A,B)^2+doo(A,B)^2+d(A,B)^2+dii(A,B)^2)(A,B)^2)

性別性別 FF MM

FF 00 11

MM 11 00

Page 20: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

例 子例 子

每一點在三種距離函數下的最近似組合每一點在三種距離函數下的最近似組合dd 加總加總 dd 標準加總標準加總 dd 歐幾里德距離歐幾里德距離

11 1414523523 1452314523 1452314523

22 2532534141 2534125341 2534125341

33 3253254141 3254132541 3254132541

44 4141523523 4152341523 41524152

55 5235234141 5234152341 5234152341

Page 21: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

例 子例 子

加入新顧客加入新顧客紀錄編號紀錄編號 性別性別 年齡年齡 薪水薪水

55 FF 4545 100,000100,000

11 22 33 44 55 相似者相似者

dd 加總加總 1.6621.662 1.6591.659 1.3381.338 1.0031.003 1.6401.640 4352143521

dd 標準加總標準加總 0.5540.554 0.5530.553 0.4460.446 0.3340.334 0.5470.547 4352143521

dd 歐幾里德距歐幾里德距離離

0.8710.871 1.0521.052 1.2511.251 0.4940.494 11 4152341523

Page 22: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

例 子例 子

使用使用 MBRMBR 與投票來判斷新顧客是否會流失與信心水與投票來判斷新顧客是否會流失與信心水準準

相似者相似者 相似者流相似者流失狀況失狀況 k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5

dd 加總加總 4352143521 yynynyynyn yy yy yy yy yy

dd 歐幾里 歐幾里 德距德距

離離

4152341523 ynnyyynnyy yy ?? nn ?? yy

k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5

dd 加總加總 y, 100%y, 100% y, 100%y, 100% y, 67%y, 67% y, 75%y, 75% y, 60%y, 60%

dd 歐幾里德距離歐幾里德距離 y, 100%y, 100% y, 50%y, 50% n, 67%n, 67% y, 50%y, 50% y, 60%y, 60%

Page 23: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

例 子例 子

使用使用 MBRMBR 與加權來判斷新顧客是否會流失預測與加權來判斷新顧客是否會流失預測相似者相似者 相似者流相似者流

失狀況失狀況 k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5

dd 標準加標準加總總 4352143521 yynynyynyn

.749.74900

1.4411.44100

1.4411.4410.6470.647

2.0852.0850.6470.647

2.0852.0851.2901.290

dd 歐幾里歐幾里 德距離德距離

4152341523 ynnyyynnyy0.6690.669

000.6690.6690.5340.534

0.6690.6691.0621.062

1.1571.1571.0621.062

1.6011.6011.0621.062

k=1k=1 k=2k=2 k=3k=3 k=4k=4 k=5k=5

dd 標準加總標準加總 y, 100%y, 100% y, 100%y, 100% y, 69%y, 69% y, 76%y, 76% y, 62%y, 62%

dd 歐幾里德距離歐幾里德距離 y, 100%y, 100% y, 54%y, 54% n, 61%n, 61% y, 52%y, 52% y, 60%y, 60%

Page 24: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

組合函數組合函數

加入迴歸分析加入迴歸分析 處理數值或順序變數處理數值或順序變數 最適用問題:連續數值最適用問題:連續數值 迴歸分析:將數據去適配到某些已迴歸分析:將數據去適配到某些已知的函數,然後運用函數推算出未知的函數,然後運用函數推算出未知值。知值。

實例:以實例:以通貨膨脹率通貨膨脹率推算推算股市漲跌 股市漲跌 (( 圖圖 9.8 , 9.8 , 圖圖 9.9)9.9)

Page 25: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based
Page 26: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based
Page 27: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

其他距離函數其他距離函數

其他資料型態的應用其他資料型態的應用 五位數郵遞區號五位數郵遞區號

ddzipzip(A, B) = 0 (A, B) = 0 前前 33 碼一樣碼一樣 ddzipzip(A, B) = 1 (A, B) = 1 前前 33 碼不一樣碼不一樣

ddzip-refinedzip-refined(A, B)=0.0(A, B)=0.0 ddzip-refinedzip-refined(A, B)=0.1 ex. “(A, B)=0.1 ex. “20020008” “08” “20020015”15” ddzip-refinedzip-refined(A, B)=0.5 ex. “(A, B)=0.5 ex. “995050” “5050” “998125”8125” ddzip-refinedzip-refined(A, B)=1.0 ex. “02138” “90024”(A, B)=1.0 ex. “02138” “90024”

Page 28: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

如何獲得最佳結果如何獲得最佳結果

選擇正確的訓練資料組選擇正確的訓練資料組 增加罕見分類項的資料數量增加罕見分類項的資料數量

距離函數距離函數 鄰近資料數量鄰近資料數量 ((kk 值值 )) 的考量的考量

無一定數量的限制無一定數量的限制 組合函數組合函數

類別性資料類別性資料加權投票加權投票 連續性數值連續性數值結合迴歸分析與最似鄰結合迴歸分析與最似鄰近方法近方法

Page 29: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

MBRMBR 的優點的優點

結論容易推測結論容易推測

能運用在任何資料型態、甚至是非能運用在任何資料型態、甚至是非關聯式資料上關聯式資料上

在任何數量的變數下都能運作良好在任何數量的變數下都能運作良好

訓練資料組容易建立訓練資料組容易建立

Page 30: 第六章記憶基礎理解 (Memory-based reasoning, MBR). 定義:用人工智慧的方式,以現有 資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based

MBRMBR 的缺點的缺點

在預測階段上運算作業繁複在預測階段上運算作業繁複

訓練資料組需要大量記錄訓練資料組需要大量記錄

高度依賴距離函數和組合函數高度依賴距離函數和組合函數