41
資資資資資資資 79644010 資資資 79644019 資資資 79644020 資資資

資料採礦方法論 79644010 李全鴻 79644019 吳家榮 79644020 林俊佑. 前言 介紹資料採礦的兩種基本模式:假設檢定及知 識發掘,提出步驟及範例。

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

資料採礦方法論

79644010 李全鴻79644019 吳家榮79644020 林俊佑

前言

介紹資料採礦的兩種基本模式:假設檢定及知識發掘,提出步驟及範例。

次序

一、假設檢定過程二、監督式知識發掘三、非監督式知識發掘四、實際的問題五、案例

基本模式

假設檢定 (Hypothesis Testing) :由上而下將可能的解釋賦予觀察到的現象,並將假設套用在原始資料上檢視解釋是否正確。

知識發掘 (Knowledge Discovery) :由下而上分析原始資料,從中找出有用的規則或訊息,又被稱作「機械學習」。

假設檢定

過程介紹

假設檢定的過程

1. 構思合理的假設2. 決定採用哪些樣本供測試3. 找出樣本資料4. 統整資料以供分析5. 根據資料建立電腦分析模型6. 評估假設是否正確

假設檢定的過程

1. 構思合理的假設:

在此階段重要的是要得到廣泛的相關訊息,以這些訊息來明確的作問題陳述。建議採用集體討論座談的方式來集思廣益。

假設檢定的過程

2. 決定採用哪些樣本供測試:

產生假設後所決定,樣本可能存在於企業既有的資料庫中,也可能要從零散的資料做匯整,進行市場調查,甚至花費鉅資向調查公司購買相關的資料。

假設檢定的過程

3. 找出樣本資料:

所需的資料往往散佈在各種不同的作業系統中,而且往往格式不同。且面對問題的差異,「有用」及「可立即取得」的原始資料往往大相逕庭。

假設檢定的過程

4. 統整資料以供分析:

在此步驟,必須將原始資料轉換成資料採礦軟體所需的格式。可能要將連續值轉換成類別變數,或將數字差異大的數據標準化等等。但在這個過程中可能會遇到的問題包括:(1) 分類階層(2) 系統不相容(3) 資料編碼不一(4) 文字資料的轉換(5) 遺漏值的處理

假設檢定的過程

(1) 統整資料的問題:分類階層

資料的分類並非越詳盡越好。太詳盡的分類會造成以下的問題。(a) 並非分析所需的分類(b) 單一分類的樣本太少

然而未經統整的資料卻又太過龐大,因此選擇適當的分類階層是重要的一步。

假設檢定的過程

(2) 統整資料的問題:系統不相容

每種作業系統可能都有他們自己的一套語法,並沒有所謂共通的語言,然而這個問題在目前套裝的軟體多半可以以自動轉換的方式獲得解決。如 SAS除了 ASCII之外,也可以支援 EXCEL 的格式。

假設檢定的過程

(3) 統整資料的問題:資料編碼不一

從不同來源收集特定目的的原始資料時,相同的變數資料可能會以不同的形式記錄下來,在統整時必須謹慎處理。

假設檢定的過程

(4) 統整資料的問題:文字資料的轉換

少數情形下我們會想要從文字資料中獲得有用的情報(如MBR 中的「新聞報導分類」),但多數純文字的格式都必需經過轉換。文字資料的格式若有一定的標準則較好處理,但仍需注意某些細節,如「台中市」與「臺中市」就會被電腦當作是兩個不同的數值-但其實他們是一樣的。

假設檢定的過程

(5) 統整資料的問題:遺漏值的處理

通常會選擇對有遺漏值的資料不予估計,但若真的要使用的話,就必須以最可能的數值進行替換。可能數值的搜尋可以利用資料比對的方式,比較有遺漏值的樣本與資料庫中哪個完整樣本的相關性最強,並以完整樣本的數值取代遺漏值。類神經網路也可幫助推估出可能的數值。

假設檢定的過程

5. 根據資料建立電腦分析模型:

將所需分析的問題根據所蒐集資料的特性建立起適當的分析模型。

假設檢定的過程

6. 評估假設是否正確:

將分析模型應用在資料上,檢視假設是否成立。然而如同作學術研究,在技術的分析後往往要靠專業人士針對分析的結果提出商業或管理上的意涵,才能變成真正有用的結論。

知識發掘

知識發掘的分類

可分為監督式及非監督式兩種 監督式:如MBR

找出特定變數的數值有何意義,並選定輸出變數,讓電腦找出如何對其進行評估、分類或是預測。也就是嘗試對已知的型態關係進行解釋。如選定「可能會倒帳的客戶」為輸出,將變數(如年收入及性別等)放入進行分析。

非監督式:如購物籃分析沒有輸出變數,此模式的目的在於讓電腦自行找出顯著關聯的型態。

監督式知識發掘

希望能夠解答特定的問題時使用。其程序包含以下四步驟:

(1) 確認原始資料來源(2) 彙整資料以供分析(3) 建立並測試分析模型(4) 評估分析模型

監督式知識發掘

(1) 確認原始資料來源:

最佳的資料來源是既存的資料倉儲,倉儲內部的資料皆經過固定格式的整理,方便進行分析。然而多數的情形下企業並沒有建立資料倉儲,必須收集各部門的相關資訊。

監督式知識發掘

(2) 匯整資料以供分析:

如同假設檢定時的資料彙整原則,加入有用的變數可以增加產出有用結論的機率。

許多資料採礦的情形下,資料都必須被分為「訓練集」(建立初始模型)、「測試集」(調整初始模型)及「驗證集」(衡量模型表現)。

資料量在資料採礦中通常越多越好,而變數也是可以儘可能的將已知的變數放入模型,可能會有意想不到的結果。

監督式知識發掘

(3) 建立並測試分析模型:

知識發掘的方法在建立模型的過程中容易出現過度學習的情形,也就是模型可能陷入只能解釋在訓練集樣本的關聯,而沒辦法一體適用。此時就要靠測試集將模型修正成較能通用的型態。

監督式知識發掘

(4) 評估分析模型:

利用驗證集的樣本來評估模型分析的錯誤率,來決定分析模型是否有用。

非監督式知識發掘

沒有明確輸出變數是非監督是知識發掘最明顯的特性,如購物籃分析中,常常要問的問題是「哪些商品會同時被購買」,而非「哪些人會買水果」。非監督式知識發掘的步驟如同監督式,但後面又多了兩個步驟:

(1) 確認監督式知識發掘的可能目標(2) 產生新假設並檢定

因非監督式知識發掘常常是進一步監督式知識發掘的前置作業。

非監督式知識發掘

(1) 確認監督式知識發掘的可能目標:

如在購物籃分析中找出 A商品與 B商品經常同時被購買,接著就會想知道為什麼消費者會同時採購這兩樣商品,以及哪些人會買這兩樣商品等等的問題,這些問題就要靠監督式知識發掘進行解釋。

(2) 產生新假設並檢定:

如同假設檢定的過程,蒐集相關資訊並進行測試。

非監督式知識發掘 案例:銀行希望應用資料採礦增加貸款業務

1. 運用監督式知識發掘找出潛在客戶:哪些人可能會進行貸款?

2. 建立模型後,銀行僅想提供最可能貸款的 11%客戶房貸申請函。分析人員先運用非監督式集群分析來分析顧客,發現有 39% 的人同時擁有銀行的商業及個人帳戶-而這些人佔最可能貸款的 11% 中的 27% 。

3. 銀行根據這個結果(商業帳戶與房貸相關)假設許多人為了創業而借貸,若假設可得驗證,銀行就可針對此特性進行行銷。

實際的問題

1. 將模型用於新資料2. 預測模型的有效期限3. 結合不同技術4. 解釋結論

實際的問題

將模型用於新資料:分析模型的評分是否適用於產業環境?

預測模型的有效期限:模型的有效性會依環境的變動而變化;舊的資料也須隨著時間的前進而必須重新評分

結合不同技術:可同時採用多種資料採礦技術,但採礦技術越多,環境要適合就越困難。

解釋結論:雖然電腦幫忙分析處理龐大的資料,但最後的結論仍然是要仰賴行銷人員作判斷。

案例

流失顧客分析及預測

問題

某銀行對開戶顧客的流失情形十分擔憂,希望能在顧客流失之前找出一些徵兆,也就是建立一個在問題發生前就提出警告的模型。

假設檢定計畫

流失可能原因原因 跡象

死了 交易中止

搬家搬到沒分行的地方 增加使用 ATM 並改變最常使用 ATM 的地點

結婚並與另一半在其他銀行有不同帳戶

交易紀錄減少並改變帳戶最後一個名字(姓?)

換新工作而薪資不再轉存 薪資轉存紀錄中止

工作地點附近有其他銀行 交易發生在其他銀行 ATM

流失可能原因

有時在交易資料中無法看出,如

1. 原本不收費的服務開始收費2. 經常算錯錢3. 拒絕提供貸款或拒絕提高信用額度4. 貸款利率太高5. 等待時間太長

找出所需資料

以銀行而言,個人資料、交易紀錄或是電子商務、信用卡或貸款等等業務的紀錄都可能會是有用的資訊。

建立分析模型

可以利用先前所敘述的可能流失原因來建構假設,如大量使用其他銀行的 ATM 的客戶流失可能性較高等。

建立後利用分析方法來得知假設是否成立。

知識發掘計畫

確認資料來源

與其找尋顧客流失的徵兆,不如分析顧客的交易行為模式,來找出哪些顧客忠誠度高,又有哪些會結清帳戶。

彙整資料

著眼於時間性的規則變化,可將資料依時間排列,以顯示歷時性的改變。

非監督式及監督式知識發掘

利用自動群集偵測的方式,透過幾個重要變數的投入來分出合理的顧客集群。

當集群劃分完畢後,每個集群都成為分析模式預測客戶流失的訓練資料組,再進行監督式知識發掘。

產生新假設

檢視監督式知識發掘的結果,針對顧客流失的原因產生新的想法,成為下一階段假設檢定的基礎。

一個階段的結論成為下一個階段的基礎,這樣的過程被稱為「資料採礦的工作循環」。

THE END OF THE CHAPTER

THANK YOU FOR LISTENING!