View
217
Download
0
Embed Size (px)
Citation preview
基本模式
假設檢定 (Hypothesis Testing) :由上而下將可能的解釋賦予觀察到的現象,並將假設套用在原始資料上檢視解釋是否正確。
知識發掘 (Knowledge Discovery) :由下而上分析原始資料,從中找出有用的規則或訊息,又被稱作「機械學習」。
假設檢定的過程
4. 統整資料以供分析:
在此步驟,必須將原始資料轉換成資料採礦軟體所需的格式。可能要將連續值轉換成類別變數,或將數字差異大的數據標準化等等。但在這個過程中可能會遇到的問題包括:(1) 分類階層(2) 系統不相容(3) 資料編碼不一(4) 文字資料的轉換(5) 遺漏值的處理
假設檢定的過程
(1) 統整資料的問題:分類階層
資料的分類並非越詳盡越好。太詳盡的分類會造成以下的問題。(a) 並非分析所需的分類(b) 單一分類的樣本太少
然而未經統整的資料卻又太過龐大,因此選擇適當的分類階層是重要的一步。
假設檢定的過程
(2) 統整資料的問題:系統不相容
每種作業系統可能都有他們自己的一套語法,並沒有所謂共通的語言,然而這個問題在目前套裝的軟體多半可以以自動轉換的方式獲得解決。如 SAS除了 ASCII之外,也可以支援 EXCEL 的格式。
假設檢定的過程
(4) 統整資料的問題:文字資料的轉換
少數情形下我們會想要從文字資料中獲得有用的情報(如MBR 中的「新聞報導分類」),但多數純文字的格式都必需經過轉換。文字資料的格式若有一定的標準則較好處理,但仍需注意某些細節,如「台中市」與「臺中市」就會被電腦當作是兩個不同的數值-但其實他們是一樣的。
假設檢定的過程
(5) 統整資料的問題:遺漏值的處理
通常會選擇對有遺漏值的資料不予估計,但若真的要使用的話,就必須以最可能的數值進行替換。可能數值的搜尋可以利用資料比對的方式,比較有遺漏值的樣本與資料庫中哪個完整樣本的相關性最強,並以完整樣本的數值取代遺漏值。類神經網路也可幫助推估出可能的數值。
知識發掘的分類
可分為監督式及非監督式兩種 監督式:如MBR
找出特定變數的數值有何意義,並選定輸出變數,讓電腦找出如何對其進行評估、分類或是預測。也就是嘗試對已知的型態關係進行解釋。如選定「可能會倒帳的客戶」為輸出,將變數(如年收入及性別等)放入進行分析。
非監督式:如購物籃分析沒有輸出變數,此模式的目的在於讓電腦自行找出顯著關聯的型態。
監督式知識發掘
(2) 匯整資料以供分析:
如同假設檢定時的資料彙整原則,加入有用的變數可以增加產出有用結論的機率。
許多資料採礦的情形下,資料都必須被分為「訓練集」(建立初始模型)、「測試集」(調整初始模型)及「驗證集」(衡量模型表現)。
資料量在資料採礦中通常越多越好,而變數也是可以儘可能的將已知的變數放入模型,可能會有意想不到的結果。
監督式知識發掘
(3) 建立並測試分析模型:
知識發掘的方法在建立模型的過程中容易出現過度學習的情形,也就是模型可能陷入只能解釋在訓練集樣本的關聯,而沒辦法一體適用。此時就要靠測試集將模型修正成較能通用的型態。
非監督式知識發掘
沒有明確輸出變數是非監督是知識發掘最明顯的特性,如購物籃分析中,常常要問的問題是「哪些商品會同時被購買」,而非「哪些人會買水果」。非監督式知識發掘的步驟如同監督式,但後面又多了兩個步驟:
(1) 確認監督式知識發掘的可能目標(2) 產生新假設並檢定
因非監督式知識發掘常常是進一步監督式知識發掘的前置作業。
非監督式知識發掘
(1) 確認監督式知識發掘的可能目標:
如在購物籃分析中找出 A商品與 B商品經常同時被購買,接著就會想知道為什麼消費者會同時採購這兩樣商品,以及哪些人會買這兩樣商品等等的問題,這些問題就要靠監督式知識發掘進行解釋。
(2) 產生新假設並檢定:
如同假設檢定的過程,蒐集相關資訊並進行測試。
非監督式知識發掘 案例:銀行希望應用資料採礦增加貸款業務
1. 運用監督式知識發掘找出潛在客戶:哪些人可能會進行貸款?
2. 建立模型後,銀行僅想提供最可能貸款的 11%客戶房貸申請函。分析人員先運用非監督式集群分析來分析顧客,發現有 39% 的人同時擁有銀行的商業及個人帳戶-而這些人佔最可能貸款的 11% 中的 27% 。
3. 銀行根據這個結果(商業帳戶與房貸相關)假設許多人為了創業而借貸,若假設可得驗證,銀行就可針對此特性進行行銷。
實際的問題
將模型用於新資料:分析模型的評分是否適用於產業環境?
預測模型的有效期限:模型的有效性會依環境的變動而變化;舊的資料也須隨著時間的前進而必須重新評分
結合不同技術:可同時採用多種資料採礦技術,但採礦技術越多,環境要適合就越困難。
解釋結論:雖然電腦幫忙分析處理龐大的資料,但最後的結論仍然是要仰賴行銷人員作判斷。
流失可能原因原因 跡象
死了 交易中止
搬家搬到沒分行的地方 增加使用 ATM 並改變最常使用 ATM 的地點
結婚並與另一半在其他銀行有不同帳戶
交易紀錄減少並改變帳戶最後一個名字(姓?)
換新工作而薪資不再轉存 薪資轉存紀錄中止
工作地點附近有其他銀行 交易發生在其他銀行 ATM