1
第十三章 案例探討 - 圖書借閱
2
內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結
3
簡介 以圖書借閱資料為例,說明資料探勘的處理過程 :
資料取得、需求分析、資料整理、 資料倉儲建立、資料探勘、結果分析。
探討問題: 探討不同科系是否借閱不同類別的書? 不同年級學生是否借閱不同類別的書? 大學部與研究生是否有不同的借閱習慣? 圖書分類是否有改進的地方? 借閱紀錄是否隱藏不易發掘而且重要的資訊 ?
實例解說資料探勘過程,瞭解資料探勘的過程,建立具體的印象與觀念,注重過程,而非結果。
4
內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結
5
原始資料來源 根據需求分析,只考慮書籍、系所部
門、讀者、借閱資料 四個資料表資料表名稱 原始資料總筆數 欄位個數Book 364299 22
Department 323 9
Reader 37318 31
History (借閱歷史資料
)
1132648 3
6
內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結
7
第一階段資料前置處理 (1)
原始資料利用資料轉換匯入 SQL Server 將 Reader 與 Department 資料表合成新的 Read
er 資料表 。 在 Reader 資料表內:
增加 college 欄位,建立:系所學院 概念階層。 依學號分類,新增 grade 欄位,記錄使用者年級,區分為「 freshman 、 sophomore 、 junior 、 senior 、 postgraduate 、 candidate for PhD 、 teacher 」七個類別。
只保留 rno( 讀者 id) 、 dept_code 、 dept_name 、 college_name 、 grade 欄位,其餘欄位全部刪除。
8
第一階段資料前置處理 (2)
在 Book 資料表內的: 根據中西文圖書分類,在索書號上新增 sub_class 及 clas
s 屬性,建立書籍種類的概念階層 。 將 language 欄位重新分類,保留最多的中文、英文、日文三類,將其餘語言歸類為 other 。
建立 publsih_interval 欄位,出版年以五年為一區間,作為出版年代的概念階層之用。
僅留下 marc_id( 書籍 id) 、 title 、 author 、 publisher 、publish_year 、 language 、 subject 、 marc_class 、 cla
ss 、 sub_class 、 publish_interval 等欄位。
9
第一階段資料前置處理 (3)
利用中西文圖書分類檢表,將書分為 4 大類,大類再細分成子項目。
10
第一階段資料前置處理 (4)
在 History 資料表內: 將借閱日期拆成三個欄位:借閱年、借閱月、借閱日,作為將來時間的概念階層。
加入 amount 欄位,代表借書的本數,一般都為 1 ,作為事實資料表的量值。
僅留下 marc_id 、 rno 、 borrow_year 、 borrow_month 、borrow_date 、 amount 欄位,其中 amount 欄位為量值。
11
第二階段資料前置處理 (1)
在 Reader 資料表,分析對象為正常學制學生,刪除外校人士、行政人員、在職專班、轉系、大五、大六、系所空白者、身分無法辨認者。
在 Book 資料表內,刪除索書號不完全者;刪除期刊資料及校內論文、不能外借之書籍(如當期雜誌)、視聽資料(如 CD 、 LD 、 tape )等。
在 History 資料表內,刪除索書號不完整之紀錄;刪除 rno(user id) 無法在整理過的 Reader 資料表找到之紀錄;刪除索書號無法在整理過的 Book 資料表找到之紀錄。
12
第二階段資料前置處理 (2)
資料整理前後資料表內容變化比較
資料表名稱
原始資料總筆數
資料整理後的總筆數
原始欄位個數
整理過後欄位個數
Book 364299 75214 22 11
Reader 37318 8587 31 5
History 1132648 612075 3 6
13
內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結
14
資料倉儲設計 (1)
事實資料表: History 為事實資料表, amount 量值。
維度: Reader 、 Book 與 Time 三個維度。
15
資料倉儲設計 (2)
在 Reader 維度資料表內找到兩種概念階層: 年級: rno grade 學院系所: rno dept_name college_name
在 Book 維度資料表內找到三種概念階層: 語言: title language 主題分類: title sub_class class 出版年: publish_year publish_interval
在 Time 維度找到一種概念階層: 借閱日期: borrow_dateborrow_monthborrow_year
16
資料倉儲設計 (3)
星狀式架構的資料倉儲
17
內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結
18
決策樹資料探勘分析 預測項目 書籍、學生、語言類別 百分比
(預測借書類別 )人文社會學院博士班學生
Art
13.56%
General 1.69%
Geography/History 1.69%
Language/Literature 1.69%
Natural Sciences 59.32%
Philosophy/Psychology 6.78%
Religion 1.69%
Social Sciences 11.86%
Missing 1.69%
(預測借閱讀者
的身分 )心理哲學方面的英文書
Candidate for PhD 11.08%
Freshman 7.06%
Junior 16.67%
Postgraduate 34.58%
Senior 15.59%
Sophomore 14.25%
Teacher 0.75%
Missing 0.03%
(預測借閱書籍
的語言 )語言文學方面被借的書籍
Chinese 66.58%
English 33.32%
Japan 0.09%
Others 0.01%
Missing 0.00%
19
分群資料探勘分析 (1)群組一:不同時間借書比例
Cluster 1 總計 3064.04 100.00%
2001/Dec 242.44 7.91%
2001/Apr 236.85 7.73%
2002/Apr 225.34 7.35%
2002/May 223.59 7.30%
2002/Mar 220.51 7.20%
2001/Nov 218.38 7.13%
2001/Oct 198.85 6.49%
2002/Jan 196.18 6.40%
2001/Mar 190.56 6.22%
2001/May 188.30 6.15%
2002/Feb 173.92 5.68%
2001/Feb 169.10 5.52%
2001/Jun 146.56 4.78%
2001/Sep 145.13 4.74%
2001/Jan 118.29 3.86%
2001/Aug 90.89 2.97%
2001/Jul 79.15 2.58%
Missing 0 0.00%
群組二:不同時間借書比例Cluster 2 總計 2951.87 100.00%
2002/May 318.21 10.78%
2001/Dec 225.62 7.64%
2001/Jan 221.28 7.50%
2002/Apr 203.85 6.91%
2001/Nov 197.87 6.70%
2001/Feb 190.02 6.44%
2002/Jan 184.67 6.26%
2002/Mar 180.3 6.11%
2001/May 179.82 6.09%
2001/Oct 179.09 6.07%
2001/Mar 174.69 5.92%
2001/Apr 154.05 5.22%
2001/Jun 150.35 5.09%
2002/Feb 141.99 4.81%
2001/Sep 127.51 4.32%
2001/Jul 69.08 2.34%
2001/Aug 53.46 1.81%
Missing 0 0.00%
20
分群資料探勘分析 (2)
群組一:不同年級、類別借書比例Cluster 1 總計 3064.04 100.00
%
Postgraduate 1347.75 43.99%
Candidate for PhD 427.37 13.95%
Sophomore 375.96 12.27%
Junior 318.11 10.38%
Freshman 300.59 9.81%
Senior 287.55 9.38%
Teacher 6.72 0.22%
Missing 0 0.00%
群組二:不同年級、類別借書比例Cluster 2 總計 2951.87 100.00
%
Postgraduate 1322.56 44.80%
Freshman 489.12 16.57%
Candidate for PhD 427.77 14.49%
Sophomore 339.09 11.49%
Junior 217.24 7.36%
Senior 139.52 4.73%
Teacher 16.57 0.56%
Missing 0 0.00%
21
分群資料探勘分析 (3)
群組一:不同類別書籍被借比例Cluster 1 總計 3064.04 100.00%
Natural Sciences
1611.51 52.59%
Language/Literature 411.55 13.43%
Social Sciences 352.23 11.50%
General 240.92 7.86%
Art 178.23 5.82%
Geography/History 142.67 4.66%
Philosophy/ Psychology 108.16 3.53%
Religion 18.76 0.61%
Missing 0 0.00%
群組二:不同類別書籍被借比例Cluster 2 總計 2951.87 100.00%
Natural Sciences
1864.76 63.17%
Language/Literature 355.02 12.03%
Social Sciences 275.09 9.32%
General 155.55 5.27%
Geography/History 119.21 4.04%
Art 104.28 3.53%
Philosophy/Psychology 61.62 2.09%
Religion 16.34 0.55%
Missing 0 0.00%
22
關連法則資料探勘分析 (1)項次 學 生 類 別 Imply 書籍類別 支持度 (%) 信賴度 (%)
1 College = [Electrical Engineering and Computer Science] AND
People = [Candidate for PhD.]
→ Natural Science
12.2 90.0
2 College =[Electrical Engineering and Computer Science] AND
People = [Postgraduate]
→ Natural Science
23.8 96.2
3 College = [Engineering] ANDPeople = [Postgraduate]
→ Natural Science
12.7 96.2
4 College = [Science] ANDPeople = [Postgraduate]
→ Natural Science
10.8 85.7
5 College = [Electrical Engineering AND Computer Science]
→ Natural Science
40.5 92.7
6 College = [Engineering] → Natural Science
22.5 93.3
7 College = [Science] → NaturalScience
21.2 78.9
8 People = [Candidate for PhD.] → NaturalScience
26.2 91.0
9 People = [Postgraduate] → Natural Science
48.5 89.8
23
結果分析 發現借閱率較高的書,大多是 1988 年到 1999 年,建議多購新版的書,
或者調查新書流動率不高的原因。 每個系所借閱書籍的種類,和所學科系有相關,建議借閱方式可以更彈
性。例如,提高電子系學生借閱電子類別書目的冊數,以方便學生閱讀與研究。
書籍類別 subject 欄位,為人工手動建置,欄位格式並不統一,例如有: 「 Computer Language – Makeup Language 」 「 Computer_Language_Makeup_ Language 」 「 Computer Language : Extensible Makeup Language 」
建議分類機制由手動輸入改為下拉式選單挑選,以提高書目資料的準確度。
24
內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結
25
總結
以圖書借閱資料說明資料探勘的處理過程。 需求分析與資料整理的工作量不小。 細節 (參數調整等 )必須靠讀者自行練習。 幫助讀者建立資料探勘具體的印象與觀念。 找貴校圖書館合作,進行類似資料探勘。