Web 採掘是利用資料採掘技術從 Web 文件及 Web 服務中自動發現並萃取人們感興趣的資訊。它是一項整合式技術，涉及到 Internet 技術、人工智慧、電腦

第九章 Web 資料採掘

9.1 非結構化 Web 資料來源 9.2 Web 採掘分類9.3 Web 內容採掘9.4 Web 結構採掘9.5 Web 存取採掘9.6 利用 Web 日誌的群集演算法9.7 電子商務中的 Web 挖掘習題

Web 採掘是利用資料採掘技術從 Web 文件及 Web服

務中自動發現並萃取人們感興趣的資訊。它是一項整合式技術，涉及到 Internet 技術、人工智慧、電腦語言學、資訊學、統計學等多個領域。通常 Web 採掘過程可以分為以下幾個處理階段：資源發現、資料萃取及資料預處理階段，資料匯總及模式識別階段，分析驗證階段。

主要區別為：(1) 採掘系統則能夠從文本中萃取出目標資訊的特

徵，然後根據目標特徵在網路中進行有目的的搜尋，最後將搜尋到的文件交付給客戶。

(2) 資訊檢索的目的是針對某一特定領域進行資訊或文件的收集，可以看作是 Web 採掘用於中文件分類的一種情況。

(3) Web 採掘的目的就是將大量看似無關的資料關聯起來發現其中的規則和知識以供決策支援。

9.1 非結構化 Web 資料來源

1. Web 資料採掘的困難度由於 Web 的開放性、動態性與異構性等固有特點，要從這些分散的、異構的、沒有統一管理的巨量資料中快速、準確地擷取資訊，也成為 Web 採掘所

要解決的一個困難之處，顯然， Web 導向的資料採

掘比單一資料倉儲的資料採掘要複雜得多。以下是Web 資料採掘應考量的問題。

(1) 資料來源分析在對網站作資料採掘時，所需要的資料主要來自於三方面： Web 伺服器中的日誌檔、 Web 伺服器中

的其他資訊以及客戶的背景資訊。(2) 異構資料環境從資料庫研究的角度出發， Web 網站上的資訊也

可以看作一個資料庫，一個更大、更複雜的資料庫。這就構成了一個巨大的異構資料庫環境。

(3) 半結構化的資料結構Web 上的資料具有一定的結構性，但因自我描述階層的存在，從而是一種非完全結構化的資料，這也被稱之為半結構化資料。(4) 解決半結構化的資料來源問題Web 資料採掘技術首先要解決半結構化資料來源模型 , 和半結構化資料模型的查詢與整合問題。

(5) 文本總結文本總結是指從文件中萃取關鍵資訊，用簡潔的形式對文件內容進行摘要或解釋。

2. XML 與 Web 資料採掘技術 (1) XML 的產生與發展• XML(extensible markup language ， XML)

是由全球資訊網協會 (W3C) 於 1998 年 2 月正式發佈 XML 1.0

• XML 是 Web 應用服務的 SGML(standard general markup language ， SGML) 的一個重要部分，它是一種超標記語言 (meta-markuplanguage)

• XML 解決了 HTML不能解決的兩個關於 Web的問題

• XML 中的標記 (TAG) 是沒有預先定義的 • XML 是能夠進行自我描述 (self describing) 的

語言。• XML使用文件類型定義 (document type

definition ， DTD) 來顯示這些資料

(2) XML 的主要特點• XML不僅可以很好地相容原有的 Web 應用，

而且可以更好地執行 Web 中的資訊共享與交換• XML 可看作一種半結構化的資料模型• XML 為一種標記語言 • XML提供了一個標示結構化資料的架

構。 XML提供了一個獨立的運用程式來共享資料

• XML 支援世界上所有以主要語言編寫的混合文本。

3. XML 在 Web 資料採掘中的應用• XML 能夠完成那些用標準的 HTML 無法完成

的 Web 應用。這些應用可以被分成以下四類：需要 Web 客戶端在兩個或更多異質資料庫之間

進行通訊的應用試圖將大部分處理負載從 Web 伺服器轉到

Web 客戶端的應用要 Web 客戶端將同樣的資料以不同的瀏覽形式提供給不同的客戶的應用

需要智慧型 Web代理程式根據客戶個人的需要裁減資訊內容的應用。

• XML 給 Web 導向的應用軟體賦予了強大的功能和靈活性

• 軟體代理商可以在中間層的伺服器上對從後端資料庫和其他應用處來的資料進行整合

• XML 的延伸性和靈活性允許它描述不同種類應用軟體中的資料

• 利用利用 XMLXML ，客戶可以方便地進行局部計算和處，客戶可以方便地進行局部計算和處理理

• XML 可以被利用來分離使用者觀看資料的介面，使用簡單、靈活、開放的格式，可以給 Web創建功能強大的應用軟體

• XML 定義的資料允許指定不同的顯示方式，使資料更合理地表現出來。

• CSS 和 XSL 為資料的顯示提供了公佈的機制。透過 XML 資料，可以粒狀地更新。

• XML 解決了資料的統一介面問題。

• XML 的自我解釋性使客戶端在收到資料的同時也瞭解資料的邏輯結構與含義，從而使廣泛、運用的分散式計算成為可能

• XML還被應用於網路代理 • 能夠使不同來源的結構化的資料很容易地結合在

一起 • XML 為組織、軟體開發者、 Web 網站和終端使

用者提供了許多有利條件。

9.2 Web 採掘分類Web 資料有三種類型： (1)(1) HTMLHTML 標記的標記的 WebWeb 文件資料文件資料 (2)(2) WebWeb 文件內的連接的結構資料文件內的連接的結構資料 (3)(3) 客戶存取資料如伺服器的客戶存取資料如伺服器的 loglog 日誌資訊日誌資訊按照對應的資料類型， Web 採掘可分為三類：(1) 內容採掘(2) 結構採掘(3) 客戶存取模式採掘

Web 採掘一般分為以下幾步：(1) 資源發現用爬蟲 (crawler) 和蜘蛛 (spider) 從 WWW線上收集頁面。

(2) 資訊選擇與預先處理如英文單字的字彙萃取、高低頻繁字過濾，漢字的的切分和索引庫的建立

(3) 整合程式發現 Web 網站的共通模式。

(4) 分析程式對採掘到的模式進行驗證和視覺化處理。

9.3 Web 內容採掘

文本 Web 導向採掘方法有：(1) 資料庫方法(2) 建立Web 資料倉儲方法 (3) 新近的軟體 agent 的分類器方法 (4) 概念導向的文本資訊採掘法

Web 內容採掘按執行方法分為兩大類：• 資訊檢索 (information retrieval ， IR) 方法• 資料庫方法兩種策略：• 直接採掘文件內容• 在其他檢索工具搜尋的基礎上改進。

(1) IR 方法主要處理非結構資料和 Web 中由HTML 標記的半結構化資料。前者一般採用字集 (bags of words) 方法，用一組組字句來表示無結構的文本。

(2) 資料庫方法，推導出 Web 網站的結構或把它變成一個資料庫。一般用 OEM (object exchange model ， OEM)表示半結構化資料。

(3) 直接採掘文件內容：採用這種策略比較好的Web 查詢語言有 Web SQL ， Ahoy！等。

(4) 對搜尋引擎返回的結果進行採掘可提供給客戶更為準確的查詢結果。如Web SQL 系統存取搜尋引擎獲取文件。

9.4 Web 結構採掘

Page-Rank 方法 (Brin and Page 1998) ：Page-Rank 的基本方法是：一個頁面被多次引用，

則這個頁面很可能是重要的；一個頁面儘管沒有被多次引用，但被一個重要頁面引用，該頁面也可能是很重要的；一個頁面的重要性被均分並被傳遞到它所引用的頁面中。

如對於一個查詢 q ，搜尋引擎首先利用相似度函數找

到 K 個頁面，然後利用公式計算每個頁面的重要性，然後進行排序，如下所示：

ranking ─ score (q ， d)=ω1 × Sim (q ， d) ＋ ω2 × R (d)

9.5 Web 存取採掘 Wet 存取採掘一般分為兩種：• 一般存取模式追蹤和客• 制化使用追蹤一般存取模式追蹤透過分析 Web 日誌來了解客戶

的存取模式和傾向；客制化使用追蹤分析單一客戶的偏好，根據其存取模式為每個客戶量身制定符合其個人特色的 Web 網站。

(1) 預先處理主要包括對 Web 日誌作淨化、過濾和轉換以及剔除無關記錄。

(2) 客戶存取模式的發現可採用統計學 (statistics) 、模式識別 (model identification) 、人工智慧、資料庫資料採掘等領域的成熟技術在 Web 的使用記錄中採掘知識。

(3) Web使用採掘中的模式分析主要是為了在模式發現演算法找到的模式集合中發現有趣模式。

客戶導覽資訊的採掘通常要經過下面三個步驟：• 資料預先處理階段。• 模式識別階段。 • 模式分析階段。

早期使用的方法除了廣度優先演算法為主的統計模型外，還有一種啟發的 HPG (hyper-

textprobabilistic grammar) 模型用於客戶導覽行為的發現，它也是

一種統計導向的方法，由於 HPG 模型與 K 階馬可夫

模型相當，也有人提出用馬可夫模型採掘用戶導覽資訊。

9.6 利用 Web 日誌的群集演算法

1. 客戶群體的模糊群集演算法用 C 表示客戶集合， C ＝｛ C1 ， C2…Ci ，…，Cm｝表示某一站點 URL 集合， U＝｛ C1 ，C2… ， Cm｝； Ci 客戶 C 的瀏覽圖可用網站的URL表示：其中 (Uj)→[0 ， 1] 是客戶 Ci 和 URL(Uj) 之間的關

聯度函數：

＝

Tc

i

T cif

m

ii

j

Uhits

Uhits

1)(

)(

2. 客戶存取興趣的演算法K-PathS群集方法是一種分割而非分層的群集演算法。它是按照路徑的相似性進行群集的演算法。以一個客戶存取交易 T 為例，它具有個交易， K-PathS群集方法將 T 分為個群集 ( ) ，並使

在每一個群集中所有交易與該交易所在的群集中心相似度的總和最小。

n

k nk

3. 客戶群體群集的 Hamming 距離演算法設，則間Hamming距離定義為

＝

yx， 110 nn，， yx， yxHd ，

yxHd ，

x

i

ii YX1

對於 Mm×n 關聯矩陣，若有任意＞ 0 ，可先令＝ 1 ，然後計算列向量間Hamming距離，從而建立列

向量之間的距離矩陣。在對稱矩陣。中的表示第個列向量和第個列向量間的 Hamming距離。對於任意的，若，則將第個客戶和所有滿足該條件的第個客戶劃分為一類。

jiM ， jiM ，

MHd

mxn MHd

mxn

)1( njinid MHd

mxnji ，，

)1( njinidd MHd

mxnji ，，， )( 閥值， jid

i

客戶和所有滿足該條件的第 j 個客戶劃分為一類。此時若考慮到客戶對某一 URL 的存取頻率，則需

要對群集結果加以確認。若客戶 C 和 K 之間連接

強度小於事先確定的閥值，則將該客戶剔除出類 K並與其他被剔除的 C 劃分為另一個類 k 。

)( KCCo ，

c

i

o

j

ji

c

jji

h

hKCC

1 1

10 )(

，

，，

4. 模糊理論導向的 Web頁面群集演算法與客戶群體群聚的模糊群集定義相同，客戶存取情況可用表示。有＝，其中→[0 ， 1] 是客戶和間的關聯度：

＝

)( jUURL Su

j CCCfCi iiS ui │， ))(( )( iS ui Cf

Ci )( jUURL

)( iT ci Cf

m

ij

i

Uhits

Uhits

1)(

)(

5. Web頁面群集的 Hamming距離演算法同 Hamming距離客戶群體群集演算法一樣，對於

關聯矩陣，若有任意＞ 0 ，可先令＝ 1 ，然後計算行向量間Hamming距離，從而建立行向

量間的距離矩陣。在對稱矩陣中，表示第 i 個行向量和第j 個行向量間的 Hamming距離。

M mxn

jiM ， jiM ，

MHd

mxn MHd

mxn

)1( njinid MHd

mxnji ，，

9.7 電子商務中的 Web挖掘

1. 電子商務中 Web 採掘的功能設計電子商務個性化網站面臨如何發現客戶行為的個性化特色及 Web重要頁面的組織問題。由於個

性化服務是電子商務網站提高網路效率和吸引網路客戶存取的有效方法，其資源組織方式、組織效率已成為智慧型電子商務的技術焦點。

2. 電子商務中 Web 採掘的基本問題Web 採掘大致可分為 3 類：• 以分析系統為目標• 以設計系統為目標• 以了解客戶意圖為目標。由於各目標所鎖定的功能不同，採取的主要技術也不同。

(1) 客戶的確定在 Web 採掘中對於實際使用中惟一確定一個客戶很

難，有時候可以把伺服器日誌、代理，有時候可以把伺服器日誌、代理 (agent)(agent) 和參和參照照

(reference)(reference)頁面日誌整合起來確定一個客戶。頁面日誌整合起來確定一個客戶。(2) 客戶存取序列的確定就是按照時間順序找出客戶申請的一系列頁面。一般伺服器日誌是以存取客戶的 IP 地址為輔助鍵、存取時間為主鍵排列的

(3) 改善存取路徑由於存在著客戶端的快取記憶體，用戶瀏覽頁面時能使用瀏覽器的後退功能，要根據客戶存取的前後頁面進行推理，將其疏漏的頁面補充在路徑裡。另外，執行 CGI 程式時，由於其傳遞的參數不同，最後的輸出結果不同，必要時還要結合參數確定顯示的頁面內容。

3. 電子商務中的資料採掘工具Web 資料採掘工具按其用途可有以下 3 種類型：(1) 文本資訊採掘工具通常文本採掘工具主要完成下列兩種的工作：• 資訊檢索• 對文本的分析文本採掘工具的主要設計目標是使客戶易於瞭解文件內容或用於收集相關文件所花費的時間最少。

(2) 客戶存取模式採掘工具由 Stephen Turner博士編寫的免費個人軟體

Analog 是一個用來分析伺服器日誌檔的工具，它適用於Windows 及 UNIX 等作業系統。由於它使用起來較簡

單，可以直接在伺服器上執行，也可以將日誌檔下載到客戶端。

(3) 客戶導航行為採掘工具WUM (Web utilization miner ， WUM) 是一種序列採

掘的客戶導覽行為採掘工具。它主要用來分析客戶導覽行為，適用於從任何類型的日誌檔中發現客戶導覽資訊。

(4) 整合性 Web 分析工具ACCRUE Insight5 是 Accrue公司的主要產品，

它是一個整合性的 Web 分析工具。它能夠對 Web 的執行狀況

有更深入、精密和準確的分析。它的設計是顧客導向的，透過分析顧客的行為

模式，協助網站採取措施來提高顧客的忠誠度，從而建立長期的客戶關係。

BI. Bank 是針對銀行業適時推出的一套完備的商業智慧解決方案，為銀行提供決策支援並執行資訊共享和加強客戶關係的管理。 BI. Bank包括銀行決策支援系統、客戶關係管理系統、銀行資訊中心等鎖定不同使用物件的子系統。 BI. Bank 利用資料倉儲、線上分析處理、資料採掘以及 Web 等核心技術，並採用了資料庫伺服器 (DB SERVER) 、應用伺服器 (APP SERVER) 和客戶端 (C/B) 三層架構。

習題

1. XML 在 Web 採掘中有何功能。2. 比較Web 採掘三種方法的特色。 3. 說明Web 內容採掘與 Web 結構採掘得任務。 4. 說明Web 存取任務。 5. 電子商務中 Web 採掘的功能，基本問題與意義

分別是什麼。

Documents

Web 採掘是利用資料採掘技術從 Web 文件及 Web 服 務中自動發現並萃取人們感興趣的資訊。它是一項 整合式技術，涉及到 Internet 技術、人工智慧、電腦

Web 採掘是利用資料採掘技術從 Web 文件及 Web 服務中自動發現並萃取人們感興趣的資訊。它是一項整合式技術，涉及到 Internet 技術、人工智慧、電腦