73
iii 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:68 ()所組別:中國文化大學商學院資訊管理研究所 畢業時間及提要別:100 學年度第 1 學期碩士學位論文提要 研究生:林秀芬 指導教授:黃謙順 論文提要內容: 以使用者為基礎的協同過濾(collaborative filtering) 演算法是 一種被廣泛使用而且有效率的推薦技術,它可以從別人的意見提 供給使用者最適合的建議。雖然協同過濾技術已經成功應用在很 多地方,但它有著嚴重的資料稀疏性(sparsity)問題。雲模型(cloud model) 利用了雲特徵向量來代表整體的使用者的偏好來解決這個 問題。以使用者為基礎(user-based)的協同過濾演算法適用在資料 密集的時候,而雲模型協同過濾法在資料稀疏時較為穩定。本研 究將使用一個混合式的推薦系統來整合以使用者為基礎的協同過 濾演算法及雲模型協同過濾演算法的預測結果。實驗結果顯示混 合式的推薦系統可以改善稀疏性的問題及改善預測的品質。 關鍵字:協同過濾(collaborative filtering)、稀疏性(sparsity)雲模型(cloud model)、以使用者為基礎(user-based)

論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

iii

論文名稱基於協同過濾和雲模型的混合式推薦系統 總頁數68

校(院)所組別中國文化大學商學院資訊管理研究所

畢業時間及提要別100 學年度第 1 學期碩士學位論文提要

研究生林秀芬 指導教授黃謙順

論文提要內容

以使用者為基礎的協同過濾(collaborative filtering)演算法是

一種被廣泛使用而且有效率的推薦技術它可以從別人的意見提

供給使用者最適合的建議雖然協同過濾技術已經成功應用在很

多地方但它有著嚴重的資料稀疏性(sparsity)問題雲模型(cloud

model)利用了雲特徵向量來代表整體的使用者的偏好來解決這個

問題以使用者為基礎(user-based)的協同過濾演算法適用在資料

密集的時候而雲模型協同過濾法在資料稀疏時較為穩定本研

究將使用一個混合式的推薦系統來整合以使用者為基礎的協同過

濾演算法及雲模型協同過濾演算法的預測結果實驗結果顯示混

合式的推薦系統可以改善稀疏性的問題及改善預測的品質

關鍵字協同過濾(collaborative filtering)稀疏性(sparsity)

雲模型(cloud model)以使用者為基礎(user-based)

iv

Forecasting stock price fluctuation of Taiwan listed

companies by analyzing their financial

statements using neural network

Student Show-Fen Lin Advisor Prof Chein-Shung Hwang

C h i n e s e C u l t u r e U n i v e r s i t y

ABSTRACT

User-based Collaborative filtering (CF) one of themost prevailing and efficient

recommendation techniques provides personalized recommendations to users based on

the opinions of other users Although the CF technique has been successfully applied in

various applications it suffers from serious sparsity problems The cloud-model ap-

proach addresses the sparsity problems by constructing the userrsquos global preference

represented by a cloud eigenvector The user-based CF approach works well with dense

datasets while the cloud-model CF approach has a greater performance when the dataset

is sparse In this paper we present a hybrid approach that integrates the predictions from

both the user-based CF and the cloud-model CF approaches The experimental results

show that the proposed hybrid approach can ameliorate the sparsity problem and pro-

vide an improved prediction quality

Key Wordscloud model collaborative filtering hybrid recommender system

v

誌 謝 辭

本論文幸蒙恩師黃謙順教授之悉心指導逐步導正在研究上

的相關缺失在研究過程中黃教授規劃研究進度並指引方向

不斷地傳習正確的寫作技巧及方法教授專業知識所給予的指正

及指導使文章內容及架構更臻完整同時黃教授時常對我的

日常生活充滿著關懷及體貼亦是讓我在這些日子中感受到無比

的溫暖謝謝黃教授您的恩情我將永遠銘記在心

接著要感謝蕭麗玉助教時常細心地叮囑同學們關於論文

相關的注意事項也經常給予我鼓勵與支持在我遇到困難時立

即給予協助讓我可以專心的撰寫論文

最後感謝所有與我相處過的研究生同學們這段時間大家

共同努力學習不論在學術研究上互相砥礪也在生活相互扶持

「得之於人者太多出之於己者太少」是我此刻的心情一

路走來雖然辛苦但在家人的鼓勵支持下激發出高昂鬥志及奮

勇向前的精神才能完成此階段的成果

特別感謝我的口試委員黃燕忠老師蘇意晴老師撥空聽取簡

報及審核論文並且在研撰計劃初審時提供論文上的研究方向及

缺失部分使得論文的研究更加充實

謹將此論文獻給我身邊所有的親朋好友以及最重要的人謝

謝你們一直以來對我的鼓勵與支持由衷的感謝

vi

內 容 目 錄

中文摘要 iii

英文摘要 iv

誌謝辭 v

內容目錄 vi

表目錄 viii

圖目錄 ix

第一章 緒論 1

第一節 研究背景 1

第二節 研究動機

第三節 研究目的

第四節 研究對象

第五節 研究流程

第六節 研究架構

3

6

6

7

8

第二章 文獻探討 9

第一節 資訊檢索與搜尋引擎 9

第二節 推薦系統 10

第三節 協同過濾

第四節 雲模型協同過濾系統

第三章 研究方法

第一節 系統架構

第二節 以使用者為基礎的協同過濾子系統

第三節 雲模型協同過濾子系統

第四節 整合預測計算

第四章 系統實驗與結果評估分析

第一節 實驗評分

15

21

24

24

25

27

31

32

32

vii

第二節 實驗環境與工具

第三節 實驗設計

第四節 執行結果

第五章 結論與建議

第一節 結論

第二節 未來研究方向

33

34

34

56

56

57

參考文獻 58

viii

表 目 錄

表1-1 電影片斷的評分矩陣 5

表4- 1 ua沒有加入共同評分產生的MAE結果 37

表4- 2

表4- 3

表4- 4

表4- 5

表4- 6

表4- 7

表4- 8

ub沒有加入共同評分產生的MAE結果

ua有加入共同評分產生的MAE結果

ub有加入共同評分產生的MAE結果

ua的MAE結果

ub的MAE結果

ua的涵蓋率結果

ub的涵蓋率結果

37

42

42

50

50

53

53

ix

圖 目 錄

圖 1-1

圖 2-1

圖 2-2

圖 2-3

圖 2-4

圖 2-5

圖 2-6

圖 3-1

圖 4-1

圖 4-2

圖 4-3

圖 4-4

圖 4-5

圖 4-6

圖 4-7

圖 4-8

圖 4-9

圖 4-10

圖 4-11

圖 4-12

圖 4-13

圖 4-14

圖 4-15

研究流程

一般推薦系統的運作流程

推薦系統的架構

協同過濾運作機制

協同推薦的程序

根據共同評分的項目來做相似性計算

雲及雲的數字特徵

系統架構圖

代入參數畫面

計算uacm1的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時沒有加入共同評分所產生的結

ub在使用不同方法時沒有加入共同評分所產生的結

代入參數畫面

計算uacm2的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時有加入共同評分所產生的結果

ub在使用不同方法時有加入共同評分所產生的結果

代入參數畫面

計算uatrain的稀疏性執行畫面

代入參數畫面

7

11

13

17

18

20

23

24

35

35

36

36

38

39

40

40

41

41

44

44

45

46

46

x

圖 4-16

圖 4-17

圖 4-18

圖 4-19

圖 4-20

圖 4-21

圖 4-22

圖 4-23

圖 4-24

圖 4-25

圖 4-26

計算uas1 的稀疏性執行畫面

雲模型相似法代入參數畫面

修正過的餘弦相似法代入參數畫面

設定uas1cm2檔案

設定uas1adjcos2 檔案

代入參數畫面

計算uas1的MAE及涵蓋率執行畫面

ua不同方法的MAE及稀疏性程度的影響

ub不同方法的MAE及稀疏性程度的影響

ua不同方法的涵蓋率及稀疏性程度的影響

ub不同方法的涵蓋率及稀疏性程度的影響

46

47

47

48

48

49

49

51

52

54

55

- 1 -

第一章 緒論

近年來推薦系統(recommender system)受到許多國內外學者

的重視及研究由於推薦系統可以輔助企業個人化行銷創造更

多的利潤加上個人化服務的概念興起因此推薦系統開始逐

漸地吸引許多網路業者的注意本章節將針對研究背景動機

目的流程與架構進行相關的介紹

第一節 研究背景

隨著資訊科技不斷地進步及數位媒體的普及網際網路

(internet)與電子商務(electronic commerce EC)的蓬勃發展產生了

資訊爆炸造成「資料豐富但是資訊貧瘠(data rich but information

poor)」現象目前網際網路總頁數高達 21 億餘頁每天更以 700

萬頁以上的速度快速成長中預估未來全球網頁數將呈現爆炸性

的成長 (葉蕙棻 2003)由於大量的資訊產生的資訊過載

(information overloading)問題不但造成網路的壅塞同時也常讓

使用者收到許多不需要的資訊(蔣聖文2006)

目前一般所使用的搜尋方法大多以資訊檢索(information re-

trieval)與資訊過濾(information filtering)兩種技術為主其中資訊

檢索是使用者擁有特殊需求或目標時下達查詢命令例如輸

入關鍵字(key word)的方式從龐大的資料集中找出符合查詢命令

的文件並將其結果回傳這也是目前在網路上最常使用的方法

例如GoogleYahoo奇摩等搜尋引擎(search engine)等由於這

種方式所擷取出來的資訊往往包含許多不相關的資訊造成使

用者須花費許多時間逐一進行資訊的篩選以找出符合自身需求

的資訊雖然搜尋引擎提供使用者方便及快速的搜尋功能但其

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 2: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

iv

Forecasting stock price fluctuation of Taiwan listed

companies by analyzing their financial

statements using neural network

Student Show-Fen Lin Advisor Prof Chein-Shung Hwang

C h i n e s e C u l t u r e U n i v e r s i t y

ABSTRACT

User-based Collaborative filtering (CF) one of themost prevailing and efficient

recommendation techniques provides personalized recommendations to users based on

the opinions of other users Although the CF technique has been successfully applied in

various applications it suffers from serious sparsity problems The cloud-model ap-

proach addresses the sparsity problems by constructing the userrsquos global preference

represented by a cloud eigenvector The user-based CF approach works well with dense

datasets while the cloud-model CF approach has a greater performance when the dataset

is sparse In this paper we present a hybrid approach that integrates the predictions from

both the user-based CF and the cloud-model CF approaches The experimental results

show that the proposed hybrid approach can ameliorate the sparsity problem and pro-

vide an improved prediction quality

Key Wordscloud model collaborative filtering hybrid recommender system

v

誌 謝 辭

本論文幸蒙恩師黃謙順教授之悉心指導逐步導正在研究上

的相關缺失在研究過程中黃教授規劃研究進度並指引方向

不斷地傳習正確的寫作技巧及方法教授專業知識所給予的指正

及指導使文章內容及架構更臻完整同時黃教授時常對我的

日常生活充滿著關懷及體貼亦是讓我在這些日子中感受到無比

的溫暖謝謝黃教授您的恩情我將永遠銘記在心

接著要感謝蕭麗玉助教時常細心地叮囑同學們關於論文

相關的注意事項也經常給予我鼓勵與支持在我遇到困難時立

即給予協助讓我可以專心的撰寫論文

最後感謝所有與我相處過的研究生同學們這段時間大家

共同努力學習不論在學術研究上互相砥礪也在生活相互扶持

「得之於人者太多出之於己者太少」是我此刻的心情一

路走來雖然辛苦但在家人的鼓勵支持下激發出高昂鬥志及奮

勇向前的精神才能完成此階段的成果

特別感謝我的口試委員黃燕忠老師蘇意晴老師撥空聽取簡

報及審核論文並且在研撰計劃初審時提供論文上的研究方向及

缺失部分使得論文的研究更加充實

謹將此論文獻給我身邊所有的親朋好友以及最重要的人謝

謝你們一直以來對我的鼓勵與支持由衷的感謝

vi

內 容 目 錄

中文摘要 iii

英文摘要 iv

誌謝辭 v

內容目錄 vi

表目錄 viii

圖目錄 ix

第一章 緒論 1

第一節 研究背景 1

第二節 研究動機

第三節 研究目的

第四節 研究對象

第五節 研究流程

第六節 研究架構

3

6

6

7

8

第二章 文獻探討 9

第一節 資訊檢索與搜尋引擎 9

第二節 推薦系統 10

第三節 協同過濾

第四節 雲模型協同過濾系統

第三章 研究方法

第一節 系統架構

第二節 以使用者為基礎的協同過濾子系統

第三節 雲模型協同過濾子系統

第四節 整合預測計算

第四章 系統實驗與結果評估分析

第一節 實驗評分

15

21

24

24

25

27

31

32

32

vii

第二節 實驗環境與工具

第三節 實驗設計

第四節 執行結果

第五章 結論與建議

第一節 結論

第二節 未來研究方向

33

34

34

56

56

57

參考文獻 58

viii

表 目 錄

表1-1 電影片斷的評分矩陣 5

表4- 1 ua沒有加入共同評分產生的MAE結果 37

表4- 2

表4- 3

表4- 4

表4- 5

表4- 6

表4- 7

表4- 8

ub沒有加入共同評分產生的MAE結果

ua有加入共同評分產生的MAE結果

ub有加入共同評分產生的MAE結果

ua的MAE結果

ub的MAE結果

ua的涵蓋率結果

ub的涵蓋率結果

37

42

42

50

50

53

53

ix

圖 目 錄

圖 1-1

圖 2-1

圖 2-2

圖 2-3

圖 2-4

圖 2-5

圖 2-6

圖 3-1

圖 4-1

圖 4-2

圖 4-3

圖 4-4

圖 4-5

圖 4-6

圖 4-7

圖 4-8

圖 4-9

圖 4-10

圖 4-11

圖 4-12

圖 4-13

圖 4-14

圖 4-15

研究流程

一般推薦系統的運作流程

推薦系統的架構

協同過濾運作機制

協同推薦的程序

根據共同評分的項目來做相似性計算

雲及雲的數字特徵

系統架構圖

代入參數畫面

計算uacm1的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時沒有加入共同評分所產生的結

ub在使用不同方法時沒有加入共同評分所產生的結

代入參數畫面

計算uacm2的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時有加入共同評分所產生的結果

ub在使用不同方法時有加入共同評分所產生的結果

代入參數畫面

計算uatrain的稀疏性執行畫面

代入參數畫面

7

11

13

17

18

20

23

24

35

35

36

36

38

39

40

40

41

41

44

44

45

46

46

x

圖 4-16

圖 4-17

圖 4-18

圖 4-19

圖 4-20

圖 4-21

圖 4-22

圖 4-23

圖 4-24

圖 4-25

圖 4-26

計算uas1 的稀疏性執行畫面

雲模型相似法代入參數畫面

修正過的餘弦相似法代入參數畫面

設定uas1cm2檔案

設定uas1adjcos2 檔案

代入參數畫面

計算uas1的MAE及涵蓋率執行畫面

ua不同方法的MAE及稀疏性程度的影響

ub不同方法的MAE及稀疏性程度的影響

ua不同方法的涵蓋率及稀疏性程度的影響

ub不同方法的涵蓋率及稀疏性程度的影響

46

47

47

48

48

49

49

51

52

54

55

- 1 -

第一章 緒論

近年來推薦系統(recommender system)受到許多國內外學者

的重視及研究由於推薦系統可以輔助企業個人化行銷創造更

多的利潤加上個人化服務的概念興起因此推薦系統開始逐

漸地吸引許多網路業者的注意本章節將針對研究背景動機

目的流程與架構進行相關的介紹

第一節 研究背景

隨著資訊科技不斷地進步及數位媒體的普及網際網路

(internet)與電子商務(electronic commerce EC)的蓬勃發展產生了

資訊爆炸造成「資料豐富但是資訊貧瘠(data rich but information

poor)」現象目前網際網路總頁數高達 21 億餘頁每天更以 700

萬頁以上的速度快速成長中預估未來全球網頁數將呈現爆炸性

的成長 (葉蕙棻 2003)由於大量的資訊產生的資訊過載

(information overloading)問題不但造成網路的壅塞同時也常讓

使用者收到許多不需要的資訊(蔣聖文2006)

目前一般所使用的搜尋方法大多以資訊檢索(information re-

trieval)與資訊過濾(information filtering)兩種技術為主其中資訊

檢索是使用者擁有特殊需求或目標時下達查詢命令例如輸

入關鍵字(key word)的方式從龐大的資料集中找出符合查詢命令

的文件並將其結果回傳這也是目前在網路上最常使用的方法

例如GoogleYahoo奇摩等搜尋引擎(search engine)等由於這

種方式所擷取出來的資訊往往包含許多不相關的資訊造成使

用者須花費許多時間逐一進行資訊的篩選以找出符合自身需求

的資訊雖然搜尋引擎提供使用者方便及快速的搜尋功能但其

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 3: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

v

誌 謝 辭

本論文幸蒙恩師黃謙順教授之悉心指導逐步導正在研究上

的相關缺失在研究過程中黃教授規劃研究進度並指引方向

不斷地傳習正確的寫作技巧及方法教授專業知識所給予的指正

及指導使文章內容及架構更臻完整同時黃教授時常對我的

日常生活充滿著關懷及體貼亦是讓我在這些日子中感受到無比

的溫暖謝謝黃教授您的恩情我將永遠銘記在心

接著要感謝蕭麗玉助教時常細心地叮囑同學們關於論文

相關的注意事項也經常給予我鼓勵與支持在我遇到困難時立

即給予協助讓我可以專心的撰寫論文

最後感謝所有與我相處過的研究生同學們這段時間大家

共同努力學習不論在學術研究上互相砥礪也在生活相互扶持

「得之於人者太多出之於己者太少」是我此刻的心情一

路走來雖然辛苦但在家人的鼓勵支持下激發出高昂鬥志及奮

勇向前的精神才能完成此階段的成果

特別感謝我的口試委員黃燕忠老師蘇意晴老師撥空聽取簡

報及審核論文並且在研撰計劃初審時提供論文上的研究方向及

缺失部分使得論文的研究更加充實

謹將此論文獻給我身邊所有的親朋好友以及最重要的人謝

謝你們一直以來對我的鼓勵與支持由衷的感謝

vi

內 容 目 錄

中文摘要 iii

英文摘要 iv

誌謝辭 v

內容目錄 vi

表目錄 viii

圖目錄 ix

第一章 緒論 1

第一節 研究背景 1

第二節 研究動機

第三節 研究目的

第四節 研究對象

第五節 研究流程

第六節 研究架構

3

6

6

7

8

第二章 文獻探討 9

第一節 資訊檢索與搜尋引擎 9

第二節 推薦系統 10

第三節 協同過濾

第四節 雲模型協同過濾系統

第三章 研究方法

第一節 系統架構

第二節 以使用者為基礎的協同過濾子系統

第三節 雲模型協同過濾子系統

第四節 整合預測計算

第四章 系統實驗與結果評估分析

第一節 實驗評分

15

21

24

24

25

27

31

32

32

vii

第二節 實驗環境與工具

第三節 實驗設計

第四節 執行結果

第五章 結論與建議

第一節 結論

第二節 未來研究方向

33

34

34

56

56

57

參考文獻 58

viii

表 目 錄

表1-1 電影片斷的評分矩陣 5

表4- 1 ua沒有加入共同評分產生的MAE結果 37

表4- 2

表4- 3

表4- 4

表4- 5

表4- 6

表4- 7

表4- 8

ub沒有加入共同評分產生的MAE結果

ua有加入共同評分產生的MAE結果

ub有加入共同評分產生的MAE結果

ua的MAE結果

ub的MAE結果

ua的涵蓋率結果

ub的涵蓋率結果

37

42

42

50

50

53

53

ix

圖 目 錄

圖 1-1

圖 2-1

圖 2-2

圖 2-3

圖 2-4

圖 2-5

圖 2-6

圖 3-1

圖 4-1

圖 4-2

圖 4-3

圖 4-4

圖 4-5

圖 4-6

圖 4-7

圖 4-8

圖 4-9

圖 4-10

圖 4-11

圖 4-12

圖 4-13

圖 4-14

圖 4-15

研究流程

一般推薦系統的運作流程

推薦系統的架構

協同過濾運作機制

協同推薦的程序

根據共同評分的項目來做相似性計算

雲及雲的數字特徵

系統架構圖

代入參數畫面

計算uacm1的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時沒有加入共同評分所產生的結

ub在使用不同方法時沒有加入共同評分所產生的結

代入參數畫面

計算uacm2的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時有加入共同評分所產生的結果

ub在使用不同方法時有加入共同評分所產生的結果

代入參數畫面

計算uatrain的稀疏性執行畫面

代入參數畫面

7

11

13

17

18

20

23

24

35

35

36

36

38

39

40

40

41

41

44

44

45

46

46

x

圖 4-16

圖 4-17

圖 4-18

圖 4-19

圖 4-20

圖 4-21

圖 4-22

圖 4-23

圖 4-24

圖 4-25

圖 4-26

計算uas1 的稀疏性執行畫面

雲模型相似法代入參數畫面

修正過的餘弦相似法代入參數畫面

設定uas1cm2檔案

設定uas1adjcos2 檔案

代入參數畫面

計算uas1的MAE及涵蓋率執行畫面

ua不同方法的MAE及稀疏性程度的影響

ub不同方法的MAE及稀疏性程度的影響

ua不同方法的涵蓋率及稀疏性程度的影響

ub不同方法的涵蓋率及稀疏性程度的影響

46

47

47

48

48

49

49

51

52

54

55

- 1 -

第一章 緒論

近年來推薦系統(recommender system)受到許多國內外學者

的重視及研究由於推薦系統可以輔助企業個人化行銷創造更

多的利潤加上個人化服務的概念興起因此推薦系統開始逐

漸地吸引許多網路業者的注意本章節將針對研究背景動機

目的流程與架構進行相關的介紹

第一節 研究背景

隨著資訊科技不斷地進步及數位媒體的普及網際網路

(internet)與電子商務(electronic commerce EC)的蓬勃發展產生了

資訊爆炸造成「資料豐富但是資訊貧瘠(data rich but information

poor)」現象目前網際網路總頁數高達 21 億餘頁每天更以 700

萬頁以上的速度快速成長中預估未來全球網頁數將呈現爆炸性

的成長 (葉蕙棻 2003)由於大量的資訊產生的資訊過載

(information overloading)問題不但造成網路的壅塞同時也常讓

使用者收到許多不需要的資訊(蔣聖文2006)

目前一般所使用的搜尋方法大多以資訊檢索(information re-

trieval)與資訊過濾(information filtering)兩種技術為主其中資訊

檢索是使用者擁有特殊需求或目標時下達查詢命令例如輸

入關鍵字(key word)的方式從龐大的資料集中找出符合查詢命令

的文件並將其結果回傳這也是目前在網路上最常使用的方法

例如GoogleYahoo奇摩等搜尋引擎(search engine)等由於這

種方式所擷取出來的資訊往往包含許多不相關的資訊造成使

用者須花費許多時間逐一進行資訊的篩選以找出符合自身需求

的資訊雖然搜尋引擎提供使用者方便及快速的搜尋功能但其

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 4: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

vi

內 容 目 錄

中文摘要 iii

英文摘要 iv

誌謝辭 v

內容目錄 vi

表目錄 viii

圖目錄 ix

第一章 緒論 1

第一節 研究背景 1

第二節 研究動機

第三節 研究目的

第四節 研究對象

第五節 研究流程

第六節 研究架構

3

6

6

7

8

第二章 文獻探討 9

第一節 資訊檢索與搜尋引擎 9

第二節 推薦系統 10

第三節 協同過濾

第四節 雲模型協同過濾系統

第三章 研究方法

第一節 系統架構

第二節 以使用者為基礎的協同過濾子系統

第三節 雲模型協同過濾子系統

第四節 整合預測計算

第四章 系統實驗與結果評估分析

第一節 實驗評分

15

21

24

24

25

27

31

32

32

vii

第二節 實驗環境與工具

第三節 實驗設計

第四節 執行結果

第五章 結論與建議

第一節 結論

第二節 未來研究方向

33

34

34

56

56

57

參考文獻 58

viii

表 目 錄

表1-1 電影片斷的評分矩陣 5

表4- 1 ua沒有加入共同評分產生的MAE結果 37

表4- 2

表4- 3

表4- 4

表4- 5

表4- 6

表4- 7

表4- 8

ub沒有加入共同評分產生的MAE結果

ua有加入共同評分產生的MAE結果

ub有加入共同評分產生的MAE結果

ua的MAE結果

ub的MAE結果

ua的涵蓋率結果

ub的涵蓋率結果

37

42

42

50

50

53

53

ix

圖 目 錄

圖 1-1

圖 2-1

圖 2-2

圖 2-3

圖 2-4

圖 2-5

圖 2-6

圖 3-1

圖 4-1

圖 4-2

圖 4-3

圖 4-4

圖 4-5

圖 4-6

圖 4-7

圖 4-8

圖 4-9

圖 4-10

圖 4-11

圖 4-12

圖 4-13

圖 4-14

圖 4-15

研究流程

一般推薦系統的運作流程

推薦系統的架構

協同過濾運作機制

協同推薦的程序

根據共同評分的項目來做相似性計算

雲及雲的數字特徵

系統架構圖

代入參數畫面

計算uacm1的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時沒有加入共同評分所產生的結

ub在使用不同方法時沒有加入共同評分所產生的結

代入參數畫面

計算uacm2的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時有加入共同評分所產生的結果

ub在使用不同方法時有加入共同評分所產生的結果

代入參數畫面

計算uatrain的稀疏性執行畫面

代入參數畫面

7

11

13

17

18

20

23

24

35

35

36

36

38

39

40

40

41

41

44

44

45

46

46

x

圖 4-16

圖 4-17

圖 4-18

圖 4-19

圖 4-20

圖 4-21

圖 4-22

圖 4-23

圖 4-24

圖 4-25

圖 4-26

計算uas1 的稀疏性執行畫面

雲模型相似法代入參數畫面

修正過的餘弦相似法代入參數畫面

設定uas1cm2檔案

設定uas1adjcos2 檔案

代入參數畫面

計算uas1的MAE及涵蓋率執行畫面

ua不同方法的MAE及稀疏性程度的影響

ub不同方法的MAE及稀疏性程度的影響

ua不同方法的涵蓋率及稀疏性程度的影響

ub不同方法的涵蓋率及稀疏性程度的影響

46

47

47

48

48

49

49

51

52

54

55

- 1 -

第一章 緒論

近年來推薦系統(recommender system)受到許多國內外學者

的重視及研究由於推薦系統可以輔助企業個人化行銷創造更

多的利潤加上個人化服務的概念興起因此推薦系統開始逐

漸地吸引許多網路業者的注意本章節將針對研究背景動機

目的流程與架構進行相關的介紹

第一節 研究背景

隨著資訊科技不斷地進步及數位媒體的普及網際網路

(internet)與電子商務(electronic commerce EC)的蓬勃發展產生了

資訊爆炸造成「資料豐富但是資訊貧瘠(data rich but information

poor)」現象目前網際網路總頁數高達 21 億餘頁每天更以 700

萬頁以上的速度快速成長中預估未來全球網頁數將呈現爆炸性

的成長 (葉蕙棻 2003)由於大量的資訊產生的資訊過載

(information overloading)問題不但造成網路的壅塞同時也常讓

使用者收到許多不需要的資訊(蔣聖文2006)

目前一般所使用的搜尋方法大多以資訊檢索(information re-

trieval)與資訊過濾(information filtering)兩種技術為主其中資訊

檢索是使用者擁有特殊需求或目標時下達查詢命令例如輸

入關鍵字(key word)的方式從龐大的資料集中找出符合查詢命令

的文件並將其結果回傳這也是目前在網路上最常使用的方法

例如GoogleYahoo奇摩等搜尋引擎(search engine)等由於這

種方式所擷取出來的資訊往往包含許多不相關的資訊造成使

用者須花費許多時間逐一進行資訊的篩選以找出符合自身需求

的資訊雖然搜尋引擎提供使用者方便及快速的搜尋功能但其

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 5: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

vii

第二節 實驗環境與工具

第三節 實驗設計

第四節 執行結果

第五章 結論與建議

第一節 結論

第二節 未來研究方向

33

34

34

56

56

57

參考文獻 58

viii

表 目 錄

表1-1 電影片斷的評分矩陣 5

表4- 1 ua沒有加入共同評分產生的MAE結果 37

表4- 2

表4- 3

表4- 4

表4- 5

表4- 6

表4- 7

表4- 8

ub沒有加入共同評分產生的MAE結果

ua有加入共同評分產生的MAE結果

ub有加入共同評分產生的MAE結果

ua的MAE結果

ub的MAE結果

ua的涵蓋率結果

ub的涵蓋率結果

37

42

42

50

50

53

53

ix

圖 目 錄

圖 1-1

圖 2-1

圖 2-2

圖 2-3

圖 2-4

圖 2-5

圖 2-6

圖 3-1

圖 4-1

圖 4-2

圖 4-3

圖 4-4

圖 4-5

圖 4-6

圖 4-7

圖 4-8

圖 4-9

圖 4-10

圖 4-11

圖 4-12

圖 4-13

圖 4-14

圖 4-15

研究流程

一般推薦系統的運作流程

推薦系統的架構

協同過濾運作機制

協同推薦的程序

根據共同評分的項目來做相似性計算

雲及雲的數字特徵

系統架構圖

代入參數畫面

計算uacm1的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時沒有加入共同評分所產生的結

ub在使用不同方法時沒有加入共同評分所產生的結

代入參數畫面

計算uacm2的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時有加入共同評分所產生的結果

ub在使用不同方法時有加入共同評分所產生的結果

代入參數畫面

計算uatrain的稀疏性執行畫面

代入參數畫面

7

11

13

17

18

20

23

24

35

35

36

36

38

39

40

40

41

41

44

44

45

46

46

x

圖 4-16

圖 4-17

圖 4-18

圖 4-19

圖 4-20

圖 4-21

圖 4-22

圖 4-23

圖 4-24

圖 4-25

圖 4-26

計算uas1 的稀疏性執行畫面

雲模型相似法代入參數畫面

修正過的餘弦相似法代入參數畫面

設定uas1cm2檔案

設定uas1adjcos2 檔案

代入參數畫面

計算uas1的MAE及涵蓋率執行畫面

ua不同方法的MAE及稀疏性程度的影響

ub不同方法的MAE及稀疏性程度的影響

ua不同方法的涵蓋率及稀疏性程度的影響

ub不同方法的涵蓋率及稀疏性程度的影響

46

47

47

48

48

49

49

51

52

54

55

- 1 -

第一章 緒論

近年來推薦系統(recommender system)受到許多國內外學者

的重視及研究由於推薦系統可以輔助企業個人化行銷創造更

多的利潤加上個人化服務的概念興起因此推薦系統開始逐

漸地吸引許多網路業者的注意本章節將針對研究背景動機

目的流程與架構進行相關的介紹

第一節 研究背景

隨著資訊科技不斷地進步及數位媒體的普及網際網路

(internet)與電子商務(electronic commerce EC)的蓬勃發展產生了

資訊爆炸造成「資料豐富但是資訊貧瘠(data rich but information

poor)」現象目前網際網路總頁數高達 21 億餘頁每天更以 700

萬頁以上的速度快速成長中預估未來全球網頁數將呈現爆炸性

的成長 (葉蕙棻 2003)由於大量的資訊產生的資訊過載

(information overloading)問題不但造成網路的壅塞同時也常讓

使用者收到許多不需要的資訊(蔣聖文2006)

目前一般所使用的搜尋方法大多以資訊檢索(information re-

trieval)與資訊過濾(information filtering)兩種技術為主其中資訊

檢索是使用者擁有特殊需求或目標時下達查詢命令例如輸

入關鍵字(key word)的方式從龐大的資料集中找出符合查詢命令

的文件並將其結果回傳這也是目前在網路上最常使用的方法

例如GoogleYahoo奇摩等搜尋引擎(search engine)等由於這

種方式所擷取出來的資訊往往包含許多不相關的資訊造成使

用者須花費許多時間逐一進行資訊的篩選以找出符合自身需求

的資訊雖然搜尋引擎提供使用者方便及快速的搜尋功能但其

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 6: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

viii

表 目 錄

表1-1 電影片斷的評分矩陣 5

表4- 1 ua沒有加入共同評分產生的MAE結果 37

表4- 2

表4- 3

表4- 4

表4- 5

表4- 6

表4- 7

表4- 8

ub沒有加入共同評分產生的MAE結果

ua有加入共同評分產生的MAE結果

ub有加入共同評分產生的MAE結果

ua的MAE結果

ub的MAE結果

ua的涵蓋率結果

ub的涵蓋率結果

37

42

42

50

50

53

53

ix

圖 目 錄

圖 1-1

圖 2-1

圖 2-2

圖 2-3

圖 2-4

圖 2-5

圖 2-6

圖 3-1

圖 4-1

圖 4-2

圖 4-3

圖 4-4

圖 4-5

圖 4-6

圖 4-7

圖 4-8

圖 4-9

圖 4-10

圖 4-11

圖 4-12

圖 4-13

圖 4-14

圖 4-15

研究流程

一般推薦系統的運作流程

推薦系統的架構

協同過濾運作機制

協同推薦的程序

根據共同評分的項目來做相似性計算

雲及雲的數字特徵

系統架構圖

代入參數畫面

計算uacm1的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時沒有加入共同評分所產生的結

ub在使用不同方法時沒有加入共同評分所產生的結

代入參數畫面

計算uacm2的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時有加入共同評分所產生的結果

ub在使用不同方法時有加入共同評分所產生的結果

代入參數畫面

計算uatrain的稀疏性執行畫面

代入參數畫面

7

11

13

17

18

20

23

24

35

35

36

36

38

39

40

40

41

41

44

44

45

46

46

x

圖 4-16

圖 4-17

圖 4-18

圖 4-19

圖 4-20

圖 4-21

圖 4-22

圖 4-23

圖 4-24

圖 4-25

圖 4-26

計算uas1 的稀疏性執行畫面

雲模型相似法代入參數畫面

修正過的餘弦相似法代入參數畫面

設定uas1cm2檔案

設定uas1adjcos2 檔案

代入參數畫面

計算uas1的MAE及涵蓋率執行畫面

ua不同方法的MAE及稀疏性程度的影響

ub不同方法的MAE及稀疏性程度的影響

ua不同方法的涵蓋率及稀疏性程度的影響

ub不同方法的涵蓋率及稀疏性程度的影響

46

47

47

48

48

49

49

51

52

54

55

- 1 -

第一章 緒論

近年來推薦系統(recommender system)受到許多國內外學者

的重視及研究由於推薦系統可以輔助企業個人化行銷創造更

多的利潤加上個人化服務的概念興起因此推薦系統開始逐

漸地吸引許多網路業者的注意本章節將針對研究背景動機

目的流程與架構進行相關的介紹

第一節 研究背景

隨著資訊科技不斷地進步及數位媒體的普及網際網路

(internet)與電子商務(electronic commerce EC)的蓬勃發展產生了

資訊爆炸造成「資料豐富但是資訊貧瘠(data rich but information

poor)」現象目前網際網路總頁數高達 21 億餘頁每天更以 700

萬頁以上的速度快速成長中預估未來全球網頁數將呈現爆炸性

的成長 (葉蕙棻 2003)由於大量的資訊產生的資訊過載

(information overloading)問題不但造成網路的壅塞同時也常讓

使用者收到許多不需要的資訊(蔣聖文2006)

目前一般所使用的搜尋方法大多以資訊檢索(information re-

trieval)與資訊過濾(information filtering)兩種技術為主其中資訊

檢索是使用者擁有特殊需求或目標時下達查詢命令例如輸

入關鍵字(key word)的方式從龐大的資料集中找出符合查詢命令

的文件並將其結果回傳這也是目前在網路上最常使用的方法

例如GoogleYahoo奇摩等搜尋引擎(search engine)等由於這

種方式所擷取出來的資訊往往包含許多不相關的資訊造成使

用者須花費許多時間逐一進行資訊的篩選以找出符合自身需求

的資訊雖然搜尋引擎提供使用者方便及快速的搜尋功能但其

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 7: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

ix

圖 目 錄

圖 1-1

圖 2-1

圖 2-2

圖 2-3

圖 2-4

圖 2-5

圖 2-6

圖 3-1

圖 4-1

圖 4-2

圖 4-3

圖 4-4

圖 4-5

圖 4-6

圖 4-7

圖 4-8

圖 4-9

圖 4-10

圖 4-11

圖 4-12

圖 4-13

圖 4-14

圖 4-15

研究流程

一般推薦系統的運作流程

推薦系統的架構

協同過濾運作機制

協同推薦的程序

根據共同評分的項目來做相似性計算

雲及雲的數字特徵

系統架構圖

代入參數畫面

計算uacm1的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時沒有加入共同評分所產生的結

ub在使用不同方法時沒有加入共同評分所產生的結

代入參數畫面

計算uacm2的執行畫面

代入參數畫面

計算uacm1的MAE執行畫面

ua在使用不同方法時有加入共同評分所產生的結果

ub在使用不同方法時有加入共同評分所產生的結果

代入參數畫面

計算uatrain的稀疏性執行畫面

代入參數畫面

7

11

13

17

18

20

23

24

35

35

36

36

38

39

40

40

41

41

44

44

45

46

46

x

圖 4-16

圖 4-17

圖 4-18

圖 4-19

圖 4-20

圖 4-21

圖 4-22

圖 4-23

圖 4-24

圖 4-25

圖 4-26

計算uas1 的稀疏性執行畫面

雲模型相似法代入參數畫面

修正過的餘弦相似法代入參數畫面

設定uas1cm2檔案

設定uas1adjcos2 檔案

代入參數畫面

計算uas1的MAE及涵蓋率執行畫面

ua不同方法的MAE及稀疏性程度的影響

ub不同方法的MAE及稀疏性程度的影響

ua不同方法的涵蓋率及稀疏性程度的影響

ub不同方法的涵蓋率及稀疏性程度的影響

46

47

47

48

48

49

49

51

52

54

55

- 1 -

第一章 緒論

近年來推薦系統(recommender system)受到許多國內外學者

的重視及研究由於推薦系統可以輔助企業個人化行銷創造更

多的利潤加上個人化服務的概念興起因此推薦系統開始逐

漸地吸引許多網路業者的注意本章節將針對研究背景動機

目的流程與架構進行相關的介紹

第一節 研究背景

隨著資訊科技不斷地進步及數位媒體的普及網際網路

(internet)與電子商務(electronic commerce EC)的蓬勃發展產生了

資訊爆炸造成「資料豐富但是資訊貧瘠(data rich but information

poor)」現象目前網際網路總頁數高達 21 億餘頁每天更以 700

萬頁以上的速度快速成長中預估未來全球網頁數將呈現爆炸性

的成長 (葉蕙棻 2003)由於大量的資訊產生的資訊過載

(information overloading)問題不但造成網路的壅塞同時也常讓

使用者收到許多不需要的資訊(蔣聖文2006)

目前一般所使用的搜尋方法大多以資訊檢索(information re-

trieval)與資訊過濾(information filtering)兩種技術為主其中資訊

檢索是使用者擁有特殊需求或目標時下達查詢命令例如輸

入關鍵字(key word)的方式從龐大的資料集中找出符合查詢命令

的文件並將其結果回傳這也是目前在網路上最常使用的方法

例如GoogleYahoo奇摩等搜尋引擎(search engine)等由於這

種方式所擷取出來的資訊往往包含許多不相關的資訊造成使

用者須花費許多時間逐一進行資訊的篩選以找出符合自身需求

的資訊雖然搜尋引擎提供使用者方便及快速的搜尋功能但其

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 8: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

x

圖 4-16

圖 4-17

圖 4-18

圖 4-19

圖 4-20

圖 4-21

圖 4-22

圖 4-23

圖 4-24

圖 4-25

圖 4-26

計算uas1 的稀疏性執行畫面

雲模型相似法代入參數畫面

修正過的餘弦相似法代入參數畫面

設定uas1cm2檔案

設定uas1adjcos2 檔案

代入參數畫面

計算uas1的MAE及涵蓋率執行畫面

ua不同方法的MAE及稀疏性程度的影響

ub不同方法的MAE及稀疏性程度的影響

ua不同方法的涵蓋率及稀疏性程度的影響

ub不同方法的涵蓋率及稀疏性程度的影響

46

47

47

48

48

49

49

51

52

54

55

- 1 -

第一章 緒論

近年來推薦系統(recommender system)受到許多國內外學者

的重視及研究由於推薦系統可以輔助企業個人化行銷創造更

多的利潤加上個人化服務的概念興起因此推薦系統開始逐

漸地吸引許多網路業者的注意本章節將針對研究背景動機

目的流程與架構進行相關的介紹

第一節 研究背景

隨著資訊科技不斷地進步及數位媒體的普及網際網路

(internet)與電子商務(electronic commerce EC)的蓬勃發展產生了

資訊爆炸造成「資料豐富但是資訊貧瘠(data rich but information

poor)」現象目前網際網路總頁數高達 21 億餘頁每天更以 700

萬頁以上的速度快速成長中預估未來全球網頁數將呈現爆炸性

的成長 (葉蕙棻 2003)由於大量的資訊產生的資訊過載

(information overloading)問題不但造成網路的壅塞同時也常讓

使用者收到許多不需要的資訊(蔣聖文2006)

目前一般所使用的搜尋方法大多以資訊檢索(information re-

trieval)與資訊過濾(information filtering)兩種技術為主其中資訊

檢索是使用者擁有特殊需求或目標時下達查詢命令例如輸

入關鍵字(key word)的方式從龐大的資料集中找出符合查詢命令

的文件並將其結果回傳這也是目前在網路上最常使用的方法

例如GoogleYahoo奇摩等搜尋引擎(search engine)等由於這

種方式所擷取出來的資訊往往包含許多不相關的資訊造成使

用者須花費許多時間逐一進行資訊的篩選以找出符合自身需求

的資訊雖然搜尋引擎提供使用者方便及快速的搜尋功能但其

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 9: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 1 -

第一章 緒論

近年來推薦系統(recommender system)受到許多國內外學者

的重視及研究由於推薦系統可以輔助企業個人化行銷創造更

多的利潤加上個人化服務的概念興起因此推薦系統開始逐

漸地吸引許多網路業者的注意本章節將針對研究背景動機

目的流程與架構進行相關的介紹

第一節 研究背景

隨著資訊科技不斷地進步及數位媒體的普及網際網路

(internet)與電子商務(electronic commerce EC)的蓬勃發展產生了

資訊爆炸造成「資料豐富但是資訊貧瘠(data rich but information

poor)」現象目前網際網路總頁數高達 21 億餘頁每天更以 700

萬頁以上的速度快速成長中預估未來全球網頁數將呈現爆炸性

的成長 (葉蕙棻 2003)由於大量的資訊產生的資訊過載

(information overloading)問題不但造成網路的壅塞同時也常讓

使用者收到許多不需要的資訊(蔣聖文2006)

目前一般所使用的搜尋方法大多以資訊檢索(information re-

trieval)與資訊過濾(information filtering)兩種技術為主其中資訊

檢索是使用者擁有特殊需求或目標時下達查詢命令例如輸

入關鍵字(key word)的方式從龐大的資料集中找出符合查詢命令

的文件並將其結果回傳這也是目前在網路上最常使用的方法

例如GoogleYahoo奇摩等搜尋引擎(search engine)等由於這

種方式所擷取出來的資訊往往包含許多不相關的資訊造成使

用者須花費許多時間逐一進行資訊的篩選以找出符合自身需求

的資訊雖然搜尋引擎提供使用者方便及快速的搜尋功能但其

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 10: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 2 -

搜尋的精確度(precision表示使用搜尋引擎所找到的資訊內容為

使用者ldquo感興趣rdquo的比例)卻不準確

換言之使用者欲想得到真正想要的資訊則必須逐一檢視

並確認所有網頁回傳的資訊例如Yahoo奇摩網站除搜尋引擎

的功能也使用階層式分類結構(hierarchical classify structure)組織

系統蒐集的網頁資料使用者利用由上而下(top to down)的瀏覽方

式找尋相關的資訊雖然精確度相當高但是喚回率(recall表示

使用搜尋引擎所找到的資訊內容為使用者所感興趣的資訊rdquo被找

到rdquo的比例)較為低

由於資訊檢索方法最大的特性就是必須由使用者主動的要求

資訊並協助找出有興趣或有需求的相關資訊但在現實生活中

使用者並非有足夠的時間能主動的提出資訊的要求反而是期望

被動的接收系統所提供的資訊

資訊過濾是另一種可減緩資訊超載問題的有效工具主要運

作是藉由分析使用者的期望來獲取其偏好或興趣進而過濾或篩

選出使用者所需的資訊因此為了擇其優點以補足缺點近年

來許多學者也將研究焦點著重於資訊的存取與個人化推薦

(personalization recommendation)

搜尋引擎可以解決部分資訊過載的問題但當使用者使用搜

尋引擎時回傳的結果幾乎是幾十筆以上甚至上百筆的資料使

用者常常必需要逐一的瀏覽才能找到需要的資訊甚至有時候會

有使用者不知道有某項資源存在的情形發生因此其他使用者

的推薦就顯得格外重要

由於現代人生活的步調緊湊加上網路購物的方便性與隱私

性越來越多消費者選擇上網購物因此網路購物已成為現在

生活中不可或缺的消費行為尤其在網路購物的環境中對消費

者而言資訊的可用性是非常重要的例如網路購物中許多高

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 11: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 3 -

單價的電子產品如手機相機筆記型電腦hellip等正因為消費

者無法親眼見到與操作實品的情況下容易造成消費者必須承擔

許多很高的風險因此消費者更需要一些額外的外部資訊來輔

助其購買決策例如客觀性的消費者對產品使用過的評價經

驗或推薦相信這些推薦的資訊也是幫助消費者在購買產品時一

個非常重要的參考來源

越來越多的網路業者看準商機也紛紛開始採用推薦系統的

自動化機制藉由與使用者的互動及學習使用者的興趣進而提

供符合使用者需求的產品或資訊做為決策的參考指標

第二節 研究動機

目前常見的搜尋引擎較側重於單個檢索查詢相比之下推

薦系統(recommendation system)經由學習使用者的興趣來建立使

用者輪廓偏好資料(user profile)藉以協助使用者尋找資訊透過

推薦系統的方式自動地瀏覽大量的商品(article)及清單再根據使

用者喜好的口味以推薦其感興趣的商品

協同過濾 (Herlocker Konstan Borchers andRiedl 1999

Konstan Miller Maltz HerlockerGordon and Riedl 1997)是推薦系

統中使用最廣泛及效率的方法協同過濾演算法的主要想法是利

用人與人之間互相推薦的ldquo口碑rdquo(word-of-mouth)過程自動化對

每一個使用者協同過濾演算法利用舊有的資訊藉由分析鄰居的

方式來確認鄰居在過去有的相似性行為以及預測他們較感興趣

的項目雖然協同過濾演算法成功應用在多種層面但會遇到兩

個主要的問題稀疏性及可擴充性(Adomavicius and Tuzhilin 2005

Burke 2002)

如果相似的鄰居之間的共同評分資料太少時會容易產生資

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 12: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 4 -

料稀疏的問題因此稀少的評分資料是造成推薦品質變差的主

要原因有幾位學者提出的研究方法可以解決這個問題例如

Billsus and Pazzani (1998)用奇異值分解法(singular value decompo-

sitionSVD)去除掉非典型的使用者或項目來減少評分資料的維數

Ziegler Lausen and Schmidt-Thieme (2004)將分類的資訊合併在

一起納入協同過濾演算法使得在少數的評分資料中會比較容易

推斷出相似輪廓的數據圖Piccart Struyfy and Blockeelz (2010)將

所得到的評分資料藉由公式的轉換產生代表的順序來解決資

料稀疏的問題相較之下Hwang and Chen (2007)則認為將網路

上所有進行過評分的使用者的評分資料找出它們的相似性

缺乏可擴充性是現存的協同過濾系統普遍存在的問題之一

由於協同過濾演算法的計算複雜且使用者人數以及項目數量的以

非線性成長使得擴充性差的協同過濾演算法無法即時有效率的

展現效果因此許多學者開始試圖找出可以解決可擴充性的問

題例如Sarwar Karypis Konstan and Riedl (2002)發展出一套增

加的奇異值分解協同過濾演算法就是當資料庫有新的資料加進

來時利用摺疊式投影技術推導出奇異值分解Linden Smith and

York (2003)利用計算項目之間的關係而不是使用者之間的關係來

減少可擴充性的問題Hwang and Tsai (2005)則是利用小群集推薦

及高相似群組的模型基礎來解決

Zhang Li Li Kangand Chen(2007)Luo and Yuxi (2009)主張

將雲模型的效果加入協同過濾的處理雲模型協同過濾法是利用

雲特徵向量來表示整體的使用者的喜好來解決稀疏性及可擴充性

的問題李德毅孟海軍史雪梅(1995)提出了用雲模型作為不確

定性知識的定性定量轉換的數學模型經過近幾年的研究及發展

目前雲模型已成功應用於智慧型代理人資料採礦大系統評估

等領域

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 13: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 5 -

同時Zhang et al (2007)認為雲模型這個方法可以減少資料的

維數還可以避免在相似計算時候屬性匹配然而本研究發現

在較差的推薦品質中利用整體的使用者的喜好來做相似計算可能

會失去一些個人評分及相應結果的資訊

表 1-1 表示使用者 ABC 對 10 個電影片斷的評分試圖

假設利用 1-NN 方法預測使用者 A 對第 6 個電影片斷的評分以

使用者為基礎的協同過濾法會選擇使用者C並給予預測評分為5

相照之下雲模型協同過濾法會選擇使用者 B 並給予預測評分為

2即便是 A 和 B 之間沒有共同的評分項目由於這兩種預測方

法的差異在於使用不同的相似計算方法傳統的協同過濾相似法

假設兩個使用者沒有評分到共同的項目就沒有辦法使用雖然雲

模型可以增加預測的範圍但也有可能因此降低了其準確性

表1-1 電影片斷的評分矩陣

項目

使用者 1 2 3 4 5 6 7 8 9 10

A 4 3 5 1 2 - - - -

B - - - - - 2 1 3 5 4

C 4 3 5 1 2 5 - - - -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏時較為穩定本研究將

使用這兩種方法來定義以及統一預測的方法並且評估及比較各

種不同相似法的預測範圍及準確性

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 14: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 6 -

第三節 研究目的

本研究之研究主題是基於協同過濾和雲模型的混合式推薦系

統之研究故研究的目的如下

一建立一個混合式機制模型

二探討混合式的推薦系統在推薦系統中的適用性

三比較混合式的推薦系統是否能改善稀疏性的問題及預測的品

第四節 研究對象

本研究將採用由美國明尼蘇達大學(university of minnesota)電

腦科學與工程學系(the department of computer science and engi-

neering)的 GroupLens 研究小組特別針對研究用途所提供之

MovieLens 網站(httpmovielensumnedulogin)的電影評分資料

做為本研究之實驗資料其中使用者為該網站的會員商品評

分資料為會員針對所看過的電影所進行的評分

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 15: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 7 -

第五節 研究流程

圖 1-1 為本論文的研究流程首先依據研究的動機與目的探

討相關的文獻以設計系統的架構並蒐集所需要的資料待系

統架構與設計完成再進行實驗的部分最後根據系統推薦的結果

進行分析以評估檢討並提出未來發展的建議

圖 1-1 研究流程

研究動機與目的

文獻探討

系統架構與設計

系統實驗

結論與未來研究方向

資料集 修正系統架構

系統評估

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 16: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 8 -

第六節 研究架構

本研究共分五章以下將各章內容簡述如下

第一章 緒論

本章說明本研究之研究背景動機目的對象流程和研

究架構

第二章 文獻探討

此章針對本研究相關之推薦系統協同過濾雲模型等國內

外文獻作一整理與探討

第三章 研究方法

本章針對本研究的研究架構研究設計作一說明

第四章 系統實驗與結果評估分析

此章針對資料集的資料處理不同方法對稀疏性程度的成效

分析並做圖表展示

第五章 結論與建議

本章首先根據資料分析結果提出本研究之結論接著針對

未來研究方向提出說明

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 17: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 9 -

第二章 文獻探討

本文獻探討共分為四個章節第一節針對資訊檢索與搜尋引

擎的概念進行介紹第二節將介紹推薦系統內容包括其定義

相關技術等第三節介紹協同過濾內容包括其介紹運作機制

與程序運作機制與程序演算法根據項目的角度以及限制之

概念第四節與第五節分別介紹雲模型以及混合式的協同過濾法

針對其相關研究之整理介紹

第一節 資訊檢索與搜尋引擎

使用者常透過資訊檢索與搜尋引擎兩種方式來瞭解自己的需

求並找尋自己所需要的資訊資訊檢索是指從一個資訊集合中

依照查詢挑選出最適當的資訊子集合並加以排序(趙金宏2007)

資訊檢索主要是針對文字的處理現代的資訊也包含了圖片聲

音及影像等比較常見的文字資訊檢索技術如布林模型(boolean

model)機率模型(probabilistic model)及向量空間模型(vector space

model)等其目的在於比較兩個文件之間的相似度利用這些模型

可以將使用者查詢視為一個文件藉由計算使用者查詢和文件集

合中的相似度就可以依照使用者查詢對整個文件集合做排序

以達成資訊檢索的目的

搜尋引擎其目的是依照使用者查詢在網際網路上找到適合的

網頁並且依照網頁與查詢的相似度排序最後回傳給使用者(趙

金宏2007)

資訊檢索與搜尋引擎的差異在於前者必須先準備一個文件

集合使用者下達查詢時系統依據查詢從文件集合中挑選適當

的文件由於搜尋引擎所處理的資料散佈於網際網路隨時都會

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 18: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 10 -

有增減的情形因此當使用者下達查詢時才會開始尋找合適的資

料處理時間非常耗時故搜尋引擎必須時常將網際網路做內容

擷取與建立索引的步驟並儲存其資料庫待使用者下達查詢時

搜尋引擎只需使用資料庫即可有效縮短查詢處理的時間(趙金宏

2007)

第二節 推薦系統

一推薦系統的定義

推薦系統近來引起大量研究的關切推薦系統係指學習

使用者的興趣來建立使用者輪廓(user profile)偏好資料藉以

協助找尋資訊Lin(2000)認為推薦系統是透過自動地瀏覽大

量的商品(article)並根據使用者口味推薦其可能感興趣的商

品例如書籍音樂電影網頁以及餐廳等已成為現今

相關的應用領域Adomavicius et al(2005)歸納出其目的為

(一)幫助使用者應付資訊過載

(二)提供個人化的推薦內容和服務

(三)降低使用者搜尋成本

(四)讓企業與使用者有良好互動

二推薦系統的運作流程

一般推薦系統的運作流程可分為三個主要步驟步驟一

先收集與建立使用者資料並加以統計與分析步驟二依

據步驟一的結果進行推薦步驟三針對使用者推薦的喜好

回饋給系統以更新使用者的偏好資料(邱永祥2003)關於

推薦系統的運作流程如圖 2-1 所示

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 19: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 11 -

圖2-1 一般推薦系統的運作流程

資料來源邱永祥(2003)運用類神經網路與資料探勘技術於網路

教學課程推薦之研究朝陽科技大學資訊管理研究所未

出版之碩士論文

三推薦系統的架構

Schafer Konstan and Riedl (2001)提出一個推薦系統運作

的架構圖2-2 說明了由輸入到輸出推薦給消費者的架構並

回饋其所推薦的結果為未來推薦的輸入考量Schafer將輸入

分為目標消費者的輸入(target customer inputs)與一般社群的

輸入(community inputs)

目標消費者的輸入指的是使用者興趣的輸入依據使用

者所傾向的活動或長期的偏好取得資訊包括隱性瀏覽

(explicit navigation)顯性瀏覽(implicit navigation)關鍵字

項目(keywordsitem)屬性(attributes)評分(rating)以及購買

歷史(purchase history)記錄由使用者留下來的資訊代表使

用者的興趣以及對商品的喜好可推測出使用者真正的興

一般社群的輸入指的是大部分的使用者對商品的喜好

可藉此反映出意見與建議主要是取得商品的屬性資訊包

收集使用者資料建

立使用者輪廓資料

依據使用者輪廓資

料來作推薦

將使用者對於推薦

的喜好回饋給系統

回饋

更新

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 20: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 12 -

括項目屬性(item attribute)額外項目屬性(external item

popularity)流行(popularity)事物購買歷史(purchase history)

紀錄評分及文字評論(text comments)

處理指的是推薦系統所使用到的技術方法包括原始

資料(raw Retrieval)人工推薦(human recommenders)統計的

摘 要 (statistical summaries) 屬 性 為 主 的 推 薦 技 術

(attribute-based recommendation technology)項目之間的相關

性(item-to-item correlation)及使用者之間的相關性(user-to-user

correlation)

推薦系統的輸出可分為建議(suggestion)預測(prediction)

評分及評論(reviews)其中「建議」是提供使用者一個為排

序過的推薦清單找出是否有喜好的商品避免前幾個推薦

不滿意使得後面的也不被參考「預測」則是透過推測使用

者的喜好度提供使用者可能的評分

輸出是針對傳送方式(delivery)與個人化程度(degree of

personalization)加以分類Schafer認為在電子商務推薦系統中

適當地傳送推薦資訊相當重要傳遞方式包括主動送出

(push)由於消費者與業者的互動性不高時業者寄送的E-mail

則常會被當作廣告信造成使用者反感等候選取(pull)是

由使用者選擇與控制是否顯示推薦較不容易引起消費者興

趣被動產生(passive)是當消費者已選取某些商品時可作

即時的推薦個人化程度包括無個人化短暫的個人化以

及持久的個人化

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 21: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 13 -

圖 2-2 推薦系統的架構

資料來源J B Schafer J A Konstan ampJ Riedl(2001) E-Commerce

recommendation applicationsData Mining and Knowledge

Discovery 5(1-2) 123-124

四推薦系統的優點

推薦系統依據使用者的偏好興趣行為等需求推薦

出適合使用者所需求的潛在資訊服務或產品(Lam 2002)

若企業將推薦系統整合至營運架構更可為企業帶來許多的

潛在利益如商家透過推薦系統藉由取得顧客過去的購買

或瀏覽記錄分析判斷使用者的偏好行為以便未來做為推

薦預測的參考進而刺激使用者進行消費以增加銷售的機

會(吳志宏2004)目前成功運用推薦機制於銷售上的實例

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 22: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 14 -

包括

(一)Amazoncom

其書籍CDhellip等產品透過顧客的消費紀錄進行分

析當顧客瀏覽到某一項商品時系統將會根據這些消費

紀錄進行推薦其他相關的商品資訊

(二)CDNowcom

依據使用者所查詢的資訊及對專輯的評分進行相關

音樂的推薦加上系統的回饋機制讓使用者表達推薦系

統的成效進而改善系統

Schafer(2000)認為推薦系統可替企業帶來的優勢分別

(一)將瀏覽者變成購買者(converting browsers into buyers)

傳統電子商務網站無法有效進行「一對一行銷」而

推薦系統提供高度個人化的服務並依據使用者的偏好或

興趣提供喜愛的資訊服務或潛在資訊刺激使用者的消

費慾望以提高購買機率甚至成為購買者

(二)增加交叉銷售(increasing cross-sell)

推薦系統可透過對使用者推薦額外的產品來產生交

叉銷售的效益亦可利用「購物車分析」發掘商品間

的關係進而將常被同時購買的商品進行交叉銷售以

提高整體銷售額同時又能符合使用者的需求減少搜

尋商品的成本

(三)提高顧客忠誠度(building loyalty)

透過推薦系統能有效及準確的推薦使用者所喜好商

品可以改善企業與消費者的關係透過與使用者良好

的互動關係以了解使用者的需求進而推薦所需的產

品由於使用者會將所喜愛的資訊回饋於系統中彼此

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 23: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 15 -

產生獨特的依賴性因而提高顧客對於企業的形象以及

忠誠度亦可降低顧客流失率

第三節 協同過濾

協同過濾(collaborative recommendation)是近期較廣泛應用的

一項成功的個人化推薦技術

一協同過濾介紹

將日常生活中朋友間相互推薦的「口碑效應」自動化

的過程透過使用者對商品過去的評分資訊或購買紀錄找

出與本身口味喜好相近的鄰居並以此鄰居推薦使用者所喜

好商品項目做為給未接觸過該商品項目的使用者資訊的依

據例如GroupLens是基於使用者評分的自動化的協同過濾

推薦系統蔡佩蓉(2005)協同過濾就是根據已知的資料來預測

未知的資料

為了計算兩個使用者之間的相似程度Resnick Iavovou

Suchak Bergstrom and Riedl(1994)提出了使用相關係數來計

算相關程度的公式而最近k個鄰居演算法(k-nearest neighbor

algorithms)則最常被應用來尋找前k個偏好相似的使用者透

過這些使用者的興趣來推薦該使用者相關的商品與資訊

二協同過濾運作機制與程序

Akinyele (1999)認為協同過濾背後運作的機制有以下四

(一)收集大量使用者喜好資訊來構成喜好輪廓資料

(二)在子群體中尋找與自己最相似的群體並找出該群體建議

集合

(三)計算該群體中建議集合的權重

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 24: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 16 -

(四)產生推薦給尚未使用過該資訊或項目的使用者

Sarwar etal(2000)將協同過濾推薦分為三個部分如圖

2-3 所示

(一)輸入資料的呈現(representation of input data)

將使用者過去使用紀錄或是評分分數與推薦項目形

成 mn 的矩陣透過此矩陣套用相關演算法來進行下一

步驟的過程

(二)鄰居的形成(neighborhood formation)

經由相關演算法來找出使用者彼此之間口味最相近

的鄰居通常採用前 N 個最相似鄰居策略來達成而這

些鄰居也就是產生推薦的主要依據

(三)推薦的產生(recommendation generation)

推薦產生方式主要分為大量的頻繁項目集

(most-frequent items)和關聯規則(association)兩種基本形

成方式大量的頻繁項目集主要是針對推薦群體N的每位

鄰居掃描計算出群體N中最常購買的產品或是藉由關

聯規則找出經常同時出現的產品組合來作為推薦的資

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 25: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 17 -

圖 2-3 協同過濾運作機制

資料來源B Sarwar G Karypis J Konstan and JRiedl (2000)

Analysis of recommender algorithms for E-Commerce

In ACM (Eds) Proceedings of the second ACM

E-Commerce Conference MinneapolisIBM Institute

for Advanced Commerce161

Sarwar Karypis Konstan and Riedl (2001)將協同過濾演

算法的輸入視為評分資料表該資料表屬於一個mn的使用者

-商品項目矩陣其中Raj表示該資料表中第a位使用者對第j

項商品項目的評分如圖2-4所示接著透過協同過濾演算

法得到預測與推薦預測為一個數值表示使用者ua可能對商

品項目ij的喜愛性以Paj表示Ti1Ti2hellipTiN為推薦N個項

目的清單是使用者ua可能比較喜歡的商品項目這些商品項

目都必須是使用者ua尚未購買或尚未使用過的該介面在協同

過濾演算法中稱為前N項熱門推薦(top-N recommendation)

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 26: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 18 -

圖 2-4 協同推薦的程序

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong 288

三協同過濾演算法

Breese Heckerman and Kadie(1998)將協同過濾的演算法

歸納為兩類

(一)根據記憶範圍(memory-based)的演算法

即在進行推薦時須計算分析使用者歷史記錄以找

出與使用者偏好相似的鄰近族群(吳志宏2004)用來計

算分數權重的方式有相關性 (correlation)向量相似性

(cosine similarity)等一般傳統的協同過濾演算法

Item-based 協同過濾方法等都屬此類其中最常使用的方

法為 Pedrycz and Gomide(1998)Shardanand andMaes

(1995)所提出的最近鄰居演算法(nearest neighbors)

(二)根據模型(model-based)的演算法

主要是將使用者歷史記錄透過統計方法或機器學習

方法來建構出使用者偏好模型進而利用此一偏好模型來

產生推薦(吳志宏2004)用來計算機率的模型由Breese et

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 27: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 19 -

al(1998)提出兩種以機率方式進行預測分別為叢集模

型(cluster models)貝氏網路模型(bayesian networks)等

無論哪種方法都是透過使用者評分的歷史紀錄去找

出使用者之間的相似性來做預測

四協同過濾技術

Karypis (2001)依據協同過濾技術所使用之事物關連性

將其區分為以下二種類別

(一)user-based協同過濾

假設人與人之間的行為具某種程度的相似性即購

買行為類似的顧客會購買相類似的產品(吳志宏2004)

例如GroupLens用於推薦影片和新聞

(二 )item-based協同過濾 (Sarwar Karypis KonstanandRiedl

2001)

假設項目與項目間具有某種程度的關連即顧客在購

買時其所購買的產品通常具有關連性(吳志宏2004)

例如顧客在購買數位相機時通常會另外加購電池及記

憶卡

五根據項目的角度

Sarwar Karypis and Konstan(2001)提到藉由項目的角度

來實作協同過濾推薦系統的演算法其主要的想法是將原本

協同過濾中以使用者的角度來找出偏好相似的使用者反

轉成以商品項目的角度來找出偏好相似的項目

圖2-5是利用共同評分的項目來做相似性計算使用者u

對商品項目i做評分並找出也做過評分的商品項目j來計算距

離相似性其中商品項目i與商品項目j做過評分的共同使用

者包括使用者1使用者u以及使用者m-1根據這些項目來做

距離相似性的運算

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 28: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 20 -

圖 2-5 根據共同評分的項目來做相似性計算

資料來源B Sarwar G Karypis J Konstan amp J Riedl (2001)

Item-based collaborative filtering recommendation algo-

rithms In WWW10(Eds) In Proc 10th International

World Wide Web Conference Hong Kong the Chinese

University of Hong Kong289

六協同過濾的限制

雖然協同過濾的推薦是一套成功以及被廣泛應用的機制

但是仍然存在著一些限制Sarwar et al(2000)認為有三項

主要的限制

(一)稀疏性(sparsity)

使用者及商品數量龐大但消費紀錄或評分資料過少

在大型系統中難計算彼此的相似性無法產生準確的資

(二)可擴充性(scalability)

當系統成長到一定程度所需的計算複雜度相對提高

對於系統是否能即時性產生推薦具有重大關係

商品項目之間相似度的運

算僅考量共同評分的項目

其中商品項目 i 與商品項目

j 的相似度 sij乃根據對這些項

目有共同評分的使用者做計

註這些成對的共同評分使用

者指的是使用者 1u 以及

m-1

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 29: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 21 -

(三)同義(synonymy)

同商品卻具有不同名稱系統無法分析內容資訊無

從得知兩者屬相同的商品反而視為不相似的關係

第四節 雲模型協同過濾系統

雲模型是由李德毅(2007)在模糊數學理論和概率論兩者交互

的基礎之上通過特定的結構算法所形成的定性概念與其定量表

示之間的轉換模型雲模型不但反映了自然語言中概念的不確定

性而且反映了隨機性和模糊性之間的關聯性

一雲模型的產生背景

近年來許多研究對ldquo不確定性rdquo(uncertainty)的定義有

著不同的解釋付斌李道國王慕快(2011)概率論是從隨機

性的角度出發研究不確定性使得人們可以用數學的方法研

究隨機性將隨機性用概率予以量化表示借助於隨機變量

的分布函數便可研究隨機現象的全部統計特徵

隨機性和模糊性有密不可分的關聯性在人工智慧的研究

中常將隨機性與模糊性分別進行研究付斌李道國王慕快

(2011)模糊集合論中利用統計的方法或是主觀定義而得到的隸

屬函數即可捨棄不確定性的特徵

李德毅(2007)針對模糊集理論基石的隸屬函數提出了隸

屬雲的新思想給出了用數字特徵描述隸屬雲的方法和正態

隸屬雲的數字模型探討了隸屬雲發生器的實現技術及應用

場合從而為社會和自然科學的諸多問題用定性和定量相結

合的處理方法奠定了基礎

二雲和雲滴的定義(李德毅2007)

設 U 是一個用精確數值表示的定量論域C 是 U 上的定

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 30: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 22 -

性概念若定量值 x isinU且 x 是定性概念 C 的一次隨機實現

x 對 C 的確定度μ(x) isin [01]是具有穩定傾向的隨機數若

μUrarr[01] x U xrarrμ(x)

則 x 在論域 U 上的分布稱為雲記為雲 C(X)每一個 x

稱為一個雲滴如果概念對應的論域是 n 維空間即可拓展

為 n 維雲

三雲的數字特徵

雲的數字特徵用來反映概念的整體特性李德毅(2007)

雲用期望 Ex(expected value)熵 En(entropy)和超熵 He(hyper

entropy)三個數字特徵來整體表徵一個概念

(一)期望 Ex

雲滴在論域空間分布的期望是概念在論域空間的中

心值最能夠代表定性概念的點

(二)熵 En

它是定性概念不確定性的度量是由定性概念的隨機

性和模糊性共同決定的En 是定性概念隨機性的度量

反映了代表這個定性概念的雲滴的離散程度它的大小反

映了在論域中可被模糊概念接受的元素數同時En 又

體現了定性概念亦此亦彼性的裕度反映了論域空間中可

被定性概念接受的雲滴的取值範圍是對定性概念模糊性

的度量En 越大定性概念所接受的雲滴的取值範圍也

就越大定性概念也就越模糊用同一個數字特徵來反映

隨機性和模糊性也必然反映了它們之間的關聯性

(三)超熵 He

它是對熵的不確定性的度量是熵的熵由熵的隨機

性和模糊性共同決定同時它也反映了在論域空間代表該

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 31: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 23 -

語言值的所有點的不確定度的凝聚性它的大小間接地反

映了雲的厚度

圖2-6表示雲及雲的數字特徵將定性概念的整體特徵記

作C(ExEnHe)稱為雲的特徵向量李德毅(2007)利用雲產生

器通過輸入這三個數字特徵就形成合乎條件的雲滴從而將

一個定性概念通過不確定性轉換模型定量地表示出來雲模

型能夠實現定性概念與其數值表示之間的不確定性轉換已

廣泛應用於智慧控制模糊評測等研究上

圖 2-6 雲及雲的數字特徵

10

09

08

07

06

05

04

03

02

01

0

μ(x

)

Ex

En

He

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 32: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 24 -

第三章 研究方法

第一節 系統架構

本研究提出的混合式協同過濾系統的架構與流程根據研究

時運用到的方法與資料加以整理歸納得到混合式的協同過濾

系統架構如圖 3-1 所示

混合式協同過濾系統整合了以使用者為基礎的協同過濾子系

統及雲模型協同過濾子系統的預測結果整個系統可以視為一個

黑盒子輸入評分矩陣然後輸出一個產品的預測清單

以使用者為基礎的協同過濾子系統以個別評分資料來做傳統

的協同過濾演算法提供預測結果雲模型子系統先評分資料轉換

成整體的使用者的喜好再以相鄰的為基礎產生預測結果最後再

由系統合併每個子系統的預測結果產生一個預測的清單本研究

希望藉由以使用者為基礎的協同過濾演算法跟雲模型協同過濾演

算法的優點來改善資料稀疏性的問題

圖 3-1 系統架構圖

評分資料 雲模型 預測清單 整合的預測數值

建立雲模型 鄰居形成

雲模型的協同過濾

預測數值

鄰居形成 預測數值

使用者為基礎的協同過濾

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 33: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 25 -

第二節 以使用者為基礎的協同過濾子系統

以使用者為基礎的協同過濾子系統使用最近鄰居演算法藉

由對相似的兩個使用者之間的所有評分做加權平均來計算再產生

預測給使用者

一鄰居形成(neighborhood formation)

鄰居形成模組會根據相似性測量從使用者之間來找出最

相似的鄰居計算使用者之間的相似性最普遍的兩個方法

皮爾森相關係數(pearson correlation coefficient)和餘弦相似性

(cosine similarity)

皮爾森相關係數是測量兩個變數之間線性關係的範圍

它的範圍可以從-1 到 1-1 表示標準的負線性相關1 表示標

準的正線性相關0 表示兩個變數之間沒有線性相關在以使

用者為基礎的協同過濾演算法通常是用來計算兩個使用者之

間在共同評分的相似度如公式 3-1 所示

sim(uv)=corr(uv)=sum (119903119906119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906119907 radicsum (119903119907119894minus119907)2

119894isin119868119906119907

(3-1)

其中 Iuv表示使用者 u 跟 v 共同評分的項目集合rui表示

使用者 u對項目 i的評分119903跟119903是使用者 u跟 v的平均評分

Herlocker Konstan Borchers andRiedl (1999)則是建議使

用更多的共同評分項目加入相似度的計算可以有更準確的預

測為了達到更好的結果本研究定義一個重要的加權系統

即使用平滑貶值來加權皮爾森相關係數如公式 3-2 所示

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 34: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 26 -

sim(uv)=corr(uv) times119898

1+119898 (3-2)

其中 m 是使用者 u 跟 v 之間共同評分的數量餘弦相似

法考慮每一個使用者的評分設成向量然後使用兩個使用者之

間的評分向量的餘弦角來測量相似性餘弦相似法的值會落

在範圍 0 到 1 之間1 表示兩個使用者的評分完全符合0 表

示兩個使用者之間的評分完全不一樣使用者 u 跟 v 的相似

度是由公式 3-3 的餘弦相似法來表示

sim(uv)=sum 119903119906119894119907119894119894isin119868119906119907

radicsum 1199031199061198942

119894isin119868119906 radicsum 1199031199071198942

119894isin119868119907

(3-3)

其中 Iu跟 Iv表示使用者 u 跟 v 共同評分的項目集合Iuv

表示使用者 u 跟 v 共同評分的項目集合rui跟 rvi表示使用者

u 跟 v 對項目 i 的評分119903跟119903是使用者 u 跟 v 的平均評分

餘弦相似法不考慮在不同使用者之間評分數量上的差異為

了解決這個缺點本研究修正餘弦相似法公式 3-4 為修正過

的餘弦相似法

119904119894119898(119906119907119862119865 )=

sum (119903119906119894minus119906)(119903119907119894minus119907)119894isin119868119906119907

radicsum (119903119906119894minus119906)2119894isin119868119906 radicsum (119903119907119894minus119907)2

119894isin119868119907

(3-4)

相較於餘弦相似法修正過的餘弦相似法它是利用每一

個共同評分項目相減的方式來修正餘弦相似法同時現有

的使用者會選擇 k 個最相似的使用者作為自己的鄰居

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 35: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 27 -

二預測數值

預測數值的目的是為現有的使用者預測沒有評分項目的

評分選擇了最相似的 k 個使用者之後他們的評分和相似

法會依重疊程度根據公式 3-5 產生預測結果

puiCF = ru +

sum (119903119907119894minus119907)times119904119894119898(119906119907119862119865 )119907isin119873(119906)

sum 119904119894119898(119906119907119862119865 )119907isin119873(119906)

(3-5)

其中 N 表示所有鄰居N(u)是現有的使用者選出的 k 個

最相似的使用者119903跟119903分別是使用者 u 跟 v 的平均評分rvi

是相似的使用者 u 對使用者 v 加權之後的結果相似的兩個

使用者在計算預測評分119901119906119894119862119865裡的加權 rvi也愈大

第三節 雲模型協同過濾子系統

雲模型協同過濾子系統由三個單元組成雲模型產生器根據

評分資料幫每一個使用者產生雲模型同時表示使用者整體的喜

好鄰居組成單元根據相似法得到符合的雲模型為現有的使用者

找到最相似的鄰居數量預測計算單元為現有的使用者預測沒有

評分項目的評分

一雲模型產生器

Li Liu Duand Han(2004)提出的雲模型是一種概念在定

量表示的轉換上不確定性的模型同時Palanivel and

Siavkumar(2010)也認為協同過濾系統根據使用者主觀不嚴

謹模糊的感受意見以及嘗試收集到的評分資料雲模型

會當成一個範例來處理使用者不確定性跟模糊的喜好

雲模型產生器的目的是為每一個使用者建立一個整體的

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 36: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 28 -

喜好同時也可表示使用者的整體喜好雲模型產生器讀取

使用者的評分資料然後用三個數位特徵向量 =(Ex En He)

其中期望值 Ex 表示使用者評分的典型值也是使用者評分的

平均值熵值 En 表示從使用者測得的離散平均評分的不確定

性分佈超熵值 He 是熵值 En 的一種用來測量正常分佈的

偏離度(deviation degree)給定一個使用者 u 的評分資料集合

ru=(ru1ru2helliprun)即可定義出三個特徵值(Zhang Li Li

Kang andChen 2007)如公式 3-6 所示

(3-6)

二鄰居形成

找到跟現有的使用者相似的使用者是以鄰近為基礎的演

算法的一個重要步驟鄰居的挑選來自現有的使用者跟資料

庫裡的使用者之間的雲模型相似度Zhang Li and Li et

al(2007)利用餘弦相似法提出了類似雲模型的相似方法給定

兩個雲模型的特徵向量119881119906 =(Exu Enu Heu)及119881119907 =(Exv Env Hev)

其兩者之間的相似度可定義為公式 3-7

sim(uv)=cos(119881119906 119881119907 )=119864119909119906119864119909119907+119864119899119906119864119899119907+119867119890119906119867119890119907

radic1198641199091199062+119864119899119906

2+1198671198901199062radic119864119909119907

2+1198641198991199072+119867119890119907

2 (3-7)

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 37: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 29 -

如同上述所言部份的評分資訊可能在轉換成整體喜好

時會遺失其結果有可能造成兩個使用者之間共同評分項目

太少但相似度過高的情況為了避免此種情況的產生本研

究採用相同的加權方法來加權皮爾森係數如公式 3-8 所示

119904119894119898(119906119907119862119872)=cos(119881119906 119881119907 )times

119898

119898+1 (3-8)

其中 m 是使用者 u 跟 v 共同評分的數量上述提到的加

權方法適用於與現有的使用者有很多的共同評分只有極少

數共同評分的鄰居數量可能會被排除掉即使它們對現有的

使用者有著極高的相似度最後鄰居數量組成系統會挑選 k

個最相似的使用者來成為現有的使用者的鄰居數量

三預測數值

雲模型協同過濾子系統的預測數值與以使用者為基礎的

協同過濾子系統是相似的預測數值的計算是要幫現有的使

用者預測沒有預測過的項目並且利用所有有對該項目預測

過的所有相似使用者的加權平均來預測如公式 3-9

119901119906119894119862119872 = 119906 +

sum (119903119907119894minus119907119907isin119873(119906) )times119904119894119898(119906119907119862119872)

sum 119904119894119898(119906119907119862119872)119907isin119873(119906)

(3-9)

其中 N(u)是現有的使用者選出的 k 個最相似的使用者119903

跟119903分別是使用者 u 跟 v 的平均評分rvi是相似的使用者 u 對

使用者 v 加權之後的結果相似的兩個使用者在計算預測評

分119901119906119894119862119872裡的加權 rvi也愈大

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 38: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 30 -

本研究將採用以使用者為基礎的協同過濾及雲模型協同過濾

兩種優點的混合法以使用者為基礎的協同過濾適用在資料密集

的時候而雲模型協同過濾法在資料稀疏性的時候有更好的表現

特別的是本研究將從大量的有使用這兩種方法的人中來定義統一

預測的方法並且會評估並比較各種不同相似法的預測範圍及準

確性

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 39: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 31 -

第四節 整合預測計算

執行完兩個子系統後本研究對每個沒有評分的項目可以得

到兩個預測結果所以本研究系統的最後一個步驟就是要整合這

兩個子系統的結果

Luo Niu Shen and Ullrich (2008)從部份相似跟整體相似兩方

面發展出一套統一的協同過濾架構並且定義一個參數來表示從

各個預測結果得到的最後預測結果的範圍這個方法需要經過冗

長的實驗確認

本研究將從每位使用者的預測結果來固定相對數量的貢獻者

(contributors)比例來結合預測結果其中貢獻者指的是曾經評分

過的使用者貢獻數越大預測結果越客觀本研究認為倘若有更

多的使用者分享預測的結果預測數值計算的結果會更為可靠

因此將整合預測結果的定義為從兩個子系統的預測結果做加權

平均

公式 3-10 中119873119906119894119862119865跟119873119906119894

119862119872分別代表以使用者為基礎的協同過濾

子系統跟雲模型子系統中使用者 u 預測項目 i 的貢獻者的數量

119901119906119894 =119873119906119894

119862119865

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119865 +

119873119906119894119862119872

119873119906119894119862119865+119873119906119894

119862119872 times 119901119906119894119862119872

(3-10)

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 40: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 32 -

第四章 系統實驗與結果評估分析

第一節 實驗評分

一資料集

本研究所使用的資料來源是由美國明尼蘇達大學與工程

學系的 GroupLens 研究專案小組針對研究用途所提供之電

影評分推薦網站 MovieLens 的電影評分資料以進行系統的

實驗該評分資料共 100000 筆評分記錄包含了 943 位使用

者對 1628 部電影中所看過的電影所進行之評分其中每位

使用者至少有 20 筆評分紀錄而且每部電影都有被評分過

在本研究的實驗中使用兩對資料集分別為uabase

uatest以及 ubbaseubtest將原始資料集的資料分成訓練

集與測試集其中每位使用者在測試集皆有 10筆評分資料

同時也將訓練集與訓練集符合的測試集分開

訓練集包含了 90570 筆資料而測試集有 9430 筆資料

訓練集用來對測試集裡的每個項目產生預測本研究提出的

系統評估方法是藉由測試項目預測評分跟實際評分做比較

二評分矩陣

為了測試推薦的準確性本研究計算測試集裡實際評分

與預測評分之間的平均絕對誤差(mean absolute errorMAE)

平均絕對誤差可以從實際評分中知道推薦誤差大小的方法

舉例來說一個使用者 u 對所有電影實際評分 rui跟預測評分

pui的集合的計算方式如公式 4-1

MAEu= sum |119903119906119894minus119901119906119894|119894isin119868119906

119899(119868119906) (4-1)

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 41: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 33 -

其中 Iu表示使用者 u 評分過的項目的集合平均絕對誤

差全部都是利用測試集裡使用者的個別平均絕對誤差的平均

來計算誤差越小代表其測量品質越好誤差越大其表現結

果越不好

Sarwar Konstan Borchers Herlocker Miller and Riedl

(1998)利用涵蓋率(coverage)來評估協同過濾機制的成效涵

蓋率能夠預測推薦系統中使用者對於商品喜愛程度的一種方

法假設使用者推薦某項商品的喜愛程度為百分之九十五

涵蓋率即為百分之九十五其中涵蓋率越高其推薦系統能

在眾多標的物中提供使用者較有效的協助但缺點是在某

些只有少數使用者提供評分或是現有的使用者與其它使用者

沒有關聯的時候就沒辦法為現有的使用者提供預測其中

鄰居數量過少或是資料庫資料過於稀少時涵蓋率表現較低

也較為稀疏由於資料過於稀疏其涵蓋率表現會越難預測

因此為了評估各種減緩資料稀疏性問題的可用性本研究

增加稀疏性的程度來比較每個方法的涵蓋範圍

第二節 實驗環境與工具

本研究的實驗方面使用Intel Core2 Duo P8700的個人電腦

搭配Windows XP Professional作業系統作為實驗的平台所有的資

料來源與輸出結果皆為純文字檔(txt)在程式工具方面程式使

用C++語言所開發研究採用皮爾森相關係數餘弦相似法及雲模

型相似法進行分析另外本研究也定義修正過的餘弦相似法

混合式的協同過濾相似法來計算相似性

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 42: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 34 -

第三節 實驗設計

一資料轉換

將資料集進行轉換動作uabase 轉換為 uatrainuatest

轉換為uats以及ubbase轉換為ubtrainubtest轉換為ubts

二代入參數

本研究將使用四種相似方法進行研究分別為雲模型

協同過濾(以下將其簡稱名為CM-Based CF)餘弦相似協同過

濾(Cosine-Based CF)修正過的餘弦相似協同過濾(Adj Co-

sine-Based CF)皮爾森相關係數協同過濾 (Pearson-based

CF)

首先將 ua 測試集代入參數執行後會得到以下訓練集檔

案 uacm1sim uacm2sim uacos1sim uacos2sim

uaadjcos1simuaadjcos2simuapear1simuapear2sim

ub測試集代入參數執行後會得到以下訓練集檔案ubcm1sim

ubcm2simubcos1sim ubcos2simubadjcos1sim

ubadjcos2simubpear1simubpear2sim其中檔案命名

有 1 的代表沒有加入共同評分做計算2 代表有加入共同評分

做計算

第四節 執行結果

本研究採用皮爾森相關係數餘弦相似法及雲模型相似法進

行分析並且定義修正過的餘弦相似法混合式的協同過濾相似

法來計算相似性希望藉由不同的相似性產生之結果來瞭解本

研究所提出之混合式的協同過濾相似法是否能改善稀疏性問題

一沒有加入共同評分之比較

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 43: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 35 -

以 uacm1 為例圖 4-1 為代入參數畫面將 uatrain uacm

uacm1sim 代入參數並執行會產生圖 4-2 執行畫面

圖 4-1 代入參數畫面

圖 4-2 計算 uacm1 的執行畫面

接著要計算不同方法之 MAE如圖 4-3將 uatrain

uacm1sim uats 10代入參數並執行會得到MAE=0913622

TotalCount=6880如圖 4-4 所示

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 44: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 36 -

圖 4-3 代入參數畫面

圖 4-4 計算 uacm1 的 MAE 執行畫面

其中表4-14-2為uaub在CM-Based CFCosine-Based

CFAdj Cosine-Based CFPearson-Based CF四種方法沒有

加入共同評分產生的MAE結果

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 45: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 37 -

表4-1 ua沒有加入共同評分產生的MAE結果 MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0913622 0830898 0834469 103767

20 0872809 0796161 0806835 0993716

30 0844873 0782958 0788876 0948862

50 0821349 0770705 0770592 0913521

70 0811719 0764722 0761869 0887992

90 0803188 0761121 0757274 0864366

120 0791909 0758029 0752105 0828537

150 0788812 0758031 0750653 0803274

200 0782961 0758915 0751022 0772928

表4-2 ub沒有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0927038 0839521 0862891 106623

20 0887734 0804019 0828731 101145

30 0868158 0790599 081081 0982248

50 0841137 0779759 0788373 0940885

70 0827359 0773501 0779078 0907529

90 0818477 0771567 0771982 0891251

120 0809428 0772136 0767736 0852689

150 0801641 0770584 0765678 0823547

200 0795771 0770222 076382 0794436

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 46: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 38 -

平均絕對誤差表示鄰居數量的大小如圖4-54-6分別表

示ua和ub在使用不同方法時沒有加入共同評分所產生的結

圖 4-5 ua 在使用不同方法時沒有加入共同評分所產生的結果

075

080

085

090

095

100

105

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 47: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 39 -

圖 4-6 ub 在使用不同方法時沒有加入共同評分所產生的結果

使用不同方法時沒有加入共同評分狀況下比較使用雲

模型協同過濾餘弦相似協同過濾修正過的餘弦相似協同

過濾及皮爾森相關係數的協同過濾之「鄰居數量」及「平均

絕對誤差」實驗結果發現在鄰居數量在第 10 筆資料的情況

下皮爾森相關係數的協同過濾的 MAE 誤差最大其次是雲

模型協同過濾及修正過的餘弦相似協同過濾最後是餘弦相

似協同過濾表現最好其中大部份的方法(除了皮爾森相關

係數的協同過濾)執行了 90 筆資料後會達到穩定無論資料再

增加也不會有更好或更壞的結果最後當鄰居數量到達第

200 筆所有方法的 MAE 誤差皆有穩定的下降其中所有

方法中皮爾森相關係數的協同過濾是最差的其次是雲模型

協同過濾法修正過的餘弦相似協同過濾跟餘弦相似協同過

濾在所有方法中是最相似而且是預測最準確的藉由實驗結

果的發現增加鄰居數量可以改善平均絕對誤差這些結果

075

080

085

090

095

100

105

110

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 48: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 40 -

證實利用整體偏好可能導致部分的準確率下降

二有加入共同評分之比較

以 uacm2 為例圖 4-7 為代入參數畫面將 uatrain uacm

uacm2sim 代入參數並執行會產生圖 4-8 執行畫面

圖 4-7 代入參數畫面

圖 4-8 計算 uacm2 的執行畫面

接著要計算不同方法之 MAE如圖 4-9將 uatrain

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 49: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 41 -

uacm2sim uats 10 代入參數並執行會得到 MAE=0804987

TotalCount=9212如圖 4-10 所示

圖 4-9 代入參數畫面

圖 4-10 計算 uacm1 的 MAE 執行畫面

表4-34-4為uaub在CM-Based CFCosine-Based CF

Adj Cosine-Based CFPearson-Based CF四種方法有加入共

同評分產生的MAE結果

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 50: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 42 -

表4-3 ua有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0804987 0828577 0830737 0926655

20 0782046 0794249 0798762 0883054

30 0775156 0782299 0781046 0859312

50 0770252 0768795 0764027 0834673

70 0769077 0764127 0757388 081681

90 0769204 0761268 0753989 0804003

120 0767851 0757609 0750343 0786819

150 0767164 0757913 0750231 0773353

200 0766878 0759238 0751247 0763825

表4-4 ub有加入共同評分產生的MAE結果

MAE 方法

居數量

CM-Based

CF

Cosine-Based

CF

Adj Cosine-

Based CF

Pearson-Based

CF

10 0815784 0837209 0857134 0944368

20 0797284 0801131 0817764 0901969

30 0791998 0791732 0800781 0885003

50 0786128 0778431 0782091 0856451

70 0784222 0772687 0774081 0842371

90 0782253 0771919 0769092 0824791

120 0780639 0770851 0764993 0810385

150 0780181 0770648 0764165 0798053

200 0781113 0770619 0763368 0783994

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 51: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 43 -

如圖4-114-12分別表示ua和ub在使用不同方法時有加入

共同評分所產生的結果使用不同方法時有加入共同評分狀

況下比較使用雲模型協同過濾餘弦相似協同過濾修正

過的餘弦相似協同過濾及皮爾森相關係數的協同過濾之「鄰

居數量」及「平均絕對誤差」實驗結果發現在鄰居數量在第

10筆資料的情況下皮爾森相關係數的協同過濾的MAE誤差

最大其次是修正過的餘弦相似協同過濾及餘弦相似協同過

濾最後是雲模型協同過濾表現最好其中大部份的方法(除

了皮爾森相關係數的協同過濾)執行了90筆資料後會達到穩定

無論資料再增加也不會有更好或更壞的結果最後當鄰

居數量到達第200筆所有方法的MAE誤差皆有穩定的下降

從圖中可以觀察到皮爾森相關係數的協同過濾與雲模型協同

過濾在鄰居數量少的時候其預測結果有明顯的改善鄰居數

量較多時其改善效果較不明顯另一方面餘弦相似協同過

濾跟修正過的餘弦相似協同過濾加入特徵加權法後得到的改

善較少整體而言雲模型協同過濾跟其它方法比起來沒有

比較好也沒有比較差修正過的餘弦相似協同過濾在有大量

的鄰居數量的時候表現最好

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 52: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 44 -

圖 4-11 ua 在使用不同方法時有加入共同評分所產生的結果

圖 4-12 ub 在使用不同方法時有加入共同評分所產生的結果

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Nighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

075

080

085

090

095

10 20 30 50 70 90 120 150 200

MA

E

Neighborhood Size

CM-Based CF Cosine-Based CF

Adj Cosine-Based CF Pearson-Based CF

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 53: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 45 -

三不同方法產生的稀疏性及MAE之比較

接下來的實驗使用混合式的協同過濾法(整合了修正過

的餘弦相似協同過濾和雲模型協同過濾)來計算為了測試各

種不同的方法本研究設定有 90 筆鄰居數量然後使用不同的

稀疏性程度來做實驗稀疏性程度是由輸入評分矩陣中的所

有數字中 0 佔的比率決定的訓練資料集的稀疏性程度大約

是 943

本研究隨機且平均的移除每個使用者的評分來增加稀疏

性程度圖 4-23 表示稀疏性程度變化的時候平均絕對誤差的

變化從圖 4-23本研究可以看到稀疏性的資料集對預測準

確率的影響

計算稀疏性的步驟較為繁瑣首先分別設定檔案 uatrain

uas1uas2uas3uas4ua5uas6uas7接著代

入參數計算圖 4-13 為代入參數畫面將 uatrain uas1 088

代入參數並執行會產生圖 4-14 執行畫面

圖 4-13 代入參數畫面

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 54: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 46 -

圖 4-14 計算 uatrain 的稀疏性執行畫面

接續要計算 uas1~uas7 之稀疏性如圖 4-15將 uas1

代入參數並執行會得到 Sparsity=094943Count=80210

圖 4-16 為計算 uas1 的稀疏性執行畫面

圖 4-15 代入參數畫面

圖 4-16 計算 uas1 的稀疏性執行畫面

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 55: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 47 -

之後再分別計算出雲模型相似法及修正過的餘弦相似

法分別將 uas1 uacm uas1cm2sim 及 uas1 uas1adjcos2sim

代入參數計算並執行圖 4-174-18 為雲模型相似法及修正

過的餘弦相似法代入參數畫面

圖 4-17 雲模型相似法代入參數畫面

圖 4-18 修正過的餘弦相似法代入參數畫面

最後依序設定完成 uas1cm2~ uas7cm2 以及

uas1adjcos2~ uas7adjcos2 檔案如圖 4-194-20

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 56: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 48 -

圖 4-19 計算 uas1cm2 的執行畫面

圖 4-20 計算 uas1adjcos2 的執行畫面

代入參數 uas1 uas1adjcos2sim uas1cm2sim uats 90

如圖 4-21直到執行完 uas7 動作即完成其中圖 4-22 為

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 57: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 49 -

計算 uas1 的 MAE 及涵蓋率執行畫面

圖 4-21 代入參數畫面

圖 4-22 計算 uas1 的 MAE 及涵蓋率執行畫面

其中表4-54-6為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE結果

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 58: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 50 -

表4-5 ua的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0756914 0753989 0769204

0950 0759663 0762316 0770857

0960 0772527 0780729 0782142

0970 0780586 0799293 0787901

0975 0799516 0821362 0806566

0980 0810318 0833858 0816905

0985 0839265 0867028 0840505

0990 0921068 0933280 0886897

表4-6 ub的MAE結果

MAE 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0768981 0769092 0782253

0950 0773220 0778525 0784804

0960 0785076 0791211 0795753

0970 0795165 0817114 0801885

0975 080490 0833147 0809971

0980 0823986 0844222 0828230

0985 0858764 0881907 0863114

0990 0939991 0942854 0910838

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 59: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 51 -

圖4-234-24為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的MAE及稀疏性程度

的影響

圖 4-23 ua 不同方法的 MAE 及稀疏性程度的影響

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 60: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 52 -

圖 4-24 ub 不同方法的 MAE 及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「平均絕對誤差」實驗結果發現在

稀疏性程度在 0943 時雲模型協同過濾的 MAE 誤差最大

其次是修正過的餘弦相似協同過濾及混合式的協同過濾表現

最好當稀疏性程度到達 0990 時所有方法的 MAE 誤差皆

有明顯的上升從圖中可以觀察到對所有方法而言當稀

疏性程度增加其預測準確率都會下降的情況下混合式的協

同過濾法在大部分情況下各種方法和表現結果都最好

四不同方法產生的涵蓋率及稀疏性之比較

不同方法產生的 MAE 及涵蓋率的計算是一起產生如圖

4-22執行結果畫面其中表 4-74-8為 uaub在 Hybrid-Based

CFAdj Cosine-Based CFCM-Based CF 三種方法的涵蓋率

結果

075

080

085

090

095

0943 0950 0960 0970 0975 0980 0985 0990

MA

E

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 61: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 53 -

表4-7 ua的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based CF Adj Cosine-

Based CF CM-Based CF

0943 0999152 0990456 0998409

0950 0998303 0988229 0997349

0960 0997243 0983987 0996607

0970 0994698 0974761 0992683

0975 0991835 0968081 0990350

0980 0986426 0954613 0981972

0985 0976458 0926193 0967020

0990 0931601 0819088 0915695

表4-8 ub的涵蓋率結果

涵蓋率 方法

Sparsity

Level

Hybrid-Based

CF

Adj Cosine-

Based CF CM-Based CF

0943 0997561 0990668 0996925

0950 0997137 0988441 0996182

0960 0996182 0983563 0995546

0970 0994062 0972853 0991516

0975 0991516 0968611 0988547

0980 0986002 0945705 0982078

0985 0975080 0919830 0966914

0990 0932768 0826299 0915695

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 62: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 54 -

圖4-254-26為uaub在Hybrid-Based CFAdj Co-

sine-Based CFCM-Based CF三種方法的涵蓋率及稀疏性程度

的影響

圖 4-25 ua 不同方法的涵蓋率及稀疏性程度的影響

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

ag

e

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 63: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 55 -

圖 4-26 ub 不同方法的涵蓋率及稀疏性程度的影響

使用不同方法比較使用雲模型協同過濾餘弦相似協同

過濾修正過的餘弦相似協同過濾及皮爾森相關係數的協同

過濾之「稀疏性程度」及「涵蓋率」實驗結果發現在稀疏性

程度在 0943 時混合式的協同過濾的 MAE 誤差較大其次

是雲模型協同過濾及修正過的餘弦相似協同過濾表現較好

其中當稀疏性程度在 0985 時所有方法的涵蓋率皆有明顯

的下降最後當稀疏性程度到達 0990 時所有方法的涵蓋

率下降幅度最大因為資料已經趨於稀疏狀態實驗結果顯

示雲模型協同過濾在所有方法中只比修正過的餘弦相似協

同過濾好這個結果可以說明雲模型協同過濾法在稀疏資料

集的影響所有的方法在稀疏性程度低的時候結果非常地相

似當稀疏性程度增加涵蓋率會下降的情況下其中又以

修正過的餘弦相似協同過濾涵蓋率下降幅度最為明顯然而

混合式的協同過濾法在所有情況都保持最好的表現

080

085

090

095

100

0943 0950 0960 0970 0975 0980 0985 0990

Cover

age

Sparsity Level

Hybrid-Based CF Adj Cosine-Based CF CM-Based CF

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 64: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 56 -

第五章 結論與建議

第一節 結論

本研究提出的混合式推薦系統是利用以使用者為基礎的協同

過濾演算法跟雲模型協同過濾演算法的優點來改善資料稀疏性的

問題在實驗結果部分

一本研究比較了不同的相似方法的結果並調查了特徵加權的影

響實驗結果顯示加入特徵加權後的雲模型演算法改善結

果最明顯餘弦相似法及修正過的餘弦相似法的改善影響較

二混合式的協同過濾演算法在資料稀疏的情況下相較於雲模

型演算法與修正過的餘弦相似法其表現的 MAE 誤差較小且

涵蓋率的表現也優於另外兩種演算法

本研究提出的混合式的協同過濾法利用加權平均整合了兩種

子系統的預測結果實驗的結果證實了本研究提出的方法確實可

以改善資料集的稀疏性的問題

本研究提出之方法之主要貢獻包括以下幾點

一本研究考慮將特徵加權加入相似性的計算進而將餘弦相似

法公式推導出修正過的餘弦相似法公式

二利用加權平均將使用者為基礎的協同過濾子系統和雲模型協

同過濾子系統的預測結果整合推導出混合式的協同過濾相

似法此方法能較準確的降低稀疏性MAE 及涵蓋率進而

提升推薦品質

三本研究所提出混合式的協同過濾相似法優於傳統餘弦相似法

以及傳統雲模型協同過濾技術

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 65: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 57 -

第二節 未來研究方向

本研究所提出結合協同過濾和雲模型的混合式推薦系統經

實驗證明可有效減少數據稀疏程度以及提升推薦品質而對於未

來的研究仍有許多方向可以進行以下提出幾點作為未來研究發

展的目標

一由於本研究僅使用 MovieLens 所提供之使用者評分資料進

行系統的實驗期望未來能實際的應用並且可以嘗試使用

在例如產品評分資料書籍評分資料手機評分資料音

樂評分資料或教材評分資料來進行實驗同時可驗證模型的

可用性

二由於本研究的系統是利用兩個模型的整合整合方式是利用

貢獻者的比例做實驗貢獻者的比例屬於固定的比例未來

可以嘗試使用變動比例的方式進行測試藉由各種不同組合

也許可以找出不同組合之間的影響亦為未來研究可發展的

方向之一

三本研究是使用傳統的協同過濾及雲模型相似法進行實驗由

於雲模型相似法是使用以使用者為主的協同過濾法進行研究

有部分的學者Deng AL Zhu YY Shi BL ZhouJF Tang

X and GuoJF提出使用以項目為主的協同過濾方法較以使

用者為主的協同過濾方法好未來可以考慮將本研究的架構

進行整合

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 66: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 58 -

參考文獻

一中文部份

王潔吳堅楊克強(2010)基於雲模型的應用論述矽谷8

81

付斌李道國王慕快(2011)雲模型研究的回顧與展望計算機

應用研究28(2)420-426

李德毅(1999)三級倒立擺的雲控制方法及動平衡模式中國工程

科學1(2)41-46

李德毅于全江光傑(1997)C3 I系統可靠性抗毀性和抗干擾

性的統一評測系統工程理論與實踐17(3)23-27

李德毅孟海軍史雪梅(1995)隸屬雲和隸屬雲發生器電腦研

究和發展32(6)16-21

邱永祥(2003)運用類神經網路與資料探勘技術於網路教學課程推

薦之研究朝陽科技大學資訊管理研究所未出版之碩士論

吳志宏(2004)以隱性回饋為基礎的自動化推薦機制朝陽科技大

學資訊管理研究所未出版之碩士論文

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 67: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 59 -

呂輝軍王曄李德毅(2003)逆向雲在定性評價中的應用電腦

學報26(8)1009-1014

張飛舟范躍祖沈程智(1999)基於隸屬雲發生器的智慧控制

航空學報20(1)89-92

張光衛李德毅李鵬康建初陳桂生(2007)基於雲模型的協

同過濾推薦算法軟件學報18(10)2403-2411

趙金宏(2007)使用者活動模式化與興趣學習之個人話查詢精鍊與

結果重組研究國立東華大學資訊工程系未出版之碩士論

葉蕙棻(2003)熵理論在組織內部稽核中的意涵與衡量模式建立之

研究中原大學企業管理研究所未出版之碩士論文

廖婉菁(2002)應用協同過濾機制於商品推薦之研究-以手機網站

為例中原大學資訊管理研究所未出版之碩士論文

蔡佩蓉(2005)應用關聯分群於協同過濾之研究中國文化大學資

訊管理研究所未出版之碩士論文

蔣聖文(2006)結合內容與協同過濾的推薦系統研究中國文化大

學資訊管理研究所未出版之碩士論文

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 68: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 60 -

二英文部份

Adomavicius G amp Tuzhilin A (2005) Toward the next generation

of recommender systems A survey of the state-of-the-art and

possible extensions IEEE Transactions on Knowledge and Da-

ta Engineering 17(6) 734-749

Akinyele (1999) Available httpwwwcseeumbcedu~jklabrou co-

ursesfall1999_691fweek10john_akinyele_recommender_syst-

ems491f_filesv3_documenthtm [1999]

Ansari A Essegaier S amp Kohli R (2000) Internet recommenda-

tion systems Journal of Marketing Research 37(3) 363-375

Billsus D amp Pazzani M (1998) Learning collaborative information

filters In Proc 15th International Conference on Machine

Learning 46-54

Breese J S Heckerman D amp Kadie C (1998) Empirical analysis

of predictive algorithm for collaborative filtering In Proc

Ndilikilikesha (Eds) In Proc 14th Conference on Uncertainty

in Artificial Intelligence San Francisco Morgan Kaufmann

43-52

Burke R (2002) Hybrid recommender systems Survey and experi-

ments UserModeling and User-Adapted Interaction 12(4)

331-370

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 69: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 61 -

Herlocker J Konstan J Borchers A amp Riedl J (1999) An algo-

rithmic framework for performing collaborative filteringIn

Proc 1999 Conference on Research and Development in In-

formation Retrieval 230-237

Hwang C S amp Tsai P J (2005) A collaborative recommender sys-

tem based on user association clusters In Proc 6th Internation-

al Conference on Web Information Systems Engineering

463-469

Hwang C S amp Chen Y P (2007) Using trust in collaborative fil-

tering recommendation In Proc 20th International Conference

on Industrial Engineering and Other Applications of Applied

Intelligent Systems 1052-1060

Karypis G (2001) Evaluation of item-based Top-N recommendation

algorithms In Proc 10th International Conference on Infor-

mation and Knowledge Management 247-254

Konstan J Miller B Maltz D Herlocker J Gordon L amp Riedl J

(1997) GroupLens Applying collaborative filtering to usenet

news Communications of the ACM 40(3) 77-87

Lam S K McNee S M Konstan J A amp Riedl J (2002) Getting

to know you Learning new user preferences in recommender

system In Proc International Conference on Intelligent User

Interfaces 127-134

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 70: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 62 -

Li D Y Liu C Y Du Y amp Han X (2004) Artificial intelligence

with Uncertainty Journal of Software 15(9) 1583-1594

Lin W (2000) Association rule mining for collaborative recom-

mender systems Unpublished masterrsquos thesis Worcester Poly-

technic Institute Worcester

Linden G Smith B ampYork J (2003) Amazoncom recommenda-

tions item-to-item collaborative filtering IEEE Internet Com-

puting 7(1) 76-80

Luo H Niu C Shen R amp Ullrich C (2008) A collaborative fil-

teringframework based on both local user similarity and global

user similarity Machine Learning 72(3) 231-245

Luo R amp Yuxi G (2009) Personalized recommendation based on

similarity of cloud model In Proc 2nd International Symposi-

um on Knowledge Acquisition and Modeling 356-359

McGinty L amp Smyth B (2002) Comparison-based recommenda-

tion In Proc 6th European Conference on Case-Based Rea-

soning Aberdeen Scotland

Nichols D M (1997) Implicit rating and filtering In Proc 5th

DELOS Workshop on Filtering and Collaborative Filtering

31-36

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 71: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 63 -

Palanivel K amp Siavkumar R (2010) Fuzzy multicriteria deci-

sionmaking approach for collaborative recommender systems

International Journalof Computer Theory and Engineering

2(1) 57-63

Pedrycz W amp Gomide F (1998) An introduction to fuzzy sets

Analysis and design

Piccart B Struyfy J amp Blockeelz H (2010) Alleviating the spar-

sity problemin collaborative filtering by using an adapted dis-

tance and a graph-basedmethod In Proc SIAM International

Conference on Data Mining 189-198

Sarwar B Konstan J Borchers A Herlocker J Miller B amp

Riedl J (1998) Using filtering agents to improve prediction

quality in the groupLens research collaborative filtering system

In Proc 1998 Conferenceon Computer Supported Cooperative

Work

Sarwar B Karypis G Konstan J amp Riedl J (2000) Analysis of

recommender algorithms for e-commerce In ACM (Eds) In

Proc Second ACM E-Commerce Conference Minneapolis

IBM Institute for Advanced Commerce 158-167

Sarwar B Karypis G Konstan J ampRiedl J (2001) Item-based

collaborative filtering recommendation algorithms In

WWW10(Eds) In Proc 10th International World Wide Web

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 72: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 64 -

Conference Hong Kong The Chinese University of Hong

Kong 285-295

Sarwar B M Karypis G Konstan J amp Riedl J (2002) Incre-

mental SVD-based algorithms for highly scaleable recommend-

er systems In Proc 5th International Conference on Computer

and Information Technology 399-404

Schafer J B Konstan J A amp Riedl J (2001) E-Commerce rec-

ommendation applications Data Mining and Knowledge Dis-

covery 5(1-2) 123-124

Shardanand U amp Maes P (1995) Social information filtering Al-

gorithms for automating lsquoWord of Mouthrsquo In Proc Conference

on Human Factors in Computing Systems (CHI95) 210-217

Resnick P Iacovou N Suchak M Bergstrom P amp Riedl J

(1994) Grouplens An open architecture for collaborative fil-

tering of netnews In Proc of the ACM CSCWrsquo94 Conf on

Computer-Supported Cooperative Work Chapel Hill ACM

175-186

Wang S L Li D R amp Shi W Z (2003) Cloud model-based spa-

tial data mining Geographical Information Science 9(2)

67-78

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415

Page 73: 論文名稱:基於協同過濾和雲模型的混合式推薦系統 總頁數:ir.lib.pccu.edu.tw/retrieve/47437/http___thesis.lib.pccu.edu.tw_cgi... · iii 論文名稱: 基於協同過濾和雲模型的混合式推薦系統

- 65 -

Zhang G W Li D Y Li P Kang J C amp Chen G S (2007)

Acollaborative filtering recommendation algorithm based on

cloud model Journal of Software 18(10) 2403-2411

Ziegler C N Lausen G amp Schmidt-Thieme L (2004) Taxono-

my-drivencomputation of product recommendations In Proc

13th InternationalConference on Information and Knowledge

Management 406-415