PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/ NHÓM NGƢỜI TỪ …repository.vnu.edu.vn/bitstream/VNU_123/11845/1/00050006823.pdf · các mối quan tâm, vì vậy, trong luận

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Uông Huy Long

PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/

NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI

DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN

HÀ NỘI - 2015

Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ

Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tôi

trong suốt quá trình thực hiện khoá luận tốt nghiệp.

Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và

nghiên cứu tại trường Đại Học Công Nghệ.

Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá

dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt

khoá luận.

Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu

luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.

Tôi xin chân thành cảm ơn!

Sinh viên

Uông Huy Long

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Uông Huy Long

PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/

NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI

DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. Nguyễn Việt Cƣờng

HÀ NỘI - 2015

1

Lời cam đoan

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự

hướng dẫn khoa học của Tiến sĩ Nguyễn Việt Cường.

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố

trong bất kỳ công trình nào khác.

Tôi xin chịu trách nhiệm về nghiên cứu của mình.

Học viên

Uông Huy Long

2

Mở đầu

Thuật ngữ Web 2.0 lần đầu xuất hiện vào tháng 10/2004 khi Tim OReily – Chủ tịch

và Dale Dougherty – Phó Chủ tịch của OReily Media đưa ra tại một cuộc hội thảo về sự

phát triển tiếp theo của Web. Có rất nhiều quan điểm khác nhau về Web 2.0, tuy nhiên đa

số vẫn mô tả Web 2.0 ở một số tính năng như khả năng giao tiếp, tính tương tác giữa các

người dùng với nhau hay là những yếu tố cho phép người dùng có thể tạo ra thông tin.

Các trang Web truyền thông xã hội (social media websites) dựa trên Web 2.0 như các

trang báo điện tử xã hội, mạng xã hội, blog, các từ điển mở wiki,… đang có một sự phát

triển như vũ bão và thực sự đang làm biến đổi thế giới Internet từng ngày, từng giờ. Cùng

nhìn vào một đại diện tiêu biểu của Web truyền thông xã hội, các trang báo điện tử xã hội

(social news sites), khái niệm “báo điện tử” cũng như việc đọc tin tức điện tử đã không

còn xa lạ với đa số người dân Việt Nam. Những thống kê gần đây trên alexa1 về số lượng

các trang báo điện tử nằm trong top các trang Web phổ biến nhất tại Việt Nam hiện nay

đang cho thấy nhu cầu cao của xã hội trong lĩnh vực truyền thông này. Tuy nhiên, một

vấn đề còn tồn tại hiện nay đó là trong khi có quá nhiều tin tức mỗi ngày được cập nhật,

người dùng dường như bị chìm ngập trong biển thông tin mà vẫn không tìm ra được các

thông tin phù hợp. Web 2.0 có thể là lời giải cho vấn đề này, những trang báo điện tử xã

hội cho phép người dùng tạo ra nội dung như những bình luận, chia sẻ,…Đây có thể là

một nguồn dữ liệu quan trọng cho lĩnh vực nghiên cứu liên quan tới mô hình hóa người

dùng. Từ nắm bắt thói quen đọc, bình luận tin tức của người dùng theo lĩnh vực gì (như

thể thao, giải trí, công nghệ,…), nhiều dịch vụ tiềm năng (như tin tức mới, quảng cáo,

game,…) có thể được suy diễn và tư vấn chính xác, kịp thời. Luận văn đề xuất một

phương pháp dựa trên mô hình chủ đề xác suất có thể giúp các trang báo điện tử xã hội

nhận diện thói quen, mối quan tâm của người dùng một cách tự động trên lịch sử các hoạt

động bình luận của họ (Người dùng xây dựng thói quen đọc, bình luận tin tức trên cơ sở

các mối quan tâm, vì vậy, trong luận văn, các khái niệm mô hình hóa người dùng, phân

tích mối quan tâm người dùng hay phân tích thói quen đọc, bình luận của người dùng có

thể được sử dụng thay thế cho nhau). Tính chính xác và khả năng ứng dụng thực tế của

mô hình này đã được chứng minh bằng một số kết quả thực nghiệm ban đầu.

1 http://www.alexa.com/topsites/countries/VN

3

Chƣơng 1. Giới thiệu

1.1. Những thách thức của các trang báo điện tử

Ngày nay, thông tin trên những trang báo điện tử (như VNExpress1) hầu như bao

phủ mọi khía cạnh của đời sống xã hội, từ những tin tức về kinh tế, chính trị tới những sự

kiện thể thao, giải trí của cả trong nước và quốc tế. Cùng với thực tế đó là hiện tượng có

một lượng lớn các tin tức phát sinh thêm mỗi ngày (như trên trang VNExpress, tại thời

điểm khảo sát có hơn 135 tin tức mới trong ngày), người đọc cũng có thể quan tâm tới các

tin tức về một sự kiện/ chuỗi các sự kiện diễn ra trong nhiều ngày hoặc muốn xem lại các

thông tin từ những ngày trước, vì vậy mà lượng tin tức cần đọc có thể lên tới hàng nghìn

bài. Vấn đề đặt ra là làm cách nào những người đọc có thể vừa tiết kiệm được thời gian

truy cập vừa không bỏ sót những nội dung mà họ quan tâm. Những nghiên cứu trước đây

gọi đó là vấn đề của sự tràn ngập thông tin. Một giải pháp phổ biến đó là cung cấp cho

người dùng công cụ tìm kiếm. Tuy nhiên, những công cụ tìm kiếm đôi khi vẫn không đem

lại hiệu quả, điều này thường do nghĩa của từ khoá không rõ ràng hoặc ý nghĩa chính xác

của chúng phụ thuộc vào ngữ cảnh của người dùng. Ví dụ như khi một lập trình viên tìm

kiếm với từ khóa “apache”, có thể người đó không muốn nhìn thấy hình ảnh của một loại

máy bay trực thăng. Hay nếu người dùng muốn tìm kiếm về lịch sử của tộc người da đỏ

(cũng có tên là apache), nội dung người đó quan tâm không phải là máy bay trực thăng

hay máy chủ web. Một hướng tiếp cận khác được nghiên cứu là tìm cách xây dựng các hệ

thống cá nhân hóa, những hệ thống này cung cấp các kết quả tư vấn hoặc tìm kiếm khác

nhau và được cho là phù hợp với những người dùng khác nhau.

Hình 1. Chức năng tìm kiếm trên trang vnexpress.net.

1 http://vnexpress.net/

4

Một hệ thống được cá nhân hóa giải quyết vấn đề có quá nhiều lựa chọn bằng cách

xây dựng và quản lý các thông tin về người dùng, đặt trong hồ sơ người dùng. Toàn bộ

quá trình này gọi là mô hình hóa người dùng sẽ được trình bày chi tiết hơn trong chương

2. Hệ thống này thực thi các hình thức như là lọc ra những thông tin không liên quan hoặc

xác định thêm thông tin có thể hấp dẫn người dùng. Hồ sơ người dùng có thể bao gồm

thông tin cá nhân, ví dụ như tên, tuổi, quốc gia, mức độ giáo dục,…và cũng có thể đại

diện cho các sở thích, mối quan tâm của một cá nhân hoặc một nhóm người dùng như là

sự ưa thích với các chủ đề thể thao hay du lịch. Các thông tin này có thể được phân tích

dựa vào dữ liệu do người dùng cung cấp, suy diễn từ dữ liệu log trên hệ thống hoặc một

nguồn dữ liệu mới là từ các phương tiện xã hội, nội dung này sẽ được luận văn trình bày

chi tiết hơn trong chương 2.

1.2. Bài toán tƣ vấn trên các trang báo điện tử xã hội.

Tư vấn tin tức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số

lượng người dùng và số lượt sử dụng cao hơn nhiều so với các đối tượng tư vấn khác, vì

vậy luận văn đề xuất một mô hình người dùng và ứng dụng vào hệ thống tư vấn tin tức

trong chương 3. Một vài đặc trưng riêng có của miền đối tượng tin tức cũng như các đặc

trưng chung của người sử dụng tư vấn, có thể được mô tả như sau:

Đầu tiên, tin tức là một đối tượng tư vấn đặc biệt, các đặc trưng sau của tin tức giúp

đưa ra các giải pháp hữu hiệu hơn trong xây dựng giải pháp tư vấn:

Tính không đồng nhất giá trị: Giá trị của tin tức chỉ có thể được xác định bằng

cách kết hợp các yếu tố: nội dung thông tin, nguồn tin, thời điểm xuất bản, nhà

xuất bản, tác giả,…

Tính dễ sinh ra: một số lượng lớn tin tức có thể nảy sinh xung quanh một sự

kiện, hiện tượng.

Tính dễ tàn lụi: hiện tượng tin tức đánh mất giá trị khi vấn đề nó đề cập không

còn tính thời sự.

5

Hình 2. Ví dụ về các tin tức nảy sinh xung quanh một sự kiện.

Khi xem xét đến yếu tố phù hợp giữa đối tượng tư vấn và mối quan tâm người dùng,

một đặc trưng về mối quan tâm của người dùng cần được xem xét, đó là tính đa quan tâm:

Tại một thời điểm, người dùng có thể có nhiều mối quan tâm khác nhau, ví dụ: người

dùng có thể quan tâm đến các thông tin về cả thể thao và chính trị.

Qua phân tích, luận văn lựa chọn cách tiếp cận lọc dựa trên nội dung, trong đó thói

quen/ mối quan tâm người dùng được nhận diện qua các chủ đề ẩn của các tin tức mà

người dùng đã từng bình luận. Các lý do có thể được nêu ra là:

Thứ nhất: Biểu diễn mức chủ đề cho phép mô tả những mối quan tâm của người

dùng ở mức trừu tượng cao hơn mà không bị ảnh hưởng bởi thói quen dùng từ

của các tác giả hoặc của những từ khóa nổi lên chỉ trong một giai đoạn nhất

định. Sử dụng phương pháp này cũng khắc phục được vấn đề tư vấn trùng lặp

do mô hình dựa trên các từ khóa thường tìm ra các tin tức có cùng nội dung với

các tin tức người dùng đã đọc.

Thứ hai: Tính đa quan tâm của người dùng có thể được thể hiện thông qua tập

hợp các cặp chủ đề và xác suất liên quan.

Thứ ba: Những tin tức người dùng đã từng bình luận đem tới thông tin tốt hơn

do có thể nhận xét rằng người dùng quan tâm thực sự tới nội dung các tin tức đã

bình luận chứ không phải là do chọn nhầm.

Theo đó, luận văn đề xuất giải quyết hai vấn đề cơ bản của tiến trình tư vấn:

6

Đầu tiên là dựa trên khảo sát về các phương pháp xây dựng mô hình hóa người

dùng, đề xuất giải pháp mô hình người dùng dựa trên phân tích chủ đề các tin

tức người dùng đã từng bình luận.

Sau đó, những tin tức liên quan được phát hiện thông qua đối chiếu chủ đề của

chúng với những chủ đề trong mô hình người dùng vừa được xây dựng.

1.3. Cấu trúc của luận văn

Nội dung chính của luận văn được chia làm 4 chương:

Chương 1. Giới thiệu.

Chương 2. Một số nghiên cứu liên quan về mô hình hóa người dùng.

Chương 3. Mô hình đề xuất.

Chương 4: Thực nghiệm và đánh giá.

7

Tài liệu tham khảo

Tiếng Việt

Tiếng Anh

[1] Ahlqvist, T., Bäck, A., Halonen, M., & Heinonen, S. (2008). Social Media

Roadmaps. Helsinki: Edita Prima Oy.

[2] Ahmed, A., Low, Y., Aly, M., Josifovski, V., & Smola, A. J. (2011). Scalable

distributed inference of dynamic user interests for behavioral targeting. Paper

presented at the ACM Conference on Knowledeg Discovery and Data Mining (KDD)

(pp. 373-382).

[3] Bamshad Mobasher: Data Mining for Web Personalization. The Adaptive

Web 2007:90-135.

[4] Bo Hu, Zhao Song, and Martin Ester. 2012. User Features and Social Networks

for Topic Modeling in Online Social Media. In Proceedings of the 2012 International

Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012)

(ASONAM '12). IEEE Computer Society, Washington, DC, USA, 202-209.

[5] Chen, L., Sycara, K.: A Personal Agent for Browsing and Searching. In:

Proceedings of the 2nd International Conference on Autonomous Agents,

Minneapolis/St. Paul, May 9-13, (1998) 132-139.

[6] David M. Blei, Andrew Y. Ng, Michael I. Jordan: Latent Dirichlet Allocation.

Journal of Machine Learning Research (JMLR) 3:993-1022 (2003).

[7] X. Ding, B. Liu, and P. S. Yu. A holistic lexiconbased approach to opinion

mining. In Proceedings of the Conference on Web Search and Web Data Mining

(WSDM), 2008.

[8] Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A. User profiles for

personalized information access, In: Brusilovsky, P., Kobsa, A., and Neidl, W., Eds.

The Adaptive Web: Methods and Strategies of Web Personalization. Springer- Verlag,

8

Berlin Heidelberg New York, 2007, 54-89.

[9] Gentili, G., Micarelli, A., Sciarrone, F.: Infoweb: An Adaptive Information

Filtering System for the Cultural Heritage Domain. Applied Artificial Intelligence

17(8-9) (2003) 715-744.

[10] Gueye, M., Abdessalem, T., & Naacke, H. (2012). Dynamic recommender

system: using cluster-based biases to improve the accuracy of the predictions.

[11] Heinrich, G., “Parameter Estimation for Text Analysis”, Technical Report.

[12] Herlocker, .L., Konstan, J.A., Terveen, L.G., Riedl, J.T.: Evaluating

Collaborative Filtering Recommender Systems. ACM Transactionson Information

Systems 22(1), 5–53(2004).

[13] T. Hoffman. Online reputation management is hot – but is it ethical?

ComputerWorld, 2 2008.

[14] L. Hong and B. D. Davison. Empirical study of topic modeling in twitter. In

Proceedings of the First Workshop on Social Media Analytics, SOMA ’10, pages 80–

88, New York, NY, USA, 2010. ACM.

[15] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010). User Interest Analysis

with Hidden Topic in News Recommendation System. IALP 2010: 211-214.

[16] M. Joshi and N. Belsare. Blogharvest: Blog mining and search framework. In

International Conference on Management of Data, Delhi, India, 2006, December 14-

16 2006. Computer Society of India.

[17] Kaplan, A. M., & Haenlein, M. (2010). Users of the world, unite! The

challenges and opportunities of Social Media. Business horizons, 53(1), 59-68.

[18] Kelly, D., Teevan, J.: Implicit feedback for inferring user preference: a

bibliography. ACM SIGIR Forum 37(2) (2003) 18-28.

9

[19] Kietzmann, J. H., Hermkens, K., Mccarthy, I. P., & Silvestre, B. S. (2011).

Social media? Get serious! Understanding the functional building blocks of social

media. Business horizons, 54(3), 241-251.

[20] Milstein, S., Lorica, B., Magoulas, R., Hochmuth, G., Chowdhury, A., &

O'Reilly, T. (2008). Twitter and the micro-messaging revolution: Communication,

connections, and immediacy--140 characters at a time. O'Reilly Media, Incorporated.

[21] M. Naaman, H. Becker, and L. Gravano. Hip and trendy: Characterizing

emerging trends on twitter. Journal of the American Society for Information Science

and Technology, 2011.

[22] Pazzani, M., Muramatsu, J., Billsus, D.: Syskill & Webert: Identifying

Interesting Web Sites. In: Proceedings of the 13th National Conference On Artificial

Intelligence Portland, Oregon, August 4–8 (1996) 54-61.

[23] A. M. Popescu and O. Etzioni. Extracting product features and opinions from

reviews. In HLT ’05: Proceedings of the conference on Human Language Technology

and Empirical Methods in Natural Language Processing, pages 339–346, Morristown,

NJ, USA, 2005. Association for Computational Linguistics.

[24] Pretschner, A.: Ontology Based Personalized Search. Master’s thesis. University

of Kan- sas, June (1999).

[25] S. Sen, J. Vig, and J. Riedl. Tagommenders: Connecting users to items through

tags. In Proc. of WWW’ 09, pages 671–680, 2009.

[26] J. Tatemura. Virtual reviewers for collaborative exploration of movie reviews.

In Proceedings of Intelligent User Interfaces (IUI), pages 272–275, 2000.

[27] Thomas Hofmann. Probabilistic latent semantic indexing. In Proceedings of

SIGIR-99, (1999) 35–44.

[28] Le Dieu Thu. On the analysis of large-scale datasets towards online contextual,

Undergraduate Thesis, College of Technology, Vietnam National University, Hanoi,

10

2008.

[29] Nguyen Cam Tu. Hidden Topic Discovery toward Classification and Clustering

in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam

National University, Hanoi, 2008.

[30] Tso-Sutter, K.H.L., L. Marinho, and L. Schmidt-Thieme. Tag-aware

recommender systems by fusion of collaborative filtering algorithms. In Proc. of

Applied Computing, pages 1995–1999, 2008.

[31] J. Weng, E. Lim, J. Jiang, and Q. He. Twitterrank: finding topic-sensitive

influential twitterers. In Proceedings of the third ACM international conference on

Web search and data mining, pages 261–270. ACM, 2010.

[32] Widyantoro, D.H., Yin, J., El Nasr, M., Yang, L., Zacchi, A., Yen, J.: Alipes:

A Swift Messenger In Cyberspace. In: Proc. 1999 AAAI Spring Symposium Workshop

on Intelli- gent Agents in Cyberspace, Stanford, March 22-24 (1999) 62-67.

[33] D. T. Wijaya and S. Bressan. A random walk on the red carpet: rating movies

with user reviews and pagerank. In CIKM ’08: Proceeding of the 17th ACM

conference on Information and knowledge management, pages 951–960. ACM, 2008.

[34] W. Zhang, C. Yu, and W. Meng. Opinion retrieval from blogs. In Proceedings

of the sixteenth ACM conference on Conference on information and knowledge

management, CIKM ’07, pages 831–840. ACM, 2007.

[35] L. Zhuang, F. Jing, X. Zhu, and L. Zhang. Movie review mining and

summarization. In Proceedings of the ACM SIGIR Conference on Information and

Knowledge Management (CIKM), 2006.