15
Xây dựng ứng dụng Xây dựng ứng dụng thu thập dữ liệu thu thập dữ liệu tự động từ các tự động từ các Website Website HỘI ĐỒNG: HỘI ĐỒNG: TS. Võ Thị Ngọc Châu TS. Võ Thị Ngọc Châu GVPB: GVPB: ThS. Nguyễn Văn Đoàn ThS. Nguyễn Văn Đoàn GVHD: GVHD: ThS. Đặng Trần Trí ThS. Đặng Trần Trí ---o0o--- ---o0o--- SVTH 1: SVTH 1: Nguyễn Trung Kiên - Nguyễn Trung Kiên - 50501352 50501352 SVTH 2: SVTH 2: Lê Quang Minh - 50501668 Lê Quang Minh - 50501668

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

  • Upload
    lyn

  • View
    80

  • Download
    1

Embed Size (px)

DESCRIPTION

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website. HỘI ĐỒNG: TS. Võ Thị Ngọc Châu GVPB: ThS. Nguyễn Văn Đoàn GVHD: ThS. Đặng Trần Trí ---o0o--- SVTH 1: Nguyễn Trung Kiên - 50501352 SVTH 2: Lê Quang Minh - 50501668. Mục lục. Giới thiệu đề tài Tổng quan về thu thập dữ liệu - PowerPoint PPT Presentation

Citation preview

Page 1: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Xây dựng ứng dụng thu Xây dựng ứng dụng thu thập dữ liệu tự động từ thập dữ liệu tự động từ

các Websitecác WebsiteHỘI ĐỒNG:HỘI ĐỒNG: TS. Võ Thị Ngọc ChâuTS. Võ Thị Ngọc Châu

GVPB: GVPB: ThS. Nguyễn Văn ĐoànThS. Nguyễn Văn ĐoànGVHD:GVHD: ThS. Đặng Trần TríThS. Đặng Trần Trí

---o0o------o0o---SVTH 1:SVTH 1: Nguyễn Trung Kiên - 50501352Nguyễn Trung Kiên - 50501352

SVTH 2:SVTH 2: Lê Quang Minh - 50501668Lê Quang Minh - 50501668

Page 2: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Mục lụcMục lục

1.1. Giới thiệu đề tàiGiới thiệu đề tài

2.2. Tổng quan về thu thập dữ liệuTổng quan về thu thập dữ liệu

3.3. Thiết kế ứng dụngThiết kế ứng dụng

4.4. Tổng kếtTổng kết

5.5. Tài liệu tham khảoTài liệu tham khảo

Page 3: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Giới thiệu đề tàiGiới thiệu đề tài

• Yêu cầuYêu cầu– Tìm hiểu về các kỹ thuật thu thập dữ liệu tự Tìm hiểu về các kỹ thuật thu thập dữ liệu tự

động từ các website.động từ các website.– Hiện thực một giải pháp cụ thể để thu thập Hiện thực một giải pháp cụ thể để thu thập

chúng.chúng.

Page 4: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Giới thiệu đề tàiGiới thiệu đề tài

• Mục tiêuMục tiêu– Xây dựng được một ứng dụng thu thập dữ Xây dựng được một ứng dụng thu thập dữ

liệu tự động. liệu tự động. – Ứng dụng phải có khả năng mở rộng, tùy biến Ứng dụng phải có khả năng mở rộng, tùy biến

để có thể sử dụng với nhiều website khác để có thể sử dụng với nhiều website khác nhau.nhau.

Page 5: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Tổng quan về thu thập dữ liệuTổng quan về thu thập dữ liệu

• Web CrawlerWeb Crawler

Page 6: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website
Page 7: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Thiết kế ứng dụngThiết kế ứng dụng

• Kiến trúcKiến trúc

Page 8: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Thiết kế ứng dụngThiết kế ứng dụng

• Sơ đồ hoạt động tổng quátSơ đồ hoạt động tổng quát

Page 9: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website
Page 10: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Tổng kếtTổng kết

• Kết quả đạt đượcKết quả đạt được– Lý thuyết:Lý thuyết:

• Tìm hiểu các kỹ thuật thu thập dữ liệu.Tìm hiểu các kỹ thuật thu thập dữ liệu.

– Ứng dụng:Ứng dụng:• Xây dựng thành công ứng dụng có khả năng thu Xây dựng thành công ứng dụng có khả năng thu

thập dữ liệu từ các trang web từ đơn giản cho đến thập dữ liệu từ các trang web từ đơn giản cho đến tương đối phức tạp.tương đối phức tạp.

Page 11: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Tổng kếtTổng kết

• Hạn chếHạn chế– Chương trình khó sử dụng.Chương trình khó sử dụng.– Khả năng lấy dữ liệu trên các trang xử lý Khả năng lấy dữ liệu trên các trang xử lý

bằng javascript bị hạn chế.bằng javascript bị hạn chế.

Page 12: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Tổng kếtTổng kết

• Hướng phát triểnHướng phát triển– Xây dựng công cụ hỗ trợ người dùng tạo đặc Xây dựng công cụ hỗ trợ người dùng tạo đặc

tả đầu vào XML.tả đầu vào XML.– Nghiên cứu các thư viện khác hỗ trợ tốt hơn Nghiên cứu các thư viện khác hỗ trợ tốt hơn

trong việc xử lý các trang web có javascript.trong việc xử lý các trang web có javascript.

Page 13: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Tài liệu tham khảoTài liệu tham khảo

• Tài liệu viếtTài liệu viết1.1. Michael Schrenk (2007). Michael Schrenk (2007). Webbots, Spiders, and Screen ScrapersWebbots, Spiders, and Screen Scrapers. No . No

Starch, San Francisco, USA.Starch, San Francisco, USA.

2.2. Sriram Raghavan, Hector Garcia-Molina (2001). Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Crawling the Hidden WebWeb. Computer Science Department, Stanford University, USA.. Computer Science Department, Stanford University, USA.

3.3. Steve Lawrence, C. Lee Giles (1998). Steve Lawrence, C. Lee Giles (1998). Searching the World Wide WebSearching the World Wide Web. . Science, 280(5360):98.Science, 280(5360):98.

4.4. Michael K. Bergman (2001). Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing White Paper: The Deep Web: Surfacing Hidden ValueHidden Value. University of Michigan, USA.. University of Michigan, USA.

5.5. Stephen Soderland. Stephen Soderland. Learning to Extract Text-based Information from Learning to Extract Text-based Information from the World Wide Webthe World Wide Web. Department of Computer Science & Engineering, . Department of Computer Science & Engineering, University of Washington.University of Washington.

Page 14: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Tài liệu tham khảoTài liệu tham khảo

• WebsiteWebsite1.1. Wikipedia, Wikipedia, http://www.wikipedia.orghttp://www.wikipedia.org (01-Tháng Một-2010) (01-Tháng Một-2010)

2.2. World Wide Web Consortium (W3C), World Wide Web Consortium (W3C), http://www.w3.orghttp://www.w3.org (01-Tháng (01-Tháng Một-2010)Một-2010)

3.3. HTML Tidy project, HTML Tidy project, http://tidy.sourceforge.net/http://tidy.sourceforge.net/ (01-Tháng Một-2010) (01-Tháng Một-2010)

4.4. cURL project, cURL project, http://curl.haxx.se/http://curl.haxx.se/ (01-Tháng Một-2010) (01-Tháng Một-2010)

5.5. CodeIgniter Framework, CodeIgniter Framework, http://codeigniter.com/http://codeigniter.com/ (01-Tháng Một-2010) (01-Tháng Một-2010)

6.6. Mozenda software, Mozenda software, http://www.mozenda.com/http://www.mozenda.com/ (01-Tháng Một-2010) (01-Tháng Một-2010)

Page 15: Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website