12
Demo: Kết hợp Apache - JRE - Nutch vào Eclipse. Tạo và lưu câu truy vấn vào QLogs. A. Kết hợp Apache - JRE - Nutch vào Eclipse 1, Phiên bản Eclipse 2. Kết hợp Webserver, JRE vào Workspace. 3. Import Nutch. 4. Đặc tả CrawlDB B. Tạo QLogs và lưu câu truy vấn 1. CSDL 2. Import thư viện JDBC vào Eclipse 3. Lưu câu truy vấn

Apache+ q logs

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Apache+ q logs

Demo: Kết hợp Apache - JRE - Nutch vào Eclipse. Tạo và lưu câu truy vấn vào QLogs.

A. Kết hợp Apache - JRE - Nutch vào Eclipse

1, Phiên bản Eclipse

2. Kết hợp Webserver, JRE vào Workspace.

3. Import Nutch.

4. Đặc tả CrawlDB

B. Tạo QLogs và lưu câu truy vấn

1. CSDL

2. Import thư viện JDBC vào Eclipse

3. Lưu câu truy vấn

Page 2: Apache+ q logs

A. Kết hợp Apache - JRE - Nutch vào Eclipse

1, Phiên bản Eclipse thực nghiệm: Eclipse EUROPA

download tại:

http://www.eclipse.org/downloads/moreinfo/jee.php

Page 3: Apache+ q logs

A. Kết hợp Apache - JRE - Nutch vào Eclipse

2. Kết hợp Webserver Apache, JRE vào Workspace:

Kết hợp Webserver: Vào menu Window. Preferences. Server. Installed Runtimes. Nhấn nút Add để add Webserver (Apache Tomcat).

Page 4: Apache+ q logs

A. Kết hợp Apache - JRE - Nutch vào Eclipse

2. Kết hợp Webserver Apache, JRE vào Workspace:

Kết hợp JRE: Nhấn button Next, chọn môi trường thực thi JRE (Java Runtime Environment)

Page 5: Apache+ q logs

A. Kết hợp Apache - JRE - Nutch vào Eclipse

3. Import Nutch vào Workspace: Trên vùng Project Explorer, nhấn phải chọn Import. Web. WAR file để import Nutch vào Workspace.

Page 6: Apache+ q logs

A. Kết hợp Apache - JRE - Nutch vào Eclipse

4. Đặc tả CrawlDB để thực hiện tìm kiếm: Trên vùng Project Explorer, từ thư mục Nutch vừa được triển khai trên, chọn built. classess, mở file nutch-site.xml, đặc tả thuộc tính value cho CrawlDB:

Page 7: Apache+ q logs

A. Kết hợp Apache - JRE - Nutch vào Eclipse

- trang search.jsp sử dụng phương thức GET để get data nằm trong URL string, - Webserver không nhận biết được encoding của câu lệnh request.setCharacterEncoding("UTF-8") mà sử dụng default encoding ISO-8859-1, - Đây là nguyên nhân khiến JSP form không phân giải được mã tiếng Việt UTF-8. - Trên vùng Project Explorer, từ thư mục Webserver vừa được kết hợp trên, mở file server.xml để thêm encoding nhận dạng URI (Uniform Resource Identifier):

<Connector URIEncoding="UTF-8" connectionTimeout="20000" port="8080" ... >

- Running với F11.

Page 8: Apache+ q logs

A. Kết hợp Apache - JRE - Nutch vào Eclipse

Debug: Đặt điểm break point và sử dụng các phím chức năng như F5 (Step Into), F6 (Step Over), F7 (Step Return) để thực hiện debug.

Page 9: Apache+ q logs

B. Tạo Qlogs và lưu câu truy vấn

- CSDL để lưu các câu truy vấn: MS. SQL Server- Import lớp thư viện JDBC vào Eclipse

Bước 1. Download tại:http://www.sourceforge.net/projects/jtds/develop

Bước 2. Copy file jtds-1.2.5.jar vào Workspace để build vào thư viện của Eclipse.

B3. Trên vùng Project Explorer, từ thư mục Nutch vừa được triển khai trên, nhấn phải chọn Properties. Java

Build Path. Chọn tab Libraries. Click button Add External JARs để add file *.jar vừa copy trên. Sang tab Order and Export để click chọn thư viện này.

Page 10: Apache+ q logs

B. Tạo Qlogs và lưu câu truy vấn Import lớp thư viện JDBC vào Eclipse (cont)

Lưu câu truy vấn (search.jsp): Mặc định, Nutch lưu câu truy vấn của người dùng vào biến queryString. Nhằm thực hiện QLogs, nhóm Gợi ý truy vấn đề nghị sử dụng DBMS để lưu các câu truy vấn. Có thể sử dụng 1 đoạn mã lập trình nhỏ để lấy nội dung biến queryString và lưu vào QLogs.

Page 11: Apache+ q logs

B. Tạo Qlogs và lưu câu truy vấnLưu câu truy vấn (cont)

Page 12: Apache+ q logs

B. Tạo Qlogs và lưu câu truy vấn

Các hàm chức năng:- Hàm lấy thời gian: <%=date.toGMTString()%>

- Hàm lấy IP: request.getRemoteAddr()

- Hàm lấy Session:

HttpSession session = request.getSession();

String id = session.getId();

- Hàm lấy Cookies:

Cookie cookie = new Cookie ("tên",giá trị);

Cookie.setMaxAge(365 * 24 * 60 * 60);

response.addCookie(cookie);

Cookie cookies [] = request.getCookies ()

Cookies[i].getValue()

- Hàm lấy URL clicked: ?