Download pdf - Đề cương CSDLĐPT

Transcript
Page 1: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 1/14

Đề cương ôn tập: Cơ sở dữ liệu đa phương tiện

Lớ p: D08HTTT1

Câu 1: Các loại dữ liệu ĐPT và cách phân loại ? (Kiên) Trả lờ i:

-  Các loại dữ liệu ĐPT bao gồm:

+ Dữ liệu văn bản (có hoặc không có cấu trúc)

+ Dữ liệu âm thanh

+ Dữ liệu ảnh

+ Dữ liệu video

-  Một số cách phân loại dữ liệu:

+ Dựa trên định dạng vật lý+ Dựa trên mối quan hệ giữa các dữ liệu ĐPT vớ i chiều thờ i gian hay không gian

Câu 2: Các đặc tính chính của dữ liệu ĐPT? (Kiên) 

Trả lờ i:

-  Các đặc tính chính của dữ liệu ĐPT gồm có:

+ Dung lượ ng lớ n (video, audio)

+ Dữ liệu video và audio có chiều thờ i gian nên phải đượ c trình bày ở  tốc độ xác

định+ Dữ liệu số audio, images, video đượ c biểu diễn bằng chuỗi các giá trị mẫu riêng

biệt, thiếu cấu trúc ngữ nghĩa để máy tính có thể tự động nhận dạng nội dung.

+ Nhiều ứng dụng ĐPT đòi hỏi biểu diễn đồng thờ i nhiều loại dữ liệu ĐPT theo

chiều thờ i gian và không gian phù hợ p.

+ Dữ liệu ĐPT mang nhiều thông tin. Do đó cần nhiều tham số để biểu diễn nội

dung một cách đúng đắn

Câu 3: So sánh DBMS vớ i IR? (Đoàn) 

Trả lờ i:

DBMS IR

-  Một DBMS chứa các bản ghi đượ ccấu trúc đồng nhất:

+ Mỗi bản ghi được đặc trưng bở i các

thuộc tính

+ Giá trị của thuộc tính miêu tả rõ ràng

-  Trong IR, các bản ghi không có

cấu trúc, không có thuộc tính cố định:

+ Để  đánh chỉ mục: keywords, index

terms, doc descriptor

+ Tạo từ khóa và chỉ mục đóng vai trò

Page 2: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 2/14

và đầy đủ các bản ghi

-  Trong DBMS, việc truy vấn thông

tin dựa trên sự trùng lặp tuyệt đối giữa

câu truy vấn và giá trị các thuộc tính của

bản ghi

quan trọng

-  Trong IR, không đòi hỏi trùng lặp

tuyệ đối

-  Sự truy vấn dựa trên độ trùng khớ p

giữa các tập thuật ngữ 

-  Sử dụng các phương pháp trùnglặp xấp xỉ hoặc từng phần

-  Cùng 1 term có thể có nghĩa khác 

Câu 4: Vai trò của DBMS và IR trong truy vấn thông tin ĐPT? (Kiên) 

Trả lờ i:

  Vai trò của DBMS (Hệ quản trị cơ sở dữ liệu) trong truy vấn thông tin ĐPT:

-  Các hệ quản trị CSDL đã đượ c phát triển và sử dụng rộng rãi đối vớ i dữ liệu có

cấu trúc

-  Trong hệ quản trị CSDL quan hệ, thông tin đượ c tổ chức dướ i dạng các bảng

và quan hệ. Các hàng của bảng tương ứng với các đơn vị thông tin hoặc bản ghi. Các

cột tương ứng vớ i các thuộc tính

-  SQL đượ c sử dụng để thao tác trên CSDL

+ Ví dụ: create table STUDENT(

Student_id integer,

Name varchar(50),

Address varchar(100))

-  Các thuộc tính trong hệ quản trị CSDL quan hệ có kiểu cố định và có kích cỡ  cố định. Hệ quản trị CSDL quan hệ phù hợ p vớ i việc xử lý các dữ liệu kiểu chữ số và

các xâu ký tự ngắn

-  Loại dữ liệu lớn có độ dài biến đổi đượ c hỗ trợ trong hệ quản trị CSDL quan

hệ là đối tượ ng rộng hoặc nhị phân (BLOB)+ Ví dụ: create table STUDENT(

Student_id integer,

Name varchar(50),

Address varchar(100),

Picture BLOB)

-  Hệ quản trị CSDL hướng đối tượ ng

+ Kết nối các đặc điểm hướng đối tượ ng vớ i CSDL quan hệ 

+ Các đối tượng được định nghĩa theo kiểu hướng đối tượ ng. Mỗi đối tượ ng chứacác thuộc tính và phương thức

Page 3: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 3/14

+ Ví dụ: Create type Image(

Private

Size integer,

Resolution integer,

Content float[],

Public

…) 

create table STUDENT(

Student_id integer,

Name varchar(50),

Address varchar(100),

Picture IMAGE)

-  BLOBs và các đối tượ ng là một bướ c tiếp cận đến xử lý dữ liệu ĐPT 

-  BLOBs chỉ  lưu trữ dữ liệu có khối lượ ng lớ n, còn đối tượ ng chứa các thuộc

tính đơn giản dẫn đến một số yêu cầu để xử lý truy vấn dữ liệu ĐPT như sau: + Các công cụ tự động hoặc bán tự động trích chọn các nội dung và đặc trưng chứa

trong dữ liệu ĐPT 

+ Cấu trúc đánh chỉ mục đa chiều để xử lý các vector đặc trưng 

+ Các độ đo tương đồng để truy vấn thông tin ĐPT thay vì sử dụng trùng lặp chính

xác

+ Các hệ thống con lưu trữ dữ liệu kích cỡ lớn, băng tần rộng, thờ i gian thực

+ Giao diện ngườ i dùng cho phép tạo câu truy vấn linh hoạt trên các loại dữ liệu

ĐPT khác nhau, biễu diễn dữ liệu ĐPT. 

  Vai trò của IR trong truy vấn thông tin ĐPT 

-  IR tập trung vào truy vấn tài liệu văn bản

-  Các k ỹ thuật IR đóng vai trò quan trọng trong quản lý thông tin ĐPT bở i:+ Tồn tại một lượ ng lớ n các tài liệu văn bản ở các dạng tổ chức, ví dụ như thư viện.

+ Văn bản được dùng để chú giải các loại dữ liệu ĐPT khác -  Tuy nhiên, việc dùng các k ỹ thuật IR trong xử lý thông tin ĐPT có hạn chế:

+ Việc chú giải là quá trình thủ công, tốn thờ i gian

+ Việc chú giải là không đầy đủ và mang tính chủ quan

+ Các k ỹ thuật IR không thể xử lý các câu truy vấn dạng khác văn bản

+ Một vài đặc điểm ĐPT khó mô tả bằng văn bản (k ết cấu ảnh, hình thù đối

tượ ng..)

Page 4: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 4/14

Câu 5: Các kiến trúc hệ thống CSDL ĐPT? (Nghĩa) 

Trả lờ i:

a.  Kiến trúc cặp lỏng

-  Thế nào là kiến trúc cặp lỏng+ Hệ quản trị CSDL là 1 hệ thống gồm 1 CSDL và các thao tác trên CSDL đó,

đượ c thiết k ế trên nền tảng phần cứng, phần mềm vớ i một kiên trúc nhất định

+ Hệ quản trị CSDL ở  đây quản lý dữ liệu metadata

+ Thành phần quản lý tệp tin đa phương tiện, quản lý dữ liệu đa phương tiện

+ Module tích hợ p hệ quản trị CSDL và thành phần quản lý tệp tin đa phương tiện

-  Ưu điểm: Tận dụng các hệ thống quản lý tệp tin đa phương tiện khác nhau để 

quản lý dữ liệu

b.  Kiến trúc cặp chặt

-  Kiến trúc cặp chặt

+ Hệ quản trị CSDL ở  đây quản lý dữ liệu đa phương tiện và metadata+ Hệ quản trị CSDL là một MM-DBMS

Page 5: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 5/14

 

-  Ưu điểm: Các chức năng của DBMS có thể  đượ c áp dụng trên CSDL đa phương tiện

+ Quản lý truy vấn

+ Quản lý giao dịch

+ Quản lý lưu trữ 

+ Quản lý bảo mật toàn vẹn

c.  Kiến trúc lược đồ 

-  Lược đồ là metadata mô tả dữ 

liệu dpt trong CSDL

-  Mô hình 3 mức lươc đồ 

-  Lược đồ  ngoài định nghĩa cáccách nhìn của người dùng đối vớ i CSDL

(video view, audio view…) 

-  Lược đồ khái niệm đượ c xâydựng dựa trên các mô hình dữ liệu

-  Lược đồ trong: cấu trúc dữ liệu

bên trong

-  Mỗi lược đồ có các cách biểu

diễn khác nhau

-  Mappings thực hiện chuyển đổi

từ biểu diễn này sang biểu diễn khác

Page 6: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 6/14

 

d.  Kiến trúc chức năng 

e.  Kiến trúc hệ thống mở rộng

Page 7: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 7/14

 

f.  Kiến trúc phân tán

-  Cách mà các đối tượng đượ c phân tán và k ết hợ p+ Truy vấn

+ Giao dịch

+ Metadata

+ Bảo mật

+ Toàn vẹn dữ liệu

g.  Kiến trúc liên động

-  Client/server (CORBA)

-  Ba tầng (three tier)-  Hướ ng thành phần

Page 8: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 8/14

 

h.  Kiến trúc siêu phương tiện: hỗ trợ duyệt CSDL theo các liên k ết

Page 9: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 9/14

Câu 6: Dữ liệu meta cho CSDL đa phương tiện? (Phượ ng) 

Trả lờ i:

1.  Định nghĩa Metadata 

-  Là dạng dữ liệu mô tả về dữ liệu. Trong cơ sở dữ liệu, metadata là các dạngbiểu diễn khác nhau của các đối tượng trong cơ sở dữ liệu. Trong cơ sở dữ liệu quan

hệ, metadata là các định nghĩa của bảng, cột, cơ sở dữ liệu, view và nhiều đối tượ ng

khác. Trong kho dữ liệu, metadata là dạng định nghĩa dữ liệu như: bảng, cột, một báo

cáo, các luật doanh nghiệp hay những quy tắc biến đổi. Metadata bao quát tất cả các

 phương tiện của kho dữ liệu.

-  Metadata phải chứa những thông tin: cấu trúc của dữ liệu, thuật toán sử dụng

để tổng hợ p dữ liệu, ánh xạ xác định sự tương ứng dữ liệu từ môi trườ ng tác nghiệp

sang kho dữ liệu

2.  Vai trò Metadata

-  Thông tin metadata đượ c cung cấp cho phép ngườ i dùng cuối hiểu rõ hơn bản

chất về dữ liệu mà họ đang có và quyết định sử dụng một cách đúng đắn và phù hợ pdữ liệu.

-  Cấu trúc và nội dung dữ liệu bao gồm một số loại thông tin cơ bản: Thông tin

mô tả về bản thân dữ liệu metadata; thông tin về dữ liệu mà metadata mô tả; thông tin

về cá nhân, tổ chức liên quan đến dữ liệu metadata và dữ liệu

3.  Các loại metadata

-  Metadata cho các loại phương tiện khác nhau

-  Đặc trưng bằng mối quan hệ vớ i nội dung dữ liệu đa phương tiện

-  Metadata có thể đượ c trích chọn trực tiếp từ dữ liệu đa phương tiện

  Metadata cho dữ liệu văn bản

-  Chứa đựng thông tin về dữ liệu văn bản

-  Metadata độc lập nội dung:

+ Loại dữ liệu văn bản

+ Số trang

+ Định dạng+ Số chương, số paragraph mỗi chương 

-  Metadata phụ thuộc nội dung: Nội dung câu chuyện, từ khóa, tiêu đề, tóm tắt

-  SGML (standard generalized markup language), XML đượ c sử dụng để gán thẻ 

cho các loại dữ liệu văn bản có thể trích chọn

-  Các thẻ có thể được lưu trong DBs 

-  Dữ liệu text có thể đượ c chú giải

  Metadata cho dữ liệu ảnh

Sử dụng dữ liệu text để mô tả ảnh-  Metadata có thể được lưu trong DBs 

Page 10: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 10/14

-  Metadata độc lập/phụ thuộc nội dung

-  Ví dụ: Bức ảnh X mô tả đại dương vớ i rừng cọ và những ngôi nhà trên bãi biển

  Metadata cho dữ liệu âm thanh

-  Mô hình hóa cho dữ liệu âm thanh

-  Gán thẻ metadata

-  Trích chọn từ khóa trong thẻ 

-  Dữ liệu âm thanh có thể đượ c chú giải

-  Metadata độc lập/phụ thuộc nội dung

  Metadata cho dữ liệu video

-  Mô hình hóa cho dữ liệu video

-  Gán thẻ metadata

-  Trích chọn từ khóa trong thẻ 

-  Dữ liệu video có thể đượ c chú giải-  Metadata độc lập/phụ thuộc nội dung

  Metadata cho dữ liệu k ết hợ p-  Metadata dùng để đồng bộ hiển thị các loại phương tiện

4.  Các khía cạnh liên quan đến Metadata

-  Ontology cho dữ liệu đa phương tiện

+ Ontology là đặc tả về sự khái niệm hóa

+ Dùng để biểu diễn tri thức chung cho quá trình cộng tác

-  Chú giải

+ Quản lý chú giải: trích chọn, truy vấn, cập nhật, tương quan giữa các chú giải và

dữ liệu đa phương tiện

-  Chất lượ ng dịch vụ và nguồn gốc dữ liệu

+ Độ chính xách của dữ liệu

+ Nguồn gốc của dữ liệu

5.  Quản lý Metadata

-  Truy vấn

-  Cập nhật

-  Bảo mật

-  Trích chọn

Câu 7: Kĩ thuật đánh chỉ mục cho các loại dữ liệu khác nhau? (Đ. Giang) 

Trả lờ i:

-  Dữ liệu văn bản: dựa trên từ khóa. Một văn bản luôn mang cùng lúc nhiều yếu

tố, do vậy phải chọn một từ khóa có ý nghĩa rộng nhưng phải ít ký tự. Không nên chọn

từ khóa quá dài hay quá ngắn. Lựa chọn từ khóa cần phải trả lời đượ c câu hỏi: văn bản

Page 11: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 11/14

thuộc loại nào? Đối tượng hướng đến là ai? Ngườ i dùng dùng loại công cụ nào để tìm

kiếm?

-  Dữ liệu ảnh: dựa trên từ khóa, ảnh

-  Dữ liệu video: dựa trên từ khóa, các ảnh trích trọn từ ảnh

-  Audio: từ khóa

-  Chú giải.

Câu 8: Các kỹ thuật lưu trữ  trong cơ sở dữ liệu đa phương tiện? (Cúc) 

Trả lờ i:

-  Dùng mảng các đĩa rẻ tiền

-  Kiến trúc lưu trữ phân cấp

+ Dùng băng từ và đĩa quan để lưu trữ dài hạn, đĩa từ lưu đoạn bắt đầu của phươngtiện (trễ  ban đầu thấp)

+ Di chuyển files từ  băng từ ra đĩa từ khi có yêu cầu (trễ  ban đầu dài giải pháp

dựa trên mẫu sử dụng, tần số sử dụng)

-  Lưu trữ dữ liệu trên thiết bị + Các tệp tin đượ c phân thành các blocks

+ Các blocks được lưu ở  đĩa theo các phương pháp khác nhau 

  Lưu liên tục: Các block của file định vị liên tiếp trên các block của đĩa.  

Ưu điểm:dễ cài đặt  Nhược điểm: Tốn thờ i gian khi chèn và xóa, phân mảnh đĩa 

 Thích hợ p cho ứng dụng ghi một lần, đọc nhiều lần.

  Lưu có ràng buộc: Từng block của file chứa con trỏ trỏ tớ i block k ế tiếp

 Ưu điểm: dễ mở rộng file

  Nhược điểm: đọc file chậm

  Lưu rải rác

 Danh sách liên k ết, FAT, I-nodes

-  Lưu trữ dữ liệu trên mảng đĩa. + Lưu toàn bộ file đa phương tiện trên một đĩa 

+ Lưu file trên các đĩa khác nhau 

+ Lưu toàn bộ file đa phương tiện trên một đĩa 

+ Lưu toàn bộ file đa phương tiện trên một đĩa 

+ Lưu file trên các đĩa khác nhau 

+ Các k ỹ thuật phân tán các blocks trên các đĩa: 

  Data Striping: Blocks đượ c tổ chức thành các nhóm truy cập, các đĩa đượ ctruy cập đồng bộ 

  Data interleaving: Các đĩa không đượ c truy cập đồng bộ 

Page 12: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 12/14

  Mong muốn có kích thướ c của blocks bằng với kích thướ c của các đơn vị dữ 

liệu phương tiện logic

-  Điều độ đĩa và điều khiển tiếp nhận

+ Thiết bị lưu trữ cần truyền dữ liệu bằng vớ i tốc độ  phương tiện đượ c biểu thị phía

client

+ Hoạt động đĩa là không tất định nên cần có cơ chế điều độ đĩa để duy trì sự liên

tục của dữ liệu

+ Cần cơ chế điều khiển tiếp nhận để tránh quá tải hệ thống

  Dải tần tổng của các luồng yêu cầu phải nhỏ hơn tốc độ truyền của đĩa 

+ Điều độ đĩa và điều khiển tiếp nhận nhằm nâng cao hiệu suất sử dụng tài nguyên

đầu đọc đĩa 

+ Mục tiêu của điều độ đĩa: làm giảm thờ i gian tìm kiếm, giảm trễ quay vòng, tăng

dung lượng đĩa 

Câu 9: Mô hình hoạt động QoS và các mức đảm bảo QoS trong CSDL ĐPT? 

(Oanh) 

Trả lờ i:

a.  Mô hình hoạt động QoS

-  Ứ ng dụng gửi yêu cầu về QoS

Hệ thống ĐPT: + Chấp nhận yêu cầu nếu đủ tài nguyên

+ Từ chối hoặc đề xuất QoS thấp hơn nếu không đủ tài nguyên

-  Các phần từ cần thiết để đảm bảo QoS:

+ Cơ chế đặc tả QoS để ứng dung chỉ rõ yêu cầu QoS

+ Điều khiển chấp nhận dịch vụ 

+ Quá trình thỏa hiệp QoS

+ Cung cấp và điều độ tài nguyên

+ Giám sát lưu lượ ng từ các ứng dụng

b.  Các mức đảm bảo QoS

-  Đảm bảo tất định (cứng): Đắt, kém hiệu quả trong sử dụng tài nguyên, worse

case

-  Đảm bảo thống kê (mềm): QoS được đáp ứng đến tỷ lệ phần trăm nhất định,

hiệu quả trong sử dụng tài nguyên, khó cài đặt

-  Đảm bảo best-effort: không có đảm bảo QoS, hệ thống cung cấp tài nguyên

hiện có.

Page 13: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 13/14

Câu 10: Các thuật toán điều độ đĩa? (Phượ ng) 

Trả lờ i:

  Điều độ đĩa để giảm thờ i gian tìm kiếm, giảm trễ quay vòng, tăng thông lượ ng

đĩa, cun   Các thuật toán điều độ đĩa truyền thống:

-  FCFS (First Come First Served): Không xem xét các yếu tố như vị trí đầu đọc

và hướ ng di chuyển

-  SSTF (Shortest Seek Time First): Xem xét các vị trí đầu đọc

-  Scan: Xem xét chuyển động của đầu đọc

   Nhược điểm chính của các phương pháp truyền thống là không xem xét yếu tố 

thờ i gian của các luồng (stream) Không phù hợp cho điều độ các máy chủ  đa phương tiện

  Ngoài ra có các thuật toán điều độ đĩa khác: -  EDF (Earleast Dealine First):

+ Ưu điểm: Đảm bảo đượ c yếu tố thờ i gian cho các luồng

+ Nhược điểm: Không xem xét yếu tố vị trí đầu đọc

-  Scan-Earleast Deadline First: Kết hợ p thuật toán Scan vớ i EDF:

+ Khi nhiều yêu cầu có cùng deadline thì áp dụng scan

+ Khi tất cả các yêu cầu có cùng deadline thì thuật toán trở  thành Scan và ngượ c lại

+ Thuật toán hiệu quả khi có nhiều yêu cầu có cùng deadline Cần k ỹ thuật để 

tăng số yêu cầu có cùng deadline

-  Thuật toán Round-Robin:

+ Các luồng đượ c phục vụ tại các lượ t riêng biệt

+ Trình tự phục vụ cho mỗi luồng là cố định ở mỗi lượ t

+ Khoảng thờ i gian giữa các lần phục vụ liên tiếp của các luồng phụ thuộc vào

khoảng thờ i gian của lượ t

+ Thuật toán thích hợ p với cơ chế lưu dữ liệu lên đĩa kiểu liên tục ràng buộc

-  Điều độ quét nhóm:

+ Mỗi lượt đượ c phân thành các nhóm và thực hiện round-robin cho các nhóm+ Trong các nhóm thực hiện Scan

Câu 11: Các bướ c của quá trình đánh chỉ mục tự  động dữ liệu text? (Bình) 

Trả lờ i:

-  Mục đích của đánh chỉ mục là tìm ra các thuật ngữ biểu diễn mỗi tài liệu một

cách tốt nhất

Quá trình đánh chỉ mục tự động bao gồm các bướ c:1.  Xác định các từ trong tiêu đề, tóm tắt và/hoặc tài liệu

Page 14: Đề cương CSDLĐPT

7/31/2019 Đề cương CSDLĐPT

http://slidepdf.com/reader/full/de-cuong-csdldpt 14/14

2.  Loại bỏ stop words

3.  Nhận dạng từ đồng nghĩa nhử từ điển

4.  Stemming để có gốc từ 

5.  Đếm tần số của gốc từ trong mỗi tài liệu

6.  Tính toán trọng số cho gốc từ 

7.  Tạo file chỉ số dựa trên các từ và trọng số