Upload
hung-nguyen
View
220
Download
0
Embed Size (px)
Citation preview
8/18/2019 LTTT Slide v1
1/311
BÀI GIẢNG MÔN HỌCLÝ THUYẾT THÔNG TIN
Giảng Viên: Hồ Văn Quân
E-mail: [email protected] site: http://www.dit.hcmut.edu.vn/~hcquan/student.htm
Trườ ng Đại học Bách khoaKhoa Công Nghệ Thông Tin
8/18/2019 LTTT Slide v1
2/311
Trang 2Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
NỘI DUNG MÔN HỌC Bài 1 Giớ i thiệu
Bài 2 Một số khái niệm cơ bản Bài 3 Chuẩn bị toán học
Bài 4 Lượ ng tin
Bài 5 Entropy Bài 6 Mã hiệu
Bài 7 Mã hóa tối ưu nguồn r ờ i r ạc không nhớ
Bài 8 Mã hóa nguồn phổ quát
Bài 9 Kênh r ờ i r ạc không nhớ , lượ ng tin tươ ng hỗ
8/18/2019 LTTT Slide v1
3/311
Trang 3Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
NỘI DUNG MÔN HỌC (tt) Bài 10 Mã hóa chống nhiễu, định lý kênh
Bài 11 Mã khối tuyến tính Bài 12 Cơ sở toán học của mã hóa chống nhiễu
Bài 13 Mã vòng
Bài 14 Giớ i thiệu về mật mã hóa Bài 15 Một số vấn đề nâng cao
8/18/2019 LTTT Slide v1
4/311
Trang 4Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
TÀI LIỆU THAM KHẢO1. Information Theory - Robert B.Ash, Nhà xuất bản Dover, Inc,
1990.
2. Introduction to Information Theory - Masud Mansuripur, Nhàxuất bản Prentice–Hall, Inc, 1987.
3. A Mathematical Theory of Communication - C. E. Shannon,
Tạ p chí Bell System Technical, số 27, trang 379–423 và 623– 656, tháng 7 và tháng 10, 1948.
4. Cơ sở Lý thuyết truyền tin (tậ p một và hai) - Đặng VănChuyết, Nguyễn Tuấn Anh, Nhà xuất bản Giáo dục, 1998.
8/18/2019 LTTT Slide v1
5/311
Trang 5Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
HÌNH THỨ C ĐÁNH GIÁ Sẽ có thông báo cụ thể cho từng khóa học. Tuy nhiên,
thườ ng là có hình thức như bên dướ i. Thi tr ắc nghiệm
Giữa k ỳ: 30 câu / 45 phút
Cuối k ỳ: 45 câu / 90 phút Đượ c phép xem tài liệu trong 2 tờ giấy A4
Làm bài tậ p lớ n cộng điểm (không bắt buộc)
Nộ p bài tậ p lớ n và báo cáo vào cuối học k ỳ Cộng tối đa 2 điểm
8/18/2019 LTTT Slide v1
6/311
Trang 6Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
CÁC MÔN LIÊN QUAN Lý thuyết xác suất
K ỹ thuật truyền số liệu Xử lý tín hiệu số
8/18/2019 LTTT Slide v1
7/311
Trang 7Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bài 1 Giớ i thiệu1.1 Thông tin là gì?
1.2 Vai trò của thông tin1.3 Lý thuyết thông tin nghiên cứu những gì?
1.4 Những ứng dụng của lý thuyết thông tin
1.5 Lý thuyết thông tin – Lịch sử hình thành và quan điểmkhoa học hiện đại
8/18/2019 LTTT Slide v1
8/311
Trang 8Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Thông tin là gì? Một vài ví dụ
Hai ngườ i nói chuyện vớ i nhau. Cái mà trao đổi giữa họ gọi làthông tin.
Một ngườ i đang xem tivi/nghe đài/đọc báo, ngườ i đó đang nhậnthông tin từ đài phát/báo.
Quá trình giảng dạy trong lớ p. Các máy tính nối mạng và trao đổi dữ liệu vớ i nhau.
Máy tính nạ p chươ ng trình, dữ liệu từ đĩ a cứng vào RAM để
thực thi.
8/18/2019 LTTT Slide v1
9/311
Trang 9Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Thông tin là gì? (tt) Nhận xét
Thông tin là cái đượ c truyền từ đối tượ ng này đến đối tượ ngkhác để báo một “đ iề u” gì đó. Thông tin chỉ có ý ngh ĩ a khi“điều” đó bên nhận chưa biết.
Thông tin xuất hiện dướ i nhiều dạng âm thanh, hình ảnh, ... Những dạng này chỉ là “vỏ bọc” vật chất chứa thông tin. “Vỏ bọc” là phần “xác”, thông tin là phần “hồn”.
Ng ữ nghĩ a của thông tin chỉ có thể hiểu đượ c khi bên nhận hiểuđượ c cách biểu diễn ngữ ngh ĩ a của bên phát.
Một trong những phươ ng tiện để diễn đạt thông tin là ngôn ng ữ . Có hai tr ạng thái của thông tin: truyề n và l ư u tr ữ . Môi tr ườ ng
truyền/lưu tr ữ đượ c gọi chung là môi tr ườ ng chứa tin hay kênhtin.
8/18/2019 LTTT Slide v1
10/311
Trang 10Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Vai trò của thông tin Các đối tượ ng sống luôn luôn có nhu cầu hiểu về thế giớ i xung
quanh, để thích nghi và tồn tại. Đây là một quá trình quan sát,
tiế p nhận, trao đổi và xử lý thông tin từ môi tr ườ ng xung quanh. Thông tin tr ở thành một nhu cầu cơ bản, một điều kiện cần cho
sự tồn tại và phát triển.
Khi KHKT, XH ngày càng phát triển, thông tin càng thể hiệnđượ c vai trò quan tr ọng của nó đối vớ i chúng ta.
Ví dụ, hành động xuất phát từ suy ngh ĩ , nếu suy ngh ĩ đúng, thìhành động mớ i đúng. Suy ngh ĩ lại chịu ảnh hưở ng từ các nguồnthông tin đượ c tiế p nhận. Vì vậy thông tin có thể chi phối đếnsuy ngh ĩ và k ết quả là hành động của con ngườ i.
8/18/2019 LTTT Slide v1
11/311
Trang 11Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
LTTT nghiên cứ u nhữ ng vấn đề gì? Ở góc độ khoa học k ỹ thuật, LTTT nghiên cứu nhằm tạo ra một
“cơ sở hạ tầng” tốt cho việc truyền thông tin chính xác, nhanh
chóng và an toàn; lưu tr ữ thông tin một cách hiệu quả. Ở các góc độ nghiên cứu khác LTTT nghiên cứu các vấn đề về
cách tổ chức, biểu diễn và truyền đạt thông tin, và tổng quát làcác vấn đề về xử lý thông tin.
Ba l ĩ nh vực nghiên cứu cơ bản của môn học Mã hoá chống nhiễu Mã hoá tối ư u (hay nén dữ liệu) Mật mã hoá
8/18/2019 LTTT Slide v1
12/311
Trang 12Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Nhữ ng ứ ng dụng của LT thông tin Cuộc cách mạng thông tin đang xảy ra, sự phát triển mạnh mẽ
của các phươ ng tiện mớ i về truyền thông, lưu tr ữ thông tin làm
thay đổi ngày càng sâu sắc xã hội chúng ta. LTTT đóng một vai trò quyết định trong sự phát triển này bằng
cách cung cấ p cơ sở lý thuyết và một cái nhìn triết học sâu sắc
đối vớ i những bài toán mớ i và thách thức mà chúng ta chạmtrán – hôm nay và mai sau.
Những ứng dụng phổ biến của LTTT là truyền thông và xử lýthông tin bao gồm: truyề n thông , nén, bảo mật , l ư u tr ữ , ...
Các ý tưở ng của LTTT đã đượ c áp dụng trong nhiều l ĩ nh vựcnhư vật lý, ngôn ng ữ học, sinh vật học, khoa học máy tính, tâmlý học, hóa học
8/18/2019 LTTT Slide v1
13/311
Trang 13Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Nhữ ng ứ ng dụng của LT thông tin (tt) Mối quan hệ giữa LTTT và thố ng kê đã đượ c tìm thấy, các
phươ ng pháp mớ i về phân tích thống kê dựa trên LTTT đã đượ c
đề nghị. Ứ ng dụng vào quản lý kinh t ế . Ví dụ, lý thuyết đầu tư tối ưu
xuất hiện đồng thờ i vớ i lý thuyết mã hóa nguồn tối ưu.
Ứ ng dụng vào ngôn ng ữ học. Ứ ng dụng đến tâm lý thự c nghiệm và đặc biệt là l ĩ nh vực dạy và
học.
8/18/2019 LTTT Slide v1
14/311
Trang 14Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lịch sử hình thành Cuộc cách mạng lớ n nhất về cách nhìn thế giớ i khoa học là
chuyển hướ ng từ thuyế t quyế t định Laplacian đến bứ c tranh
xác suấ t của t ự nhiên. Thế giớ i chúng ta đang sống trong đó chủ yếu là xác suấ t . Kiến
thức của chúng ta cũng là một dạng xác suất. LTTT nổi lên sau khi cơ học thống kê và lượ ng tử đã phát triển,
và nó chia xẻ vớ i vật lý thống kê các khái niệm cơ bản vềentropy.
Theo lịch sử, các khái niệm cơ bản của LTTT như entropy,thông tin tươ ng hỗ đượ c hình thành từ việc nghiên cứu các hệthố ng mật mã hơ n là từ việc nghiên cứu các kênh truyề n thông .
Về mặt toán học, LTTT là một nhánh của lý thuyế t xác suấ t vàcác quá trình ng ẫ u nhiên (stochastical process).
8/18/2019 LTTT Slide v1
15/311
Trang 15Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lịch sử hình thành (tt) Quan tr ọng và có ý ngh ĩ a nhất là quan hệ liên k ết giữa LTTT và
vật lý thố ng kê.
Trong một thờ i gian dài tr ướ c khi LTTT đượ c hình thành, L.Boltzman và sau đó là L.Szilard đã đánh đồng ý ngh ĩ a củathông tin vớ i khái niệm nhiệt động học của entropy. Một mặt
khác, D. Gabor chỉ ra r ằng “lý thuyết truyền thông phải đượ cxem như một nhánh của vật lý”.
C. E. Shannon là cha đẻ của LTTT.
8/18/2019 LTTT Slide v1
16/311
Trang 16Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bài 2 Một số khái niệm cơ bản2.1 Thông tin (Information)
2.2 Mô hình của các quá trình truyền tin2.3 Các loại hệ thống truyền tin – Liên tục và r ờ i r ạc
2.4 R ờ i r ạc hoá
8/18/2019 LTTT Slide v1
17/311
Trang 17Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Thông tin Thông tin là một khái niệm tr ừu tượ ng, phi vật chất và r ất khó
đượ c định ngh ĩ a chính xác. Hai định ngh ĩ a về thông tin.
Thông tin là sự cảm hiể u của con ng ườ i về thế giớ i xung quanhthông qua sự tiế p xúc vớ i nó.
Thông tin là một hệ thố ng nhữ ng tin báo và mệnh l ệnh giúp loại
tr ừ sự không chắ c chắ n (uncertainty) trong tr ạng thái của nơ inhận tin. Nói ng ắ n g ọn, thông tin là cái mà loại tr ừ sự khôngchắ c chắ n.
Định ngh ĩ a đầu chưa nói lên đượ c bản chất của thông tin. Địnhngh ĩ a thứ hai nói rõ hơ n về bản chất của thông tin và đượ c dùngđể định lượ ng thông tin trong k ỹ thuật.
8/18/2019 LTTT Slide v1
18/311
Trang 18Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Thông tin (tt) Thông tin là một hiện tượ ng vật lý, nó thườ ng tồn tại và đượ c
truyền đi dướ i một dạng vật chất nào đó.
Những dạng vật chất dùng để mang thông tin đượ c gọi là tínhiệu.
Lý thuyế t tín hiệu nghiên cứu các dạng tín hiệu và cách truyền
thông tin đi xa vớ i chi phí thấ p, một ngành mà có quan hệ gầngũi vớ i LTTT.
Thông tin là một quá trình ng ẫ u nhiên.
Tín hiệu mang tin tức cũng là tín hiệu ngẫu nhiên và mô hìnhtoán học của nó là các quá trình ngẫu nhiên thực hay phức.
Và LTTT là lý thuyế t ng ẫ u nhiên của tin t ứ c, có ngh ĩ a là nó xétđến tính bấ t ng ờ của tin tức đối vớ i nơ i nhận tin.
8/18/2019 LTTT Slide v1
19/311
Trang 19Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Mô hình của các quá trình truyền tin Khái niệm thông tin thườ ng đi kèm vớ i một hệ thống truyền tin.
Sự truyền tin (transmission) Là sự dịch chuyển thông tin từ điểm này đến điểm khác trong
một môi tr ườ ng xác định. Nguồn tin (information source)
Là một tậ p hợ p các tin mà hệ thống truyền tin dùng để lậ p các bảng tin hay thông báo (message) để truyền tin.
Bảng tin chính là dãy tin đượ c bên phát truyền đi. Thông tin có thể thuộc nhiều loại như
(1) một dãy kí tự như trong điện tín (telegraph) của các hệ thống gở i điệntín (teletype system);
Nguồn phát Kênh truyền Nguồn nhận
Nhiễu
8/18/2019 LTTT Slide v1
20/311
Trang 20Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Mô hình của các quá trình truyền tin (tt)(2) một hàm theo chỉ một biến thờ i gian f (t) như trong radio và điện thoại;(3) một hàm của thờ i gian và các biến khác như trong tivi tr ắng đen – ở
đây thông tin có thể đượ c ngh ĩ như là một hàm f ( x, y, t ) của toạ độ haichiều và thờ i gian biểu diễn cườ ng độ ánh sáng tại điểm ( x, y) trên mànhình và thờ i gian t ;
(4) một vài hàm của một vài biến như trong tr ườ ng hợ p tivi màu – ở đâythông tin bao gồm ba hàm f ( x, y, t ), g ( x, y, t ), h( x, y, t ) biểu diễn cườ ngđộ ánh sáng của các ba thành phần màu cơ bản (xanh lá cây, đỏ, xanh
dươ ng) Thông tin tr ướ c khi đượ c truyền đi, tuỳ theo yêu cầu có thể
đượ c mã hoá để nén, chống nhiễu, bảo mật, ... Kênh tin (channel)
Là nơ i hình thành và truyền (hoặc lưu tr ữ) tín hiệu mang tinđồng thờ i ở đấy xảy ra các tạ p nhiễu (noise) phá hủy tin tức. Trong LTTT kênh là một khái niệm tr ừu tượ ng đại biểu cho
hỗn hợ p tín hiệu và tạ p nhiễu.
8/18/2019 LTTT Slide v1
21/311
Trang 21Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Một số khái niệm (tt) Môi tr ườ ng truyền tin thườ ng r ất đa dạng
môi tr ườ ng không khí, tin đượ c truyền dướ i dạng âm thanh và tiếng nói,ngoài ra cũng có thể bằng lửa hay bằng ánh sáng;
môi tr ườ ng tầng điện ly trong khí quyển nơ i mà thườ ng xuyên xảy ra sựtruyền tin giữa các vệ tinh nhân tạo vớ i các tr ạm rada ở dướ i mặt đất;
đườ ng truyền điện thoại nơ i xảy ra sự truyền tín hiệu mang tin là dòngđiện hay đườ ng truyền cáp quang qua biển trong đó tín hiệu mang tin làsóng ánh sáng v.v…
Nhiễu (noise) Cho dù môi tr ườ ng nào cũng có nhiễu. Nhiễu r ất phong phú và
đa dạng và thườ ng đi kèm vớ i môi tr ườ ng truyền tin tươ ng ứng. Chẳng hạn nếu truyền dướ i dạng sóng điện từ mà có đi qua các vùng của
trái đất có từ tr ườ ng mạnh thì tín hiệu mang tin thườ ng bị ảnh hưở ng ítnhiều bở i từ tr ườ ng này. Nên có thể coi từ tr ườ ng này là một loại nhiễu.
Nếu truyền dướ i dạng âm thanh trong không khí thì tiếng ồn xung quanhcó thể coi là một loại nhiễu.
8/18/2019 LTTT Slide v1
22/311
Trang 22Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Một số khái niệm (tt) Nhiễu có nhiều loại chẳng hạn nhiễu cộng, nhiễu nhân. Nhiễu cộng là loại nhiễu mà tín hiệu mang tin bị tín hiệu nhiễu
“cộng” thêm vào. Nhiễu nhân là loại nhiễu mà tín hiệu mang tin bị tín hiệu nhiễu
“nhân” lên.
Nơ i nhận tin (sink) Là nơ i tiế p nhận thông tin từ kênh truyền và cố gắng khôi phụclại thành thông tin ban đầu như bên phát đã phát đi. Tin đến đượ c nơ i nhận thườ ng không giống như tin ban đầu vì
có sự tác động của nhiễu. Vì vậy nơ i nhận phải thực hiện việc
phát hiện sai và sử a sai. Nơ i nhận còn có thể phải thực hiện việc giải nén hay giải mã
thông tin đã đượ c mã hoá bảo mật nếu như bên phát đã thựchiện việc nén hay bảo mật thông tin tr ướ c khi truyền
8/18/2019 LTTT Slide v1
23/311
Trang 23Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Các loại hệ thống truyền tin Các nguồn tin thườ ng thấy trong tự nhiên đượ c gọi là các nguồn
tin nguyên thu ỷ. Đây là các nguồn tin chưa qua bất k ỳ một phép
biến đổi nhân tạo nào. Các tín hiệu âm thanh, hình ảnh đượ c phát ra từ các nguồn tinnguyên thuỷ này thườ ng là các hàm liên t ục theo thờ i gian vàtheo mứ c, ngh ĩ a là có thể biểu diễn một thông tin nào đó dướ idạng một hàm s(t ) tồn tại trong một quãng thờ i gian T và lấy
các tr ị bất k ỳ trong một phạm vi ( smin, smax) nào đó. s(t )
t
smax
smin
8/18/2019 LTTT Slide v1
24/311
Trang 24Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Các loại hệ thống truyền tin (tt) Các nguồn như vậy đượ c gọi là các nguồn liên t ục (continuous
source), các tin đượ c gọi là tin liên t ục (continuous information)
và kênh tin đượ c gọi là kênh liên t ục (continuous channel). Tuy nhiên vẫn có những nguồn nguyên thuỷ là r ờ i r ạc Bảng chữ cái của một ngôn ngữ. Các tin trong hệ thống điện tín, các lệnh điều khiển trong một hệ thống
điều khiển, ...
Trong tr ườ ng hợ p này các nguồn đượ c gọi là nguồn r ờ i r ạc(discrete source), các tin đượ c gọi là tin r ờ i r ạc (discreteinformation) và kênh tin đượ c gọi là kênh r ờ i r ạc (discretechannel).
Sự phân biệt về bản chất của tính r ờ i r ạc và tính liên tục là số lượ ng tin của nguồn trong tr ườ ng hợ p r ờ i r ạc là hữ u hạn còntrong tr ườ ng hợ p liên tục là không đế m đượ c.
8/18/2019 LTTT Slide v1
25/311
Trang 25Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
R ờ i rạc hóa Các hệ thống liên tục có nhiều nhượ c điểm của như cồng k ềnh,
không hiệu quả, và chi phí cao.
Các hệ thống truyền tin r ờ i r ạc có nhiều ưu điểm hơ n, khắc phục đượ c những nhượ c điểm trên của các hệ thống liên tục vàđặc biệt đang ngày càng đượ c phát triển và hoàn thiện dầnnhững sức mạnh và ưu điểm của nó.
R ờ i r ạc hoá thườ ng bao gồm hai loại: R ờ i r ạc hoá theo tr ục thờ igian, còn đượ c gọi là l ấ y mẫ u (sampling) và r ờ i r ạc hoá theo biên độ, còn đượ c gọi là l ượ ng t ử hoá (quantize).
Lấy mẫu (Sampling) Lấy mẫu một hàm là trích ra từ hàm ban đầu các mẫu đượ c lấy
tại những thờ i điểm xác định. Vấn đề là làm thế nào để sự thay thế hàm ban đầu bằng các mẫu
này là một sự thay thế tươ ng đươ ng, điều này đã đượ c giảiquyết bằng định lý lấy mẫu nổi tiếng của Shannon.
8/18/2019 LTTT Slide v1
26/311
Trang 26Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
R ờ i rạc hóa (tt) Định lý lấy mẫu của Shannon
Một hàm s(t ) có phổ hữu hạn, không có thành phần tần số lớ n
hơ n ω max (= 2π f max) có thể đượ c thay thế bằng các mẫu của nóđượ c lấy tại những thờ i điểm cách nhau một khoảng ∆t ≤π /ω max, hay nói cách khác tần số lấy mẫu F ≥ 2 f max.
t
s(t ) smax
smin
8/18/2019 LTTT Slide v1
27/311
Trang 27Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
R ờ i rạc hóa (tt) Lượ ng tử hoá (Quantize)
Biên độ của các tín hiệu thườ ng là một miền liên tục ( smin, smax).
Lượ ng tử hoá là phân chia miền này thành một số mức nhấtđịnh, chẳng hạn là smin = s0, s1, ..., sn = smax và qui các giá tr ị biên độ không trùng vớ i các mức này về mức gần vớ i nó nhất.
Việc lượ ng tử hoá sẽ biến đổi hàm s(t ) ban đầu thành một hàm
s’(t ) có dạng hình bậc thang. Sự khác nhau giữa s(t ) và s’(t )đượ c gọi là sai số lượ ng tử. Sai số lượ ng tử càng nhỏ thì s’(t ) biểu diễn càng chính xác s(t ).
s(t )
t
smax
smin
8/18/2019 LTTT Slide v1
28/311
Trang 28Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Nguồn rờ i rạc Nguồn tin liên tục sau khi đượ c lấy mẫu và lượ ng tử hoá sẽ tr ở
thành nguồn r ờ i r ạc.
Chúng ta học chủ yếu các nguồn r ờ i r ạc. Nguồn r ờ i r ạc
Một nguồn r ờ i r ạc là một bảng chữ cái A gồm m kí hiệu, A ={a1, a2, ..., am}, vớ i những xác suất xuất hiện p(ai), i = 1, .., m.
Định ngh ĩ a không diễn tả mối quan hệ giữa tin tr ướ c và sautrong một bản tin, nên đây đượ c gọi là một nguồn r ờ i r ạc khôngnhớ (discrete memoryless source).
Bảng tin của một nguồn tin r ờ i r ạc không nhớ Là một dãy (có thể vô hạn) các kí hiệu liên tiế p từ bảng chữ cáicủa nguồn tin, x = (... a –2a –1a0a1a2...) Trong thực tế bảng tin có bắt đầu và k ết thúc cho nên bảng tin
là một dãy hữu hạn các kí hiệu, x* = (a1a2 …an)
8/18/2019 LTTT Slide v1
29/311
Trang 29Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bài 3 Chuẩn bị toán học3.1 Xác suất (Probability)
3.2 Bất đẳng thức Chebyshev và luật yếu của số lớ n3.3 Tậ p lồi (Convex sets) và hàm lồi (convex functions), bấtđẳng thức Jensen
3.4 Công thức Stirling
8/18/2019 LTTT Slide v1
30/311
Trang 30Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất Không gian mẫu (Sample space)
Là tậ p (hay không gian) tất cả các k ết quả có thể có của một thí
nghiệm. Thườ ng đượ c kí hiệu là E hay S . Nếu không gian mẫulà r ờ i r ạc thì E có thể đượ c biểu diễn bằng E = {e1, e2, ..., en} Sự kiện (Event), sự kiện cơ bản (elementary event)
Mỗi tậ p con của E (không gian mẫu) đượ c gọi là một sự kiện,
đặc biệt mỗi phần tử của E đượ c gọi là một sự kiện cơ bản. Ví dụ
Trong một thí nghiệm tung đồng xu thì E = {U (úp), N (ngửa)}. Nếu đồng tiền là đồng nhất thì xác suất P (U) = P (N) = 1/2.
Trong một thí nghiệm tung con xúc xắc thì E = {1, 2, 3, 4, 5,6}. Nếu con xúc xắc là đồng nhất thì xác suất P (1) = P (2) = P (3) = P (4) = P (5) = P (6) = 1/6, P (2, 5) = 1/3, P (1, 3, 5) = 1/2.
8/18/2019 LTTT Slide v1
31/311
Trang 31Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt) Lấy một văn bản tiếng Anh điển hình và nhặt một kí tự bất k ỳ
thì E = {a, b, c, ..., x, y, z } và xác suất của các kí tự đượ c phân bố như sau P (a) = 0,0642 , ..., P (e) = 0,103 , ..., P ( z ) = 0,0005.
Biến ngẫu nhiên r ờ i r ạc (Discrete random variable) Một biến ngẫu nhiên r ờ i r ạc x đượ c định ngh ĩ a bằng cách gán
một số thực xi tớ i mỗi sự kiện cơ bản ei của không gian mẫu r ờ i
r ạc E . Xác suất của xi đượ c định ngh ĩ a là xác suất của sự kiệncơ bản tươ ng ứng và đượ c kí hiệu là p( xi). Tr ị trung bình (k ỳ vọng) (average, expected value),
phươ ng sai (variance)
Tr ị trung bình và phươ ng sai của biến ngẫu nhiên r ờ i r ạc x lầnlượ t đượ c kí hiệu và định ngh ĩ a như sau E (x) = ( )∑=
i
ii p xxx
8/18/2019 LTTT Slide v1
32/311
Trang 32Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt) Var(x) =
=trong đó E (x2) là tr ị k ỳ vọng của x2. Tổng quát, tr ị k ỳ vọng của một hàm của x, chẳng hạn f (x), đượ c
định ngh ĩ a bằng
Xác suất đồng thờ i (joint probability), xác suất có điềukiện (conditional probability) Một cặ p biến ngẫu nhiên (x, y) liên k ết vớ i một thí nghiệm tạo
thành một biến ngẫu nhiên nối (joint random variable). Nếu x, ylà r ờ i r ạc, sự phân bố xác suất nối hay xác suất đồng thờ i đượ cđịnh ngh ĩ a là
pij = P(x = xi, y = y j)
( ) ( ) ( )∑ −=−i
ii p E xxxxx22
( )
22
xx − E
( )( ) ( ) ( )∑
=i ii
p f f E xxx
8/18/2019 LTTT Slide v1
33/311
Trang 33Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt) Xác suất của y trong điều kiện đã biết x đượ c gọi là xác suất có
điều kiện và đượ c định ngh ĩ a là
trong đó xác suất lề (marginal probability) p( xi) đượ c giả thiết
là khác không. Các xác suất lề đượ c định ngh ĩ a như sau:
p( xi) =
p( y j) =
( ) ( )i ji
i j x p
y x p x y p ,=
j
ji y x p ,
∑i
ji y x p ,
8/18/2019 LTTT Slide v1
34/311
Trang 34Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Ví dụ Thí nghiệm tung đồng thờ i
một đồng xu và con xúc xắc.
Từ k ết quả trên ta thấyP(U, 5) = 1/18
P(Đồng xu = U) = 5/9
P(Đồng xu = N) = 4/9P(Xúc xắc = 5) = 7/72
P(Xúc xắc = 5 đã biết Đồng xu = U)
1/12 1/181/9 1/18
1/9 1/6
1/9 1/241/18 1/24
1/12 1/12
U N
6
54
3
21
Xúc xắc
Đồng xu
8/18/2019 LTTT Slide v1
35/311
Trang 35Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt) Sự độc lậ p (Independence)
Hai biến ngẫu nhiên x và y đượ c gọi là độc lậ p nếu p( xi, y j) = p( xi) p( y j) ∀ i, j.
Chúng ta thấy nếu hai biến x và y độc lậ p thì
có ngh ĩ a là xác suất y j trong điều kiện có xi xảy ra hay khôngxảy ra đều như nhau, không thay đổi, và ngượ c lại.
Cũng từ sự độc lậ p chúng ta suy ra một k ết quả mà hay đượ c sử
dụng sau này E (xy) = E(x) E(y) =
( )( )
( )
( ) ( )
j
i
ji
i
ji
i j y p
x p
y p x p
x p
y x p x y p ===
,
yx
8/18/2019 LTTT Slide v1
36/311
Trang 36Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt) Sự tươ ng quan (correlation)
Sự tươ ng quan C giữa hai biến x và y đượ c định ngh ĩ a là tr ị k ỳvọng của (x – )(y – ):
C (x, y) = E ((x – )(y – )) =
= E (xy) –
Trong tr ườ ng hợ p x và y là độc lậ p chúng ta suy ra C (x, y) = 0.Tuy nhiên điều ngượ c lại thì không đúng.
x yx y
yx
ấ ẳ
8/18/2019 LTTT Slide v1
37/311
Trang 37Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bất đẳng thứ c Chebyshev
và luật yếu của số lớ n Bất đẳng thức Chebyshev
Cho một biến ngẫu nhiên x có tr ị trung bình là và phươ ng sailà , bất đẳng thức Chebyshev đối vớ i một số dươ ng tuỳ ý δ là
P(|x – | ≥ δ) ≤
Chứng minh Định ngh ĩ a một hàm f ( x) như sau
Thì
P(|x – | ≥ δ) = Σ f ( xi) p( xi)
x2xδ
x 2
2x
δ
δ
( )⎩⎨⎧
<
≥=
δ|- ,|
δ|- ,| f
xx0
xx1x
x
8/18/2019 LTTT Slide v1
38/311
Trang 38Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bất đẳng thứ c Chebyshev (tt)
Dựa trên hình chúng ta có
f (x) ≤ Vì vậy,
xδ −x x
1
δ +x
2xx
⎟⎟
⎠
⎞⎜⎜
⎝
⎛ −δ
2xx
⎟⎟
⎠
⎞⎜⎜
⎝
⎛ −
δ
( ) ( )∑ =⎟⎟ ⎠
⎞⎜⎜⎝
⎛ −≤≥−
i
p P i 2
2xx
2xx
xxδ
δ
δ δ
8/18/2019 LTTT Slide v1
39/311
Trang 39Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Luật yếu của số lớ n (tt) Xét một thí nghiệm nhị phân trong đó các k ết quả của thí
nghiệm là 0 và 1 vớ i các xác suất tươ ng ứng là p0 và 1– p0.
Thí nghiệm này đượ c lặ p lại N lần một cách độc lậ p, và k ết quảtrung bình đượ c định ngh ĩ a là y N ; tức là, y N bằng tổng số các số1 trong N lần thí nghiệm chia cho N .
Rõ ràng, y N là một biến ngẫu nhiên có không gian mẫu là {0,1/ N , 2/ N , ..., 1}.
Định ngh ĩ a x(n) là biến ngẫu nhiên tươ ng ứng vớ i k ết quả củalần thí nghiệm thứ n, chúng ta có
( )∑=
= N
n
n
N N 1
x1
y
8/18/2019 LTTT Slide v1
40/311
Trang 40Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Luật yếu của số lớ n (tt)( )( ) xx1x1y
11∑∑
==
=== N
n
N
n
n
N N
E N
( )( ) ( )⎟⎟
⎠
⎞
⎜⎜
⎝
⎛ ⎥⎦
⎤⎢⎣
⎡−=−= ∑
=
2
1
22y xx
1yy
N
n
n
N N N
E E δ
( )⎟⎟
⎠
⎞⎜⎜
⎝
⎛ ⎟⎟
⎠
⎞⎜⎜⎝
⎛ ⎥⎦
⎤⎢⎣
⎡ −= ∑=
2
1
xx1
N N
E N
n
n ( )( )⎟⎟
⎠
⎞⎜⎜
⎝
⎛ ⎥⎦
⎤⎢⎣
⎡ −= ∑=
2
12
xx1 N
n
n E N
( )( )( ) N N N E N N
n
n 2x2x2
1
22
1xx1 δ δ ==−= ∑=
8/18/2019 LTTT Slide v1
41/311
Trang 41Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Luật yếu của số lớ n (tt) Đối vớ i một số nguyên dươ ng tuỳ ý ε, theo bất đẳng thức
Chebyshev chúng ta có
từ đây chúng ta dẫn ra đượ c luật yếu của số lớ n
Chú ý r ằng vế phải tiến tớ i 0 khi N tiến ra vô cùng.
Luật yếu của số lớ n vì vậy khẳng đinh r ằng tr ị trung bình mẫucủa x tiế p cận tr ị trung bình thống kê vớ i xác suất cao khi N →∞.
( ) 22y|yy|
ε
δ ε ≤≥−
N N P
( )2
2x
1
xx1ε
δ ε N N
P N
n
n ≤⎟⎟ ⎠ ⎞⎜⎜
⎝ ⎛ ≥−⎥
⎦⎤⎢
⎣⎡ ∑
=
8/18/2019 LTTT Slide v1
42/311
Trang 42Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Tập lồi Trong không gian Ơclit, một tậ p S đượ c gọi là lồi (convex cap
(∩)) nếu đối vớ i một cặ p điểm P 1, P 2 thuộc S thì mọi điểm
thuộc đoạn P 1 P 2 cũng thuộc S .
Nếu P 1 = ( x1, x2, ..., xn) và P 2 = ( y1, y2, ..., yn) là các điểm trongkhông gian Ơclit n chiều, thì đoạn thẳng nối chúng đượ c biểu
diễn bằng tậ p các điểm P , trong đó P = λ P 1 + (1– λ) P 2
= (λ x1 + (1– λ) y1, λ x2 + (1– λ) y2, ..., λ xn + (1– λ) yn) và λ ∈ [0, 1].
(a)
P1
P2
P1
P2
(b)
8/18/2019 LTTT Slide v1
43/311
Trang 43Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Hàm lồi Một ví dụ quan tr ọng của tậ p lồi là tậ p tất cả các điểm ( p1, p2,
..., pn) trong đó ( p1, p2, ..., pn) là một sự phân bố xác suất (tức là
các pi ∈ [0, 1] và Σ pi = 1). Một hàm thực f ( P ), đượ c định ngh ĩ a trên tậ p lồi S , đượ c gọi là
lồi nếu ∀cặ p điểm P 1, P 2 ∈ S , và ∀ λ ∈ [0, 1] bất đẳng thức sauđây đúng:
f (λ P 1 + (1– λ) P 2) ≥ λ f ( P 1) + (1– λ) f ( P 2)
x x1 (λ x1 + (1-λ) x2 x2
f ( x1)
f ( x) f ( x2)
f ((λ x1 + (1-λ) x2)
λ f ( x1) + (1-λ) f ( x2)
8/18/2019 LTTT Slide v1
44/311
Trang 44Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Định lý, bất đẳng thứ c Jensen Nếu λ1, ..., λ N là các số không âm có tổng bằng 1 thì đối vớ i
mọi tậ p điểm P 1, ..., P N trong miền xác định của hàm lồi f ( P )
bất đẳng thức sau đây đúng
Cho biến ngẫu nhiên x lấy các giá tr ị x1, ..., xn vớ i các xác suất p1, ..., pn. Cho f ( x) là một hàm lồi có miền xác định chứa x1, ..., xn. Chúng ta có E (x) = và E ( f (x)) = .
Áp dụng định lý trên chúng ta có
f ( E (x)) ≥ E ( f (x))Đây đượ c gọi là bất đẳng thức Jensen.
=
λ
⎟
⎠
⎞
⎜
⎝
⎛
λ
N
n
nn
N
n
nn P f P f
11
∑
i
ii x p
iii x f p
8/18/2019 LTTT Slide v1
45/311
Trang 45Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bài 4 Lượ ng tin4.1 Lượ ng tin
4.2 Lượ ng tin trung bình
V ấ n đề cơ bản của truyề n thông là việc tái sinh t ại một đ iể m hoặc
chính xác hoặc g ần đ úng một thông báo đượ c chọn t ại một đ iể mkhác.
(Claude Shannon 1948)
8/18/2019 LTTT Slide v1
46/311
Trang 46Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượ ng tin Lượ ng tin (measure of information) dùng để so sánh định lượ ng
các tin tức vớ i nhau.
Một tin đối vớ i ngườ i nhận đều mang hai nội dung, một làđộ bất ngờ của tin, hai là ý ngh ĩ a của tin.
Khía cạnh ngữ ngh ĩ a chỉ có ý ngh ĩ a đối vớ i con ngườ i.
Khía cạnh quan tr ọng nằm ở chỗ tin thật sự là một cái đượ cchọn từ một tập các tin (tậ p các khả năng) có thể.
Nếu số tin trong tậ p tin càng nhiều thì sẽ mang lại một “lượ ngtin” càng lớ n khi nhận đượ c một tin (giả sử các tin là bình đẳng
như nhau về khả năng xuất hiện). Để sự truyền tin đạt hiệu quả cao chúng ta không thể đối đãi
các tin như nhau nếu chúng xuất hiện ít nhiều khác nhau.
8/18/2019 LTTT Slide v1
47/311
Trang 47Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượ ng tin Xét một tin x có xác suất xuất hiện là p( x), thì chúng ta có thể
xem tin này như là một tin trong một tậ p có 1/ p( x) tin vớ i các
tin có xác suất xuất hiện như nhau. Nếu p( x) càng nhỏ thì 1/ p( x) càng lớ n và vì vậy “lượ ng tin” khi
nhận đượ c tin này cũng sẽ càng lớ n.
Vậy “lượ ng tin” của một tin tỉ lệ thuận vớ i số khả năng của mộttin và tỉ lệ nghịch vớ i xác suất xuất hiện của tin đó.
Xác suất xuất hiện của một tin tỉ lệ nghịch vớ i độ bất ngờ khinhận đượ c một tin.
“lượ ng tin“ ↑
số khả năng↑
độ bất ngờ ↓
xác suất Một tin có xác suất xuất hiện càng nhỏ thì có độ bất ngờ càng
lớ n và vì vậy có lượ ng tin càng lớ n.
8/18/2019 LTTT Slide v1
48/311
Trang 48Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượ ng tin (tt) Xét một nguồn A = {a1, a2,…, am} vớ i các xác suất xuất hiện là
p(ai) i = 1, ..., m.
Kí hiệu lượ ng tin trong mỗi tin ai là I (ai). Vậy hàm f dùng để biểu thị lượ ng tin phải thoã mãn những điều kiện gì?
Phản ánh đượ c các tính chất thống kê của tin tức.
Ví dụ có hai nguồn K , L vớ i số tin tươ ng ứng là k , l (giả thuyết đều làđẳng xác suất). Nếu k > l , thì độ bất ngờ khi nhận một tin bất k ỳ củanguồn K phải lớ n hơ n độ bất ngờ khi nhận một tin bất k ỳ của nguồn L,vậy f (k ) > f (l )
Hợ p lý trong tính toán. Giả thiết hai nguồn độc lậ p K và L vớ i số tin tươ ng ứng là k và l . Cho
việc nhận một cặ p k i và l j bất k ỳ đồng thờ i là một tin của nguồn hỗn hợ p KL. Số cặ p k il j mà nguồn này có là k *l .
8/18/2019 LTTT Slide v1
49/311
Trang 49Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượ ng tin (tt) Độ bất ngờ khi nhận đượ c một cặ p như vậy phải bằng tổng lượ ng tin của
khi nhận đượ c k i và l j. Vì vậy chúng ta phải có:
f (kl ) = f (k ) + f (l ) Khi nguồn chỉ có một tin, lượ ng tin chứa trong tin duy nhất đó
phải bằng không.
f (1) = 0
Định ngh ĩ a Lượ ng đo thông tin của một tin đượ c đo bằng logarit của độ bất
ngờ của tin hay nghịch đảo xác suất xuất hiện của tin đó.
( ) )(log)(1log x p
x p x I −==
8/18/2019 LTTT Slide v1
50/311
Trang 50Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượ ng tin (tt) Lượ ng tin chứa trong một dãy x = a1a2 … an vớ i ai ∈ A là
Trong tr ườ ng hợ p m kí hiệu của nguồn đẳng xác suất vớ i nhautức p(ai) = 1/m thì
Nếu x = a1a2 … an vớ i ai ∈ A
I ( x) = n logm
( ) ∑=−==n
i
ia p x p x I 1 )(log)(
1log
( ) ma pa I
i
i log)(1log ==
8/18/2019 LTTT Slide v1
51/311
Trang 51Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượ ng tin trung bình Đơ n vị của lượ ng tin
Nếu cơ số là 2 thì đơ n vị là bits (cho các kí số nhị phân); nếu cơ
số là e thì đơ n vị là nats (cho đơ n vị tự nhiên), nếu cơ số là 10thì đơ n vị là Hartley.
Định ngh ĩ a Lượ ng tin trung bình của một nguồn tin A là lượ ng tin trung
bình chứa trong một kí hiệu bất k ỳ của nguồn tin. Nó thườ ngđượ c kí hiệu là I ( A) và đượ c tính bằng công thức sau
∑
∈
∈
=
Aaa pa p
Aaa I a p A I
i
ii
i
ii )(log)()()()(
8/18/2019 LTTT Slide v1
52/311
8/18/2019 LTTT Slide v1
53/311
Trang 53Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Ví dụ (tt) Lượ ng tin trung bình của nguồn là
I (U ) = (1/4) × 2 + (1/4) × 2 + (1/8) × 3 + (1/8) × 3 + (1/16) × 4
+ (1/16) × 4 + (1/16) × 4 + (1/16) × 4 = 2,75 bits. Điều này nói lên một ý ngh ĩ a quan tr ọng r ằng, chúng ta có thể
biểu diễn mỗi tin trong nguồn U bằng một chuỗi có chiều dài
trung bình là 2,75 bits. Nó sẽ tốt hơ n so vớ i trong tr ườ ng hợ pchúng ta không chú ý đến cấu trúc thông kê của nguồn. Lúc đóchúng ta sẽ biểu diễn mỗi tin trong 8 tin của nguồn bằng cácchuỗi có chiều dài là 3 bits.
8/18/2019 LTTT Slide v1
54/311
8/18/2019 LTTT Slide v1
55/311
Trang 55Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Entropy của một biến ngẫu nhiên rờ i rạc Định ngh ĩ a
Cho x là một biến ngẫu nhiên vớ i không gian mẫu X = { x1, ... , x N } và độ đo xác suất P ( xn) = pn. Entropy của x đượ c định ngh ĩ alà:
( ) ∑=
−= N
n
nn p p H 1
)log(x
– p ln( p)e-1
e-1 = 0,37 p0 1
8/18/2019 LTTT Slide v1
56/311
8/18/2019 LTTT Slide v1
57/311
Trang 57Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Các đặc tính của entropy1. Entropy là một đại lượ ng luôn luôn dươ ng hoặc bằng không.
H (x) = 0 ⇔ có một xác suất pi = 1, còn tất cả các xác suất còn lại bằng 0.
Điều này nói lên r ằng độ bất ngờ về một thí nghiệm chỉ có một k ết quảduy nhất là bằng 0.
2. H (x) ≤ log N và dấu bằng xảy ra ⇔ p1 = p2 = ... = p N = 1/ N .Hay nói cách khác entropy đạt cực đại khi xác suất xuất hiện
của các kí hiệu bằng nhau. Chứng minh
( ) ( ) ∑∑∑===
⎟⎟
⎠
⎞⎜⎜
⎝
⎛ =−−=−
N
n n
n
N
n
n
N
n
nn
Np
p N p p p N H 111
1lnlnln)ln()x(
0111
11
111
=−=−⎟ ⎠
⎞⎜⎝
⎛ =⎟⎟ ⎠
⎞⎜⎜⎝
⎛ −≤ ∑∑∑
===
N
n
n
N
n
N
n n
n p N Np
p
8/18/2019 LTTT Slide v1
58/311
Trang 58Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Các đặc tính của entropy (tt)3. Cho biến ngẫu nhiên x có không gian mẫu X = { x1, ..., x N } và
biến ngẫu nhiên y có không gian mẫu Y = { y1, ..., y M }. Thì biến
ngẫu nhiên nối z = (x, y) có không gian mẫu Z = {( x1, y1), ...,( x1, yM), ( x2, y1), ..., ( x2, yM), ..., ( x N, y1), ..., ( x N, yM)} gồm NM phần tử. Nếu x, y độc lậ p nhau thì H (z) = H (x) + H (y).
Chứng minh
( ) ( ) ( ) ( ) ( ) ( )[ ]∑∑∑∑= == =
+−=−= N
n
M
m
mnmn
N
n
M
m
mnmn y P x P y P x P y x P y x P z H 1 11 1
loglog,log,)(
( ) ( ) ( ) ( ) ( ) ( ))y()x(
loglog 1 11 1 H H
y P x P x P y P x P x P
M
m
N
n
nmm
N
n
M
m
mnn
+=
−−= ∑ ∑∑ ∑ = == =
8/18/2019 LTTT Slide v1
59/311
Trang 59Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Các đặc tính của entropy (tt)4. Xét một biến ngẫu nhiên x có không gian mẫu X = { x1, ..., xn,
xn+1, ..., x N } và các xác xuất p( xi) = pi. Chúng ta phân X thành
hai không gian con, Y = { x1, ..., xn} và Z = { xn+1, ..., x N }. Cácxác suất liên k ết vớ i Y và Z đượ c cho bở i P (Y ) =và P ( Z ) = . Hơ n nữa, chúng ta định ngh ĩ a các biếnngẫu nhiên y và z bằng P ( yi) = P ( xi)/ P (Y ), i = 1, 2, ..., n và P ( z i)
= P ( xi)/ P ( Z ), i = n+1, n+2, ..., N . H (x) bây giờ có thể đượ c viếtthành
∑
=
ni i
p1
∑
N
ni i p
1
∑∑∑+===
−−=−= N
ni
ii
n
i
ii
N
i
ii p p p p p p H 111
logloglog)x(
( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )∑∑+==
+−+−= N
ni
ii
n
i
ii Z P z P z P Z P Y P y P y P Y P 11
loglogloglog
)]()()()([)]()log()()log([ z H Z P y H Y P Z P Z P Y P Y P +++−=
8/18/2019 LTTT Slide v1
60/311
Trang 60Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Các đặc tính của entropy (tt) Trong biểu thức cuối cặ p ngoặc vuông đầu biểu diễn độ bất ngờ liên k ết
vớ i thí nghiệm thứ nhất (là chọn một trong hai không gian mẫu Y và Z )còn cặ p ngoặc vuông thứ hai biểu diễn độ bất ngờ trung bình liên k ết vớ i
thí nghiệm thứ hai (sau khi đã chọn một trong hai không gian mẫu, sẽchọn tiế p sự kiện cơ bản nào). Công thức này diễn tả một tính chất củaentropy đó là tính chất nhóm.
Ngườ i ta đã chứng minh đượ c r ằng công thức định ngh ĩ a của
H (x) là công thức duy nhất phù hợ p để đo về độ bất ngờ , cái mà phải thoã mãn các tính chất 2,3, 4 và cộng thêm tính liên tục. Mặc dầu hai khái niệm lượ ng tin trung bình và entropy xuất
hiện một cách độc lậ p và ở trong những l ĩ nh vực khác nhau
(entropy vốn xuất phát từ việc nghiên cứu các quá trình nhiệtđộng) nhưng chúng có cùng công thức giống nhau. Vì vậychúng ta có thể xem lượ ng tin trung bình của một nguồn chínhlà entropy của nguồn đó.
Entropy và các dãy của
8/18/2019 LTTT Slide v1
61/311
Trang 61Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
một biến ngẫu nhiên Ví dụ
Xét một biến ngẫu nhiên x có không gian mẫu X = { x1, x2},
P ( x1) = p1 = 1/3, P ( x2) = 2/3. Thì entropy của x là H (x) = –(1/3) log(1/3) – (2/3) log(2/3) = 0.918295834 bits
Chúng ta hãy lặ p lại thí nghiệm này N lần để nhận một dãy N phần tử. Tổng quát có đến 2 N dãy có thể. Nếu trong dãy có n
phần tử x1 thì xác suất xuất hiện của dãy là p1n(1– p1) N – n Có dãy như vậy, nên tổng xác suất của chúng
bằng
Bảng bên dướ i trình bày xác suất của các dãy khác nhau đối vớ i N = 15
!!
!)(
n N n
N N n
N-nn N
n -p p )1()( 11
Entropy và các dãy của
8/18/2019 LTTT Slide v1
62/311
Trang 62Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
một biến ngẫu nhiên (tt)
)( N
n
0.0000002 –15x1.5849625011150.1148072 –15x1.051629167643570.0000022
–15x1.518295834
15140.1785892 –15x0.984962501
50056
0.0000292 –15x1.451629167105130.2143072 –15x0.91829583430035
0.0002542 –15x1.384962501455120.1948252 –15x0.851629167136540.0015222 –15x1.3182958341365110.1298832 –15x0.7849625014553
0.0066972 –15x1.2516291673003100.0599462 –15x0.7182958341052
0.0223242 –15x1.184962501500590.0171272 –15x0.651629167151
0.0574042 –15x1.118295834643580.0022842 –15x0.58496250110
P tổng cộng p
1
n(1– p1
) N – n P mỗi dãy
p1
n(1– p1
) N – nSố dãy
n P tổng cộng
p1
n(1– p1
) N – n P mỗi dãy
p1
n(1– p1
) N – nSố dãy
n)( N
n)( N
n)( N
n
8/18/2019 LTTT Slide v1
63/311
Trang 63Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Nhận xét Những dãy có xác suất lớ n (dãy có khả năng) là những dãy mà
có n gần vớ i giá tr ị Np1 = 5, cụ thể là 2 ≤ n ≤ 8. Nói cách khác,
Xác suất xuất hiện của một dãy mà có n nằm xa giá tr ị Np1 làr ất nhỏ.
Xsuất riêng của những dãy có khả năng nằm giữa 2 –15×0.718295834
và 2 –15× 1.118295834, cái mà gần sát vớ i 2 – N H (x) = 2 –15×0.918295834. Nói cách khác,
Tất cả những dãy có khả năng là nhiều hay ít đẳng xác suất vớ ixác suất 2 – NH (x).
Số lượ ng tổng cộng các dãy khả năng (2 ≤ n ≤ 8) là 22803 =215× 0.965129067 cái mà không xa so vớ i 2 N H (x). Nói cách khác,
Số lượ ng các dãy có khả năng là khoảng 2 NH (x).
8/18/2019 LTTT Slide v1
64/311
Trang 64Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Định lý Định lý 5.1
Cho các số ε > 0 và δ > 0 nhỏ tuỳ ý, ∃ một số nguyên dươ ng N 0sao cho một dãy có chiều dài bất k ỳ N ≥ N 0 sẽ r ơ i vào một tronghai lớ p sau đây:
(1) Một tậ p các dãy mà có tổng xác suất của chúng nhỏ hơ n
hoặc bằng ε.(2) Tậ p còn lại bao gồm các dãy có xác suất thoã mãn bất đẳngthức
vớ i A là một số dươ ng nào đó. Hay nói cách khác,
δ
H N
p 1log
N A NH N A NH p +−−−
8/18/2019 LTTT Slide v1
65/311
Trang 65Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Chứ ng minh định lý Chứng minh cho nguồn r ờ i r ạc không nhớ A = {a1, a2, ..., a K }.
Gọi x là biến ngẫu nhiên gắn vớ i nguồn A. Ta có
Gọi y là biến ngẫu nhiên bằng cách ánh xạ mỗi ai tớ i log p(ai).
Xét các dãy có chiều dài N . Có tất cả K N dãy như vậy. Ta kíhiệu các dãy này bằng các S i và xác suất của dãy là P (S i). Ta có
trong đó a( j) là kí hiệu thứ j của dãy.
∑=−= K
k
k k a pa p H 1
)(log)()x(
( ) ( ) )x(log1 H a pa p y K
i
ii =−= ∑=
( )∏== N
j
ji a pS P
1)()(
8/18/2019 LTTT Slide v1
66/311
Trang 66Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Chứ ng minh định lý Gọi z là biến ngẫu nhiên bằng cách ánh xạ mỗi S i tớ i -log P (S i). Chú ý
Vì vậy z là tổng của N biến ngẫu nhiên y độc lậ p. Áp dụng luật yếu của số lớ n cho hai số ε > 0 và δ > 0 nhỏ tuỳ ý,
tồn tại N 0 sao cho vớ i mọi N ≥ N 0
hay
∑=
−=− N
j
j
i a pS P
1
)( )(log)(log
ε
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
δ
⎥
⎥
⎦
⎤
⎢
⎢
⎣
⎡
∑
=
y y N
P N
j
j
1
1
( ) εδ)x()(log1
1
≤⎟⎟
⎠
⎞
⎜⎜
⎝
⎛ ≥−⎥
⎦
⎤⎢⎣
⎡− ∑
=
H a p N
P N
j
j
8/18/2019 LTTT Slide v1
67/311
Trang 67Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Chứ ng minh định lý (tt) Hay
Vì vậy chúng ta có thể k ết luận r ằng vớ i xác suất lớ n hơ n 1– ε
đối vớ i mọi N ≥ N 0.
Từ đây ta suy ra r ằng các dãy đượ c chia thành hai nhóm, mộtnhóm có tổng xác xuất nhỏ hơ n hoặc bằng ε và nhóm thứ hai bao gồm các dãy thoã điều kiện .
Vì vậy định lý đượ c chứng minh.
ε
⎟
⎠
⎞
⎜
⎝
⎛
δ
x H S P N
P ilog1
δ ≤−− )x()(log1
H S P N
i
δ ≤− )x()(
1log1 H S P N i
Bài 6 Mã hiệu
8/18/2019 LTTT Slide v1
68/311
Trang 68Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bài 6 Mã hiệu
6.1 Giớ i thiệu
6.2 Mã hiệu và các thông số cơ bản của mã hiệu
6.3 Một số phươ ng pháp biểu diễn mã
6.4 Điều kiện phân tách mã
Giới thiệu
8/18/2019 LTTT Slide v1
69/311
Trang 69Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Giớ i thiệu
Trong các hệ thống truyền tin, bên nhận thườ ng biết tậ p hợ p cáctin mà bên phát dùng để lậ p nên các bản tin.
Các tin thườ ng sẽ đượ c ánh xạ (mã hóa) thành một dạng biểudiễn khác thuận tiện hơ n để phát đi.
Ví dụ Xét một nguồn tin A = {a, b, c, d }. Chúng ta có thể thiết lậ p
một song ánh như sau từ A vào tậ p các chuỗi trên bảng chữ cái{0, 1}
a → 00 c → 10b → 01 d → 11
Vậy để phát đi bản tin baba chúng ta phát đi chuỗi 01000100.Khi bên nhận nhận đượ c chuỗi này thì xác định đượ c bản tin bên phát đã phát đi là baba.
Mã hiệu và những thông số cơ bản
8/18/2019 LTTT Slide v1
70/311
Trang 70Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Mã hiệu và nhữ ng thông số cơ bản
Mã hiệu (Code), cơ số mã Mã hiệu là một tậ p hữu hạn các kí hiệu và phép ánh xạ các
tin/bản tin của nguồn tin thành các dãy kí hiệu tươ ng ứng. Tậ pcác kí hiệu và phép ánh xạ này thườ ng sẽ phải đáp ứng các yêucầu tùy theo hệ thống truyền tin đặt ra.
Tậ p các kí hiệu mã dùng để biểu diễn đượ c gọi là bảng kí hiệu
mã, còn số các kí hiệu thì đượ c gọi là cơ số mã, và thườ ng kíhiệu là m. Nếu mã có cơ số hai thì gọi là mã nhị phân, còn nếumã có cơ số ba thì gọi là mã tam phân ...
Mã hoá (Encoding), giải mã (decoding) Mã hoá là quá trình dùng các kí hiệu mã để biểu diễn các tin
của nguồn.
Mã hiệu và những thông số cơ bản (tt)
8/18/2019 LTTT Slide v1
71/311
Trang 71Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Mã hiệu và nhữ ng thông số cơ bản (tt)
Nói cách khác mã hoá là một phép biến đổi từ nguồn tin thànhmã hiệu, hay mã hoá là phép biến đổi từ một tậ p tin này thànhmột tậ p tin khác có đặc tính thống kê yêu cầu.
Quá trình ngượ c lại của quá trình mã hoá đượ c gọi là giải mã.
Từ mã (Code word), bộ mã Từ mã là chuỗi kí hiệu mã biểu diễn cho tin của nguồn. Tậ p tất
cả các từ mã tươ ng ứng vớ i các tin của nguồn đượ c gọi là bộmã.
Vì vậy có thể nói mã hoá là một phép biến đổi một–một giữamột tin của nguồn và một từ mã của bộ mã.
Trong một số tr ườ ng hợ p ngườ i ta không mã hoá mỗi tin củanguồn mà mã hoá một bản tin hay khối tin. Lúc này chúng ta cókhái niệm mã khối.
8/18/2019 LTTT Slide v1
72/311
Mã hiệu và những thông số cơ bản (tt)
8/18/2019 LTTT Slide v1
73/311
Trang 73Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Mã hiệu và nhữ ng thông số cơ bản (tt)
Một bộ mã đều có cơ số mã là m, chiều dài từ mã là l và số lượ ng từ mã n bằng vớ i ml thì đượ c gọi là mã đầy, ngượ c lại thìđượ c gọi là mã vơ i.
Ngoài ra khái niệm mã đầy còn đượ c dùng theo ngh ĩ a r ộng hơ nnhư sau: một bộ mã đượ c gọi là đầy theo một tính chất nào đó(chẳng hạn tính đều hay tính prefix như sau này các bạn sẽthấy) nếu không thể thêm một từ mã nào vào mà vẫn giữ đượ ctính chất đó.
Ví dụ Cho bảng kí hiệu mã A = {0, 1}. Thì bộ mã X 1 = {0, 10, 11} là
mã không đều, bộ mã X 2 = {00, 10, 11} là mã đều nhưng vơ icòn bộ mã X 3 = {00, 01, 10, 11} là mã đều và đầy.
Một số phương pháp biểu diễn mã
8/18/2019 LTTT Slide v1
74/311
Trang 74Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Một số phươ ng pháp biểu diễn mã
Bảng đối chiếu mã Là cách liệt kê các tin của nguồn và từ mã tươ ng ứng trong một
bảng.
Mặt toạ độ mã Là cách biểu diễn mỗi từ mã w = a0a1…al -1 bằng một điểm (l ,
b) trong mặt phẳng toạ độ hai chiều, trong đó l là chiều dài từ
mã còn b là tr ọng số của từ mã đượ c tính như sau vớ i m là cơ sốmã
1111101001101000Từ mã
a6a5a4a3a2a1Tin
∑
=
=
1
0
l
i
ii mab
Một số phương pháp biểu diễn mã (tt)
8/18/2019 LTTT Slide v1
75/311
Trang 75Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Một số phươ ng pháp biểu diễn mã (tt)
Ví dụ
1111101001101000Từ mãa6a5a4a3a2a1Tin
1
2
3
4
5
67
b
1 2 3 4 l 0 a1
a4
a2
a5
a3
a6
731620Tr ọng số b
332332Chiều dài l
1111101001101000Từ mãa6a5a4a3a2a1Tin
Một số phương pháp biểu diễn mã (tt)
8/18/2019 LTTT Slide v1
76/311
Trang 76Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Một số phươ ng pháp biểu diễn mã (tt)
Cây mã Là cách biểu diễn các từ mã bằng các nút lá của một cây. Mỗi
nút lá biểu diễn cho từ mã trùng vớ i nhãn của con đườ ng đi từnút gốc đến nút lá này.
Mã có cơ số m thì cây mã tươ ng ứng sẽ là cây m phân. Phươ ng pháp cây mã chỉ cho phép biểu diễn những mã prefix,
tức là không có từ mã nào trùng vớ i phần đi đầu của một từ mãkhác.
0
00
0 1
0 1
0 1
1
0 110
010 011 110 111
Một số phương pháp biểu diễn mã (tt)
8/18/2019 LTTT Slide v1
77/311
Trang 77
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Một số phươ ng pháp biểu diễn mã (tt)
Đồ hình k ết cấu mã Là một dạng đặc biệt của cây mã, trong đó các nút lá trùng vớ i
nút gốc và ngoài ra mỗi cạnh của đồ hình k ết cấu mã đều làcạnh có hướ ng. Vì vậy một từ mã đượ c biểu diễn bằng một chutrình xuất phát từ nút gốc và quay tr ở về lại nút gốc.
Hàm cấu trúc mã Là cách biểu diễn sự phân bố các từ mã theo độ dài của chúng.
Phươ ng pháp này biểu diễn bằng một hàm G(l i) cho biết có baonhiêu từ mã có chiều dài l i.
00
10,1
1
10,1
0
Một số phươ ng pháp biểu diễn mã (tt)
8/18/2019 LTTT Slide v1
78/311
Trang 78
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
ộ số p ươ g p p b ểu d ễ ( )
Ví dụ Bộ mã trong các ví dụ trên đượ c biểu diễn bằng hàm cấu trúc
mã sau đây G(l i) = 2, khi l i = 24, khi l i = 3
Điều kiện phân tách mã
8/18/2019 LTTT Slide v1
79/311
Trang 79
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
ệ p
Ví dụ Xét bộ mã X 1 = {0, 10, 11} mã hoá cho nguồn A = {a, b, c}.
Giả sử bên phát phát đi bảng tin x = abaac, lúc đó chuỗi từ mãtươ ng ứng đượ c phát đi là y = 0100011. Vấn đề là bên nhận sau khi nhận đượ c chuỗi từ mã y làm sao có
thể nhận biết đượ c bảng tin tươ ng ứng mà bên phát đã phát. Để làm đượ c điều này, bên nhận phải thực hiện một quá trìnhđượ c gọi là tách mã. Chẳng hạn vớ i chuỗi kí hiệu mã nhận đượ c
như trên thì bên nhận chỉ có một khả năng để tách mã hợ p lý là0 | 10 | 0 | 0 | 11 và xác định đượ c bảng tin đã đượ c gở i đi là
abaac.
8/18/2019 LTTT Slide v1
80/311
Điều kiện phân tách mã (tt)
8/18/2019 LTTT Slide v1
81/311
Trang 81
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
ệ p ( )
Xét một bộ mã khác X 3 = {010, 0101, 10100} mã hoá chonguồn A trên. Giả sử bên nhận nhận đượ c chuỗi kí hiệu là01010100101 và thực hiện quá trình tách mã. Ở đây ta thấy chỉcó một cách tách mã duy nhất là 0101 | 010 | 0101 nhưng việctách mã tr ở nên khó khăn hơ n so vớ i bộ mã X 1.
Chẳng hạn lúc chúng ta gặ p chuỗi 010 chúng ta chưa dám chắcđó l à một từ mã vì nó có thể là phần đi đầu của từ mã 0101,điều này phụ thuộc vào kí hiệu đi ngay sau chuỗi 010.
Nếu kí hiệu đi ngay sau là 0 thì chúng ta khẳng định đượ c 010là từ mã và 0 là phần đi đầu của một từ mã khác sau đó. Cònnếu kí hiệu đi ngay sau là 1 thì chúng ta không khẳng địnhđượ c, vì có hai khả năng hoặc 010 là một từ mã và 1 là phàn điđầu của một từ mã khác sau đó, hoặc 0101 là một từ mã.
Điều kiện phân tách mã (tt)
8/18/2019 LTTT Slide v1
82/311
Trang 82
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
ệ p ( )
Nguyên nhân của điều này là do trong bộ mã có một từ mã nàylà tiế p đầu ngữ của một từ mã khác.
Và đó cũng chính là nguyên nhân và bản chất của việc một dãykí hiệu có thể tách thành hai dãy từ mã khác nhau.
Thật vậy, nếu không có từ mã nào là tiế p đầu ngữ của từ mãkhác (hay mã là prefix) thì vớ i mỗi dãy từ mã chỉ có duy nhất
một cách tách thành các từ mã thành phần. Vì vậy như sau nàychúng ta sẽ thấy các mã thườ ng đượ c sử dụng là các mã prefix. Dựa vào tính tiế p đầu ngữ trên, để nhận biết một bộ mã (d ĩ
nhiên không phải là mã prefix) có phân tách đượ c hay không
ngườ i ta thườ ng dùng một công cụ đượ c gọi là bảng thử mã.
Bảng thử mã
8/18/2019 LTTT Slide v1
83/311
Trang 83
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bản chất của bảng thử mã là phân tích những từ mã dài thànhnhững từ mã ngắn đi đầu.
Chẳng hạn từ mã dài u1
có thể đượ c phân tích thànhv11v12...v1k w11 trong đó v11, .., v1k là các từ mã ngắn còn w11 là phần còn lại của u1.
Nếu w11 cũng là một từ mã thì bộ mã này là không phân tách
đượ c vì chuỗi v11v12...v1k w11 có ít nhất hai cách phân tách thànhcác từ mã, đó là u1 và v11, v12, ..., v1k , w11. Còn nếu ngượ c lại w11 không là từ mã thì chúng ta dùng nó để
xét tiế p. Trong lần xét tiế p theo chúng ta xét xem mỗi w11 này
có là tiế p đầu ngữ của các từ mã hay không, nếu đúng vớ i mộttừ mã nào đó, giả sử là u2, thì từ mã này sẽ có dạngw11v21...v2l w22 trong đó v21, ..., v2l là các từ mã ngắn (l có thể bằng 0) còn w22 là tiế p v ĩ ngữ còn lại.
Bảng thử mã (tt)
8/18/2019 LTTT Slide v1
84/311
Trang 84
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Tươ ng tự nếu w22 cũng là một từ mã thì bộ mã là không phântách đượ c vì chuỗi v11v12...v1k w11v21...v2l w22 có ít nhất hai cách phân tách thành các từ mã, đó là v11v12...v1k w11 | v21 | ... | v2l |w22, và v11 | v12 | ... | v1k | w11v21...v2l w22.
Nếu ngượ c lại w22 không là từ mã thì chúng ta dùng nó để xéttiế p theo khuôn mẫu tươ ng tự như trên. Vì vậy chúng ta k ếtluận r ằng
Nếu trong một lần phân tích nào đó, có một từ mã dài, chẳnghạn u, đượ c phân tích thành dãy wiiv(i+1)1...v(i+1)n trong đó wii làtiế p v ĩ ngữ của một từ mã nào đó trong lần phân tích ngay tr ướ cđó, còn v
(i+1)1
, ..., v(i+1)n
là các từ mã ngắn thì bộ mã là không phân tách đượ c.
Bảng thử mã (tt)
8/18/2019 LTTT Slide v1
85/311
Trang 85
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Thật vậy, lúc đó sẽ tồn tại một dãy kí hiệu sauv11v12...v1k w11v21...v2l w22 . . .w(i –1)(i –1)vi1...vimwiiv(i+1)1...v(i+1)n
cái mà có thể phân tách thành hai dãy từ mã khác nhau. Cách 1 là
v11 | v12 | ... | v1k | w11v21...v2l w22 | . . . | w(i –1)(i –1)vi1...vimwii | v(i+1)1 |... | v(i+1)n
Cách 2 làv11v12...v1k w11 | v21 | ... | v2l | w22 ...w(i –1)(i –1) | vi1 | . . . | vim |wiiv(i+1)1...v(i+1)n
Cách xây dự ng bảng thử mã
8/18/2019 LTTT Slide v1
86/311
Trang 86
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
(1) Đem các từ mã xế p thành một cột, theo thứ tự chiều dài của từmã từ nhỏ đến lớ n, đánh dấu là cột 1.
(2) Trong cột này, đối chiếu các từ mã ngắn vớ i các từ mã dàihơ n, nếu từ mã ngắn là tiế p đầu ngữ của từ mã dài thì ghi tiế pv ĩ ngữ vào cột tiế p theo và đánh dấu là cột 2.
(3) Tiế p tục, đối chiếu các chuỗi trong cột 1 và cột 2 vớ i nhau,
nếu có chuỗi nào trong cột này là tiế p đầu ngữ của chuỗi trongcột kia thì tiế p v ĩ ngữ sẽ đượ c ghi vào cột tiế p theo là cột 3.(4) Tiế p tục theo khuôn mẫu này nếu đang xét cột thứ j thì đối
chiếu các chuỗi trong cột này vớ i cột 1. Nếu có chuỗi nào
trong cột này là tiế p đầu ngữ của chuỗi trong cột kia thì tiế p v ĩ ngữ sẽ đượ c ghi vào cột j + 1. Thực hiện cho đến khi khôngthể điền thêm đượ c nữa hoặc cột mớ i thêm vào trùng vớ i mộtcột tr ướ c đó hoặc có một chuỗi trong cột mớ i trùng vớ i một từmã.
Bảng thử mã (tt)
8/18/2019 LTTT Slide v1
87/311
Trang 87
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Ví dụ Lậ p bảng thử mã cho bộ mã như đã nói ở trên A = {00, 01, 011,
1100, 00010}
00010
1100
01101
00
54321
010
1
0
100
0
111
0010 0010
0
111
10000
10
Mã là không phân tách đượ ctrên chuỗi 000101100 vì có hai
cách phân tách khác nhau
00 | 01 | 011 | 00
00010 | 1100
Bảng thử mã (tt)
8/18/2019 LTTT Slide v1
88/311
Trang 88
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Điều kiện cần và đủ để một bộ mã phân tách đượ c là không có phần tử nào trong các cột từ j ≥ 2 trùng vớ i một phần tử trongcột 1.
Độ chậm giải mã Độ chậm giải mã, thườ ng kí hiệu là T ch, là số kí hiệu cần phải
nhận đượ c đủ để có thể phân tách (nhận dạng) đượ c từ mã.
Trong tr ườ ng hợ p không có chuỗi nào trong các cột j ≥ 2 trùngvớ i từ mã nhưng có hai cột k , l nào đó (k ≠ l , k , l ≥ 2 ) trùngnhau thì mã là phân tách đượ c nhưng có độ chậm giải mã vôhạn.
Bảng thử mã (tt)
8/18/2019 LTTT Slide v1
89/311
Trang 89
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xét bộ mã {01, 10, 011, 100} có bảng thử mã như sau:
Bảng thử mã này có các cột 3 và 4 trùng nhau về các chuỗi nên bộ mã có độ chậm giải mã trong tr ườ ng hợ p xấu nhất là vô hạn.
Chẳng hạn vớ i chuỗi có dạng sau đây thì trong quá trình nhậnchưa hết chuỗi chúng ta không thể thực hiện đượ c việc tách mã:0110101010...
0011100
01011
110001010101
4321
Bài tập
8/18/2019 LTTT Slide v1
90/311
Trang 90
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Hãy lậ p bảng thử mã cho những bộ mã sau. Cho biết mã có phân tách đượ c không, nếu đượ c thì độ chậm giải mã (trongtr ườ ng hợ p xấu nhất) là bao nhiêu.
X1 = {00, 01, 100, 1010, 1011}
X2 = {00, 01, 101, 1010}
X3
= {00, 01, 110, 111, 1100}
X4 = {00, 01, 110, 111, 1110}
X5 = {00, 01, 110, 111, 0111}
X6 = {00, 01, 110, 111, 1011, 1101}
Bất đẳng thứ c Kraft
8/18/2019 LTTT Slide v1
91/311
Trang 91
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Định lý 6.1 Cho l 1, l 2, ..., l K là các chiều dài của một bộ mã prefix có bảng
kí hiệu mã kích thướ c m (tức gồm m kí hiệu mã). Thì
Ngượ c lại, nếu các số nguyên l 1, l 2, ..., l K thoã bất đẳng thứctrên thì tồn tại một bộ mã prefix vớ i các từ mã có chiều dài là l 1,l 2, ..., l K .
Chứng minhChiều thuận
Gọi T là cây mã tươ ng ứng vớ i bộ mã trên
11
≤
=
K
i
il m
Bất đẳng thứ c Kraft
8/18/2019 LTTT Slide v1
92/311
Trang 92
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Nút lá ở mức l i sẽ đượ c gán tr ọng số là m-li. Tr ọng số của mỗi nút cha đượ c tính bằng tổng tr ọng số của các
nút con. Vớ i cách gán này, chúng ta suy ra tr ọng số của nút cha ở mức h
là ≤ m-h. Điều này đúng là vì mỗi nút cha mức h có tối đa m nút con mức
h + 1.
Mức 0 Gốc
Mức 1
Mức 2Mức 3m-3 m-3 m-3 m-3 m-3
m-2m-2m-2m-2m-2m-2
Bất đẳng thứ c Kraft (tt)
8/18/2019 LTTT Slide v1
93/311
Trang 93
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Từ đây suy ra, tr ọng số của nút gốc là ≤ 1. Mà tr ọng số của nút gốc chính là tổng tr ọng số của các nút lá.
Vậy suy ra điều cần chứng minh.Chiều đảo
Chúng ta chứng minh bằng cách xây dựng một cây mã cho nó.
Điều này là thực hiện đượ c theo như chứng minh của chiềuthuận.
Ví dụ
Tìm bộ mã prefix cho các bộ mã nhị phân có các chiều dài từ mã tươ ng ứng như sau.
{2, 2, 3, 4, 4}, {2, 2, 3, 3, 3, 4, 4}, {2, 2, 3, 4, 4, 4, 5, 5}
Định lý
8/18/2019 LTTT Slide v1
94/311
Trang 94
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Định lý 6.2 Một mã phân tách đượ c thì có các chiều dài từ mã thoã mãn bất
đẳng thức Kraft.
Chứng minh Gọi l 1 ≤ l 2 ≤ ... ≤ l K là các chiều dài từ mã vớ i cơ số là m. Vớ i số nguyên N bất k ỳ ta có thể viết
11
≤
=
K
i
il m
( )∑∑∑ =++−
==
− =⎟ ⎠ ⎞⎜
⎝ ⎛
K
i
l l
K
i
N K
i
l
N
N iii mm111
1
1
LL
Định lý 6.2 (tt)
8/18/2019 LTTT Slide v1
95/311
Trang 95
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Chú ý là chiều dài của một dãy N từ mã và có thểnhận giá tr ị bất k ỳ giữa Nl 1 và Nl K . Gọi A j là số dãy N từ mã màcó tổng chiều dài là j. Thì
Vì bộ mã là phân tách đượ c, nên các dãy N từ mã mà có tổngchiều dài là j phải khác nhau.
Số các dãy có chiều dài j tối đa là m j. Vì vậy A j ≤ m j và
N ii l l ++ L
1
∑∑=
−
=
− =⎟ ⎠
⎞⎜⎝
⎛ K i
Nl
Nl j
j
j
N K
i
l m Am
11
( ) 111 1
+−=≤⎟ ⎠ ⎞⎜
⎝ ⎛ ∑∑
=
−
=
−l l N mmm K
Nl
Nl j
j N K
i
l K
ji
Chứ ng minh định lý (tt)
8/18/2019 LTTT Slide v1
96/311
Trang 96
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Nếu
Thì vớ i N đủ lớ n sẽ lớ n hơ n
Vì vậy chúng ta có đượ c điều cần chứng minh.
K ết hợ p hai định lý trên chúng ta rút ra một nhận xét sau. Nếu một mã phân tách đượ c thì tồn tại một bộ mã tươ ng đươ ng
về chiều dài các từ mã mà có tính prefix.
N K
i
l im ⎟ ⎠
⎞⎜⎝
⎛ ∑=
−
1
( ) 11 +− l l N K
11
>∑=
− K
i
l im
11
≤∑=
− K
i
l im
8/18/2019 LTTT Slide v1
97/311
Các định lý về giớ i hạn trên và dướ i củachiều dài trung bình
8/18/2019 LTTT Slide v1
98/311
Trang 98
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Định lý 7.1 Cho nguồn tin X = {a1, ..., a K } vớ i các xác suất tươ ng ứng p1,
..., p K . Một bộ mã phân tách đượ c bất k ỳ cho nguồn này vớ i cơ số mã m, chiều dài trung bình từ mã sẽ thõa (trong đó H (X) làentropy của nguồn vớ i cơ số của logarit là m).
Chứng minh
( )m
H
l log
X
≥
∑∑∑=
−
==
=−−=− K
i i
l
i
K
i
ii
K
i
ii p
m pml p p pml X H
i
111
lnlnlnln)(
0111111
=−≤−⎟ ⎠
⎞⎜⎝
⎛ =⎟⎟
⎠
⎞⎜⎜⎝
⎛ −≤ ∑∑
=
−
=
− K
i
l K
i i
l
ii
i
m p
m p
Các định lý về giớ i hạn trên và dướ i củachiều dài trung bình (tt)
−l m i
8/18/2019 LTTT Slide v1
99/311
Trang 99
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Chú ý dấu “=” xảy ra khi và chỉ khi , tức là
Định lý 7.2 Cho nguồn tin X = {a1, ..., a K } vớ i các xác suất tươ ng ứng p1,
..., p K , có thể xây dựng một mã prefix vớ i cơ số m sao cho
Chứng minh Chọn chiều dài l i của từ mã cho tin ai theo qui tắc
Chúng ta có
( )1
log
X+<
m
H l
1=i p
m iil
i m p −=
⎡ ⎤i pmil log−=
111
=≤⇒ ∑∑==
− K
i
i
K
i
l pm i
⎡ ⎤ i
l p
mi
p
mi pml l iii
≤⇒−≥⇒−= −
loglog
Chứ ng minh định lý (tt)
8/18/2019 LTTT Slide v1
100/311
Trang 100
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Vì các chiều dài đượ c chọn này thoã bất đẳng thức Kraft nêntồn tại một mã prefix tươ ng ứng có các chiều dài này.
Tiế p tục chúng ta có
Điều này hoàn tất chứng minh của chúng ta.
⎡ ⎤ 1loglog +−
8/18/2019 LTTT Slide v1
101/311
Trang 101
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Có thể mã hoá một nguồn mà có chiều dài trung bình tiế p cậnđến
vớ i sai số nhỏ tuỳ ý. Chúng ta thực hiện điều này bằng cách mã hoá các dãy N tin
của nguồn X = {a1, ..., a K } theo Định lý 7.2.
Lúc này chúng ta có nguồn mớ i vớ i kích thướ c là K N , mỗi phần
tử là một dãy của N tin đượ c lấy độc lậ p từ nguồn X. Entropy của nguồn mớ i này là NH ( X ) và chiều dài trung bình
các từ mã của nó theo định ngh ĩ a sẽ là N lần chiều dài trung
bình các từ mã của nguồn ban đầu, . Áp dụng Định lý 7.1 và Định lý 7.2 đối vớ i nguồn mớ i chúng ta
có
( )m
H
log
X
l
Hệ quả (tt)
Á ố ồ
8/18/2019 LTTT Slide v1
102/311
Trang 102
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Áp dụng Định lý 7.1 và Định lý 7.2 đối vớ i nguồn mớ i ta có
Vì N có thể lớ n tuỳ ý, nên tiế p cận đến H ( X ) / log m vớ i tốcđộ tươ ng đươ ng vớ i 1/ N tiến đến 0 khi N tiến ra vô cùng.
Để đánh giá một phươ ng pháp mã hoá nào đó l à tốt hay khôngngườ i ta đưa ra khái niệm hiệu suất lậ p mã.
Hiệu suất lậ p mã Hiệu suất lậ p mã h đượ c định ngh ĩ a bằng tỉ số của entropy của
nguồn vớ i chiều dài trung bình của bộ mã đượ c lậ p
( ) ( )1
log
X
log
X+
8/18/2019 LTTT Slide v1
103/311
Trang 103
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Là phép mã hóa mà k ết quả là một bộ mã có chiều dài trung bình là nhỏ nhất trong tất cả các phép mã hóa có thể có chonguồn.
Bộ mã của phép mã hóa tối ưu cho nguồn đượ c gọi là bộ mã tốiưu.
Ba phép mã hóa: Shannon, Fano, Huffman.
Trong mỗi phép mã hóa chúng ta sẽ mã hóa vớ i cơ số mã m = 2 tr ướ c (mã hóa nhị phân), sau đó sẽ mở r ộng cho tr ườ ng hợ p m> 2.
Phươ ng pháp mã hoá Shannon
ắ ế ấ ầ ấ ổ
8/18/2019 LTTT Slide v1
104/311
Trang 104
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
B1. Sắ p xế p các xác suất theo thứ tự giảm dần. Không mất tổngquát giả sử p1 ≥ ... ≥ p K .
B2. Định ngh ĩ a q1 = 0, qi = , ∀ i = 1, 2, ..., K .
B3. Đổi qi
sang cơ số 2, (biểu diễn qi
trong cơ số 2) sẽ đượ c mộtchuỗi nhị phân
B4. Từ mã đượ c gán cho ai là l i kí hiệu lấy từ vị trí sau dấu phẩy
của chuỗi nhị phân tươ ng ứng vớ i qi, trong đó l i =
∑−=
1
1
i
j
j p
⎥
⎤
⎢
⎡
i p2log
Ví dụ
Hã ã h á ồ S { } ới á á ấ
8/18/2019 LTTT Slide v1
105/311
Trang 105
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Hãy mã hoá nguồn S = {a1, a2, a3, a4, a5, a6} vớ i các xác suấtlần lượ t là 0,3; 0,25; 0,2; 0,12; 0,08; 0,05.
H = 2.36, = 2,75, h = 2,36/2,75 = 85,82%
∑−
==
1
1
i
j
ji qq ⎡ ⎤ii pl 2log−=
1111050,111100...0,950,05a6
110140,11011...0,870,08a5
110040,11000...0,750,12a4
10030,10001...0,550,2a3
0120,01001...0,30,25a2
0020,0000,3a1
Từ mãwiBiểu diễnnhị phânXác suất piTinai
l
Nhận xét - Bài tập
Ph há Sh h kết ả là ột ã fi
8/18/2019 LTTT Slide v1
106/311
Trang 106
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Phươ ng pháp Shannon cho k ết quả là một mã prefix. Phươ ng pháp Shannon có thể mở r ộng cho tr ườ ng hợ p m > 2
Bài tậ p Hãy mã hoá các nguồn sau bằng phươ ng pháp Shannon. Tính
entropy của nguồn, chiều dài trung bình và hiệu suất của phépmã hóa.
S 1 = {a1, a2, a3, a4, a5, a6} vớ i các xác suất lần lượ t là 0,25;0,21; 0,19; 0,16; 0,14; 0,05. S 2 = {a1, a2, a3, a4, a5, a6 , a7, a8} vớ i các xác suất lần lượ t là
0,21; 0,18; 0,15; 0,14; 0,12; 0,01; 0,06 ; 0,04. S 3 = {a1, a2, a3, a4, a5, a6 , a7, a8 , a9} vớ i các xác suất lần lượ t
là 0,25; 0,19; 0,15; 0,11; 0,09; 0,07; 0,06; 0,04; 0,04.
8/18/2019 LTTT Slide v1
107/311
8/18/2019 LTTT Slide v1
108/311
Chú ý
Chú ý trong nhiều trường hợp có nhiều hơn một cách chia
8/18/2019 LTTT Slide v1
109/311
Trang 109
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Chú ý, trong nhiều tr ườ ng hợ p có nhiều hơ n một cách chiathành các nhóm có tổng xác suất gần bằng nhau, ứng vớ i mỗicách chia có thể sẽ cho ra các bộ mã có chiều dài trung bìnhkhác nhau.
Ví dụ Hãy mã hoá nguồn S = {a1, a2, a3, a4, a5, a6, a7, a8} vớ i các xác
suất lần lượ t là 0,23; 0,2; 0,14; 0,12; 0,1; 0,09; 0,06; 0,06.
Ví dụ
4321 4321
8/18/2019 LTTT Slide v1
110/311
Trang 110
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
= 2,88, = 2,891l
wi4321 piai
111111110,06a8
111001110,06a7
110110110,09a6110000110,1a5
1011010,12a4
1000010,14a301100,2a2
00000,23a1
wi4321 piai
111111110,06a8
111001110,06a7
1100110,09a61011010,1a5
1000010,12a4
0111100,14a30100100,2a2
00000,23a1
2l
8/18/2019 LTTT Slide v1
111/311
Phươ ng pháp mã hoá tối ư u Huffman
Trước hết xét cơ số mã m = 2 Trường hợp m > 2 chún