LTTT Slide v1

8/18/2019 LTTT Slide v1

1/311

BÀI GIẢNG MÔN HỌCLÝ THUYẾT THÔNG TIN

Giảng Viên: Hồ Văn Quân

E-mail: [email protected] site: http://www.dit.hcmut.edu.vn/~hcquan/student.htm

Trườ ng Đại học Bách khoaKhoa Công Nghệ Thông Tin


2/311

Trang 2Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

NỘI DUNG MÔN HỌC Bài 1 Giớ i thiệu

Bài 2 Một số khái niệm cơ bản Bài 3 Chuẩn bị toán học

Bài 4 Lượ ng tin

Bài 5 Entropy Bài 6 Mã hiệu

Bài 7 Mã hóa tối ưu nguồn r ờ i r ạc không nhớ

Bài 8 Mã hóa nguồn phổ quát

Bài 9 Kênh r ờ i r ạc không nhớ , lượ ng tin tươ ng hỗ


3/311


NỘI DUNG MÔN HỌC (tt) Bài 10 Mã hóa chống nhiễu, định lý kênh

Bài 11 Mã khối tuyến tính Bài 12 Cơ sở toán học của mã hóa chống nhiễu

Bài 13 Mã vòng

Bài 14 Giớ i thiệu về mật mã hóa Bài 15 Một số vấn đề nâng cao


4/311


TÀI LIỆU THAM KHẢO1. Information Theory - Robert B.Ash, Nhà xuất bản Dover, Inc,

1990.

2. Introduction to Information Theory - Masud Mansuripur, Nhàxuất bản Prentice–Hall, Inc, 1987.

3. A Mathematical Theory of Communication - C. E. Shannon,

Tạ p chí Bell System Technical, số 27, trang 379–423 và 623– 656, tháng 7 và tháng 10, 1948.

4. Cơ sở Lý thuyết truyền tin (tậ p một và hai) - Đặng VănChuyết, Nguyễn Tuấn Anh, Nhà xuất bản Giáo dục, 1998.


5/311


HÌNH THỨ C ĐÁNH GIÁ Sẽ có thông báo cụ thể cho từng khóa học. Tuy nhiên,

thườ ng là có hình thức như bên dướ i. Thi tr ắc nghiệm

Giữa k ỳ: 30 câu / 45 phút

Cuối k ỳ: 45 câu / 90 phút Đượ c phép xem tài liệu trong 2 tờ giấy A4

Làm bài tậ p lớ n cộng điểm (không bắt buộc)

Nộ p bài tậ p lớ n và báo cáo vào cuối học k ỳ Cộng tối đa 2 điểm


6/311


CÁC MÔN LIÊN QUAN Lý thuyết xác suất

K ỹ thuật truyền số liệu Xử lý tín hiệu số


7/311


Bài 1 Giớ i thiệu1.1 Thông tin là gì?

1.2 Vai trò của thông tin1.3 Lý thuyết thông tin nghiên cứu những gì?

1.4 Những ứng dụng của lý thuyết thông tin

1.5 Lý thuyết thông tin – Lịch sử hình thành và quan điểmkhoa học hiện đại


8/311


Thông tin là gì? Một vài ví dụ

Hai ngườ i nói chuyện vớ i nhau. Cái mà trao đổi giữa họ gọi làthông tin.

Một ngườ i đang xem tivi/nghe đài/đọc báo, ngườ i đó đang nhậnthông tin từ đài phát/báo.

Quá trình giảng dạy trong lớ p. Các máy tính nối mạng và trao đổi dữ liệu vớ i nhau.

Máy tính nạ p chươ ng trình, dữ liệu từ đĩ a cứng vào RAM để

thực thi.


9/311


Thông tin là gì? (tt) Nhận xét

Thông tin là cái đượ c truyền từ đối tượ ng này đến đối tượ ngkhác để báo một “đ iề u” gì đó. Thông tin chỉ có ý ngh ĩ a khi“điều” đó bên nhận chưa biết.

Thông tin xuất hiện dướ i nhiều dạng âm thanh, hình ảnh, ... Những dạng này chỉ là “vỏ bọc” vật chất chứa thông tin. “Vỏ bọc” là phần “xác”, thông tin là phần “hồn”.

Ng ữ nghĩ a của thông tin chỉ có thể hiểu đượ c khi bên nhận hiểuđượ c cách biểu diễn ngữ ngh ĩ a của bên phát.

Một trong những phươ ng tiện để diễn đạt thông tin là ngôn ng ữ . Có hai tr ạng thái của thông tin: truyề n và l ư u tr ữ . Môi tr ườ ng

truyền/lưu tr ữ đượ c gọi chung là môi tr ườ ng chứa tin hay kênhtin.


10/311


Vai trò của thông tin Các đối tượ ng sống luôn luôn có nhu cầu hiểu về thế giớ i xung

quanh, để thích nghi và tồn tại. Đây là một quá trình quan sát,

tiế p nhận, trao đổi và xử lý thông tin từ môi tr ườ ng xung quanh. Thông tin tr ở thành một nhu cầu cơ bản, một điều kiện cần cho

sự tồn tại và phát triển.

Khi KHKT, XH ngày càng phát triển, thông tin càng thể hiệnđượ c vai trò quan tr ọng của nó đối vớ i chúng ta.

Ví dụ, hành động xuất phát từ suy ngh ĩ , nếu suy ngh ĩ đúng, thìhành động mớ i đúng. Suy ngh ĩ lại chịu ảnh hưở ng từ các nguồnthông tin đượ c tiế p nhận. Vì vậy thông tin có thể chi phối đếnsuy ngh ĩ và k ết quả là hành động của con ngườ i.


11/311


LTTT nghiên cứ u nhữ ng vấn đề gì? Ở góc độ khoa học k ỹ thuật, LTTT nghiên cứu nhằm tạo ra một

“cơ sở hạ tầng” tốt cho việc truyền thông tin chính xác, nhanh

chóng và an toàn; lưu tr ữ thông tin một cách hiệu quả. Ở các góc độ nghiên cứu khác LTTT nghiên cứu các vấn đề về

cách tổ chức, biểu diễn và truyền đạt thông tin, và tổng quát làcác vấn đề về xử lý thông tin.

Ba l ĩ nh vực nghiên cứu cơ bản của môn học Mã hoá chống nhiễu Mã hoá tối ư u (hay nén dữ liệu) Mật mã hoá


12/311


Nhữ ng ứ ng dụng của LT thông tin Cuộc cách mạng thông tin đang xảy ra, sự phát triển mạnh mẽ

của các phươ ng tiện mớ i về truyền thông, lưu tr ữ thông tin làm

thay đổi ngày càng sâu sắc xã hội chúng ta. LTTT đóng một vai trò quyết định trong sự phát triển này bằng

cách cung cấ p cơ sở lý thuyết và một cái nhìn triết học sâu sắc

đối vớ i những bài toán mớ i và thách thức mà chúng ta chạmtrán – hôm nay và mai sau.

Những ứng dụng phổ biến của LTTT là truyền thông và xử lýthông tin bao gồm: truyề n thông , nén, bảo mật , l ư u tr ữ , ...

Các ý tưở ng của LTTT đã đượ c áp dụng trong nhiều l ĩ nh vựcnhư vật lý, ngôn ng ữ học, sinh vật học, khoa học máy tính, tâmlý học, hóa học


13/311


Nhữ ng ứ ng dụng của LT thông tin (tt) Mối quan hệ giữa LTTT và thố ng kê đã đượ c tìm thấy, các

phươ ng pháp mớ i về phân tích thống kê dựa trên LTTT đã đượ c

đề nghị. Ứ ng dụng vào quản lý kinh t ế . Ví dụ, lý thuyết đầu tư tối ưu

xuất hiện đồng thờ i vớ i lý thuyết mã hóa nguồn tối ưu.

Ứ ng dụng vào ngôn ng ữ học. Ứ ng dụng đến tâm lý thự c nghiệm và đặc biệt là l ĩ nh vực dạy và

học.


14/311


Lịch sử hình thành Cuộc cách mạng lớ n nhất về cách nhìn thế giớ i khoa học là

chuyển hướ ng từ thuyế t quyế t định Laplacian đến bứ c tranh

xác suấ t của t ự nhiên. Thế giớ i chúng ta đang sống trong đó chủ yếu là xác suấ t . Kiến

thức của chúng ta cũng là một dạng xác suất. LTTT nổi lên sau khi cơ học thống kê và lượ ng tử đã phát triển,

và nó chia xẻ vớ i vật lý thống kê các khái niệm cơ bản vềentropy.

Theo lịch sử, các khái niệm cơ bản của LTTT như entropy,thông tin tươ ng hỗ đượ c hình thành từ việc nghiên cứu các hệthố ng mật mã hơ n là từ việc nghiên cứu các kênh truyề n thông .

Về mặt toán học, LTTT là một nhánh của lý thuyế t xác suấ t vàcác quá trình ng ẫ u nhiên (stochastical process).


15/311


Lịch sử hình thành (tt) Quan tr ọng và có ý ngh ĩ a nhất là quan hệ liên k ết giữa LTTT và

vật lý thố ng kê.

Trong một thờ i gian dài tr ướ c khi LTTT đượ c hình thành, L.Boltzman và sau đó là L.Szilard đã đánh đồng ý ngh ĩ a củathông tin vớ i khái niệm nhiệt động học của entropy. Một mặt

khác, D. Gabor chỉ ra r ằng “lý thuyết truyền thông phải đượ cxem như một nhánh của vật lý”.

C. E. Shannon là cha đẻ của LTTT.


16/311


Bài 2 Một số khái niệm cơ bản2.1 Thông tin (Information)

2.2 Mô hình của các quá trình truyền tin2.3 Các loại hệ thống truyền tin – Liên tục và r ờ i r ạc

2.4 R ờ i r ạc hoá


17/311


Thông tin Thông tin là một khái niệm tr ừu tượ ng, phi vật chất và r ất khó

đượ c định ngh ĩ a chính xác. Hai định ngh ĩ a về thông tin.

Thông tin là sự cảm hiể u của con ng ườ i về thế giớ i xung quanhthông qua sự tiế p xúc vớ i nó.

Thông tin là một hệ thố ng nhữ ng tin báo và mệnh l ệnh giúp loại

tr ừ sự không chắ c chắ n (uncertainty) trong tr ạng thái của nơ inhận tin. Nói ng ắ n g ọn, thông tin là cái mà loại tr ừ sự khôngchắ c chắ n.

Định ngh ĩ a đầu chưa nói lên đượ c bản chất của thông tin. Địnhngh ĩ a thứ hai nói rõ hơ n về bản chất của thông tin và đượ c dùngđể định lượ ng thông tin trong k ỹ thuật.


18/311


Thông tin (tt) Thông tin là một hiện tượ ng vật lý, nó thườ ng tồn tại và đượ c

truyền đi dướ i một dạng vật chất nào đó.

Những dạng vật chất dùng để mang thông tin đượ c gọi là tínhiệu.

Lý thuyế t tín hiệu nghiên cứu các dạng tín hiệu và cách truyền

thông tin đi xa vớ i chi phí thấ p, một ngành mà có quan hệ gầngũi vớ i LTTT.

Thông tin là một quá trình ng ẫ u nhiên.

Tín hiệu mang tin tức cũng là tín hiệu ngẫu nhiên và mô hìnhtoán học của nó là các quá trình ngẫu nhiên thực hay phức.

Và LTTT là lý thuyế t ng ẫ u nhiên của tin t ứ c, có ngh ĩ a là nó xétđến tính bấ t ng ờ của tin tức đối vớ i nơ i nhận tin.


19/311


Mô hình của các quá trình truyền tin Khái niệm thông tin thườ ng đi kèm vớ i một hệ thống truyền tin.

Sự truyền tin (transmission) Là sự dịch chuyển thông tin từ điểm này đến điểm khác trong

một môi tr ườ ng xác định. Nguồn tin (information source)

Là một tậ p hợ p các tin mà hệ thống truyền tin dùng để lậ p các bảng tin hay thông báo (message) để truyền tin.

Bảng tin chính là dãy tin đượ c bên phát truyền đi. Thông tin có thể thuộc nhiều loại như

(1) một dãy kí tự như trong điện tín (telegraph) của các hệ thống gở i điệntín (teletype system);

Nguồn phát Kênh truyền Nguồn nhận

Nhiễu


20/311


Mô hình của các quá trình truyền tin (tt)(2) một hàm theo chỉ một biến thờ i gian f (t) như trong radio và điện thoại;(3) một hàm của thờ i gian và các biến khác như trong tivi tr ắng đen – ở

đây thông tin có thể đượ c ngh ĩ như là một hàm f ( x, y, t ) của toạ độ haichiều và thờ i gian biểu diễn cườ ng độ ánh sáng tại điểm ( x, y) trên mànhình và thờ i gian t ;

(4) một vài hàm của một vài biến như trong tr ườ ng hợ p tivi màu – ở đâythông tin bao gồm ba hàm f ( x, y, t ), g ( x, y, t ), h( x, y, t ) biểu diễn cườ ngđộ ánh sáng của các ba thành phần màu cơ bản (xanh lá cây, đỏ, xanh

dươ ng) Thông tin tr ướ c khi đượ c truyền đi, tuỳ theo yêu cầu có thể

đượ c mã hoá để nén, chống nhiễu, bảo mật, ... Kênh tin (channel)

Là nơ i hình thành và truyền (hoặc lưu tr ữ) tín hiệu mang tinđồng thờ i ở đấy xảy ra các tạ p nhiễu (noise) phá hủy tin tức. Trong LTTT kênh là một khái niệm tr ừu tượ ng đại biểu cho

hỗn hợ p tín hiệu và tạ p nhiễu.


21/311


Một số khái niệm (tt) Môi tr ườ ng truyền tin thườ ng r ất đa dạng

môi tr ườ ng không khí, tin đượ c truyền dướ i dạng âm thanh và tiếng nói,ngoài ra cũng có thể bằng lửa hay bằng ánh sáng;

môi tr ườ ng tầng điện ly trong khí quyển nơ i mà thườ ng xuyên xảy ra sựtruyền tin giữa các vệ tinh nhân tạo vớ i các tr ạm rada ở dướ i mặt đất;

đườ ng truyền điện thoại nơ i xảy ra sự truyền tín hiệu mang tin là dòngđiện hay đườ ng truyền cáp quang qua biển trong đó tín hiệu mang tin làsóng ánh sáng v.v…

Nhiễu (noise) Cho dù môi tr ườ ng nào cũng có nhiễu. Nhiễu r ất phong phú và

đa dạng và thườ ng đi kèm vớ i môi tr ườ ng truyền tin tươ ng ứng. Chẳng hạn nếu truyền dướ i dạng sóng điện từ mà có đi qua các vùng của

trái đất có từ tr ườ ng mạnh thì tín hiệu mang tin thườ ng bị ảnh hưở ng ítnhiều bở i từ tr ườ ng này. Nên có thể coi từ tr ườ ng này là một loại nhiễu.

Nếu truyền dướ i dạng âm thanh trong không khí thì tiếng ồn xung quanhcó thể coi là một loại nhiễu.


22/311


Một số khái niệm (tt) Nhiễu có nhiều loại chẳng hạn nhiễu cộng, nhiễu nhân. Nhiễu cộng là loại nhiễu mà tín hiệu mang tin bị tín hiệu nhiễu

“cộng” thêm vào. Nhiễu nhân là loại nhiễu mà tín hiệu mang tin bị tín hiệu nhiễu

“nhân” lên.

Nơ i nhận tin (sink) Là nơ i tiế p nhận thông tin từ kênh truyền và cố gắng khôi phụclại thành thông tin ban đầu như bên phát đã phát đi. Tin đến đượ c nơ i nhận thườ ng không giống như tin ban đầu vì

có sự tác động của nhiễu. Vì vậy nơ i nhận phải thực hiện việc

phát hiện sai và sử a sai. Nơ i nhận còn có thể phải thực hiện việc giải nén hay giải mã

thông tin đã đượ c mã hoá bảo mật nếu như bên phát đã thựchiện việc nén hay bảo mật thông tin tr ướ c khi truyền


23/311


Các loại hệ thống truyền tin Các nguồn tin thườ ng thấy trong tự nhiên đượ c gọi là các nguồn

tin nguyên thu ỷ. Đây là các nguồn tin chưa qua bất k ỳ một phép

biến đổi nhân tạo nào. Các tín hiệu âm thanh, hình ảnh đượ c phát ra từ các nguồn tinnguyên thuỷ này thườ ng là các hàm liên t ục theo thờ i gian vàtheo mứ c, ngh ĩ a là có thể biểu diễn một thông tin nào đó dướ idạng một hàm s(t ) tồn tại trong một quãng thờ i gian T và lấy

các tr ị bất k ỳ trong một phạm vi ( smin, smax) nào đó. s(t )

t

smax

smin


24/311


Các loại hệ thống truyền tin (tt) Các nguồn như vậy đượ c gọi là các nguồn liên t ục (continuous

source), các tin đượ c gọi là tin liên t ục (continuous information)

và kênh tin đượ c gọi là kênh liên t ục (continuous channel). Tuy nhiên vẫn có những nguồn nguyên thuỷ là r ờ i r ạc Bảng chữ cái của một ngôn ngữ. Các tin trong hệ thống điện tín, các lệnh điều khiển trong một hệ thống

điều khiển, ...

Trong tr ườ ng hợ p này các nguồn đượ c gọi là nguồn r ờ i r ạc(discrete source), các tin đượ c gọi là tin r ờ i r ạc (discreteinformation) và kênh tin đượ c gọi là kênh r ờ i r ạc (discretechannel).

Sự phân biệt về bản chất của tính r ờ i r ạc và tính liên tục là số lượ ng tin của nguồn trong tr ườ ng hợ p r ờ i r ạc là hữ u hạn còntrong tr ườ ng hợ p liên tục là không đế m đượ c.


25/311


R ờ i rạc hóa Các hệ thống liên tục có nhiều nhượ c điểm của như cồng k ềnh,

không hiệu quả, và chi phí cao.

Các hệ thống truyền tin r ờ i r ạc có nhiều ưu điểm hơ n, khắc phục đượ c những nhượ c điểm trên của các hệ thống liên tục vàđặc biệt đang ngày càng đượ c phát triển và hoàn thiện dầnnhững sức mạnh và ưu điểm của nó.

R ờ i r ạc hoá thườ ng bao gồm hai loại: R ờ i r ạc hoá theo tr ục thờ igian, còn đượ c gọi là l ấ y mẫ u (sampling) và r ờ i r ạc hoá theo biên độ, còn đượ c gọi là l ượ ng t ử hoá (quantize).

Lấy mẫu (Sampling) Lấy mẫu một hàm là trích ra từ hàm ban đầu các mẫu đượ c lấy

tại những thờ i điểm xác định. Vấn đề là làm thế nào để sự thay thế hàm ban đầu bằng các mẫu

này là một sự thay thế tươ ng đươ ng, điều này đã đượ c giảiquyết bằng định lý lấy mẫu nổi tiếng của Shannon.


26/311


R ờ i rạc hóa (tt) Định lý lấy mẫu của Shannon

Một hàm s(t ) có phổ hữu hạn, không có thành phần tần số lớ n

hơ n ω max (= 2π f max) có thể đượ c thay thế bằng các mẫu của nóđượ c lấy tại những thờ i điểm cách nhau một khoảng ∆t ≤π /ω max, hay nói cách khác tần số lấy mẫu F ≥ 2 f max.

t

s(t ) smax

smin


27/311


R ờ i rạc hóa (tt) Lượ ng tử hoá (Quantize)

Biên độ của các tín hiệu thườ ng là một miền liên tục ( smin, smax).

Lượ ng tử hoá là phân chia miền này thành một số mức nhấtđịnh, chẳng hạn là smin = s0, s1, ..., sn = smax và qui các giá tr ị biên độ không trùng vớ i các mức này về mức gần vớ i nó nhất.

Việc lượ ng tử hoá sẽ biến đổi hàm s(t ) ban đầu thành một hàm

s’(t ) có dạng hình bậc thang. Sự khác nhau giữa s(t ) và s’(t )đượ c gọi là sai số lượ ng tử. Sai số lượ ng tử càng nhỏ thì s’(t ) biểu diễn càng chính xác s(t ).

s(t )

t

smax

smin


28/311


Nguồn rờ i rạc Nguồn tin liên tục sau khi đượ c lấy mẫu và lượ ng tử hoá sẽ tr ở

thành nguồn r ờ i r ạc.

Chúng ta học chủ yếu các nguồn r ờ i r ạc. Nguồn r ờ i r ạc

Một nguồn r ờ i r ạc là một bảng chữ cái A gồm m kí hiệu, A ={a1, a2, ..., am}, vớ i những xác suất xuất hiện p(ai), i = 1, .., m.

Định ngh ĩ a không diễn tả mối quan hệ giữa tin tr ướ c và sautrong một bản tin, nên đây đượ c gọi là một nguồn r ờ i r ạc khôngnhớ (discrete memoryless source).

Bảng tin của một nguồn tin r ờ i r ạc không nhớ Là một dãy (có thể vô hạn) các kí hiệu liên tiế p từ bảng chữ cáicủa nguồn tin, x = (... a –2a –1a0a1a2...) Trong thực tế bảng tin có bắt đầu và k ết thúc cho nên bảng tin

là một dãy hữu hạn các kí hiệu, x* = (a1a2 …an)


29/311


Bài 3 Chuẩn bị toán học3.1 Xác suất (Probability)

3.2 Bất đẳng thức Chebyshev và luật yếu của số lớ n3.3 Tậ p lồi (Convex sets) và hàm lồi (convex functions), bấtđẳng thức Jensen

3.4 Công thức Stirling


30/311


Xác suất Không gian mẫu (Sample space)

Là tậ p (hay không gian) tất cả các k ết quả có thể có của một thí

nghiệm. Thườ ng đượ c kí hiệu là E hay S . Nếu không gian mẫulà r ờ i r ạc thì E có thể đượ c biểu diễn bằng E = {e1, e2, ..., en} Sự kiện (Event), sự kiện cơ bản (elementary event)

Mỗi tậ p con của E (không gian mẫu) đượ c gọi là một sự kiện,

đặc biệt mỗi phần tử của E đượ c gọi là một sự kiện cơ bản. Ví dụ

Trong một thí nghiệm tung đồng xu thì E = {U (úp), N (ngửa)}. Nếu đồng tiền là đồng nhất thì xác suất P (U) = P (N) = 1/2.

Trong một thí nghiệm tung con xúc xắc thì E = {1, 2, 3, 4, 5,6}. Nếu con xúc xắc là đồng nhất thì xác suất P (1) = P (2) = P (3) = P (4) = P (5) = P (6) = 1/6, P (2, 5) = 1/3, P (1, 3, 5) = 1/2.


31/311


Xác suất (tt) Lấy một văn bản tiếng Anh điển hình và nhặt một kí tự bất k ỳ

thì E = {a, b, c, ..., x, y, z } và xác suất của các kí tự đượ c phân bố như sau P (a) = 0,0642 , ..., P (e) = 0,103 , ..., P ( z ) = 0,0005.

Biến ngẫu nhiên r ờ i r ạc (Discrete random variable) Một biến ngẫu nhiên r ờ i r ạc x đượ c định ngh ĩ a bằng cách gán

một số thực xi tớ i mỗi sự kiện cơ bản ei của không gian mẫu r ờ i

r ạc E . Xác suất của xi đượ c định ngh ĩ a là xác suất của sự kiệncơ bản tươ ng ứng và đượ c kí hiệu là p( xi). Tr ị trung bình (k ỳ vọng) (average, expected value),

phươ ng sai (variance)

Tr ị trung bình và phươ ng sai của biến ngẫu nhiên r ờ i r ạc x lầnlượ t đượ c kí hiệu và định ngh ĩ a như sau E (x) = ( )∑=

i

ii p xxx


32/311


Xác suất (tt) Var(x) =

=trong đó E (x2) là tr ị k ỳ vọng của x2. Tổng quát, tr ị k ỳ vọng của một hàm của x, chẳng hạn f (x), đượ c

định ngh ĩ a bằng

Xác suất đồng thờ i (joint probability), xác suất có điềukiện (conditional probability) Một cặ p biến ngẫu nhiên (x, y) liên k ết vớ i một thí nghiệm tạo

thành một biến ngẫu nhiên nối (joint random variable). Nếu x, ylà r ờ i r ạc, sự phân bố xác suất nối hay xác suất đồng thờ i đượ cđịnh ngh ĩ a là

pij = P(x = xi, y = y j)

( ) ( ) ( )∑ −=−i

ii p E xxxxx22

( )

22

xx − E

( )( ) ( ) ( )∑

=i ii

p f f E xxx


33/311


Xác suất (tt) Xác suất của y trong điều kiện đã biết x đượ c gọi là xác suất có

điều kiện và đượ c định ngh ĩ a là

trong đó xác suất lề (marginal probability) p( xi) đượ c giả thiết

là khác không. Các xác suất lề đượ c định ngh ĩ a như sau:

p( xi) =

p( y j) =

( ) ( )i ji

i j x p

y x p x y p ,=

j

ji y x p ,

∑i

ji y x p ,


34/311


Ví dụ Thí nghiệm tung đồng thờ i

một đồng xu và con xúc xắc.

Từ k ết quả trên ta thấyP(U, 5) = 1/18

P(Đồng xu = U) = 5/9

P(Đồng xu = N) = 4/9P(Xúc xắc = 5) = 7/72

P(Xúc xắc = 5 đã biết Đồng xu = U)

1/12 1/181/9 1/18

1/9 1/6

1/9 1/241/18 1/24

1/12 1/12

U N

6

54

3

21

Xúc xắc

Đồng xu


35/311


Xác suất (tt) Sự độc lậ p (Independence)

Hai biến ngẫu nhiên x và y đượ c gọi là độc lậ p nếu p( xi, y j) = p( xi) p( y j) ∀ i, j.

Chúng ta thấy nếu hai biến x và y độc lậ p thì

có ngh ĩ a là xác suất y j trong điều kiện có xi xảy ra hay khôngxảy ra đều như nhau, không thay đổi, và ngượ c lại.

Cũng từ sự độc lậ p chúng ta suy ra một k ết quả mà hay đượ c sử

dụng sau này E (xy) = E(x) E(y) =

( )( )

( )

( ) ( )

j

i

ji

i

ji

i j y p

x p

y p x p

x p

y x p x y p ===

,

yx


36/311


Xác suất (tt) Sự tươ ng quan (correlation)

Sự tươ ng quan C giữa hai biến x và y đượ c định ngh ĩ a là tr ị k ỳvọng của (x – )(y – ):

C (x, y) = E ((x – )(y – )) =

= E (xy) –

Trong tr ườ ng hợ p x và y là độc lậ p chúng ta suy ra C (x, y) = 0.Tuy nhiên điều ngượ c lại thì không đúng.

x yx y

yx

ấ ẳ


37/311


Bất đẳng thứ c Chebyshev

và luật yếu của số lớ n Bất đẳng thức Chebyshev

Cho một biến ngẫu nhiên x có tr ị trung bình là và phươ ng sailà , bất đẳng thức Chebyshev đối vớ i một số dươ ng tuỳ ý δ là

P(|x – | ≥ δ) ≤

Chứng minh Định ngh ĩ a một hàm f ( x) như sau

Thì

P(|x – | ≥ δ) = Σ f ( xi) p( xi)

x2xδ

x 2

2x

δ

δ

( )⎩⎨⎧

<

≥=

δ|- ,|

δ|- ,| f

xx0

xx1x

x


38/311


Bất đẳng thứ c Chebyshev (tt)

Dựa trên hình chúng ta có

f (x) ≤ Vì vậy,

xδ −x x

1

δ +x

2xx

⎟⎟

⎠

⎞⎜⎜

⎝

⎛ −δ

2xx

⎟⎟

⎠

⎞⎜⎜

⎝

⎛ −

δ

( ) ( )∑ =⎟⎟ ⎠

⎞⎜⎜⎝

⎛ −≤≥−

i

p P i 2

2xx

2xx

xxδ

δ

δ δ


39/311


Luật yếu của số lớ n (tt) Xét một thí nghiệm nhị phân trong đó các k ết quả của thí

nghiệm là 0 và 1 vớ i các xác suất tươ ng ứng là p0 và 1– p0.

Thí nghiệm này đượ c lặ p lại N lần một cách độc lậ p, và k ết quảtrung bình đượ c định ngh ĩ a là y N ; tức là, y N bằng tổng số các số1 trong N lần thí nghiệm chia cho N .

Rõ ràng, y N là một biến ngẫu nhiên có không gian mẫu là {0,1/ N , 2/ N , ..., 1}.

Định ngh ĩ a x(n) là biến ngẫu nhiên tươ ng ứng vớ i k ết quả củalần thí nghiệm thứ n, chúng ta có

( )∑=

= N

n

n

N N 1

x1

y


40/311


Luật yếu của số lớ n (tt)( )( ) xx1x1y

11∑∑

==

=== N

n

N

n

n

N N

E N

( )( ) ( )⎟⎟

⎠

⎞

⎜⎜

⎝

⎛ ⎥⎦

⎤⎢⎣

⎡−=−= ∑

=

2

1

22y xx

1yy

N

n

n

N N N

E E δ

( )⎟⎟

⎠

⎞⎜⎜

⎝

⎛ ⎟⎟

⎠

⎞⎜⎜⎝

⎛ ⎥⎦

⎤⎢⎣

⎡ −= ∑=

2

1

xx1

N N

E N

n

n ( )( )⎟⎟

⎠

⎞⎜⎜

⎝

⎛ ⎥⎦

⎤⎢⎣

⎡ −= ∑=

2

12

xx1 N

n

n E N

( )( )( ) N N N E N N

n

n 2x2x2

1

22

1xx1 δ δ ==−= ∑=


41/311


Luật yếu của số lớ n (tt) Đối vớ i một số nguyên dươ ng tuỳ ý ε, theo bất đẳng thức

Chebyshev chúng ta có

từ đây chúng ta dẫn ra đượ c luật yếu của số lớ n

Chú ý r ằng vế phải tiến tớ i 0 khi N tiến ra vô cùng.

Luật yếu của số lớ n vì vậy khẳng đinh r ằng tr ị trung bình mẫucủa x tiế p cận tr ị trung bình thống kê vớ i xác suất cao khi N →∞.

( ) 22y|yy|

ε

δ ε ≤≥−

N N P

( )2

2x

1

xx1ε

δ ε N N

P N

n

n ≤⎟⎟ ⎠ ⎞⎜⎜

⎝ ⎛ ≥−⎥

⎦⎤⎢

⎣⎡ ∑

=


42/311


Tập lồi Trong không gian Ơclit, một tậ p S đượ c gọi là lồi (convex cap

(∩)) nếu đối vớ i một cặ p điểm P 1, P 2 thuộc S thì mọi điểm

thuộc đoạn P 1 P 2 cũng thuộc S .

Nếu P 1 = ( x1, x2, ..., xn) và P 2 = ( y1, y2, ..., yn) là các điểm trongkhông gian Ơclit n chiều, thì đoạn thẳng nối chúng đượ c biểu

diễn bằng tậ p các điểm P , trong đó P = λ P 1 + (1– λ) P 2

= (λ x1 + (1– λ) y1, λ x2 + (1– λ) y2, ..., λ xn + (1– λ) yn) và λ ∈ [0, 1].

(a)

P1

P2

P1

P2

(b)


43/311


Hàm lồi Một ví dụ quan tr ọng của tậ p lồi là tậ p tất cả các điểm ( p1, p2,

..., pn) trong đó ( p1, p2, ..., pn) là một sự phân bố xác suất (tức là

các pi ∈ [0, 1] và Σ pi = 1). Một hàm thực f ( P ), đượ c định ngh ĩ a trên tậ p lồi S , đượ c gọi là

lồi nếu ∀cặ p điểm P 1, P 2 ∈ S , và ∀ λ ∈ [0, 1] bất đẳng thức sauđây đúng:

f (λ P 1 + (1– λ) P 2) ≥ λ f ( P 1) + (1– λ) f ( P 2)

x x1 (λ x1 + (1-λ) x2 x2

f ( x1)

f ( x) f ( x2)

f ((λ x1 + (1-λ) x2)

λ f ( x1) + (1-λ) f ( x2)


44/311


Định lý, bất đẳng thứ c Jensen Nếu λ1, ..., λ N là các số không âm có tổng bằng 1 thì đối vớ i

mọi tậ p điểm P 1, ..., P N trong miền xác định của hàm lồi f ( P )

bất đẳng thức sau đây đúng

Cho biến ngẫu nhiên x lấy các giá tr ị x1, ..., xn vớ i các xác suất p1, ..., pn. Cho f ( x) là một hàm lồi có miền xác định chứa x1, ..., xn. Chúng ta có E (x) = và E ( f (x)) = .

Áp dụng định lý trên chúng ta có

f ( E (x)) ≥ E ( f (x))Đây đượ c gọi là bất đẳng thức Jensen.

=

λ

⎟

⎠

⎞

⎜

⎝

⎛

λ

N

n

nn

N

n

nn P f P f

11

∑

i

ii x p

iii x f p


45/311


Bài 4 Lượ ng tin4.1 Lượ ng tin

4.2 Lượ ng tin trung bình

V ấ n đề cơ bản của truyề n thông là việc tái sinh t ại một đ iể m hoặc

chính xác hoặc g ần đ úng một thông báo đượ c chọn t ại một đ iể mkhác.

(Claude Shannon 1948)


46/311


Lượ ng tin Lượ ng tin (measure of information) dùng để so sánh định lượ ng

các tin tức vớ i nhau.

Một tin đối vớ i ngườ i nhận đều mang hai nội dung, một làđộ bất ngờ của tin, hai là ý ngh ĩ a của tin.

Khía cạnh ngữ ngh ĩ a chỉ có ý ngh ĩ a đối vớ i con ngườ i.

Khía cạnh quan tr ọng nằm ở chỗ tin thật sự là một cái đượ cchọn từ một tập các tin (tậ p các khả năng) có thể.

Nếu số tin trong tậ p tin càng nhiều thì sẽ mang lại một “lượ ngtin” càng lớ n khi nhận đượ c một tin (giả sử các tin là bình đẳng

như nhau về khả năng xuất hiện). Để sự truyền tin đạt hiệu quả cao chúng ta không thể đối đãi

các tin như nhau nếu chúng xuất hiện ít nhiều khác nhau.


47/311


Lượ ng tin Xét một tin x có xác suất xuất hiện là p( x), thì chúng ta có thể

xem tin này như là một tin trong một tậ p có 1/ p( x) tin vớ i các

tin có xác suất xuất hiện như nhau. Nếu p( x) càng nhỏ thì 1/ p( x) càng lớ n và vì vậy “lượ ng tin” khi

nhận đượ c tin này cũng sẽ càng lớ n.

Vậy “lượ ng tin” của một tin tỉ lệ thuận vớ i số khả năng của mộttin và tỉ lệ nghịch vớ i xác suất xuất hiện của tin đó.

Xác suất xuất hiện của một tin tỉ lệ nghịch vớ i độ bất ngờ khinhận đượ c một tin.

“lượ ng tin“ ↑

số khả năng↑

độ bất ngờ ↓

xác suất Một tin có xác suất xuất hiện càng nhỏ thì có độ bất ngờ càng

lớ n và vì vậy có lượ ng tin càng lớ n.


48/311


Lượ ng tin (tt) Xét một nguồn A = {a1, a2,…, am} vớ i các xác suất xuất hiện là

p(ai) i = 1, ..., m.

Kí hiệu lượ ng tin trong mỗi tin ai là I (ai). Vậy hàm f dùng để biểu thị lượ ng tin phải thoã mãn những điều kiện gì?

Phản ánh đượ c các tính chất thống kê của tin tức.

Ví dụ có hai nguồn K , L vớ i số tin tươ ng ứng là k , l (giả thuyết đều làđẳng xác suất). Nếu k > l , thì độ bất ngờ khi nhận một tin bất k ỳ củanguồn K phải lớ n hơ n độ bất ngờ khi nhận một tin bất k ỳ của nguồn L,vậy f (k ) > f (l )

Hợ p lý trong tính toán. Giả thiết hai nguồn độc lậ p K và L vớ i số tin tươ ng ứng là k và l . Cho

việc nhận một cặ p k i và l j bất k ỳ đồng thờ i là một tin của nguồn hỗn hợ p KL. Số cặ p k il j mà nguồn này có là k *l .


49/311


Lượ ng tin (tt) Độ bất ngờ khi nhận đượ c một cặ p như vậy phải bằng tổng lượ ng tin của

khi nhận đượ c k i và l j. Vì vậy chúng ta phải có:

f (kl ) = f (k ) + f (l ) Khi nguồn chỉ có một tin, lượ ng tin chứa trong tin duy nhất đó

phải bằng không.

f (1) = 0

Định ngh ĩ a Lượ ng đo thông tin của một tin đượ c đo bằng logarit của độ bất

ngờ của tin hay nghịch đảo xác suất xuất hiện của tin đó.

( ) )(log)(1log x p

x p x I −==


50/311


Lượ ng tin (tt) Lượ ng tin chứa trong một dãy x = a1a2 … an vớ i ai ∈ A là

Trong tr ườ ng hợ p m kí hiệu của nguồn đẳng xác suất vớ i nhautức p(ai) = 1/m thì

Nếu x = a1a2 … an vớ i ai ∈ A

I ( x) = n logm

( ) ∑=−==n

i

ia p x p x I 1 )(log)(

1log

( ) ma pa I

i

i log)(1log ==


51/311


Lượ ng tin trung bình Đơ n vị của lượ ng tin

Nếu cơ số là 2 thì đơ n vị là bits (cho các kí số nhị phân); nếu cơ

số là e thì đơ n vị là nats (cho đơ n vị tự nhiên), nếu cơ số là 10thì đơ n vị là Hartley.

Định ngh ĩ a Lượ ng tin trung bình của một nguồn tin A là lượ ng tin trung

bình chứa trong một kí hiệu bất k ỳ của nguồn tin. Nó thườ ngđượ c kí hiệu là I ( A) và đượ c tính bằng công thức sau

∑

∈

∈

=

Aaa pa p

Aaa I a p A I

i

ii

i

ii )(log)()()()(


52/311


53/311


Ví dụ (tt) Lượ ng tin trung bình của nguồn là

I (U ) = (1/4) × 2 + (1/4) × 2 + (1/8) × 3 + (1/8) × 3 + (1/16) × 4

+ (1/16) × 4 + (1/16) × 4 + (1/16) × 4 = 2,75 bits. Điều này nói lên một ý ngh ĩ a quan tr ọng r ằng, chúng ta có thể

biểu diễn mỗi tin trong nguồn U bằng một chuỗi có chiều dài

trung bình là 2,75 bits. Nó sẽ tốt hơ n so vớ i trong tr ườ ng hợ pchúng ta không chú ý đến cấu trúc thông kê của nguồn. Lúc đóchúng ta sẽ biểu diễn mỗi tin trong 8 tin của nguồn bằng cácchuỗi có chiều dài là 3 bits.


54/311


55/311


Entropy của một biến ngẫu nhiên rờ i rạc Định ngh ĩ a

Cho x là một biến ngẫu nhiên vớ i không gian mẫu X = { x1, ... , x N } và độ đo xác suất P ( xn) = pn. Entropy của x đượ c định ngh ĩ alà:

( ) ∑=

−= N

n

nn p p H 1

)log(x

– p ln( p)e-1

e-1 = 0,37 p0 1


56/311


57/311


Các đặc tính của entropy1. Entropy là một đại lượ ng luôn luôn dươ ng hoặc bằng không.

H (x) = 0 ⇔ có một xác suất pi = 1, còn tất cả các xác suất còn lại bằng 0.

Điều này nói lên r ằng độ bất ngờ về một thí nghiệm chỉ có một k ết quảduy nhất là bằng 0.

2. H (x) ≤ log N và dấu bằng xảy ra ⇔ p1 = p2 = ... = p N = 1/ N .Hay nói cách khác entropy đạt cực đại khi xác suất xuất hiện

của các kí hiệu bằng nhau. Chứng minh

( ) ( ) ∑∑∑===

⎟⎟

⎠

⎞⎜⎜

⎝

⎛ =−−=−

N

n n

n

N

n

n

N

n

nn

Np

p N p p p N H 111

1lnlnln)ln()x(

0111

11

111

=−=−⎟ ⎠

⎞⎜⎝

⎛ =⎟⎟ ⎠

⎞⎜⎜⎝

⎛ −≤ ∑∑∑

===

N

n

n

N

n

N

n n

n p N Np

p


58/311


Các đặc tính của entropy (tt)3. Cho biến ngẫu nhiên x có không gian mẫu X = { x1, ..., x N } và

biến ngẫu nhiên y có không gian mẫu Y = { y1, ..., y M }. Thì biến

ngẫu nhiên nối z = (x, y) có không gian mẫu Z = {( x1, y1), ...,( x1, yM), ( x2, y1), ..., ( x2, yM), ..., ( x N, y1), ..., ( x N, yM)} gồm NM phần tử. Nếu x, y độc lậ p nhau thì H (z) = H (x) + H (y).

Chứng minh

( ) ( ) ( ) ( ) ( ) ( )[ ]∑∑∑∑= == =

+−=−= N

n

M

m

mnmn

N

n

M

m

mnmn y P x P y P x P y x P y x P z H 1 11 1

loglog,log,)(

( ) ( ) ( ) ( ) ( ) ( ))y()x(

loglog 1 11 1 H H

y P x P x P y P x P x P

M

m

N

n

nmm

N

n

M

m

mnn

+=

−−= ∑ ∑∑ ∑ = == =


59/311


Các đặc tính của entropy (tt)4. Xét một biến ngẫu nhiên x có không gian mẫu X = { x1, ..., xn,

xn+1, ..., x N } và các xác xuất p( xi) = pi. Chúng ta phân X thành

hai không gian con, Y = { x1, ..., xn} và Z = { xn+1, ..., x N }. Cácxác suất liên k ết vớ i Y và Z đượ c cho bở i P (Y ) =và P ( Z ) = . Hơ n nữa, chúng ta định ngh ĩ a các biếnngẫu nhiên y và z bằng P ( yi) = P ( xi)/ P (Y ), i = 1, 2, ..., n và P ( z i)

= P ( xi)/ P ( Z ), i = n+1, n+2, ..., N . H (x) bây giờ có thể đượ c viếtthành

∑

=

ni i

p1

∑

N

ni i p

1

∑∑∑+===

−−=−= N

ni

ii

n

i

ii

N

i

ii p p p p p p H 111

logloglog)x(

( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )∑∑+==

+−+−= N

ni

ii

n

i

ii Z P z P z P Z P Y P y P y P Y P 11

loglogloglog

)]()()()([)]()log()()log([ z H Z P y H Y P Z P Z P Y P Y P +++−=


60/311


Các đặc tính của entropy (tt) Trong biểu thức cuối cặ p ngoặc vuông đầu biểu diễn độ bất ngờ liên k ết

vớ i thí nghiệm thứ nhất (là chọn một trong hai không gian mẫu Y và Z )còn cặ p ngoặc vuông thứ hai biểu diễn độ bất ngờ trung bình liên k ết vớ i

thí nghiệm thứ hai (sau khi đã chọn một trong hai không gian mẫu, sẽchọn tiế p sự kiện cơ bản nào). Công thức này diễn tả một tính chất củaentropy đó là tính chất nhóm.

Ngườ i ta đã chứng minh đượ c r ằng công thức định ngh ĩ a của

H (x) là công thức duy nhất phù hợ p để đo về độ bất ngờ , cái mà phải thoã mãn các tính chất 2,3, 4 và cộng thêm tính liên tục. Mặc dầu hai khái niệm lượ ng tin trung bình và entropy xuất

hiện một cách độc lậ p và ở trong những l ĩ nh vực khác nhau

(entropy vốn xuất phát từ việc nghiên cứu các quá trình nhiệtđộng) nhưng chúng có cùng công thức giống nhau. Vì vậychúng ta có thể xem lượ ng tin trung bình của một nguồn chínhlà entropy của nguồn đó.

Entropy và các dãy của


61/311


một biến ngẫu nhiên Ví dụ

Xét một biến ngẫu nhiên x có không gian mẫu X = { x1, x2},

P ( x1) = p1 = 1/3, P ( x2) = 2/3. Thì entropy của x là H (x) = –(1/3) log(1/3) – (2/3) log(2/3) = 0.918295834 bits

Chúng ta hãy lặ p lại thí nghiệm này N lần để nhận một dãy N phần tử. Tổng quát có đến 2 N dãy có thể. Nếu trong dãy có n

phần tử x1 thì xác suất xuất hiện của dãy là p1n(1– p1) N – n Có dãy như vậy, nên tổng xác suất của chúng

bằng

Bảng bên dướ i trình bày xác suất của các dãy khác nhau đối vớ i N = 15

!!

!)(

n N n

N N n

N-nn N

n -p p )1()( 11

Entropy và các dãy của


62/311


một biến ngẫu nhiên (tt)

)( N

n

0.0000002 –15x1.5849625011150.1148072 –15x1.051629167643570.0000022

–15x1.518295834

15140.1785892 –15x0.984962501

50056

0.0000292 –15x1.451629167105130.2143072 –15x0.91829583430035

0.0002542 –15x1.384962501455120.1948252 –15x0.851629167136540.0015222 –15x1.3182958341365110.1298832 –15x0.7849625014553

0.0066972 –15x1.2516291673003100.0599462 –15x0.7182958341052

0.0223242 –15x1.184962501500590.0171272 –15x0.651629167151

0.0574042 –15x1.118295834643580.0022842 –15x0.58496250110

P tổng cộng p

1

n(1– p1

) N – n P mỗi dãy

p1

n(1– p1

) N – nSố dãy

n P tổng cộng

p1

n(1– p1

) N – n P mỗi dãy

p1

n(1– p1

) N – nSố dãy

n)( N

n)( N

n)( N

n


63/311


Nhận xét Những dãy có xác suất lớ n (dãy có khả năng) là những dãy mà

có n gần vớ i giá tr ị Np1 = 5, cụ thể là 2 ≤ n ≤ 8. Nói cách khác,

Xác suất xuất hiện của một dãy mà có n nằm xa giá tr ị Np1 làr ất nhỏ.

Xsuất riêng của những dãy có khả năng nằm giữa 2 –15×0.718295834

và 2 –15× 1.118295834, cái mà gần sát vớ i 2 – N H (x) = 2 –15×0.918295834. Nói cách khác,

Tất cả những dãy có khả năng là nhiều hay ít đẳng xác suất vớ ixác suất 2 – NH (x).

Số lượ ng tổng cộng các dãy khả năng (2 ≤ n ≤ 8) là 22803 =215× 0.965129067 cái mà không xa so vớ i 2 N H (x). Nói cách khác,

Số lượ ng các dãy có khả năng là khoảng 2 NH (x).


64/311


Định lý Định lý 5.1

Cho các số ε > 0 và δ > 0 nhỏ tuỳ ý, ∃ một số nguyên dươ ng N 0sao cho một dãy có chiều dài bất k ỳ N ≥ N 0 sẽ r ơ i vào một tronghai lớ p sau đây:

(1) Một tậ p các dãy mà có tổng xác suất của chúng nhỏ hơ n

hoặc bằng ε.(2) Tậ p còn lại bao gồm các dãy có xác suất thoã mãn bất đẳngthức

vớ i A là một số dươ ng nào đó. Hay nói cách khác,

δ

H N

p 1log

N A NH N A NH p +−−−


65/311


Chứ ng minh định lý Chứng minh cho nguồn r ờ i r ạc không nhớ A = {a1, a2, ..., a K }.

Gọi x là biến ngẫu nhiên gắn vớ i nguồn A. Ta có

Gọi y là biến ngẫu nhiên bằng cách ánh xạ mỗi ai tớ i log p(ai).

Xét các dãy có chiều dài N . Có tất cả K N dãy như vậy. Ta kíhiệu các dãy này bằng các S i và xác suất của dãy là P (S i). Ta có

trong đó a( j) là kí hiệu thứ j của dãy.

∑=−= K

k

k k a pa p H 1

)(log)()x(

( ) ( ) )x(log1 H a pa p y K

i

ii =−= ∑=

( )∏== N

j

ji a pS P

1)()(


66/311


Chứ ng minh định lý Gọi z là biến ngẫu nhiên bằng cách ánh xạ mỗi S i tớ i -log P (S i). Chú ý

Vì vậy z là tổng của N biến ngẫu nhiên y độc lậ p. Áp dụng luật yếu của số lớ n cho hai số ε > 0 và δ > 0 nhỏ tuỳ ý,

tồn tại N 0 sao cho vớ i mọi N ≥ N 0

hay

∑=

−=− N

j

j

i a pS P

1

)( )(log)(log

ε

⎟

⎟

⎠

⎞

⎜

⎜

⎝

⎛

δ

⎥

⎥

⎦

⎤

⎢

⎢

⎣

⎡

∑

=

y y N

P N

j

j

1

1

( ) εδ)x()(log1

1

≤⎟⎟

⎠

⎞

⎜⎜

⎝

⎛ ≥−⎥

⎦

⎤⎢⎣

⎡− ∑

=

H a p N

P N

j

j


67/311


Chứ ng minh định lý (tt) Hay

Vì vậy chúng ta có thể k ết luận r ằng vớ i xác suất lớ n hơ n 1– ε

đối vớ i mọi N ≥ N 0.

Từ đây ta suy ra r ằng các dãy đượ c chia thành hai nhóm, mộtnhóm có tổng xác xuất nhỏ hơ n hoặc bằng ε và nhóm thứ hai bao gồm các dãy thoã điều kiện .

Vì vậy định lý đượ c chứng minh.

ε

⎟

⎠

⎞

⎜

⎝

⎛

δ

x H S P N

P ilog1

δ ≤−− )x()(log1

H S P N

i

δ ≤− )x()(

1log1 H S P N i

Bài 6 Mã hiệu


68/311


Bài 6 Mã hiệu

6.1 Giớ i thiệu

6.2 Mã hiệu và các thông số cơ bản của mã hiệu

6.3 Một số phươ ng pháp biểu diễn mã

6.4 Điều kiện phân tách mã

Giới thiệu


69/311


Giớ i thiệu

Trong các hệ thống truyền tin, bên nhận thườ ng biết tậ p hợ p cáctin mà bên phát dùng để lậ p nên các bản tin.

Các tin thườ ng sẽ đượ c ánh xạ (mã hóa) thành một dạng biểudiễn khác thuận tiện hơ n để phát đi.

Ví dụ Xét một nguồn tin A = {a, b, c, d }. Chúng ta có thể thiết lậ p

một song ánh như sau từ A vào tậ p các chuỗi trên bảng chữ cái{0, 1}

a → 00 c → 10b → 01 d → 11

Vậy để phát đi bản tin baba chúng ta phát đi chuỗi 01000100.Khi bên nhận nhận đượ c chuỗi này thì xác định đượ c bản tin bên phát đã phát đi là baba.

Mã hiệu và những thông số cơ bản


70/311


Mã hiệu và nhữ ng thông số cơ bản

Mã hiệu (Code), cơ số mã Mã hiệu là một tậ p hữu hạn các kí hiệu và phép ánh xạ các

tin/bản tin của nguồn tin thành các dãy kí hiệu tươ ng ứng. Tậ pcác kí hiệu và phép ánh xạ này thườ ng sẽ phải đáp ứng các yêucầu tùy theo hệ thống truyền tin đặt ra.

Tậ p các kí hiệu mã dùng để biểu diễn đượ c gọi là bảng kí hiệu

mã, còn số các kí hiệu thì đượ c gọi là cơ số mã, và thườ ng kíhiệu là m. Nếu mã có cơ số hai thì gọi là mã nhị phân, còn nếumã có cơ số ba thì gọi là mã tam phân ...

Mã hoá (Encoding), giải mã (decoding) Mã hoá là quá trình dùng các kí hiệu mã để biểu diễn các tin

của nguồn.

Mã hiệu và những thông số cơ bản (tt)


71/311


Mã hiệu và nhữ ng thông số cơ bản (tt)

Nói cách khác mã hoá là một phép biến đổi từ nguồn tin thànhmã hiệu, hay mã hoá là phép biến đổi từ một tậ p tin này thànhmột tậ p tin khác có đặc tính thống kê yêu cầu.

Quá trình ngượ c lại của quá trình mã hoá đượ c gọi là giải mã.

Từ mã (Code word), bộ mã Từ mã là chuỗi kí hiệu mã biểu diễn cho tin của nguồn. Tậ p tất

cả các từ mã tươ ng ứng vớ i các tin của nguồn đượ c gọi là bộmã.

Vì vậy có thể nói mã hoá là một phép biến đổi một–một giữamột tin của nguồn và một từ mã của bộ mã.

Trong một số tr ườ ng hợ p ngườ i ta không mã hoá mỗi tin củanguồn mà mã hoá một bản tin hay khối tin. Lúc này chúng ta cókhái niệm mã khối.


72/311

Mã hiệu và những thông số cơ bản (tt)


73/311


Mã hiệu và nhữ ng thông số cơ bản (tt)

Một bộ mã đều có cơ số mã là m, chiều dài từ mã là l và số lượ ng từ mã n bằng vớ i ml thì đượ c gọi là mã đầy, ngượ c lại thìđượ c gọi là mã vơ i.

Ngoài ra khái niệm mã đầy còn đượ c dùng theo ngh ĩ a r ộng hơ nnhư sau: một bộ mã đượ c gọi là đầy theo một tính chất nào đó(chẳng hạn tính đều hay tính prefix như sau này các bạn sẽthấy) nếu không thể thêm một từ mã nào vào mà vẫn giữ đượ ctính chất đó.

Ví dụ Cho bảng kí hiệu mã A = {0, 1}. Thì bộ mã X 1 = {0, 10, 11} là

mã không đều, bộ mã X 2 = {00, 10, 11} là mã đều nhưng vơ icòn bộ mã X 3 = {00, 01, 10, 11} là mã đều và đầy.

Một số phương pháp biểu diễn mã


74/311


Một số phươ ng pháp biểu diễn mã

Bảng đối chiếu mã Là cách liệt kê các tin của nguồn và từ mã tươ ng ứng trong một

bảng.

Mặt toạ độ mã Là cách biểu diễn mỗi từ mã w = a0a1…al -1 bằng một điểm (l ,

b) trong mặt phẳng toạ độ hai chiều, trong đó l là chiều dài từ

mã còn b là tr ọng số của từ mã đượ c tính như sau vớ i m là cơ sốmã

1111101001101000Từ mã

a6a5a4a3a2a1Tin

∑

=

=

1

0

l

i

ii mab

Một số phương pháp biểu diễn mã (tt)


75/311


Một số phươ ng pháp biểu diễn mã (tt)

Ví dụ

1111101001101000Từ mãa6a5a4a3a2a1Tin

1

2

3

4

5

67

b

1 2 3 4 l 0 a1

a4

a2

a5

a3

a6

731620Tr ọng số b

332332Chiều dài l

1111101001101000Từ mãa6a5a4a3a2a1Tin



76/311



Cây mã Là cách biểu diễn các từ mã bằng các nút lá của một cây. Mỗi

nút lá biểu diễn cho từ mã trùng vớ i nhãn của con đườ ng đi từnút gốc đến nút lá này.

Mã có cơ số m thì cây mã tươ ng ứng sẽ là cây m phân. Phươ ng pháp cây mã chỉ cho phép biểu diễn những mã prefix,

tức là không có từ mã nào trùng vớ i phần đi đầu của một từ mãkhác.

0

00

0 1

0 1

0 1

1

0 110

010 011 110 111



77/311

Trang 77

Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin


Đồ hình k ết cấu mã Là một dạng đặc biệt của cây mã, trong đó các nút lá trùng vớ i

nút gốc và ngoài ra mỗi cạnh của đồ hình k ết cấu mã đều làcạnh có hướ ng. Vì vậy một từ mã đượ c biểu diễn bằng một chutrình xuất phát từ nút gốc và quay tr ở về lại nút gốc.

Hàm cấu trúc mã Là cách biểu diễn sự phân bố các từ mã theo độ dài của chúng.

Phươ ng pháp này biểu diễn bằng một hàm G(l i) cho biết có baonhiêu từ mã có chiều dài l i.

00

10,1

1

10,1

0



78/311

Trang 78


ộ số p ươ g p p b ểu d ễ ( )

Ví dụ Bộ mã trong các ví dụ trên đượ c biểu diễn bằng hàm cấu trúc

mã sau đây G(l i) = 2, khi l i = 24, khi l i = 3

Điều kiện phân tách mã


79/311

Trang 79


ệ p

Ví dụ Xét bộ mã X 1 = {0, 10, 11} mã hoá cho nguồn A = {a, b, c}.

Giả sử bên phát phát đi bảng tin x = abaac, lúc đó chuỗi từ mãtươ ng ứng đượ c phát đi là y = 0100011. Vấn đề là bên nhận sau khi nhận đượ c chuỗi từ mã y làm sao có

thể nhận biết đượ c bảng tin tươ ng ứng mà bên phát đã phát. Để làm đượ c điều này, bên nhận phải thực hiện một quá trìnhđượ c gọi là tách mã. Chẳng hạn vớ i chuỗi kí hiệu mã nhận đượ c

như trên thì bên nhận chỉ có một khả năng để tách mã hợ p lý là0 | 10 | 0 | 0 | 11 và xác định đượ c bảng tin đã đượ c gở i đi là

abaac.


80/311

Điều kiện phân tách mã (tt)


81/311

Trang 81


ệ p ( )

Xét một bộ mã khác X 3 = {010, 0101, 10100} mã hoá chonguồn A trên. Giả sử bên nhận nhận đượ c chuỗi kí hiệu là01010100101 và thực hiện quá trình tách mã. Ở đây ta thấy chỉcó một cách tách mã duy nhất là 0101 | 010 | 0101 nhưng việctách mã tr ở nên khó khăn hơ n so vớ i bộ mã X 1.

Chẳng hạn lúc chúng ta gặ p chuỗi 010 chúng ta chưa dám chắcđó l à một từ mã vì nó có thể là phần đi đầu của từ mã 0101,điều này phụ thuộc vào kí hiệu đi ngay sau chuỗi 010.

Nếu kí hiệu đi ngay sau là 0 thì chúng ta khẳng định đượ c 010là từ mã và 0 là phần đi đầu của một từ mã khác sau đó. Cònnếu kí hiệu đi ngay sau là 1 thì chúng ta không khẳng địnhđượ c, vì có hai khả năng hoặc 010 là một từ mã và 1 là phàn điđầu của một từ mã khác sau đó, hoặc 0101 là một từ mã.

Điều kiện phân tách mã (tt)


82/311

Trang 82


ệ p ( )

Nguyên nhân của điều này là do trong bộ mã có một từ mã nàylà tiế p đầu ngữ của một từ mã khác.

Và đó cũng chính là nguyên nhân và bản chất của việc một dãykí hiệu có thể tách thành hai dãy từ mã khác nhau.

Thật vậy, nếu không có từ mã nào là tiế p đầu ngữ của từ mãkhác (hay mã là prefix) thì vớ i mỗi dãy từ mã chỉ có duy nhất

một cách tách thành các từ mã thành phần. Vì vậy như sau nàychúng ta sẽ thấy các mã thườ ng đượ c sử dụng là các mã prefix. Dựa vào tính tiế p đầu ngữ trên, để nhận biết một bộ mã (d ĩ

nhiên không phải là mã prefix) có phân tách đượ c hay không

ngườ i ta thườ ng dùng một công cụ đượ c gọi là bảng thử mã.

Bảng thử mã


83/311

Trang 83


Bản chất của bảng thử mã là phân tích những từ mã dài thànhnhững từ mã ngắn đi đầu.

Chẳng hạn từ mã dài u1

có thể đượ c phân tích thànhv11v12...v1k w11 trong đó v11, .., v1k là các từ mã ngắn còn w11 là phần còn lại của u1.

Nếu w11 cũng là một từ mã thì bộ mã này là không phân tách

đượ c vì chuỗi v11v12...v1k w11 có ít nhất hai cách phân tách thànhcác từ mã, đó là u1 và v11, v12, ..., v1k , w11. Còn nếu ngượ c lại w11 không là từ mã thì chúng ta dùng nó để

xét tiế p. Trong lần xét tiế p theo chúng ta xét xem mỗi w11 này

có là tiế p đầu ngữ của các từ mã hay không, nếu đúng vớ i mộttừ mã nào đó, giả sử là u2, thì từ mã này sẽ có dạngw11v21...v2l w22 trong đó v21, ..., v2l là các từ mã ngắn (l có thể bằng 0) còn w22 là tiế p v ĩ ngữ còn lại.

Bảng thử mã (tt)


84/311

Trang 84


Tươ ng tự nếu w22 cũng là một từ mã thì bộ mã là không phântách đượ c vì chuỗi v11v12...v1k w11v21...v2l w22 có ít nhất hai cách phân tách thành các từ mã, đó là v11v12...v1k w11 | v21 | ... | v2l |w22, và v11 | v12 | ... | v1k | w11v21...v2l w22.

Nếu ngượ c lại w22 không là từ mã thì chúng ta dùng nó để xéttiế p theo khuôn mẫu tươ ng tự như trên. Vì vậy chúng ta k ếtluận r ằng

Nếu trong một lần phân tích nào đó, có một từ mã dài, chẳnghạn u, đượ c phân tích thành dãy wiiv(i+1)1...v(i+1)n trong đó wii làtiế p v ĩ ngữ của một từ mã nào đó trong lần phân tích ngay tr ướ cđó, còn v

(i+1)1

, ..., v(i+1)n

là các từ mã ngắn thì bộ mã là không phân tách đượ c.



85/311

Trang 85


Thật vậy, lúc đó sẽ tồn tại một dãy kí hiệu sauv11v12...v1k w11v21...v2l w22 . . .w(i –1)(i –1)vi1...vimwiiv(i+1)1...v(i+1)n

cái mà có thể phân tách thành hai dãy từ mã khác nhau. Cách 1 là

v11 | v12 | ... | v1k | w11v21...v2l w22 | . . . | w(i –1)(i –1)vi1...vimwii | v(i+1)1 |... | v(i+1)n

Cách 2 làv11v12...v1k w11 | v21 | ... | v2l | w22 ...w(i –1)(i –1) | vi1 | . . . | vim |wiiv(i+1)1...v(i+1)n

Cách xây dự ng bảng thử mã


86/311

Trang 86


(1) Đem các từ mã xế p thành một cột, theo thứ tự chiều dài của từmã từ nhỏ đến lớ n, đánh dấu là cột 1.

(2) Trong cột này, đối chiếu các từ mã ngắn vớ i các từ mã dàihơ n, nếu từ mã ngắn là tiế p đầu ngữ của từ mã dài thì ghi tiế pv ĩ ngữ vào cột tiế p theo và đánh dấu là cột 2.

(3) Tiế p tục, đối chiếu các chuỗi trong cột 1 và cột 2 vớ i nhau,

nếu có chuỗi nào trong cột này là tiế p đầu ngữ của chuỗi trongcột kia thì tiế p v ĩ ngữ sẽ đượ c ghi vào cột tiế p theo là cột 3.(4) Tiế p tục theo khuôn mẫu này nếu đang xét cột thứ j thì đối

chiếu các chuỗi trong cột này vớ i cột 1. Nếu có chuỗi nào

trong cột này là tiế p đầu ngữ của chuỗi trong cột kia thì tiế p v ĩ ngữ sẽ đượ c ghi vào cột j + 1. Thực hiện cho đến khi khôngthể điền thêm đượ c nữa hoặc cột mớ i thêm vào trùng vớ i mộtcột tr ướ c đó hoặc có một chuỗi trong cột mớ i trùng vớ i một từmã.



87/311

Trang 87


Ví dụ Lậ p bảng thử mã cho bộ mã như đã nói ở trên A = {00, 01, 011,

1100, 00010}

00010

1100

01101

00

54321

010

1

0

100

0

111

0010 0010

0

111

10000

10

Mã là không phân tách đượ ctrên chuỗi 000101100 vì có hai

cách phân tách khác nhau

00 | 01 | 011 | 00

00010 | 1100



88/311

Trang 88


Điều kiện cần và đủ để một bộ mã phân tách đượ c là không có phần tử nào trong các cột từ j ≥ 2 trùng vớ i một phần tử trongcột 1.

Độ chậm giải mã Độ chậm giải mã, thườ ng kí hiệu là T ch, là số kí hiệu cần phải

nhận đượ c đủ để có thể phân tách (nhận dạng) đượ c từ mã.

Trong tr ườ ng hợ p không có chuỗi nào trong các cột j ≥ 2 trùngvớ i từ mã nhưng có hai cột k , l nào đó (k ≠ l , k , l ≥ 2 ) trùngnhau thì mã là phân tách đượ c nhưng có độ chậm giải mã vôhạn.



89/311

Trang 89


Xét bộ mã {01, 10, 011, 100} có bảng thử mã như sau:

Bảng thử mã này có các cột 3 và 4 trùng nhau về các chuỗi nên bộ mã có độ chậm giải mã trong tr ườ ng hợ p xấu nhất là vô hạn.

Chẳng hạn vớ i chuỗi có dạng sau đây thì trong quá trình nhậnchưa hết chuỗi chúng ta không thể thực hiện đượ c việc tách mã:0110101010...

0011100

01011

110001010101

4321

Bài tập


90/311

Trang 90


Hãy lậ p bảng thử mã cho những bộ mã sau. Cho biết mã có phân tách đượ c không, nếu đượ c thì độ chậm giải mã (trongtr ườ ng hợ p xấu nhất) là bao nhiêu.

X1 = {00, 01, 100, 1010, 1011}

X2 = {00, 01, 101, 1010}

X3

= {00, 01, 110, 111, 1100}

X4 = {00, 01, 110, 111, 1110}

X5 = {00, 01, 110, 111, 0111}

X6 = {00, 01, 110, 111, 1011, 1101}

Bất đẳng thứ c Kraft


91/311

Trang 91


Định lý 6.1 Cho l 1, l 2, ..., l K là các chiều dài của một bộ mã prefix có bảng

kí hiệu mã kích thướ c m (tức gồm m kí hiệu mã). Thì

Ngượ c lại, nếu các số nguyên l 1, l 2, ..., l K thoã bất đẳng thứctrên thì tồn tại một bộ mã prefix vớ i các từ mã có chiều dài là l 1,l 2, ..., l K .

Chứng minhChiều thuận

Gọi T là cây mã tươ ng ứng vớ i bộ mã trên

11

≤

=

K

i

il m

Bất đẳng thứ c Kraft


92/311

Trang 92


Nút lá ở mức l i sẽ đượ c gán tr ọng số là m-li. Tr ọng số của mỗi nút cha đượ c tính bằng tổng tr ọng số của các

nút con. Vớ i cách gán này, chúng ta suy ra tr ọng số của nút cha ở mức h

là ≤ m-h. Điều này đúng là vì mỗi nút cha mức h có tối đa m nút con mức

h + 1.

Mức 0 Gốc

Mức 1

Mức 2Mức 3m-3 m-3 m-3 m-3 m-3

m-2m-2m-2m-2m-2m-2

Bất đẳng thứ c Kraft (tt)


93/311

Trang 93


Từ đây suy ra, tr ọng số của nút gốc là ≤ 1. Mà tr ọng số của nút gốc chính là tổng tr ọng số của các nút lá.

Vậy suy ra điều cần chứng minh.Chiều đảo

Chúng ta chứng minh bằng cách xây dựng một cây mã cho nó.

Điều này là thực hiện đượ c theo như chứng minh của chiềuthuận.

Ví dụ

Tìm bộ mã prefix cho các bộ mã nhị phân có các chiều dài từ mã tươ ng ứng như sau.

{2, 2, 3, 4, 4}, {2, 2, 3, 3, 3, 4, 4}, {2, 2, 3, 4, 4, 4, 5, 5}

Định lý


94/311

Trang 94


Định lý 6.2 Một mã phân tách đượ c thì có các chiều dài từ mã thoã mãn bất

đẳng thức Kraft.

Chứng minh Gọi l 1 ≤ l 2 ≤ ... ≤ l K là các chiều dài từ mã vớ i cơ số là m. Vớ i số nguyên N bất k ỳ ta có thể viết

11

≤

=

K

i

il m

( )∑∑∑ =++−

==

− =⎟ ⎠ ⎞⎜

⎝ ⎛

K

i

l l

K

i

N K

i

l

N

N iii mm111

1

1

LL

Định lý 6.2 (tt)


95/311

Trang 95


Chú ý là chiều dài của một dãy N từ mã và có thểnhận giá tr ị bất k ỳ giữa Nl 1 và Nl K . Gọi A j là số dãy N từ mã màcó tổng chiều dài là j. Thì

Vì bộ mã là phân tách đượ c, nên các dãy N từ mã mà có tổngchiều dài là j phải khác nhau.

Số các dãy có chiều dài j tối đa là m j. Vì vậy A j ≤ m j và

N ii l l ++ L

1

∑∑=

−

=

− =⎟ ⎠

⎞⎜⎝

⎛ K i

Nl

Nl j

j

j

N K

i

l m Am

11

( ) 111 1

+−=≤⎟ ⎠ ⎞⎜

⎝ ⎛ ∑∑

=

−

=

−l l N mmm K

Nl

Nl j

j N K

i

l K

ji

Chứ ng minh định lý (tt)


96/311

Trang 96


Nếu

Thì vớ i N đủ lớ n sẽ lớ n hơ n

Vì vậy chúng ta có đượ c điều cần chứng minh.

K ết hợ p hai định lý trên chúng ta rút ra một nhận xét sau. Nếu một mã phân tách đượ c thì tồn tại một bộ mã tươ ng đươ ng

về chiều dài các từ mã mà có tính prefix.

N K

i

l im ⎟ ⎠

⎞⎜⎝

⎛ ∑=

−

1

( ) 11 +− l l N K

11

>∑=

− K

i

l im

11

≤∑=

− K

i

l im


97/311

Các định lý về giớ i hạn trên và dướ i củachiều dài trung bình


98/311

Trang 98


Định lý 7.1 Cho nguồn tin X = {a1, ..., a K } vớ i các xác suất tươ ng ứng p1,

..., p K . Một bộ mã phân tách đượ c bất k ỳ cho nguồn này vớ i cơ số mã m, chiều dài trung bình từ mã sẽ thõa (trong đó H (X) làentropy của nguồn vớ i cơ số của logarit là m).

Chứng minh

( )m

H

l log

X

≥

∑∑∑=

−

==

=−−=− K

i i

l

i

K

i

ii

K

i

ii p

m pml p p pml X H

i

111

lnlnlnln)(

0111111

=−≤−⎟ ⎠

⎞⎜⎝

⎛ =⎟⎟

⎠

⎞⎜⎜⎝

⎛ −≤ ∑∑

=

−

=

− K

i

l K

i i

l

ii

i

m p

m p

Các định lý về giớ i hạn trên và dướ i củachiều dài trung bình (tt)

−l m i


99/311

Trang 99


Chú ý dấu “=” xảy ra khi và chỉ khi , tức là

Định lý 7.2 Cho nguồn tin X = {a1, ..., a K } vớ i các xác suất tươ ng ứng p1,

..., p K , có thể xây dựng một mã prefix vớ i cơ số m sao cho

Chứng minh Chọn chiều dài l i của từ mã cho tin ai theo qui tắc

Chúng ta có

( )1

log

X+<

m

H l

1=i p

m iil

i m p −=

⎡ ⎤i pmil log−=

111

=≤⇒ ∑∑==

− K

i

i

K

i

l pm i

⎡ ⎤ i

l p

mi

p

mi pml l iii

≤⇒−≥⇒−= −

loglog

Chứ ng minh định lý (tt)


100/311

Trang 100


Vì các chiều dài đượ c chọn này thoã bất đẳng thức Kraft nêntồn tại một mã prefix tươ ng ứng có các chiều dài này.

Tiế p tục chúng ta có

Điều này hoàn tất chứng minh của chúng ta.

⎡ ⎤ 1loglog +−


101/311

Trang 101


Có thể mã hoá một nguồn mà có chiều dài trung bình tiế p cậnđến

vớ i sai số nhỏ tuỳ ý. Chúng ta thực hiện điều này bằng cách mã hoá các dãy N tin

của nguồn X = {a1, ..., a K } theo Định lý 7.2.

Lúc này chúng ta có nguồn mớ i vớ i kích thướ c là K N , mỗi phần

tử là một dãy của N tin đượ c lấy độc lậ p từ nguồn X. Entropy của nguồn mớ i này là NH ( X ) và chiều dài trung bình

các từ mã của nó theo định ngh ĩ a sẽ là N lần chiều dài trung

bình các từ mã của nguồn ban đầu, . Áp dụng Định lý 7.1 và Định lý 7.2 đối vớ i nguồn mớ i chúng ta

có

( )m

H

log

X

l

Hệ quả (tt)

Á ố ồ


102/311

Trang 102


Áp dụng Định lý 7.1 và Định lý 7.2 đối vớ i nguồn mớ i ta có

Vì N có thể lớ n tuỳ ý, nên tiế p cận đến H ( X ) / log m vớ i tốcđộ tươ ng đươ ng vớ i 1/ N tiến đến 0 khi N tiến ra vô cùng.

Để đánh giá một phươ ng pháp mã hoá nào đó l à tốt hay khôngngườ i ta đưa ra khái niệm hiệu suất lậ p mã.

Hiệu suất lậ p mã Hiệu suất lậ p mã h đượ c định ngh ĩ a bằng tỉ số của entropy của

nguồn vớ i chiều dài trung bình của bộ mã đượ c lậ p

( ) ( )1

log

X

log

X+


103/311

Trang 103


Là phép mã hóa mà k ết quả là một bộ mã có chiều dài trung bình là nhỏ nhất trong tất cả các phép mã hóa có thể có chonguồn.

Bộ mã của phép mã hóa tối ưu cho nguồn đượ c gọi là bộ mã tốiưu.

Ba phép mã hóa: Shannon, Fano, Huffman.

Trong mỗi phép mã hóa chúng ta sẽ mã hóa vớ i cơ số mã m = 2 tr ướ c (mã hóa nhị phân), sau đó sẽ mở r ộng cho tr ườ ng hợ p m> 2.

Phươ ng pháp mã hoá Shannon

ắ ế ấ ầ ấ ổ


104/311

Trang 104


B1. Sắ p xế p các xác suất theo thứ tự giảm dần. Không mất tổngquát giả sử p1 ≥ ... ≥ p K .

B2. Định ngh ĩ a q1 = 0, qi = , ∀ i = 1, 2, ..., K .

B3. Đổi qi

sang cơ số 2, (biểu diễn qi

trong cơ số 2) sẽ đượ c mộtchuỗi nhị phân

B4. Từ mã đượ c gán cho ai là l i kí hiệu lấy từ vị trí sau dấu phẩy

của chuỗi nhị phân tươ ng ứng vớ i qi, trong đó l i =

∑−=

1

1

i

j

j p

⎥

⎤

⎢

⎡

i p2log

Ví dụ

Hã ã h á ồ S { } ới á á ấ


105/311

Trang 105


Hãy mã hoá nguồn S = {a1, a2, a3, a4, a5, a6} vớ i các xác suấtlần lượ t là 0,3; 0,25; 0,2; 0,12; 0,08; 0,05.

H = 2.36, = 2,75, h = 2,36/2,75 = 85,82%

∑−

==

1

1

i

j

ji qq ⎡ ⎤ii pl 2log−=

1111050,111100...0,950,05a6

110140,11011...0,870,08a5

110040,11000...0,750,12a4

10030,10001...0,550,2a3

0120,01001...0,30,25a2

0020,0000,3a1

Từ mãwiBiểu diễnnhị phânXác suất piTinai

l

Nhận xét - Bài tập

Ph há Sh h kết ả là ột ã fi


106/311

Trang 106


Phươ ng pháp Shannon cho k ết quả là một mã prefix. Phươ ng pháp Shannon có thể mở r ộng cho tr ườ ng hợ p m > 2

Bài tậ p Hãy mã hoá các nguồn sau bằng phươ ng pháp Shannon. Tính

entropy của nguồn, chiều dài trung bình và hiệu suất của phépmã hóa.

S 1 = {a1, a2, a3, a4, a5, a6} vớ i các xác suất lần lượ t là 0,25;0,21; 0,19; 0,16; 0,14; 0,05. S 2 = {a1, a2, a3, a4, a5, a6 , a7, a8} vớ i các xác suất lần lượ t là

0,21; 0,18; 0,15; 0,14; 0,12; 0,01; 0,06 ; 0,04. S 3 = {a1, a2, a3, a4, a5, a6 , a7, a8 , a9} vớ i các xác suất lần lượ t

là 0,25; 0,19; 0,15; 0,11; 0,09; 0,07; 0,06; 0,04; 0,04.


107/311


108/311

Chú ý

Chú ý trong nhiều trường hợp có nhiều hơn một cách chia


109/311

Trang 109


Chú ý, trong nhiều tr ườ ng hợ p có nhiều hơ n một cách chiathành các nhóm có tổng xác suất gần bằng nhau, ứng vớ i mỗicách chia có thể sẽ cho ra các bộ mã có chiều dài trung bìnhkhác nhau.

Ví dụ Hãy mã hoá nguồn S = {a1, a2, a3, a4, a5, a6, a7, a8} vớ i các xác

suất lần lượ t là 0,23; 0,2; 0,14; 0,12; 0,1; 0,09; 0,06; 0,06.

Ví dụ

4321 4321


110/311

Trang 110


= 2,88, = 2,891l

wi4321 piai

111111110,06a8

111001110,06a7

110110110,09a6110000110,1a5

1011010,12a4

1000010,14a301100,2a2

00000,23a1

wi4321 piai

111111110,06a8

111001110,06a7

1100110,09a61011010,1a5

1000010,12a4

0111100,14a30100100,2a2

00000,23a1

2l


111/311

Phươ ng pháp mã hoá tối ư u Huffman

Trước hết xét cơ số mã m = 2 Trường hợp m > 2 chún

Documents

LTTT Slide v1