Upload
tuanf4
View
237
Download
6
Embed Size (px)
DESCRIPTION
OpenCV
Citation preview
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẶNG THỊ THU HOA
THEO VẾT ĐỐI TƯỢNG SỬ DỤNG MIXTURE OF
GAUSSIAN MODEL VÀ PARTICLE FILTER
(Object tracking based on Mixture of Gaussian Model and
Particle Filter)
ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH – 2013
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẶNG THỊ THU HOA
THEO VẾT ĐỐI TƯỢNG SỬ DỤNG MIXTURE OF
GAUSSIAN MODEL VÀ PARTICLE FILTER
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ CHUYÊN NGÀNH: 60.48.01
ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ
HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN THANH BÌNH
TP. HỒ CHÍ MINH - 2013
Đề cương luận văn thạc sĩ
1
MỤC LỤC
MỞ ĐẦU................................................................................................................... 2
Động lực nghiên cứu, các thách thức .................................................................. 2
Bố cục của đề tài ................................................................................................ 3
NỘI DUNG ............................................................................................................... 4
CHƯƠNG 1- GIỚI THIỆU...................................................................................... 4
1.1 Giới thiệu đề tài.......................................................................................... 4
1.2 Nội dung đề tài........................................................................................... 5
Phát biểu bài toán ....................................................................................... 5
Giới hạn đề tài............................................................................................ 5
1.3 Mục tiêu đề tài............................................................................................ 5
1.4 Phương pháp nghiên cứu ............................................................................ 6
CHƯƠNG 2 – CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ................................ 7
2.1 Giới thiệu về các giải thuật ......................................................................... 7
2.2 Các công trình nghiên cứu liên quan........................................................... 9
CHƯƠNG 3 - BÀI TOÁN THEO VẾT ĐỐI TƯỢNG VÀ HƯỚNG TIẾP CẬN 11
3.1 Quá trình phát hiện và theo vết đối tượng ................................................. 11
3.1.1 Phát hiện đối tượng chuyển động (Moving object detection) ............ 12
3.1.2 Mô hình đối tượng (Object Modeling).............................................. 13
3.2 Giải thuật đề xuất ..................................................................................... 17
3.2.1 Object Extraction from background.................................................. 17
3.2.2 Object Tracking................................................................................ 19
CHƯƠNG 4- KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC................................................. 23
4.1 Kết quả dự kiến ........................................................................................ 23
4.2 Phương pháp đánh giá kết quả .................................................................. 23
4.3 Những đóng góp của nghiên cứu .............................................................. 23
DỰ KIẾN KẾ HOẠCH THỰC HIỆN................................................................... 24
TÀI LIỆU THAM KHẢO
Đề cương luận văn thạc sĩ
2
MỞ ĐẦU
Động lực nghiên cứu, các thách thức
Theo vết đối tượng (Object Tracking) là bài toán thuộc lĩnh vực thị giác máy
tính. Trong mười năm trở lại đây, cùng với tốc độ phát triển của khoa học kỹ thuật,
con người càng có nhu cầu sử dụng các hệ thống thông minh với mức độ tự động
hóa ngày càng cao. Một số ứng dụng của lĩnh vực thị giác máy tính bao gồm hệ
thống: kiểm soát quy trình (trong lĩnh vực robot), điều hướng (trong giao thông và
robot), phát hiện sự kiện (an ninh và giám sát), mô hình hóa đối tượng (phân tích
ảnh y khoa), giám sát tự động (trong các ứng dụng sản xuất).
Trong lĩnh vực an ninh-giám sát (security and surveillance), thị giác máy tính
được ứng dụng rất nhiều. Hệ thống giám sát (Surveillance system) bao gồm ba quy
trình : Xác định đối tượng (Object extraction), theo vết đối tượng (Object tracking)
và nhận dạng hành vi (Action recognition). Từ đó lưu trữ thông tin thu thập được
vào cơ sở dữ liệu hoặc phát hiện bất thường để đưa ra cảnh báo kịp thời.
Sơ đồ quy trình của hệ thống giám sát
Theo vết đối tượng trong video có thể định nghĩa là bài toán xác định vị trí của
đối tượng theo thời gian khi đối tượng chuyển động. Tùy vào từng ứng dụng cụ thể
mà bộ theo vết đối tượng (Tracker) cung cấp các thông tin khác nhau về đối tượng
như hình dáng, diện tích, tọa độ trung tâm, hướng chuyển động, … để từ đó có thể
đưa ra dự báo về vị trí di chuyển tiếp theo của đối tượng hoặc nhận dạng hành vi để
đưa ra cảnh báo cho những hành động bất thường.
Thu thập hình ảnh
Phát hiện đối tượng
Theo vết đối tượng
Nhận dạng hành vi
Lưu trữthông tin
Cảnh báo
Đề cương luận văn thạc sĩ
3
Bài toán theo vết đối tượng là bài toán phức tạp vì trong video quan sát có thể
xuất hiện các vấn đề:
- Nhiễu do độ phân giải của camera thấp, do điều kiện khách quan (thời tiết,
kỹ thuật ghi hình, ánh sáng)
- Đối tượng có chuyển động phức tạp, tốc độ nhanh.
- Đối tượng có kích thước thay đổi, bị che khuất bởi đối tượng khác
- Sự thay đổi của độ chiếu sáng, góc chiếu sáng
- Đối tượng có màu sắc giống với cảnh nền.
- Đối tượng di chuyển khỏi vùng quan sát và xuất hiện trở lại
Ngoài ra, yêu cầu theo vết đơn đối tượng hoặc đa đối tượng, hình ảnh thu thập từ
một hoặc nhiều camera, yêu cầu xử lý thời gian thực cũng là những thách thức lớn
trong bài toán theo vết đối tượng.
Vì vậy, theo vết đối tượng là lĩnh vực vẫn được các nhà khoa học quan tâm nghiên
cứu.
Bố cục của đề tài
Luận văn chia thành 4 chương:
- Chương 1: Giới thiệu về đề tài và nội dung sẽ nghiên cứu.
- Chương 2: Tổng quan các giải thuật đã được đề xuất, các công trình nghiên
cứu liên quan đến đề tài.
- Chương 3: Trình bày các hướng tiếp cận để phân tách và giải quyết bài toán
theo vết đối tượng. Các giải thuật đề xuất cũng sẽ được trình bày trong
chương này.
- Chương 4: Sẽ dự kiến kết quả đạt được, đánh giá kết quả và qua đó nêu lên
những đóng góp của đề tài nghiên cứu.
Đề cương luận văn thạc sĩ
4
NỘI DUNG
CHƯƠNG 1- GIỚI THIỆU
Chương một sẽ giới thiệu về vấn đề, mục tiêu và nội dung nghiên cứu của đề
tài, giới hạn của đề tài và phương pháp nghiên cứu.
1.1 Giới thiệu đề tài
Hiểu một cách đơn giản, theo vết đối tượng là bài toán xác định tọa độ của đối
tượng tại mỗi khung hình (frame) trong đoạn video quan sát khi đối tượng chuyển
động.
Một vài ứng dụng quan trọng của bài toán theo vết đối tượng như:
- Giám sát tự động (Automated video surveillance): trong những ứng dụng
này hệ thống thị giác máy tính được thiết kế để kiểm soát (monitor) những
chuyển động trong một vùng (area), xác định đối tượng chuyển động và cảnh
báo khi thấy bất kỳ tình huống khả nghi nào. Đòi hỏi hệ thống phải đủ mạnh
để phân biệt được các thực thể tự nhiên và con người.
- Robot vision: với robot tự động, hệ thống điều hướng (navigation) cần phải
nhận biết được chướng ngại vật (obstacle) trên đường đi. Và nếu đó là những
đối tượng di chuyển, robot cần kích hoạt hệ thống theo vết thời gian thực để
tránh va chạm.
- Điều phối giao thông (traffic monitoring): Trên các đại lộ hoặc các trục
đường chính, giao thông được giám sát liên tục qua camera. Bất kỳ phương
tiện nào vi phạm luật giao thông hoặc liên quan đến những hành vi phạm
pháp khác đều dễ dàng được phát hiện nếu hệ thống giám sát có tích hợp tính
năng theo vết đối tượng.
- Animation: giải thuật theo vết có thể sử dụng để mở rộng kỹ thuật làm phim
hoạt hình
- Ngoài ra còn những ứng dụng trong motion-based recognition, video
indexing, human-computer interaction
Khi xem xét bài toán theo vết đối tượng cần quan tâm đến cách biểu diễn đối tượng
(object representation), lựa chọn đặc trưng phù hợp (feature selecton), mô hình hóa
đối tượng và chuyển động của đối tượng dựa trên các đặc trưng. Có nhiều phương
Đề cương luận văn thạc sĩ
pháp được đề xuất để giải quyết bài toán theo vết đối tượng. Tùy vào môi trường
quan sát, ngữ cảnh, mục tiêu quan sát mà lựa chọn các giải thuật khác nhau.
1.2 Nội dung đề tài
Vấn đề đặt ra là làm sao từ một đoạn video quan sát, ta xác định được đâu là
đối tượng đang chuyển động, theo dõi sự di chuyển của đối tượng và xây dựng quỹ
đạo chuyển động của đối tượng.
Phát biểu bài toán
Cho trước tập dữ liệu là đoạn video chứa đối tượng cần theo vết
Dữ liệu đầu vào (input): đoạn video chứa đối tượng đang chuyển động.
Dữ liệu đầu ra (output): sơ đồ quỹ đạo chuyển động của đối tượng
input output
Giới hạn đề tài
Như đã phân tích trong phần mở đầu, có nhiều thách thức trong bài toán theo
vết đối tượng khiến cho bài toán trở nên rất phức tạp. Vì vậy, mỗi giải thuật đề xuất
đều kèm theo những giả thiết quy định những điều kiện ràng buộc nhất định. Trong
nghiên cứu này luận văn chỉ xác định đối tượng là con người, dữ liệu từ một
camera, và quan sát được thực hiện trong điều kiện ánh sáng tốt.
1.3 Mục tiêu đề tài
Mục tiêu nghiên cứu là tìm hiểu các kiến thức có liên quan đến hệ thống
giám sát, tìm hiểu về các giải thuật để theo vết đối tượng, xây dựng được một giải
thuật hiệu quả. Cụ thể, phát hiện được đối tượng chuyển động, phân tách đối tượng
khỏi cảnh nền và đối tượng khác, xác định tọa độ của đối tượng trong mỗi khung
hình, liên kết các tọa độ để có được quỹ đạo chuyển động của đối tượng.
Giải thuật theo
vết đối tượng
Đề cương luận văn thạc sĩ
6
1.4 Phương pháp nghiên cứu
Luận văn sẽ đi từ việc tham khảo các công trình nghiên cứu trước đây liên
quan đến bài toán theo vết đối tượng
- Xem xét các giải thuật tác giả đã sử dụng
- Phân tách các giải thuật theo từng giai đoạn
- Tổng hợp và phân loại thuật toán dựa trên cách lựa chọn đặc trưng và biểu
diễn đối tượng
- Đánh giá ưu điểm của từng thuật toán cũng như những hạn chế còn tồn tại
Từ đó lựa chọn thuật toán hiệu quả nhất tại mỗi giai đoạn, kết hợp các thuật toán để
xây dựng nên một giải thuật giải quyết bài toán theo vết đối tượng trong những điều
kiện ràng buộc đã nêu trên.
Hiện thực giải thuật bằng công cụ Matlab. So sánh kết quả đạt được với kết quả của
các công trình nghiên cứu trước đó để đánh giá mức độ hiệu quả của giải thuật.
Kết luận chương 1:
Chương 1 đã nêu lên các ứng dụng của hệ thống theo vết đối tượng, trình bày về
nội dung nghiên cứu, mục tiêu và phương pháp nghiên cứu.
Đề cương luận văn thạc sĩ
7
CHƯƠNG 2 – CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Chương hai sẽ tổng hợp một số phương pháp nghiên cứu và trình bày một vài
nghiên cứu liên quan đến đề tài
2.1 Giới thiệu về các giải thuật
Bài toán theo vết đối tượng đặt ra nhiều vấn đề cần xem xét khi tìm kiếm giải
thuật. Như mục tiêu là con người hay phương tiện? Theo vết đơn đối tượng hay đa
đối tượng? Môi trường trong nhà hay ngoài trời? Ứng dụng với mục đích phát hiện
hành vi bất thường hay ứng dụng theo vết trong cảnh quay thi đấu trong thể thao?
Vì ứng dụng rộng rãi của bài toán mà đã có rất nhiều nhà nghiên cứu đề xuất
và phát triển các giải thuật khác nhau.
[1] phân chia các kỹ thuật theo vết đối tượng thành 4 dạng:
- Theo vết dựa trên vùng đối tượng
(Tracking based on a moving object region)
Giải thuật này chủ yếu dựa vào thuộc tính của blob như kích thước, màu sắc, hình
dạng, vận tốc (velocity), trọng tâm (centroid). Ưu điểm của giải thuật là thời gian
tính toán nhanh và hiệu quả với số lượng đối tượng ít. Hạn chế của giải thuật là
không hiệu quả khi đối tượng bị che khuất bởi đối tượng khác trong trường hợp
nhiều đối tượng.
- Theo vết dựa trên đường nét nổi bật của đối tượng
(Tracking based on an active contour of a moving object)
Contour của đối tượng được biểu diễn bởi một snake. Giải thuật chủ yếu dựa trên
boundary của đối tượng. Ưu điểm là có hiệu quả trong trường hợp theo vết người đi
bộ (pedestrian) bằng cách lực chọn đường nét của đầu; có thể cải thiến thời gian
tính toán. Hạn chế là không giải quyết được bài toán đối tượng bị che khuất một
phần (partial occlusion) và nếu đối tượng bị che khuất hoặc hai đối tượng chồng lấp
lên nhau một phần trong quá trình khởi tạo (tức là ở những frame đầu tiên) thì sẽ
gây ra lỗi.
- Theo vết dựa trên mô hình hóa đối tượng
(Tracking based on moving object model)
Mô hình của đối tượng thường được quy về mô hình hình học của đối tượng trong
không gian 3D và giải thuật sẽ định nghĩa tham số để xác định đối tượng. Giải thuật
này giải quyết được bài toán che khuất một phần nhưng lại ảnh hưởng đến thời gian
Đề cương luận văn thạc sĩ
8
xử lý. Ưu điểm của giải thuật là có độ chính xác cao khi số lượng đối tượng không
nhiều.
- Theo vết dựa trên xác định đặc trưng của đối tượng
(Tracking based on selected features of moving object)
Lựa chọn những đặc trưng tiêu biểu của đối tượng và xem xét các đặc trưng đó qua
các frame liên tiếp để xác định đối tượng di chuyển và theo vết. Khi đối tượng bị
che khuất, một hoặc hai đặc trưng không thể sử dụng, vẫn có thể dựa vào một trong
những đặc trưng còn lại. Tuy nhiên, lại nảy sinh bài toán gom cụm đặc trưng
(feature clustering), làm sao xác định được những đặc trưng nào là thuộc cùng một
đối tượng trong suốt quá trình theo vết (trường hợp theo vết nhiều đối tượng).
Trong [2] theo vết đối tượng được phân loại thành ba phương pháp:
- Theo vết dựa trên điểm (Point tracking)
Đối tượng được biểu diễn bằng tập các điểm và các điểm này được liên kết dựa trên
các ràng buộc về chuyển động, vị trí của đối tượng. Hạn chế của phương pháp là
cần có một cơ chế bên ngoài để phát hiện đối tượng trong mỗi frame.
Giải thuật tiêu biểu là Kalman Filter, Particle Filter, Multi Hypothesis Tracking [3]
- Theo vết dựa trên nhân (Kernel tracking)
Mô hình của đối tượng có thể được biểu diễn dưới dạng mẫu (template), hoặc mô
hình mật độ (density based model) ví dụ như histogram. Theo vết được thực hiện
bằng cách tính toán chuyển động của đối tượng qua các frame liên tiếp.
Giải thuật tiêu biểu là Mean-shift, Simple Template Matching, Support Vector
Machine (SVM) [3]
- Theo vết dựa trên hình chiếu (Silhouette tracking)
Sau khi ước lượng vùng đối tượng (Object region) trong mỗi frame, đối tượng được
theo vết bằng cách sử dụng thông tin mã hóa trong vùng đối tượng. Các thông tin
này có thể dưới hình thức là mô hình về hình dạng hoặc mật độ của đối tượng. Khi
có mô hình đối tượng, theo vết được thực hiện bằng phương pháp so khớp hình
dạng (shape matching) hoặc mở rộng đường viền (contour evolutions)
Tiêu biểu là Contour Tracking, Shape Matching. [3]
Đề cương luận văn thạc sĩ
9
Hình 2.1 Các giải thuật theo vết đối tượng [2,3]
2.2 Các công trình nghiên cứu liên quan
Object Classification and Tracking in Video Surveillance [1]
Qi Zang and Reinhard Klette
Hệ thống theo vết đối tượng được xây dựng cho ứng dụng trong giám sát giao
thông (traffic surveillance)
Ở giai đoạn đầu, sử dụng giải thuật trừ nền để phân tách đối tượng, Mỗi điểm
ảnh nền (background pixel) sẽ được mô hình hóa bằng phân phối mixture of
Gaussian. Giai đoạn hai, gán nhãn cho từng vùng đối tượng (object region) và xác
định các đặc trưng: bouding rectangle (hình chữ nhật nhỏ nhất chứa đối tượng),
color (không gian màu RGB), center (trọng tâm của hình chữ nhật), velocity (số
pixel di chuyển/giây theo cả 2 hướng dọc ngang). Sử dụng SUSAN (bộ phát hiện
góc) để xác định góc của phương tiện trong mỗi bounding box. Sử dụng phương
pháp lai (hybrid method) kết hợp Kalman Filter với kỹ thuật so khớp (matching) để
theo vết đối tượng.
Ưu điểm của giải thuật là giảm được thời gian tính toán khi sử dụng bộ phát
hiện góc trong vùng bounding rectangle. Và sử dụng tỉ số cao/rộng trong thông tin
góc để phân lớp đối tượng là người đi bộ hay phương tiện, nhưng chỉ có hiệu quả
nếu các vùng đối tượng là tách biệt.
Object Tracking
PointTracking
KernelTracking
SilhouetteTracking
Kalman FilterParticle FilterMulti Hypothesis Tracking
Mean-shiftSimple Template MatchingSupport Vector Machine
Contour TrackingShape Matching
Đề cương luận văn thạc sĩ
10
Adaptive mean–shift for automated multi object tracking [4]
C. Beyan A. Temizel
Đưa ra bộ theo vết đa đối tượng hoàn toàn tự động dựa trên giải thuật mean-
shift. Sử dụng Gaussian để loại nhiễu, bóng và rút trích foreground. Đồng thời
Gaussian để xác định bouding box, dùng như một mặt nạ nhân (kernel mask) để
giảm vùng tìm kiếm và dự báo vị trí mới của đối tượng.
Ưu điểm là phát hiện được khi đối tượng vào hoặc ra khỏi vùng quan sát. Cập
nhật bộ theo vết với thông tin foreground để cải tiến mean-shift, làm cho giải thuật
có hiệu quả cả trong trường hợp đối tượng thay đổi về hình dáng, kích thước. Tuy
nhiên, chỉ áp dụng với trường hợp camera tĩnh (static camera)
Object tracking in an outdoor environment using fusion of features and
camera [5]
Quming Zhou, J.K. Aggarwal
Bài báo đưa ra một hệ thống theo vết và phân lớp đối tượng chuyển động sử
dụng một hoặc nhiều camera trong môi trường ngoài trời (outdoor). Kết hợp các đặc
trưng như vị trí, hình dạng, màu sắc để tăng hiệu quả theo vết đối tượng. Kết hợp
thông tin từ các camera để có được quỹ đạo chuyển động của đối tượng. Đồng thời,
giải quyết bài toán che khuất bằng cách sử dụng bộ lọc Kalman mở rộng (extended
Kalman Filter-EKF). Giải thuật cũng phân lớp đối tượng thành ba nhóm: một người
(single person), nhóm người (people group) và phương tiện (vehicle). Tuy nhiên
EKF không thành công nếu đối tượng bị che khuất ở cả 2 camera.
Kết luận chương 2:
Chương 2 tổng hợp các phương pháp theo vết đối tượng theo một số nghiên cứu
trước đây, nêu những đặc điểm cũng như ưu, nhược điểm của các phương pháp đó;
trình bày tổng quan về một số nghiên cứu liên quan đến theo vết đối tượng.
Đề cương luận văn thạc sĩ
11
input
output
Trajectory
CHƯƠNG 3 - BÀI TOÁN THEO VẾT ĐỐI TƯỢNG VÀ
HƯỚNG TIẾP CẬN
Chương ba trình bày quy trình từng bước để theo vết đối tượng, một số giải
thuật thường được áp dụng. Cuối cùng, nêu mô tả cụ thể về giải thuật đề xuất.
3.1 Quá trình phát hiện và theo vết đối tượng
Từ dữ liệu đầu vào là đoạn video, quá trình theo vết đối tượng bao gồm các
bước:
- Tách frame: Tách đoạn video thành các frame ảnh.
- Trừ nền: Xử lý các frame để xác định cảnh nền (background) và đối tượng.
- Tiền xử lý: Khử bóng, nhiễu và phân tách đối tượng khỏi cảnh nền.
- Phát hiện đối tượng: Nhận dạng đối tượng chuyển động, biểu diễn đối tượng
bằng các đặc trưng.
- Theo vết đối tượng: Xác dịnh vị trí của đối tượng tại từng frame.
Hình 3.1 Sơ đồ quá trình theo vết đối tượng
video
Tách Frame (Image Frame)
Trừ nền (Background Subtraction)
Phát hiện(Object Detection)
Theo vết (Tracking)
Tiền xử lý (Post-Processing)
Đề cương luận văn thạc sĩ
12
3.1.1 Phát hiện đối tượng chuyển động (Moving object detection)
Phát hiện thay đổi (Change Detection) là việc xác định những thay đổi trong
trạng thái của pixel thông qua việc kiểm tra các giá trị đại diện (appearance value)
giữa các tập frame [6]
Một số kỹ thuật để phát hiện thay đổi thường được sử dụng nhất là
- Frame Differencing and Motion History Image
- Background Subtraction
- Motion Segmentation
- Matrix Decomposition
Quá trình phát hiện đối tượng bắt đầu với việc xác định các thành phần trong
frame ảnh. Sau đó, phân tách đối tượng khỏi cảnh nền. Có thể thực hiện bằng cách
sử dụng thông tin từ một frame nhưng để tăng tính chính xác thường sử dụng thông
tin từ chuỗi frame.
Quá trình gồm các bước như sau:
Khởi tạo nền (Background initialization)
Đầu tiên, khởi tạo background. Đây là bước thiết lập các giá trị để xác định
background hay còn gọi là background learning [7]. Sau khi hệ thống đã “học” giá
trị khởi tạo của background, thực hiện mô hình background (sử dụng các giải thuật
như mean filter và median filter [8]).
Trừ nền (Background Subtraction)
Hay còn gọi là bước phát hiện foreground (foreground detection). Đây là bước
tách foreground với background. Sử dụng background model và current image để
xác định foreground và xây dựng foreground pixel map [9].
Gọi là giá trị pixel của current frame và là giá trị pixel của
background. là ngưỡng để quyết định pixel đó có thuộc đối tượng hay không [8]
- Nếu pixel được định nghĩa là foreground object
- Nếu , ,t tX x y B x y T pixel được xác định là background. Cập nhật
1, ,t tX x y B x y tức giá trị pixel của current image tại thời điểm t sẽ
là giá trị pixel của background khi xem xét ở thời điểm t+1
Vì đối tượng di chuyển làm cho khung cảnh nền sẽ có sự thay đổi, vì vậy ta cần liên
tục cập nhật background model để cho việc xác định foreground chính xác hơn.
,tX x y ,tB x y
T , ,t tX x y B x y T
Đề cương luận văn thạc sĩ
13
Tiền xử lý (Post processing)
Do những ảnh hưởng của môi trường nên foreground pixel map có thể chứa
nhiễu. Mục tiêu của bước này là loại bỏ các foreground pixel mà không tương ứng
với foreground region thực tế, và để loại bỏ nhiễu xung quanh và bên trong object
region, làm nổi bật object region.
Việc khử nhiễu cho foreground pixel map có thể thực hiện bằng bộ lọc thông
thấp (low pass filter) và morphological operations. Bộ lọc thông thấp được sử dụng
để làm mờ (blurring) và giảm nhiễu (noise reduction) như loại bỏ các chi tiết nhỏ
hoặc nối các điểm đứt đoạn [9]. Trong khi Morphological lại có thể biểu diễn và mô
tả các object region bằng phương pháp boundary hoặc skeleton bằng cách sử dụng
các bộ lọc hình thái như erosion (làm mõng) và dilation (cắt tỉa)
Phát hiện đối tượng (Object Detection)
Tới bước này, foreground map là môt ảnh nhị phân. Quét qua ảnh nhị phân để
xác định một nonzero pixel bất kỳ, tìm các nonzero pixel khác liên kết với nó (tức
kế cận với nó, thường là 4-adjacency hoặc 8-adjacency [8]), gán nhãn cho các
nonzero pixel vừa tìm được. Quá trình kết thúc khi tất cả các nonzero pixel được
gán nhãn. Gom nhóm các nonzero pixel có cùng nhãn ta sẽ có được các vùng liên
kết (connected region). Trường hợp lý tưởng, các connected region này chính là các
moving object, nhưng cũng có thể là một vùng mà ánh sáng thay đổi hay bóng
(shadow), nên có thể cần thêm bước Region level post-processing [9] để loại bỏ các
vùng có kích thước nhỏ hơn ngưỡng (giá trị ngưỡng được định nghĩa trước)
3.1.2 Mô hình đối tượng (Object Modeling)
Tracking là so khớp (matching) các connected region giữa các frame liên tiếp
nhau sử dụng các đặc trưng của đối tượng như color, velocity, texture, perimeter
[9]. Đối tượng được tracking bằng cách quản lý vector đặc trưng qua các frame.
Rút trích đặc trưng (Feature Extraction)
Lựa chọn các đặc trưng đóng vai trò quan trọng trong bài toán theo vết. Các
đặc trưng được chọn sao cho nó là duy nhất trong không gian đặc trưng để phân biệt
các moving object với nhau. Một số đặc trưng phổ biến dùng trong tracking được
[6] xác định gồm có:
- Màu sắc (color)
- Gradient
Đề cương luận văn thạc sĩ
14
- Luồng chuyển động (Optical Flow)
- Kết cấu (Texture)
- Corner Points
Biễu diễn đối tượng (Object Representation)
Lựa chọn đặc trưng cũng chính là việc xác định cách thức biểu diễn đối tượng.
Các mô hình biểu diễn đối tượng được [6] chia thành:
- Point and region
- Silhouette
- Connected Parts
- Graph and Skeletal
- Spatio Temporal
Hình 3.2: Một số cách biễu diễn đối tượng
Từ trái qua: object region, elliptical, silhouette (contour), part-based, skeletal
[2] nêu thêm một vài phương pháp biểu diễn đối tượng
Hình 3.3: Các cách biễu diễn đối tượng theo [2]
Đề cương luận văn thạc sĩ
15
Từ trái qua: (a) Centroid, (b) multiple points, (c) rectangular patch, (d) elliptical
patch, (e) part-based multiple patches, (f) object skeleton, (g) object contour, (h)
control points on object contour, (i) object silhouette
Mô tả đối tượng (Object Descriptors)
[6] tổng hợp các mô hình mô tả đối tượng bằng các phương pháp như:
- Template
- Histogram, HOG, SIFT
- Region Covariance
- Ensembles and Eigenspaces
- Appearance Models
Hình 3.2: Tổng hợp các các đặc trưng, mô hình biễu diễn và cách mô tả đối tượng
3.1.3 Theo vết đối tượng chuyển động (Moving object tracking)
Một số kỹ thuật tracking phổ biến [6]
- Template Matching
- Density Estimation : Mean –Shift
- Motion Estimation
- Kalman Filtering
- Particle Filtering
- Silhouette Tracking
Có nhiều kỹ thuật tracking khác nhau và mỗi phương pháp sẽ dựa trên những
cơ chế và đặc trưng khác nhau của đối tượng.
Với phương pháp tracking dựa trên điểm như Kalman Filter và Particle Filter,
ta có thể dựa vào hai đặc trưng của đối tượng là Centroid và Bouding box để theo
vết. Sau khi xác định được các connected region, ta tính được bouding box của các
region đó. Centroid của đối tượng chính là center của bouding box. Xác định
centroid của từng đối tượng qua các frame và xây dựng quỹ đạo chuyển động của
object.
Đề cương luận văn thạc sĩ
16
Tracjector
Moving Object Detection
Hình 3.4: Sơ đồ tổng quát các bước của quy trình theo vết đối tượng
video
Image Frames
Removing Shadow & Noise
Object Tracking
Background Model
Background Model Update
Foreground Detection
> threshold
< threshold
Background Subtraction
Object Modeling
Detection
Output
Input
Labeling Connected Component
Region level
Post-Processing
FeatureExtraction
Object Representation
Post-Processing
Đề cương luận văn thạc sĩ
17
3.2 Giải thuật đề xuất
Để phát triển một giải thuật theo vết cần có phương pháp biểu diễn đối tượng
phù hợp, lựa chọn đúng các đặc trưng tiêu biểu và thuật toán theo vết tốt [10].
Cụ thể, luận văn đề xuất quy trình theo vết đối tượng theo các bước sau:
1. Video input sẽ được tách thành các frame (ví dụ 25frames/s [5])
2. Phát hiện đối tượng bằng giải thuật Background Subtraction
3. Lọc nhiễu, bóng bằng low-pass filter và morphological filter
4. Lựa chọn đặc trưng dựa trên Centroid
5. Biểu diễn đối tượng bằng rectangular shape
6. Tracking bằng giải thuật Kalman Filter
3.2.1 Object Extraction from background
Giải thuật áp dụng : Background Subtraction
Trước khi thực hiện tracking, cần phải rút trích được moving object khỏi
background. Giải thuật phân tách đối tượng được sử dụng phổ biến nhất là
Background Subtraction. Có thể thực hiện bằng cách xây dựng một biểu diễn của
cảnh gọi là background model, tính toán độ sai lệnh giữa background model và mỗi
frame. Các pixel có độ sai lệch khác 0 sẽ được liên kết tạo thành các foreground
region hay moving object.
[9] tổng hợp và chia Background Subtraction thành 4 dạng:
- Background subtraction with Alpha
- Statistical Methods
- Temporal differencing
- Eigen background subtraction
Mixture of Gaussian Model là phương pháp phổ biến và là một trong những
phương pháp hiệu quả cho Background Subtration [4].
Mỗi pixel sẽ được mô hình bằng một Mixture of Gaussian với K thành phần theo
công thức sau
Trong đó:
tX là giá trị của pixel tại thời điểm t
là training set tại thời gian t với T là khoảng thời gian , ......,T t t TX X X
t , , ,
1
( ) , ,K
i t t i t i t
i
P X X
Đề cương luận văn thạc sĩ
18
,i t
K là số thành phần (component), thường trong khoảng 3 đến 5 [1]
Trọng số của Gaussian thứ i, là giá trị không âm (non-negative) và có
tổng bằng 1
Giá trị trung bình của Gaussian thứ i ở thời gian t.
,i t Ma trận hiệp phương sai của Gaussian thứ i tai thời gian t,
Với là phương sai cho thành phần Gaussian thứ i
Mỗi giá trị pixel mới tX sẽ được kiển tra với K Gaussian component, nếu tX
khớp (match) với component i thì các tham số của component thứ i sẽ được cập
nhật theo các công thức:
, , 11i t i t tI
2 2, ,
, , 11
Tt i t t i t
i t i tI I
Với , 1 , 1Pr | ,t i t i tI
là hệ số học (learning parameter), xấp xỉ 1/ T
là giá trị trung bình của pixel tại thời điểm t
là pixel tại thời điểm t
Tham số của các component còn lại sẽ không thay đổi, tức
và
Nhưng sẽ được điều chỉnh theo công thức
Nếu tX không khớp với component nào của Gaussian thì component có giá
trị nhỏ nhất trong Gaussian sẽ được thay bằng component có giá trị bằng giá trị
trung bình của nó. Gán component có phương sai nhỏ nhất làm background
Vì moving object có phương sai lớn hơn background pixel nên để biểu diễn
Background ta sắp xếp các Gaussian theo giá trị giảm dần.Khi đó,
background component vẫn ở đầu với phương sai thấp nhất bằng cách áp dụng
ngưỡng T với
Tất cả các pixel tX không khớp với bất kỳ component nào sẽ được ghi nhận là
foreground.
t
tI
,i t , , 11i t i t , , 1t t t t 2 2
, , 1i t i t
, ,/ || ||i t i t
,i t2
, , i t i tI
, i t
, , 11i t i t
,1
,1
argmin
bi t
ib K
i ti
B T
Đề cương luận văn thạc sĩ
19
Khử nhiễu, bóng (removing shadow and noise)
Việc phát hiện sự thay đổi về độ sáng (brightness) và sắc độ (chromaticity)
trong không gian màu HSV thì chính xác hơn trong không gian RGB, đặc biệt là
với cảnh quay ở môi trường bên ngoài, và không gian màu HSV gần với nhận thức
màu sắc (perception of color) của con người nên ta dùng không gian màu HSV cho
việc loại bỏ nhiễu của các pixel.
Vì chỉ cần loại nhiễu trên foreground pixels nên chỉ foreground pixel được
chuyển đổi (convert) thành bộ ba giá trị hue, saturation, intensity (sắc màu, độ bão
hòa, cường độ). Các shadow region có thể được được phát hiện và loại bỏ bằng
cách sau:
Gọi E là biểu diễn của current pixel (nó được ghi nhận là foreground pixel) tại
thời điểm t
B là biểu diễn background pixel tại thời điểm t
Nếu mỗi foreground pixel thỏa mãn công thức
Và thì chúng sẽ được ghi nhận là shadow và loại khỏi
foreground map. Tham số của shadow pixels sẽ không được cập nhật. Kết thúc
bước này ta sẽ có được một foreground pixel map có độ chính xác cao hơn. Tiếp
theo, gán nhãn các pixel kế cận nhau có giá trị non-zero và liên kết các pixel cùng
nhãn để có được các moving object.
3.2.2 Object Tracking
Trước khi thực hiện tracking ta có thể áp dụng morphological filters để giảm
bớt ảnh hưởng của nhiểu.
Với mỗi object region ta xác định các đặc trưng:
- Bouding rectangle : hình chữ nhật nhỏ nhất chứ object region. ghi nhận lại
giá trị tọa độ tại điểm upper-left và lower-right. Từ đó, có thể tính được kích
thước (độ rộng,chiều cao) của bouding box
- Color: giá trị RGB trurng bình của moving object.
- Center: lấy giá trị trọng tâm (giao của 2 đường chéo) của bouding box làm
centroid cho moving object region (tính gần đúng)
- Velocity: số pixel/giây theo cả chiều dọc và ngang.
Moving object được biểu diễn bằng vector đặc trưng gồm 4 thành phần
[bouding box, color, center, velocity]
| | , | |h h h s s sE B T E B T 1 2/v v v vT E B T
Đề cương luận văn thạc sĩ
20
Giải thuật đề xuất để tracking: Particle Filter
Particle Filter là một kỹ thuật suy diễn (inference technique) để ước lượng
trạng thái chuyển động tX từ điểm quan sát 1 : tZ , với X là nhãn nhị phân của đối
tượng [12]. Trạng thái ước lượng đó được kí hiệu là 1 : ttp X Z
Giả sử phát sinh được một tập N mẫu 1
Nn
tn
X
từ phân phối hậu nghiệm (posterior
distribution) 1 : ttp X Z , nghĩa là xác xuất nhận được trạng thái ntX là 1 :
nttp X Z ,
thì mật độ xác xuất này có thể được xấp xỉ bằng ước lượng Monte Carlo [11]
1 :
1
1 Nn
t t t tn
p X Z X XN
Trong đó là hàm Dirac Delta tại 0: , 00 , 0
xxx
1x dx
Khi N ước lượng Monte Carlo sẽ hội tụ về mật độ xác xuất thực sự. Tuy
nhiên, việc lấy mẫu trực tiếp từ mật độ hậu nghiệm không hiệu quả do 1 : ttp X Z
thường là đa biến và có thể thay đổi theo thời gian. Do đó để tạo ra tập mẫu “đúng”
cho phân phối 1 : ttp X Z ta sử dụng phương pháp lấy mẫu Importance Sampling
[13]
Nguyên lý của Importance Sampling là lựa chọn một phân phối q dễ lấy mẫu hơn
để phát sinh tập mẫu. Mẫu phát sinh bởi Importance Sampling gọi là fair sampling,
phân phối q gọi là phân phối đề xuất (proposal distribution) [12]. Mỗi mẫu được
gán một trọng số ntw , phản ánh bản chất việc lấy mẫu được thực hiện từ một phân
phối khác với phân phối mục tiêu. Trọng số được chuẩn hóa sao cho 1ntn
w .
Khi đó, ước lượng Monte Carlo được viết lại như sau:
1 :
1
Nn n
t t tt tn
p X Z w X X
Particle Filter xấp xỉ mật độ hậu nghiệm bằng tập N mẫu
1,
Nn n
t tn
X w
[12].
Ý trưởng chính là lan truyền tập mẫu này theo thời gian như sơ đồ sau
Đề cương luận văn thạc sĩ
21
Dự đoán ntX
Cập nhật
tZ [ ]tZ......
1 1,n nt tX w
,n nt tX w …….
Theo [7] nếu mật độ hậu nghiệm 1 1 : 1t tp X Z tại thời điểm 1t được xấp xỉ
bằng tập mẫu 1 1
1,
Nn n
t tn
X w
thì hai bước hồi quy của Particle Filter là:
- Dự đoán: lấy mẫu từ phân phối đề xuất q
1 ,n nt tt tX q X X Z�
Khác với phương pháp ước lượng Bayesian truyền thống, Particle Filter có thể sử
dụng thông tin quan sát tZ ở bước dự đoán để tăng hiệu quả lấy mẫu.
- Cập nhật: tính trọng số của mẫu
1
1
1
x ,
n n nt t t tn n
t tn nt t t
p Z X p X Xw w
q X X Z
1
nn t
t N nti
ww
w
Trạng thái hiện tại tX của hệ thống được xác định bằng ước lượng Expected A
Posterior (EAP)-lấy kỳ vọng của mật độ hậu nghiệm:
1
N n nt t tn
X w X
Một vấn đề gặp phải khi dùng Particle Filter là hiện tượng suy biến (degeneracy).
Sau một khoảng thời gian, ngoại trừ một mẫu duy nhất trong tập mẫu, các mẫu còn
lại đều có trọng số nhỏ, không đáng kể. Để khắc phục, phương pháp lấy mẫu Monte
Carlo importance sampling được áp dụng tại bước cập nhật [12]. Quá trình bao gồm
3 bước chính:
1. Đầu tiên, lấy N mẫu ntX từ phân phối đề xuất tq X
1 1n nn
t tt t tn
X q X w p X X �
Với 1ntw là trọng số của mẫu thứ n trong frame trước đó.
Đề cương luận văn thạc sĩ
22
Sử dụng mô hình chuyển đổi Gaussian tuyến tính điển hình (typical linear Gaussian
transition model ) để lấy mẫu từ mẫu quan trọng của frame trước đó.
2. Tiếp theo, trọng số ntw được tính như likelihood
n ntt tw p Y X
Kí hiệu trọng số đã được re-weighting ở bước này là n
tw
Trong đó, mẫu ntX là fair sampling được phát sinh cho phân phối 1 : 1t tp X Z
[13].Từ việc tính lại trọng số ở bước này, mẫu quan sát tY lại trở thành mẫu được
xem xét.
3. Sau đó, chuẩn hóa trọng số ntw :
nn t
t ktk
ww
w hay chính xác hơn
n
n tt k
tk
w w
w
Do ở bước tracking, ta đơn giản hóa mô hình của đối tượng thành một rectangular
bounding box (hình chữ nhật bao quanh đối tượng). Khi đó, trạng thái của đối tượng
chính là vị trí và kích thước của bounding box,
4, , , , t t t t t tX x y w h X �
Trong đó:
: là tọa độ tâm
là chiều rộng và chiều cao của bounding box
Tính chất quan trọng nhất của Particle Filter là khả năng điều khiển (handle) những
mật độ hậu nghiệm đa mô hình phức tạp [13]. Tuy nhiên, sẽ khó khăn trong trường
hợp tX là nhiều chiều (high-dimensional).
Việc lựa chọn phân phối đề xuất q cũng ảnh hưởng đến hiệu quả của giải thuật.
Phương pháp Particle Filter tổng quát được cải tiến thành nhiều phiên bản ứng dụng
cho nhiều trường hợp khác nhau như Sampling Importance Resampling (SIR),
partitioned sampling (PS), Markov Chain Monte Carlo (MCMC), reversible jump
Markov Chain Monte Carlo (RJMCMC) [14]
,t tx y,t tw h
Đề cương luận văn thạc sĩ
23
Kết luận chương 3:
Chương 3 luận văn đã nêu quy trình theo vết đối tượng theo từng bước. Giải thích
cụ thể mục tiêu của từng bước và cách thức thực hiện, nêu lên một số phương pháp
được sử dụng. Ngoài ra, chương 3 cũng đề xuất quy trình và và trình bày cơ sở lý
thuyết của các giải thuật cụ thể được sử dụng.
CHƯƠNG 4- KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC
4.1 Kết quả dự kiến
Sau khi triển khai theo giải thuật đề xuất dự kiến sẽ có thể:
- Vẽ được bounding box chứa moving object và hiển thị được tọa độ trung
tâm. Kích thước bouding box thay đổi theo kích thước của đối tượng.
- Hiển thị tọa độ trung tâm của bouding box. Khi đối tượng di chuyển, tập các
điểm đó là quỹ đạo chuyển động của đối tượng (kí hiệu là T1)
- Đồng thời, giải thuật tracking Particle Filter cũng dự báo vị trí tiếp theo của
đối tượng và hiển thị tọa độ của centroid. Liên kết các tọa độ này sẽ tạo
thành quỹ đạo chuyển động của đối tượng dựa trên ước lượng bằng Particle
Filter (kí hiệu là T2)
- Tổng thời gian thực thi sẽ nhỏ hơn 0,2s (bao gồm thời gian cho các quá trình
từ Object Extraction đến Traking)
4.2 Phương pháp đánh giá kết quả
So sánh để thấy mức độ sai lệch giữa T1 và T2.
So sánh với kết quả của các bài báo
1. Object Classification and Tracking in Video Surveillance
2. Object tracking in an outdoor environment using fusion of features and
cameras
4.3 Những đóng góp của nghiên cứu
- Luận văn có sự tổng hợp và tóm tắt những kiến thức liên quan đến hệ thống
theo vết đối tượng, những khó khăn thách thức còn tồn tại.
- Trong luận văn có trình bày cách thức phân loại các giải thuật theo một vài
nghiên cứu trước đó, giúp đưa ra một một cách nhìn tổng quan và logic để
tiếp cận với bài toán.
Đề cương luận văn thạc sĩ
24
- Trong quá trình xây dựng giải thuật, đã phân tích cụ thể từng bước của quy
trình, và tại mỗi quy trình có nêu lên các giải thuật có thể sử dụng trước khi
đưa ra giải thuật đề xuất.
- Luận văn có sự so sánh kết quả với các nghiên cứu trước đó để cho thấy mức
độ hiệu quả của giải thuật.
Kết luận chương 4:
Chương 4 nêu kết quả dự kiến sẽ đạt được và cách thức đánh giá kết quả. Đồng
thời, trình bày những đóng góp của luận văn
DỰ KIẾN KẾ HOẠCH THỰC HIỆN
STT Nội dung Thời gian
1 Chương 1,2 : Tìm đọc thêm các công trình nghiên cứu, các bài báo mới.
2 tuần
2Chương 3:
- Tìm đọc thêm tài liệu- Nêu rõ hơn về đặc điểm các giải thuật đề cập ở 3.1 .- Đánh giá so sánh giải thuật đề xuất so với các giải
thuật khác
1 tuần
2 tuần3 Triển khai giải thuật
Đánh giá kết quả: so sánh với kết quả dự kiến và các nghiên cứu khác
12 tuần hoặc hơn
4 Trình bày luận văn 2 tuần
TÀI LIỆU THAM KHẢO
[1] Object Classification and Tracking in Video Surveillance
[2] Object Tracking: A Survey 2006
[3]Systematic Survey on Object Tracking Methods in Video
[4] Adaptive mean–shift for automated multi object tracking
[5] Object tracking in an outdoor environment using fusion of features and camera
[6] Object Detection and Tracking (Fatih Porikli and Alper Yilmaz)
[7] Adaptive Background Learning for Vehicle Detection and Spatio-Temporal
Tracking
[8] Object Tracking and Detecting Based on Adaptive Background Subtraction
[9] A Survey on Moving Object Detection and Tracking in Video Surveillance
System
[10] Contour Based Object Tracking
[11] VariableResolutionParticleFilter
[12]Key Object Discovery ang Tracking Based on Context-Aware Saliency
[13] Particle filter notes Greg mori