Tải bản đầy đủ

Nhận diện khuôn mặt người sử dụng Wavelet và Principle component analysis (PCA) (Luận văn thạc sĩ)

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ THÁI LINH

NHẬN DIỆN KHUÔN MẶT NGƯỜI SỬ DỤNG WAVELET
VÀ PRINCIPLE COMPONENT ANALYSIS (PCA)

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên, 2018


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ THÁI LINH

NHẬN DIỆN KHUÔN MẶT NGƯỜI SỬ DỤNG WAVELET
VÀ PRINCIPLE COMPONENT ANALYSIS (PCA)


Chuyên ngành: Khoa học máy tính
Mã số: 8 480 101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. NGUYỄN TOÀN THẮNG

Thái Nguyên, 2018


i

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của
riêng cá nhân, không sao chép lại của người khác. Trong toàn bộ nội dung của
luận văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổng
hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ
ràng và được trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan của mình.

Tác giả luận văn

Vũ Thái Linh


ii

LỜI CẢM ƠN
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc đến đến Ban Giám
Hiệu, các thầy giáo, cô giáo phòng đào tạo sau đại học Công Nghệ Thông Tin
& Truyền Thông, các thầy giáo, cô giáo đã giảng dạy và cung cấp cho tôi
những kiến thức rất bổ ích trong thời gian học, giúp tôi có nền tảng tri thức để
phục vụ nghiên cứu khoa học sau này.
Đặc biệt, tôi xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến thầy
giáo TS. Nguyễn Toàn Thắng người đã tận tình hướng dẫn, chỉ bảo và giúp
đỡ tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn này.
Tôi cũng xin bày tỏ lòng cảm ơn đến gia đình và bạn bè, những người
luôn quan tâm, động viên và khuyến khích tôi.

Tác giả luận văn



Vũ Thái Linh


iii

MỤC LỤC
Trang
TRANG BÌA PHỤ
LỜI CAM ĐOAN ..............................................................................................i
LỜI CẢM ƠN.................................................................................................. ii
MỤC LỤC....................................................................................................... iii
DANH MỤC BẢNG......................................................................................... v
DANH MỤC HÌNH ẢNH ..............................................................................vi
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT
NGƯỜI .............................................................................................................. 1
1.1 Giới thiệu chung về nhận dạng khuôn mặt ..................................................1
1.2 Các phương pháp phát hiện khuôn mặt. ......................................................3
1.2.1 Các phương pháp phát hiện tiêu biểu .......................................................4
1.2.2 Các phương pháp tiếp cận theo thời gian thực và đa chiều. .....................5
1.3 Các phương pháp theo dõi khuôn mặt .........................................................6
1.3.1 Các phương pháp theo dõi khuôn mặt tiêu biểu. ......................................7
1.3.2 Các phương pháp theo dõi thời gian thực.................................................9
1.4. Nhận dạng khuôn mặt .............................................................................. 10
1.4.1 Phương pháp nhận dạng dựa vào không gian thông tin ........................ 11
1.4.2 Phương pháp nhận dạng dựa vào mô hình thống kê ............................. 12
1.4.3 Phương pháp nhận dạng dựa trên những gợi ý lai ................................. 13
1.4.4. Các phương pháp nâng cao trong nhận dạng khuôn mặt ..................... 13
1.5 Các cơ sở dữ liệu ảnh và video nổi tiếng .................................................. 18
KẾT LUẬN CHƯƠNG 1 .............................................................................. 20
CHƯƠNG 2: NHẬN DẠNG KHUÔN MẶT NGƯỜI SỬ DỤNG PCA
QUA BIẾN ĐỔI WAVELET ........................................................................ 21
2.1 Biến đổi Wavelet ...................................................................................... 23


iv

2.1.1 Giới thiệu về Wavelet ............................................................................ 23
2.1.2 Lựa chọn Wavelet .................................................................................. 28
2.2 Đánh giá về PCA và Eigenfaces để nhận dạng khuôn mặt ...................... 30
2.2.1 Phân tích thành phần chính - PCA......................................................... 30
2.2.2 Eigenfaces .............................................................................................. 32
2.3 Giai đoạn huấn luyện ................................................................................ 33
2.4 Giai đoạn nhận dạng ................................................................................. 36
KẾT LUẬN CHƯƠNG 2 .............................................................................. 38
CHƯƠNG 3. ỨNG DỤNG ĐIỂM DANH ................................................... 39
3.1 Giới thiệu bài toán .................................................................................... 39
3.2 Giao diện và hoạt động của chương trình ................................................. 39
3.3 Đánh giá kết quả thu được ........................................................................ 42
KẾT LUẬN CHƯƠNG 3 .............................................................................. 47
KẾT LUẬN CHUNG ..................................................................................... 48
TÀI LIỆU THAM KHẢO ............................................................................. 50


v

DANH MỤC BẢNG
Trang
Bảng 1.1: Cơ sở dữ liệu mặt ............................................................................ 19
Bảng 2.1: Tỷ lệ nhận dạng bằng cách sử dụng các wavelet khác nhau trên
cơ sở dữ liệu của Yale ................................................................... 24
Bảng 2.2: Sự chênh lệch của các hình ảnh subband của WT và độ phân giải
của nó trong Hình 2.3 (b). ............................................................. 28
Bảng 2.3: Tỉ lệ nhận dạng khuôn mặt trên các subband khác nhau ................ 29
Bảng 3.1: So sánh hiệu năng sử dụng cơ sở dữ liệu huấn luyện ..................... 44


vi

DANH MỤC HÌNH ẢNH
Trang
Hình 1.1: Quy trình nhận dạng khuôn mặt trong video ..................................... 3
Hình 2.1 Sơ đồ khối của hệ thống nhận dạng khuôn mặt được đề xuất .......... 22
Hình 2.2: (a) Phân rã wavelet cấp 1 và (b) Phân rã wavelet cấp 3 và phân rã
wavelet cấp 6, dải A bị phân rã một lần nữa. ................................ 26
Hình 2.3: (a) Một hình ảnh gốc có độ phân giải 128x128; (b) Sự phân rã
WT ba mức của hình ảnh (a). ........................................................ 27
Hình 2.4 Biểu diễn ảnh .................................................................................... 33
Hình 2.5: (a) Năm hình ảnh từ Đại học Brown ............................................... 35
(b) Hình ảnh biểu diễn đào tạo dựa trên subband 4 ........................ 35
Hình 3.1: Tập ảnh huấn luyện thực tế.............................................................. 40
Hình 3.2: Giao diện khi huấn luyện cơ sở dữ liệu ........................................... 41
Hình 3.3: Giao diện khi nhận dạng được khuôn mặt ....................................... 42
Hình 3.4: Hình ảnh từ cơ sở dữ liệu tập huấn với các biểu hiện trên khuôn
mặt khác nhau, điều kiện chiếu sáng. ............................................ 43
Hình 3.5: Hình ảnh hệ thống nhận dạng nhiều người một lúc ........................ 44
Hình 3.6: Hình ảnh hệ thống nhận dạng với người không có trong cơ sở dữ
liệu huấn luyện .............................................................................. 45
Hình 3.7: Hình ảnh hệ thống nhận dạng với nhiều người không có trong cơ
sở dữ liệu huấn luyện..................................................................... 46


1

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT NGƯỜI
1.1 Giới thiệu chung về nhận dạng khuôn mặt
Trong những năm qua, nhận dạng khuôn mặt trong video đã nhận được
sự chú ý đáng kể. Đã xuất hiện những công nghệ khả thi sau nhiều thập niên
nghiên cứu đóng góp vào xu thế này, chúng không chỉ ứng dụng vào các ứng
dụng thương mại, ứng dụng bảo mật mà còn nhiều lĩnh vực khác trong cuộc
sống. Mặc dù hệ thống nhận dạng khuôn mặt hiện tại đã đạt đến một mức độ
phát triển nhất định, nhưng chúng vẫn còn nhiều hạn chế khi áp dụng vào các
điều kiện thực tế. Ví dụ, các hình ảnh nhận dạng của video được lấy trong môi
trường thực tế với sự thay đổi độ sáng, khuôn mặt nghiêng hoặc độ phân giải
thấp của hình ảnh thu được vẫn là vấn đề khó giải quyết. Nói cách khác, các
thuật toán hiện tại vẫn chưa được hoàn thiện tốt nhất. Trong chương này, sự
phát triển hiện tại của nhận dạng khuôn mặt dựa trên video được chia thành
các mục như sau:
 Phần 1.1 Giới thiệu chung
 Phần 1.2 Giới thiệu các kỹ thuật điển hình của việc phát hiện khuôn
mặt trong video, thời gian thực và đa chiều.
 Phần 1.3 Các phương pháp theo dõi gương mặt điển hình.
 Phần 1.4 So sánh với hình ảnh tĩnh, và liệt kê những thuận lợi và bất lợi
của nhận dạng khuôn mặt trong video. Các phương pháp đặc biệt để giải
quyết các vấn đề như chiếu sáng, độ phân giải thấp và giới thiệu về 3D
 Phần 1.5 Trình bày một số cơ sở dữ liệu dựa trên video nổi tiếng.
Từ lần đầu tiên được đề xuất vào những năm 1880, nhận dạng khuôn
mặt đã nhận được sự chú ý đáng kể và trở thành một trong những hướng
nghiên cứu thành công nhất của nhận dạng mẫu. Các nghiên cứu đã đưa ra
nhiều thuật toán có giá trị cho bài toán nhận dạng khuôn mặt, ví dụ …


2

Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA),
Elastic Graph Matching (EGM), v.v.. So với hình ảnh tĩnh, video có thể cung
cấp thêm thông tin về không gian và thời gian. Do đó, nhận dạng khuôn mặt
dựa trên video đã thu hút nhiều sự chú ý hơn trong thời gian gần đây. Trong
chương này sẽ khảo sát sự nhận dạng khuôn mặt dựa trên video trong những
năm đây. Ngay từ đầu, hầu hết các phương pháp đã được dựa trên các kỹ
thuật xử lý trên các frame (khung hình) dừng nhằm mục đích để lựa chọn
frame tốt nhất và sau khi đã làm một số xử lý tương đối.
Gần đây các nhà nghiên cứu đã bắt đầu thực sự giải quyết những vấn đề
như vậy bằng cách thể hiện không gian thời gian. Hầu hết các hệ thống hiện
có đều giải quyết các vấn đề nhận dạng khuôn mặt dựa trên video như sau:
Trước tiên, phát hiện khuôn mặt và theo dõi nó theo thời gian. Đôi
khi chọn các frame hình tốt có mặt trước mặt hoặc các tín hiệu có giá trị là
cần thiết.
Tiếp theo, khi một frame thỏa mãn các tiêu chí nhất định (kích thước,
hình dáng, độ sáng và v.v…), việc nhận dạng được thực hiện bằng cách sử
dụng kỹ thuật nhận dạng. Hình 1.1 cho thấy toàn bộ quá trình.


3
Đầu vào chuỗi video
Khung hình
a

Khung hình
b

Khung hình
c

Khung
hình..

Khung hình
𝑛

Phát hiện khuôn mặt và Theo dõi khuôn mặt
1. Sử dụng thông tin không gian thời
gian
2. Đối phó với các vấn đề đặt ra\ độ
phân giải thấp\ chiếu sáng\ độ trễ

No
Tín hiệu có chứa giá
trị khuôn mặt?

Yes

Chỉ số mặt
1

Chỉ số mặt
2

Chỉ số
mặt…

Nhận dạng khuôn mặt

Hình 1.1: Quy trình nhận dạng khuôn mặt trong video
Ngoài ra, một số phương pháp cũng sử dụng tín hiệu kết hợp, chẳng
hạn như âm thanh, đi bộ và như vậy, để thực hiện phân tích toàn diện và đưa
ra quyết định.
1.2 Các phương pháp phát hiện khuôn mặt.
Phát hiện khuôn mặt là giai đoạn đầu tiên của hệ thống nhận dạng
khuôn mặt. Rất nhiều nghiên cứu đã được thực hiện trong lĩnh vực này và đạt
được nhiều kết quả tốt đối với ảnh tĩnh. Tuy nhiên các phương pháp này lại có
nhiều hạn chế khi áp dụng vào video. Trong các cảnh quay video, khuôn mặt


4

của con người có thể có các hướng và vị trí không giới hạn, do đó việc phát
hiện khuôn mặt người là một loạt các thách thức đối với các nhà nghiên cứu.
Nói chung, có cách tiếp cận cho bài toán phát hiện khuôn mặt dựa trên video.
Thứ nhất là phát hiện khuôn mặt trong từng frame. Do mỗi frame có
thể xem là một hình ảnh tĩnh, do đó có thể áp dụng nhiều phương pháp truyền
thống cho hình ảnh tĩnh như phương pháp mô hình thống kê (Statistical
modeling method), phương pháp dựa trên mạng neuron nhân tạo (neural
network-based method), phương pháp dựa trên SVM, phương pháp dựa trên
mô hình Markov ẩn HMM, phương pháp BOOST và phát hiện khuôn mặt dựa
trên màu sắc, v.v… Tuy nhiên, nhược điểm chính của các cách tiếp cận này là
bỏ qua thông tin thời gian thu được từ các frame nối tiếp.
Thứ hai, là kết hợp phát hiện và theo dõi, quá trình này phát hiện khuôn
mặt trong frame đầu tiên và sau đó theo dõi vị trí khuôn mặt qua các frame kế
tiếp. Do việc phát hiện và theo dõi được độc lập, phương pháp này có thể
đánh mất dấu vết của khuôn mặt đươc theo dõi.
Hướng tiếp cận thứ ba là khai thác mối quan hệ thời gian giữa các
frame để phát hiện nhiều khuôn mặt người trong một chuỗi video. Hướng tiếp
cận này phát hiện và dự đoán vị trí của khuôn mặt trong các frame tiếp và sau
đó cập nhật theo dõi. Điều này giúp việc phát hiện khuôn mặt ổn định hơn so
với hai hướng tiếp cận trên.
1.2.1 Các phương pháp phát hiện tiêu biểu
Vào năm 2000, Zhu Liu và Yao Wang đã trình bày một thủ tục kết hợp
nhanh với dynamic programming để phát hiện khuôn mặt và theo dõi những
khuôn mặt không trực diện sử dụng các mô hình khuôn mặt thích nghi. Thực
tế quan sát thấy rằng mật độ tập trung các cạnh cao hơn ở các vùng chứa


5

khuôn mặt và mật độ cạnh xuất hiện ít hơn ở các vùng bên ngoài. Dựa trên
quan sát này, Li Silva, K. Aizawa và M. Hatori đề xuất một phương pháp đếm
cạnh, để phát hiện và theo dõi các đặc trưng của khuôn mặt trong chuỗi video.
Han và cộng sự đã phát hiện và theo dõi nhiều đối tượng không xác định bằng
cách sử dụng graph structure that maintains multiple hypotheses. Và D.
Ramanan đã đưa ra các mô hình trình diễn tự động được xây dựng dựa trên
phân nhóm thích hợp trên các phân đoạn video. Ngoài ra, một số phương
pháp tiếp cận kết hợp tính năng Edge Orientation Features để nâng cao hiệu
quả của việc phát hiện vị trí khuôn mặt thời gian thực trên ảnh tĩnh xám. Để
sử dụng đầy đủ các thông tin thời gian được cung cấp bởi video, Mikolajczyk,
K và cộng sự đề xuất một phương pháp phát hiện khuôn mặt sử dụng biểu đồ
địa phương của các hệ số wavelet đại diện cho một frame phối hợp cố định
cho đối tượng. Zhenqiu Zhang đề xuất Floatboost dựa trên phát hiện khuôn
mặt để tạo ra một điểm quyết định, và sau đó sử dụng thông tin thời gian để
xác nhận và xác nhận kết quả.
1.2.2 Các phương pháp tiếp cận theo thời gian thực và đa chiều.
Phát hiện khuôn mặt nhiều lần và trong thời gian thực là một yêu
cầu rất quan trọng trong việc phát hiện khuôn mặt dựa trên video. Có một
số phương pháp thường được áp dụng để phát hiện khuôn mặt trong thời
gian thực:
 Sử dụng Haar wavelet kết hợp với Cascade AdaBoost của Viola và
Jones.
 Sử dụng thông tin màu để phát hiện và xác nhận khuôn mặt người.
Một kỹ thuật thống kê phi tham số được khai thác bởi Bradski và cộng
sự để phát hiện khuôn mặt trong 3D. Schneiderman và Kanade trong IEEE
Computer Society Conference on Computer Vision and Pattern Recognition


6

năm 2000 đã công bố hệ thống của họ là hệ thống đầu tiên trên thế giới để
phát hiện khuôn mặt đa diện. Trong những năm qua, đã có nhiều tiến bộ trong
lĩnh vực này. Có hai phương pháp chính:
 Phương pháp xây dựng một máy dò duy nhất để áp dụng với tất cả các
góc nhìn của khuôn mặt;
 Phương pháp xây dựng nhiều máy dò để áp dụng các góc nhìn
khác nhau.
Feraud và cộng sự đã sử dụng một dãy của 5 máy dò với mỗi máy dò
cho một lần kiểm tra. Các máy dò quay để nhận ra những thay đổi, dựa trên
quỹ đạo của khuôn mặt trong các không gian đặc trưng PCA tuyến tính, S.
Gong và cộng sự đã cung cấp một cơ chế hữu ích để điều tra những thay đổi
này. Thêm vào đó, kiến trúc kim tự tháp được phát hiện trình bày bởi Zhenqiu
Zhang, trong đó đã áp dụng một chiến lược tổng hợp về sự phân rã từ thấp
đến cao và sự phân loại khuôn mặt hoặc không phải khuôn mặt. Để đạt được
tỷ lệ lỗi tối thiểu, Li và Zhang đã đề xuất một thuật toán bằng cách tích hợp
nguyên lý của cả Cascade AdaBoost và mảng dò.
Tuy nhiên, theo hầu hết các cách tiếp cận này, có một vấn đề nghiêm
trọng xảy ra bởi vì tính đa dạng trong lớp của tập dữ liệu khuôn mặt đa diện
rộng lớn hơn so với bộ dữ liệu khuôn mặt chụp trực diện. Mặc dù AdaBoost
(DPAA) có khả năng xử lý vấn đề này, nhưng do sự phức tạp tăng dẫn đến
việc tải phép tính cao hơn và không phù hợp trong huấn luyện dữ liệu.
1.3 Các phương pháp theo dõi khuôn mặt
Ở các hệ thống nhận dạng khuôn mặt, việc theo dõi khuôn mặt là khai
thác sự tương ứng của khuôn mặt theo thời gian giữa các frame. Theo dõi
khuôn mặt có thể được chia thành ba hướng:


7

 Theo dõi đầu (dựa trên màu, dựa trên mô hình và dựa trên hình dạng).
 Theo dõi các đặc điểm trên khuôn mặt.
 Kết hợp theo dõi đặc điểm trên khuôn mặt và mặt.
Đối với xử lý video, thời gian thực chính là tính năng hàng đầu để theo
dõi khuôn mặt.
1.3.1 Các phương pháp theo dõi khuôn mặt tiêu biểu.
Phương pháp đầu tiên để theo dõi khuôn mặt là dựa trên mô hình,
thường bao gồm các mô hình thống kê và dựa trên mẫu. Hongli và những
người khác đã áp dụng hiệu quả bản đồ biên cho quá trình theo dõi tiếp theo
trên cơ sở kết quả phân đoạn trước. Các bước chính trong giai đoạn theo dõi
là sự kết hợp và kết nối các biên với nhau. Việc xây dựng trước bản đồ để xác
định ranh giới của khuôn mặt và sau đó được sử dụng để trích xuất khu vực
giữa hai điểm chính.
1.3.1.1 Cách tiếp cận dựa trên mô hình
Hager và Belhumeur đã sử dụng một mô hình tham số để theo dõi. Mô
hình Active Appearance Model (AAM) được giới thiệu bởi Cootes và những
người khác, trong đó có một mô hình thống kê về hình dạng và mức độ màu
xám của đối tượng chính để mã hóa thông tin hình dạng và cấu trúc. Dựa vào
AAM, Jorgen Ahlberg vào năm 2001 đã trình bày một mô hình hoạt động để
theo dõi những đặc điểm trên khuôn mặt. Theo dõi mẫu của J Saragih và R
Goecke mở rộng ý tưởng về AAM và đã đạt được kết quả tốt hơn. Isard và
Blake đã kết hợp thuật toán ngưng tụ với các đường viền hoạt động được
tham số hóa bởi các vectơ. Thuật toán tương tự được khái quát bởi Seo và
cộng sự tại IEEE 5th Asian Control Conference năm 2004, sử dụng đường
viền hoạt động với sự ngưng tụ và cũng như sử dụng thông tin màu sắc.


8

1.3.1.2 Cách tiếp cận dựa trên màu sắc và hình dạng.
Màu sắc và hình dạng là các tín hiệu quan trọng để theo dõi khuôn mặt.
Đã có nhiều phương pháp được đề xuất, một phương pháp theo dõi khuôn mặt
tốt dựa trên thuật toán ngưng tụ kết hợp màu da với hình dạng khuôn mặt đã
được giới thiệu bởi Hyung-Soo Lee và cộng sự. Màu da và hệ thống theo dõi
khuôn mặt được xây dựng như là thước đo quan sát tương ứng. Kết quả cho
thấy phương pháp này thậm chí còn tỏ ra ổn định trong khi thay đổi ánh sáng
đột ngột. Tương tự như vậy, F.M Noguer và Alberto Sanfeliu đề xuất việc sử
dụng một phương pháp không gian màu mới dựa trên phương pháp Linear
Discriminate Analysis kết hợp màu sắc và hình dạng khuôn mặt thành thuật
toán ngưng tụ. Ying Ren và Chin Seng Chua tích hợp quy trình theo dõi với
miền không gian và đề xuất phương pháp Bilateral Learning. Thuật toán của
họ chủ yếu chọn các mẫu đáng tin cậy để cập nhật mô hình màu và không
gian trong EM framework và nó không cần mô hình hình dạng chính xác.
Jwu-Sheng Hu đã đưa ra một phương pháp theo dõi chuyển đổi trung bình đã
được cải tiến sử dụng tính năng không gian hỗn hợp và đề xuất một chức
năng đo lường tương tự mới.
Theo dõi các đặc điểm trên khuôn mặt luôn được đặt trọng tâm. Các
phương pháp tiếp cận gặp khó khăn với sự thay đổi tỉ lệ hoặc độ phân giải,
nhưng nó chính xác và cho kết quả tốt với chuyển động phẳng. Yan Tong và
YangWang đã áp dụng một mô hình đồng thời mô tả các hình dạng và các chi
tiết cấu trúc cục bộ trên khuôn mặt người. Cùng với đó wavelet gabor và các
hồ sơ cấp độ xám được tích hợp để có hiệu quả hơn và thể hiện các đặc điểm
trên khuôn mặt một cách hiệu quả hơn. Phương pháp tiếp cận theo dõi nhiều
mô hình được sử dụng để ước tính vị trí các điểm đặc trưng trên khuôn mặt
một cách chính xác và tối ưu nhất. Tu JL và Tao H đã đưa sự theo dõi tích
hợp vào bộ lọc Kalman, trong đó hệ thống phi tuyến tính trở thành giống một


9

mô hình tuyến tính cục bộ. Christian Kublbeck và Andreas Ernst đã trình bày
việc theo dõi khuôn mặt bằng các phương tiện phát hiện liên tục và đưa ra các
tính năng cấu trúc không thay đổi về độ sáng trong bộ lọc Kalman.
Hướng còn lại là theo dõi dựa trên sự kết hợp của đầu và đặc điểm trên
khuôn mặt. Brais Martinez và Xavier Binefa trình bày một phương pháp để
theo dõi một số đặc điểm của một mục tiêu trải qua một chuyển động 3D tự
do. Phương pháp Multiple kernel tracking có thể theo dõi các đối tượng trải
qua quá trình biến đổi tham số. Phương pháp này mở rộng kết quả đến các
tình huống tổng quát hơn. Indra Sulistijono và Naoyuki Kubota đã đề xuất
một phương pháp nâng cấp của SSGA và Particle Swarm Optimization (PSO)
để thực hiện việc theo dõi nhiều người và phương pháp này cũng có thể làm
giảm chi phí tính toán. Trong Proceedings 2nd Joint IEEE International
Workshop on VS-PETS năm 2005, Yonggang Jin trình bày một bộ lọc hợp
nhất dữ liệu cho phương pháp theo dõi đầu đã được đề xuất dựa trên các tín
hiệu màu và cạnh. Một bộ lọc Boosted Adaptive Particle (BAPF) để cho phép
ước lượng và theo dõi với độ chính xác cao hơn nhiều.
1.3.2 Các phương pháp theo dõi thời gian thực.
Theo dõi khuôn mặt theo thời gian thực gần đây đã thu hút nhiều sự
chú ý. Các kỹ thuật theo dõi thời gian thực hiện tại bao gồm: CAMSHIFT,
ngưng tụ và bộ lọc Kalman. Khi đối tượng ở xa camera, thuật toán khó có thể
theo dõi được. Để hiệu quả trong việc tăng hiệu suất theo dõi và khả năng tính
toán, các phương pháp theo dõi khuôn mặt dựa trên phân bố màu đã được
nghiên cứu. Ví dụ, Yao và Gao đã đề xuất một thuật toán theo dõi khuôn mặt
dựa trên sự biến đổi màu da và màu sắc môi. Huang và Chen năm 2000 đã
xây dựng một mô hình màu thống kê và mẫu để theo dõi nhiều khuôn mặt.


10

1.4. Nhận dạng khuôn mặt
Nhận dạng khuôn mặt là giai đoạn quan trọng nhất trong toàn bộ hệ
thống. Các thuật toán nhận dạng khuôn mặt trên video sử dụng các phương
pháp tiếp cận về công nghệ xử lý trên các frame dừng. Tuy nhiên, video có
khả năng cung cấp nhiều thông tin hơn hình ảnh tĩnh. Ta thấy được rằng có
bốn lợi thế lớn khi sử dụng video như sau:
 Khả năng sử dụng các frame khác có trong video để cải thiện hiệu suất
nhận dạng hình ảnh.
 Nghiên cứu tâm lý và tâm thần học gần đây đã chỉ ra rằng thông tin
động là rất quan trọng trong quá trình nhận biết khuôn mặt của con
người.
 Các lợi thế như mô hình mặt 3D hoặc hình ảnh có độ phân giải cao, có
thể được lấy từ video và được sử dụng để cải thiện hiệu quả nhận dạng.
 Nhận dạng khuôn mặt dựa trên video cho phép học tập hoặc cập nhật
mô hình theo thời gian.
Mặc dù có rất nhiều lợi thế khi nhận dạng khuôn mặt trên video nhưng
ta thấy rằng cũng có một số nhược điểm cần quang tâm như:
 Chất lượng video kém, độ phân giải hình ảnh thấp
 Chiếu sáng
 Thay đổi dáng đi, chuyển động.
 Biểu hiện khuôn mặt
 Khoảng cách lớn từ camera ...
Với tất cả những thuận lợi và những nhược điểm này, đã có nhiều
phương pháp áp dụng giải quyết nhiều khía cạnh đã nêu để nhận dạng khuôn
mặt dựa trên video.


11

1.4.1 Phương pháp nhận dạng dựa vào không gian thông tin
Hầu hết các cách tiếp cận gần đây sử dụng không gian thông tin để
nhận dạng khuôn mặt trong video. Thông thường, một số phương pháp sử
dụng chọn lọc tạm thời để cải thiện tỷ lệ nhận dạng. Ngoài ra còn có một số
thuật toán lấy được cấu trúc khuôn mặt 2D hoặc 3D từ video như của W. Y.
Zhao and R. Chellappa. Khác với cách tiếp cận chọn lọc đơn giản, Li và cộng
sự đã đề xuất một phương pháp dựa trên mô hình hình dạng và kết cấu và
khai thác tính năng hạt nhân. Tuy nhiên, phương pháp như vậy không sử dụng
đầy đủ thông tin trong video. Zhou và Chellappa đã đưa ra một phương pháp
kết hợp thông tin thời gian trong một trình tự video cho nhiệm vụ xác thực
khuôn mặt. Một mô hình không gian trạng thái với vector theo dõi trạng thái
và nhận dạng biến số được sử dụng để mô tả các đặc điểm trên khuôn mặt.
Cách tiếp cận xác suất này nhằm tích hợp chuyển động và thông tin nhận
dạng theo thời gian với thuật toán sequential importance sampling algorithm;
tuy nhiên nó vẫn chỉ xem xét được duy nhất sự thống nhất trong miền thời
gian và do đó nó có thể không hoạt động tốt khi đối tượng bị che khuất.
Zhang YB, Martinez AM đã so sánh PCA, LDA và ICA với nhiều hình ảnh
với các đoạn video, điều này chứng minh rằng cách tiếp cận xác suất cân bằng
có thể giải quyết được các vấn đề tồn tại trong ảnh đơn. Krueger và Zhou đã
chọn những hình ảnh đại diện cho từng khuôn mặt như là những mẫu được
lấy từ các video huấn luyện trực tiếp. Mô hình này có hiệu quả trong việc thu
được chuyển động 2D nhỏ nhưng có thể không phù hợp với sự thay đổi hoặc
che khuất với hình dạng 3D lớn. Năm 2002, Li và những người khác đã áp
dụng mô hình piecewise linear để nắm bắt các chuyển động cục bộ. Phương
pháp tương tự đã được đề xuất bởi Kuang-Chih Lee, đã mang lại phương
pháp tuyên truyền xác suất của các mô hình tuyến tính thông qua ma trận
chuyển đổi. Thuật toán ngưng tụ có thể được sử dụng thay thế cho mô hình


12

cấu trúc thời gian của S. Zhou. Các phương pháp dựa trên không gian thời
gian để nhận biết khuôn mặt trong video có một số nhược điểm:
 Động lực học trên khuôn mặt của từng cá nhân cụ thể rất hữu ích cho
việc phân biệt giữa những người khác nhau, tuy nhiên thông tin thời
gian trong cá nhân liên quan đến biểu hiện khuôn mặt và cảm xúc cũng
được mã hoá và sử dụng.
 Trọng lượng trung bình được đưa ra đối với các đặc điểm không thời
gian mặc dù một số tính năng góp phần nhận ra nhiều hơn những điểm
khác;
 Rất nhiều phương pháp chỉ có thể xử lý tốt các khuôn mặt do vậy hạn
chế sử dụng của các phương pháp đó trong thực tế với ảnh người có cả
phong cảnh.
1.4.2 Phương pháp nhận dạng dựa vào mô hình thống kê
Năm 2002, Zhou và những người khác đã thu được các mô hình thống
kê từ video bằng cách sử dụng các tính năng cấp thấp (ví dụ: bằng PCA) chứa
trong các hình ảnh mẫu, được sử dụng để thực hiện kết hợp giữa một frame
đơn và luồng video hoặc giữa hai luồng video. Satoh đã khớp với hai chuỗi
video bằng cách chọn cặp frame gần nhất trên cả hai video. Một vài phương
pháp sử dụng trình tự video để đào tạo mô hình thống kê khuôn mặt cho phù
hợp. Phương pháp mutual subspace lấy các frame riêng biệt trong video cho
mỗi người để tính toán nhiều không gian riêng lẻ, xem xét góc giữa đầu vào
và các không gian con tham chiếu được hình thành bởi các thành phần chính
của các chuỗi hình ảnh là thước đo cho sự nhận dạng. Năm 2003, một phương
pháp đã được đề xuất bằng cách sử dụng các góc độ không gian hình ảnh ban
đầu và sử dụng một không gian đặc trưng để đo sự tương đồng giữa hai chuỗi
video. Để cải thiện, Topkaya đã đề xuất thuật toán đơn giản dựa trên các tính


13

năng và vị trí khuôn mặt để lựa chọn các frame đại diện, sau đó phân tích
chiều được áp dụng để biến đổi chúng thành không gian mới. Gần đây, mô
hình ARMA được sử dụng để mô hình hóa chuyển động của khuôn mặt như
là một hệ thống tuyến tính động và thực hiện nhận dạng khuôn mặt. Các mô
hình Markov ẩn được sử dụng rộng rãi đã được áp dụng để nhận dạng trong
video. Liu và cộng sự đã sử dụng các mô hình HMM và ARMA để kết hợp
trong video trực tiếp. Minyoung Kim đã cho thấy rằng vấn đề của các khó
khăn trực quan có thể được giải quyết bằng frame xác thực dựa trên HMM.
1.4.3 Phương pháp nhận dạng dựa trên những gợi ý lai
Ta biết rằng video có thể cung cấp nhiều thông tin hơn so với hình ảnh
tĩnh. Một số phương pháp sử dụng các thông tin khác thu được từ các chuỗi
video, chẳng hạn như giọng nói, dáng đi, chuyển động v.v... Ví dụ, Shan và
những người khác kiểm tra sự kết hợp của khuôn mặt và hoạt động ở cấp tính
năng và đạt được hiệu suất tăng lên bằng cách kết hợp hai tín hiệu. Zhou X,
Bhanu B đã trình bày một cách tiếp cận mới dựa trên tích hợp thông tin từ
khuôn mặt và đi đường ở cấp tính năng bởi PCA và MDA vào năm 2008.
Christian Micheloni đã thông qua một kỹ thuật nhận biết khuôn mặt và loa để
nhận dạng sinh học âm thanh-video năm 2009. Phương pháp này đã kết hợp
việc chuẩn hóa biểu đồ và phân tích phân loại tuyến tính để giải quyết vấn đề
như chiếu sáng, bị che khuất và đề xuất tối ưu hóa thuật toán giảm nhiễu trên
cơ sở Bộ lọc Kalman mở rộng (EKF). M. Balasubramanian đưa ra một cách
tiếp cận khác được trình bày bởi radial basis function neural networks, được
sử dụng để nhận dạng một người trong các trình tự video bằng cách sử dụng
phương pháp nhận dạng khuôn mặt và miệng.
1.4.4. Các phương pháp nâng cao trong nhận dạng khuôn mặt
Trong những năm qua, nhận dạng trong video đã phát triển và các trọng
tâm phổ biến của công nghệ nhận dạng khuôn mặt dựa trên video được tập


14

trung vào một số vấn đề như chiếu sáng, các cách tiếp cận khác nhau, 3D và
độ phân giải thấp của video.
1.4.4.1 Chiếu sáng
Có rất nhiều yếu tố ảnh hưởng đến nhận dạng khuôn mặt, trong đó có
hai thách thức chính là: ánh sáng và tư thế. Hệ thống nhận dạng sẽ gặp khó
khăn để nhận dạng cá nhân khi bị thay đổi trong ánh sáng mạnh hơn. Adini,
Moses, và Ullman lần đầu tiên quan sát vấn đề đó. Tuy nhiên, Zhao và
Chellappa đã đưa ra một bằng chứng lý thuyết về vấn đề này trên cơ sở hệ
thống phép chiếu cục bộ. Để giải quyết những vấn đề như vậy, các nhà nghiên
cứu đã đề xuất các phương thức tiếp cận khác nhau. Ví dụ như Belhumeur và
Bartlett đã thông qua PCA bằng cách loại bỏ các thành phần chính đầu tiên và
đạt được hiệu suất tốt hơn cho hình ảnh trong những điều kiện ánh sáng khác
nhau. Giả thiết của họ là các thành phần chính đầu tiên chỉ nắm bắt được các
biến thể do ánh sáng. Do đó, một số loại bỏ quan trọng có thể ảnh hưởng đến
sự nhận dạng trong điều kiện ánh sáng bình thường. Ngoài ra, một số cách
tiếp cận được trình bày dựa trên kỹ thuật khai thác các tính năng của hình ảnh.
Tại IEEE conference on computer vision and pattern recognition năm 1998,
Jacobs đã trình bày một phương pháp dựa trên thực tế đó là đối với các điểm
nguồn ánh sáng và các đối tượng có phản xạ Lambertian, tỷ lệ của hai hình
ảnh từ cùng một đối tượng đơn giản hơn tỷ lệ hình ảnh từ các đối tượng khác
nhau. Nanni và cộng sự đề xuất các phương pháp dựa trên bộ lọc Gabor. Liu
và cộng sự đã sử dụng một hình ảnh tỷ lệ để giải quyết sự thay đổi độ sáng.
Phương pháp tương tự đã được đề xuất bởi Wang, nhằm mục đích thu được
hình ảnh gương mặt được chiếu sáng không thay đổi cho một nhóm các hình
ảnh của cùng một chủ đề. Trong The international conference on computer
vision and pattern recognition, Savvides đưa ra một phương pháp lai dựa trên
việc sử dụng PCA và các bộ lọc tương quan đã được đề xuất. Du và cộng sự


15

đã trình bày một phương pháp chuyển đổi dựa trên wavelet. Mô hình Local
Binary Pattern (LBP) đã thu hút nhiều sự chú ý kể từ lần đầu tiên được đề
xuất bởi Ojala. Một số nghiên cứu khác cũng có đóng góp tương ứng cho mô
hình này, ví dụ như LBP đa phân giải được trình bày ở những khu vực có kích
thước khác nhau được xem xét để xử lý các kết cấu ở các quy mô khác nhau
và LBP đồng nhất, có đặc tính tối đa là 0-1 hoặc 1-0 chuyển tiếp, để đại diện
tốt hơn các thông tin cấu trúc cơ bản như cạnh và góc. Zhang và cộng sự đề
xuất để kết hợp LBP với Gabor. Mô hình Local ternary pattern (LTP) đã
được Tan và Triggs đề xuất, cũng là một sự mở rộng của LBP. Gần đây,
Georghiades đưa ra một phương pháp hiệu quả để xử lý biến thể chiếu sáng
được trình bày bằng cách sử dụng hình nón chiếu sáng. Phương pháp này
cũng được đề cập đến điều kiện ánh sáng bóng tối và nhiều ánh sáng dựa trên
cơ sở tuyến tính không gian 3D. Vấn đề chính của phương pháp này là tập
huấn luyện đòi hỏi phải có hơn 3 hình ảnh liên kết cho mỗi người.
1.4.4.2 Đặt ra các vấn đề tiếp cận
Đặt ra các vấn đề là một yếu tố quan trọng nhất cho hệ thống nhận
dạng khuôn mặt. Các phương pháp tiếp cận hiện tại có thể được chia thành
ba nhóm:
 Phương pháp tiếp cận nhiều hình ảnh.
 Phương pháp tiếp cận lai.
 Phương pháp tiếp cận dựa trên hình ảnh đơn.
Trong phương pháp tiếp cận nhiều hình ảnh, các phương pháp dựa vào
bề mặt hình chiếu và hình chiếu 3D đã được đề xuất để giải quyết vấn đề
chiếu sáng. Các phương pháp tiếp cận lai có thể là giải pháp thực tiễn nhất
hiện nay, bao gồm phương pháp dựa trên lớp tuyến tính, nó dựa trên giả thiết
các lớp đối tượng tuyến tính và mở rộng tuyến tính đến các hình ảnh, phương


16

pháp kết hợp đồ thị với EBGM và phương pháp view-based eigenface bằng
cách xây dựng các vị trí riêng cho mỗi đặc điểm. Phương pháp thứ ba đã được
đề xuất nhưng rất khó để áp dụng hiện nay do chi phí tính toán cao và phức
tạp cao.
Các phương pháp AAM mới trong hội nghị The IEEE International
Conference on Automatic Face and Gesture Recognition đã đề xuất để xử lý
cả hai cách đặt ra và các biểu hiện khác nhau. Trong năm 2004, các phương
pháp Eigen light-fields và phương pháp Fisher light-fields đã được đề xuất
để nhận dạng khuôn mặt không thay đổi. Một phương pháp dựa theo mô
hình 3D của toàn bộ đầu nhằm khai thác các tính năng như kiểu tóc, xử lý
những thay đổi lớn trong việc theo dõi đầu và nhận dạng khuôn mặt bằng
video được trình bày bởi M. Everingham và A. Zisserman. Tính toán sự
khác biệt của Kullback-Leibler giữa việc kiểm tra bộ ảnh và học được mật
độ đa dạng. O. Arandjelovic và cộng sự đã đưa ra học đa dạng hóa các biến
thể khuôn mặt để nhận biết khuôn mặt trong video. Trong nghiên cứu này,
họ đã đạt được khả năng nhận dạng tốt của mình bằng cách phân chia từng
diện mạo thành các cụm Gaussian, so sánh các cụm tương ứng và kết hợp
các kết quả bằng mạng RBF.
1.4.4.3 Nghiên cứu 3D
Nhận dạng khuôn mặt dựa trên 3D là một chủ đề nghiên cứu nóng hiện
nay. Các phương pháp này có thể được chia thành ba hướng chính đó là:
 Dựa trên hình ảnh 2D
 Dựa trên hình ảnh 3D
 Các hệ thống đa phương thức.
Sự khác nhau giữa các hướng này đó là: hướng đầu tiên bao gồm các
phương pháp tiếp cận sử dụng các hình ảnh 2D và mô hình khuôn mặt 3D


17

chung để cải thiện tính chính xác và tỷ lệ công nhận. Đối với phương pháp
thứ hai, các phương pháp này làm việc trực tiếp trên bộ dữ liệu 3D. Trong khi
nhóm phương pháp cuối cùng là những người sử dụng cả thông tin 2D và 3D.
Một ví dụ được đưa ra bởi Blanz và Vetter đề xuất một phương pháp để tạo
mô hình mặt 3D từ một hình ảnh duy nhất. Zhang và Cohen đã biến đổi mô
hình chung 3D từ hình ảnh đa góc nhìn bằng cách sử dụng một đa thức bậc
ba. Tuy nhiên, vẫn có thể nghi ngờ rằng việc tái tạo khuôn mặt 3D từ một
hình ảnh đơn hoặc hình ảnh có nhiều lần xem có thể được xem là chưa đủ tốt
để nhận dạng. Kể từ năm 2000, nhiều phương pháp tiếp cận đa dạng hơn và
nhiều hơn nữa đã được đề xuất để cải thiện hiệu suất nhận dạng khuôn mặt.
Dalong Jiang và những người khác đã đưa ra một phương pháp tái tạo khuôn
mặt tích hợp 2D-to-3D hiệu quả và hoàn toàn theo phương pháp phân tích
theo tổng hợp. Hình dạng khuôn mặt 3D được xây dựng lại theo các điểm đặc
trưng và cơ sở dữ liệu mặt 3D. Sau đó, mô hình khuôn mặt đã được ánh xạ kết
cấu bằng cách chiếu hình ảnh đầu vào 2D vào khuôn mặt 3D. Tác giả tổng
hợp các mẫu ảo với PIE biến thể để đại diện cho không gian hình ảnh khuôn
mặt 2D. Sotiris Malassiotis đưa ra hệ thống được dựa trên thời gian thực bán
đồng thời màu sắc và thu nhận hình ảnh 3D được dựa trên phương pháp tiếp
cận cấu trúc ánh sáng màu. Thông tin 3D đã làm cho phân đoạn và phát hiện
đơn giản với hỗn hợp của Gaussians giả định. Các tham số được ước tính
bằng thuật toán Expectation Maximization. Nó cũng làm cho tư thế và ánh
sáng bù đắp cho nhau, giúp cải thiện nhận dạng khuôn mặt.
1.4.4.4 Độ phân giải thấp
Một vấn đề chúng ta thấy rõ đó là rất khó để nhận ra khuôn mặt của con
người trong các video có độ phân giải thấp. Với việc sử dụng rộng rãi camera
(giám sát, vv), các giải pháp để giải quyết những vấn đề như vậy ngày càng
được chú ý hơn. Hai phương pháp chính là phương pháp Super Resolution và


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×