Tải bản đầy đủ

Nghiên cứu ứng dụng một số kỹ thuật tra cứu ảnh vào thực tế

1

ĐẠI HỌC THÁI NGUYÊN KHOA
CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP BỘ
ĐỀ TÀI:
NGHIÊN CỨU ỨNG DỤNG MỘT SỐ KỸ THUẬT TRA CỨU ẢNH
VÀO THỰC TẾ

Mã số: B2007-TN07-04

Chủ nhiệm đề tài: Ths. Nguyễn Văn Tới

2009

Số hóa bởi Trung tâm Học liệu - ĐHTN

http://www.lrc-tnu.edu.vn/



MỤC LỤC
MỤC LỤC ............................................................................................................................. 2
TÓM TẮT KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ
............................................................................................................................................... 4
SUMMARY........................................................................................................................... 6
CHƢƠNG 1. MỞ ĐẦU ......................................................................................................... 8
CHƢƠNG 2. CÁC VẤN ĐỀ LÝ THUYẾT LIÊN QUAN ................................................. 13
1. Tổng quan về tra cứu ảnh ............................................................................................ 13
1.1. Vấn đề tra cứu ảnh ................................................................................................ 13
1.2. Một số phƣơng pháp tra cứu ảnh .......................................................................... 14
2. Tra cứu ảnh theo nội dung ........................................................................................... 16
2.1. Giới thiệu .............................................................................................................. 16
2.2. Mô hình hệ thống tra cứu ảnh theo nội dung ........................................................ 17
2.3. Các phƣơng pháp mô tả nội dung ảnh .................................................................. 17
2.3.1. Mô tả các đặc điểm màu sắc .......................................................................... 18
2.3.2. Mô tả các đặc điểm hình dạng ....................................................................... 23
2.3.3. Thông tin về không gian ................................................................................ 31
2.4. Đánh giá độ tƣơng tự và xây dựng sơ đồ đánh chỉ số........................................... 32
2.4.1. Đánh giá độ tƣơng tự ..................................................................................... 32
2.4.2. Xây dựng sơ đồ đánh chỉ số........................................................................... 34
2.5. Hiệu năng của hệ thống tra cứu ảnh ..................................................................... 37
CHƢƠNG 3. PHƢƠNG PHÁP ĐỀ XUẤT VÀ HỆ THỐNG THỰC NGHIỆM ............... 40
1. Sử dụng kỹ thuật phân lớp dữ liệu để tính toán các bins màu trong tra cứu ảnh dựa
trên màu sắc [3]................................................................................................................ 40
1.1. Giới thiệu .............................................................................................................. 40
1.2. Kỹ thuật cơ sở tra cứu ảnh dựa trên màu sắc ........................................................ 40
1.3. Một số kỹ thuật tăng cƣờng kỹ thuật cơ sở đã đƣợc đề xuất ................................ 41
1.4. Sử dụng kỹ thuật phân lớp dữ liệu để tính toán các bins màu .............................. 42
1.5. Thực nghiệm ......................................................................................................... 43
1.6. Kết luận và hƣớng nghiên cứu tiếp theo ............................................................... 46
2. Một cách tiếp cận cho CBIR sử dụng thuật toán phân lớp K-Means và đặc trƣng hình
dạng dựa trên đa giác [4] ................................................................................................. 46
2.1. Giới thiệu .............................................................................................................. 46
2.2. Những nghiên cứu liên quan ................................................................................. 47
2.3. Trích rút đặc trƣng ................................................................................................ 47
2.4. Thuật toán phân lớp dữ liệu K-means................................................................... 48


2.5. Đặc trƣng hình dạng ............................................................................................. 49
2.6. Biểu diễn mờ ......................................................................................................... 50


2.7. Thƣớc đo mức độ tƣơng tự giữa các vùng ............................................................ 51
2.8. So sánh các ảnh ..................................................................................................... 52
2.9. Gán trọng số .......................................................................................................... 53
2.10. Thực nghiệm ....................................................................................................... 54
2.11. Kết luận ............................................................................................................... 55
3. Sử dụng đặc tính cục bộ của vùng phục vụ tra cứu ảnh phong cảnh [1] .......... 55
3.1.Giới thiệu ............................................................................................................... 55
3.2.Các nghiên cứu liên quan....................................................................................... 56
3.3. Kỹ thuật tra cứu đề xuất........................................................................................ 57
3.3.1 Lựa chọn các thuộc tính màu .......................................................................... 57
3.3.2 Trích rút và biểu diễn vùng ............................................................................. 58
3.3.3 Tính độ tƣơng tự ............................................................................................. 61
3.4. Kết quả thử nghiệm............................................................................................... 61
3.4.1 Môi trƣờng thử nghiệm................................................................................... 61
3.4.2 Các kết quả...................................................................................................... 61
3.5. Kết luận và hƣớng phát triển ................................................................................ 64
4. Áp dụng thuật toán Octrees cho bƣớc lƣợng tử trong quá trình phân đoạn ảnh màu
bằng thuật toán Jseg [2] ...................................................................................................
65
4.1. Giới thiệu .............................................................................................................. 65
4.2. Cải tiến thuật toán JSEG (Thuật toán O-JSEG).................................................... 65
4.3. Thực nghiệm ......................................................................................................... 67
4.4. Kết luận ................................................................................................................. 67
KẾT QUẢ VÀ THẢO LUẬN ............................................................................................. 69
TÀI LIỆU THAM KHẢO ................................................................................................... 71


TÓM TẮT KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI KHOA HỌC
VÀ CÔNG NGHỆ CẤP BỘ
Tên đề tài: NGHIÊN CỨU ỨNG DỤNG MỘT SỐ KỸ THUẬT TRA

CỨU ẢNH VÀO THỰC TẾ.
Mã số: B2007-TN07-04
Chủ nhiệm đề tài: Ths. Nguyễn Văn Tới
Tel: 0912.847077
Email: nvtoi@ictu.edu.vn
Cơ quan chủ trì đề tài: Khoa Công nghệ thông tin – Đại học Thái Nguyên
Cơ quan và cá nhân phối hợp thực hiện: Viện Công nghệ thông tin
Thời gian thực hiện: 01-2007 đến 12-2009
1.

Mục tiêu:

+ Tìm hiểu, tổng hợp, hệ thống lại các phƣơng pháp, kỹ thuật tra cứu ảnh. Qua đó tạo ra
một tài liệu có hệ thống về tra cứu ảnh.
+ Cải tiến một số phƣơng pháp tra cứu ảnh dựa vào nội dung.
+ Áp dụng một số phƣơng pháp tra cứu ảnh vào thực tế: để xây dựng thử nghiệm một hệ
thống tìm kiếm ảnh.

2.

Nội dung chính

-

Nghiên cứu chuyên đề lý thuyết 1 (Tra cứu ảnh dựa trên màu sắc)

-

Nghiên cứu chuyên đề lý thuyết 2 (Tra cứu ảnh dựa trên hình dạng)

-

Thực hiện chuyên đề nghiên cứu thực nghiệm 1 (Cài đặt thử nghiệm phƣơng

pháp tra cứu ảnh dựa trên màu sắc).
-

Thực hiện chuyên đề nghiên cứu thực nghiệm 2 (Cài đặt thử nghiệm phƣơng

pháp tra cứu ảnh dựa trên hình dạng).


-

Thực hiện chuyên đề nghiên cứu thực nghiệm 3 (Xây dựng chƣơng trình

phần mềm tra cứu ảnh)
3.
-

Kết quả chính đạt đƣợc:
Hoàn thành các chuyên đề nghiên cứu về các vấn đề lý thuyết và thực

nghiệm
-

Đề xuất 01 cải tiến phƣơng pháp tra cứu ảnh dựa trên hình dạng [4]

-

Đề xuất 02 cải tiến phƣơng pháp tra cứu ảnh dựa trên màu sắc [1,3]

-

Đề xuất cải tiến 01 phƣơng pháp phân đoạn ảnh màu [2]

-

Các cải tiến đƣợc công bố trong 02 công trình khoa học tại Tạp chí Khoa

học và công nghệ - Đại học Thái Nguyên [3,4] và một công trình tại Kỷ yếu hội
thảo quốc gia “Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông”
[1].
-

Biên soạn 01 tài liệu tham khảo (lƣu hành nội bộ).

-

Hƣớng dẫn 02 đề tài NCKH sinh viên năm 2009.

-

Hƣớng dẫn 02 đồ án tốt nghiệp năm 2007.


SUMMARY
Project Title: RESEARCH TO APPLY SOME CONTENT BASED IMAGE
RETRIEVAL METHODS TO REALITY.
Code Number: B2007-TN07-04
Coordinator: Msc. Nguyễn Văn Tới
Implementing Institution:
Faculty of Information Technology, Thai Nguyen University
Cooperating Institution(s): Institute of Information Technology (IOIT)
Duration: from Jan, 2007 to Dec, 2008
1.

Objectives:

This project researches the fundamentals of image retrieval. We edit a book
which is named “Image Retrieval”. Then, we improve color based and shape based
image retrieval method. We apply some content based image retrieval method to
develop a CBIR system (Photo Explore).
2.

Main contents:
st

-

Researching the 1 theoretic subject (color based image retrieval)

-

Researching the 2 theoretic subject (shape based image retrieval)

-

Researching the 1

nd

st

experimental subject (implement color based image

nd

experimental subject (implement shape based image

retrieval system).
-

Researching the 2

retrieval system).
-

rd

Researching the 3 theoretic subject (Developing Photo Explore system)


3.

Results Obtained:

-

Completed the theoretic and experimental subjects

-

Improved 01 method of shape based image retrieval

-

Improved 02 methods of color based image retrieval

-

Improved 01 method of color image segmentation

-

The improvings published in proceedings of the national conference and

Thai Nguyen University’s Journal of Science and Technology.
-

Edited “Image retrieval” book. Supervising of 02 scientific research for

student projects (2009) and 02 graduate student thesis (2007).


CHƢƠNG 1. MỞ ĐẦU
Những năm gần đây, ảnh số ngày càng thu hút đƣợc sự quan tâm của nhiều
ngƣời, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cả
phù hợp, cho phép nhiều ngƣời có thể sở hữu và sử dụng. Mặt khác các công nghệ
chế tạo thiết bị lƣu trữ luôn đƣợc cải tiến để cho ra đời các thiết bị lƣu trữ có dung
lƣợng lớn và giá thành hạ làm cho việc lƣu trữ ảnh dƣới dạng các file trở nên phổ
biến. Thêm nữa là sự phát triển của mạng Internet làm cho số lƣợng ảnh số đƣợc
đƣa lên lƣu trữ và trao đổi qua Internet là rất lớn. Năm 2006, trên 300 triệu hình ảnh
đã đƣợc tải lên Flickr, một trong những cộng đồng chia sẻ hình ảnh lớn nhất trên
internet. Con số này cho thấy thực tế là số lƣợng ảnh số đƣợc lƣu giữ trong các cơ
sở dữ liệu đang gia tăng nhanh chóng.
Tuy nhiên khi số lƣợng ảnh đƣợc lƣu trữ trở nên rất lớn thì vấn đề là phải có
những phƣơng pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm
kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt. Việc tìm kiếm
đƣợc một bức ảnh mong muốn trong hàng triệu bức ảnh thuộc đủ loại chủ đề khác
nhau là rất khó khăn. Khi số lƣợng ảnh trong một bộ sƣu tập còn ít, việc nhận diện
một bức ảnh hay việc so sánh sự giống và khác nhau giữa nhiều bức ảnh có thể thực
hiện đƣợc bằng mắt thƣờng, tuy nhiên khi có số lƣợng rất lớn ảnh thì việc so sánh
bằng mắt thƣờng là rất khó khăn, đòi hỏi phải có những phƣơng pháp hiệu quả và
chính xác hơn.
Trong thực tế, bài toán tra cứu ảnh số có rất nhiều ứng dụng quan trọng. Ví dụ
nhƣ trong lĩnh vực ngân hàng việc so sánh chữ ký của khách hàng với mẫu chữ ký
đã đƣợc lƣu trữ sẵn có thể thực hiện rất nhanh và chính xác nếu có đƣợc một phần
mềm so sánh mẫu chữ ký tốt. Thực tế hiện nay tại các ngân hàng ở Việt nam ngƣời
ta vẫn phải sử dụng phƣơng pháp so sánh bằng mắt thƣờng vì việc so sánh chữ ký
bằng phần mềm vẫn chƣa thực hiện đƣợc. Một ví dụ khác là bài toán quản lý biểu
trƣng (logo) trong lĩnh vực sở hữu trí tuệ. Khi một đơn vị muốn đăng ký logo riêng
cho đơn vị của mình thì cơ quan quản lý phải tiến hành đánh giá xem mẫu logo đó
đã đƣợc sử dụng hay chƣa hoặc có tƣơng tự với mẫu logo nào đó đang đƣợc sử
dụng hay không. Trong trƣờng hợp này nếu sử dụng mắt thƣờng để duyệt thì sẽ tốn
rất nhiều thời gian, nếu có các phần mềm cho phép tìm kiếm trong cơ sở dữ liệu ảnh


có sẵn những biểu trƣng tƣơng tự với biểu trƣng mẫu thì việc đánh giá sự tƣơng tự
sẽ dễ dàng hơn nhiều.
Trong lĩnh vực khoa học hình sự, nhu cầu so sánh mẫu vân tay, hay tìm kiếm
ảnh tội phạm đặt ra những bài toán tra cứu ảnh. Giả sử chúng ta tổ chức quản lý
nhân khẩu với thông tin ảnh vân tay của từng ngƣời. Trong một vụ án, nhân viên
điều tra thu thập đƣợc mẫu vân tay trên hiện trƣờng, khi đó ngƣời ta cần tìm xem
mẫu vân tay đó khớp với vân tay của ai trong hàng chục triệu hình ảnh vân tay trong
cơ sở dữ liệu. Nếu có phần mềm thực hiện chính xác, nhanh chóng điều này thì giúp
ích rất nhiều cho công tác điều tra.
Một ví dụ nữa là trong lĩnh vực bảo tồn, bảo tàng, vấn đề lƣu trữ và tra cứu
ảnh số có vai trò ngày càng quan trọng. Ảnh của các tác phẩm hội hoạ, điêu khắc
hoặc các cổ vật đƣợc lƣu trữ dƣới dạng các file ảnh sẽ đảm bảo đƣợc chất lƣợng tốt
hơn, thời gian lƣu trữ lâu dài hơn và việc trao đổi hay giới thiệu với công chúng
cũng dễ dàng hơn. Bài toán tra cứu cổ vật xuất phát từ một thực tế của ngành bảo
tồn, bảo tàng là khi sƣu tầm đƣợc một cổ vật mới, ngƣời ta cần xác định hàng loạt
các thuộc tính nhƣ niên đại, chất liệu, nguồn gốc và có thể là chủ sở hữu của cổ vật
đó. Nếu có đƣợc sự trợ giúp của phần mềm tra cứu ảnh phù hợp thì ngƣời ta có thể
dễ dàng xác định xem mẫu cổ vật đó đã đƣợc lƣu trữ trong cơ sở dữ liệu nào hay
chƣa, có những loại cổ vật nào tƣơng tự với nó trong kho tàng cổ vật của thế giới và
phần mềm có thể đƣa ra ảnh của các loại cổ vật có màu sắc, hình dạng, hoa văn
tƣơng tự với cổ vật vừa tìm thấy. Những thông tin này sẽ giúp ích rất nhiều cho các
chuyên gia trong quá trình phân loại, kiểm chứng một cổ vật.
Đã có một số hệ thống tra cứu ảnh nổi tiếng nhƣ QBIC (IBM), Virage (Virage
Inc.), Photobook (MIT), VisualSEEK (Columbia University)... [21, 41, 36, 13, 16].
Trƣớc năm 1990, ngƣời ta thƣờng sử dụng phƣơng pháp tra cứu ảnh theo văn
bản (Text Based Image Retrieval). Theo cách này ngƣời ta sẽ gán cho mỗi bức ảnh
một lời chú thích phù hợp với nội dung hoặc một đặc điểm nào đó của ảnh, sau đó
việc tra cứu ảnh đƣợc thực hiện dựa trên những lời chú thích này. Phƣơng pháp này
khá đơn giản, tuy nhiên lại không thể áp dụng để tra cứu các cơ sở dữ liệu ảnh có số
lƣợng ảnh lớn và kết quả tra cứu thì mang tính chủ quan và cảm ngữ cảnh [21,5].
Bởi vì các kỹ thuật tra cứu dựa trên văn bản chỉ có thể đƣợc áp dụng khi hình ảnh đã
đƣợc


mô tả. Việc tự động hiểu nội dung một bức tranh theo cách của con ngƣời là một
công việc rất khó. Vấn đề này đƣợc gọi là lỗ hổng ngữ nghĩa (semantic gap)[56].
Một trong những phƣơng pháp đƣợc nhiều ngƣời quan tâm nghiên cứu hiện
nay là phƣơng pháp “Tra cứu ảnh dựa theo nội dung” (Content Based Image
Retrieval). Ý tƣởng phƣơng pháp này là trích chọn các đặc điểm dựa vào nội dung
trực quan của ảnh nhƣ màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để
làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh [21, 41, 8].
Đề tài này tập trung nghiên cứu phƣơng pháp tra cứu ảnh dựa trên màu sắc và tra
cứu ảnh dựa trên hình dạng. Phần còn lại trong chƣơng này, chúng tôi giới thiệu một số
nghiên cứu liên quan và hƣớng nghiên cứu của chúng tôi. Cuối chƣơng, chúng tôi giới
thiệu về các cộng tác viên và đóng góp của họ.
Kỹ thuật tra cứu ảnh trên cơ sở màu cơ bản có nhiều hạn chế. Hạn chế thứ nhất của
kỹ thuật cơ sở là không sử dụng tính tƣơng đồng giữa các màu. Khi đó, hai ảnh với màu
cảm nhận tƣơng đồng nhƣng không có màu chung thì khoảng cách của chúng sẽ lớn, có thể
là cực đại. Với hạn chế thứ nhất này, một số tác giả đã đƣa ra những cách khắc phục nhƣ:
Niblack [26] đƣa ra thƣớc đo mức độ giống nhau trong đó quan tâm đến đóng góp các màu
cảm nhận tƣơng tự. Chan [12] đề xuất kỹ thuật tính toán khoảng cách màu trong đó các giá
trị biểu đồ màu đƣợc điều chỉnh trên cơ sở mức độ tƣơng tự màu. Lu và Phillips [24] đƣa
ra hƣớng tiếp cận sử dụng biểu đồ trọng số cảm nhận (PWH – perceptually weighted
histogram). Hạn chế thứ hai là không sử dụng quan hệ không gian giữa các pixel. Để giải
quyết vấn đề này, Lu và Phillips [24] đƣa ra hƣớng tiếp cận là tách màu nền khỏi màu cận
cảnh (phân đoạn ảnh) sau đó biểu đồ màu nền và biểu đồ màu cận cảnh đƣợc tính toán và
sử dụng. Hạn chế thứ ba là không gian màu lựa chọn đƣợc lƣợng tử hóa đồng nhất mặc dù
các màu điểm ảnh không phân bổ đồng nhất trong không gian màu. Wan và Kuo [52] đƣa
ra giải pháp lƣợng tử hóa màu không đồng nhất. Để khắc phục những nhƣợc điểm của
phƣơng pháp cơ sở, hƣớng tiếp cận lựa chọn không gian màu thích hợp cũng đã đƣợc
đề cập. Trong đề tài này, chúng tôi đƣa ra một hƣớng tiếp cận khác nhằm khắc phục hạn
chế thứ nhất và hạn chế thứ ba nêu trên của kỹ thuật cơ sở. Hƣớng tiếp cận mà chúng tôi
đƣa ra là cải tiến việc tính toán các bins màu bằng cách sử dụng kỹ thuật phân lớp dữ liệu.

Nhƣ đã trình bày trên đây, kỹ thuật tra cứu cơ sở dựa trên lƣợc đồ màu chƣa
tận dụng đƣợc các đặc tính cục bộ của vùng của ảnh nhƣ màu và không gian. Đề tài


này còn đề cập đến kỹ thuật tra cứu ảnh dựa vào các đặc tính cục bộ của vùng áp
dụng trong tra cứu các ảnh phong cảnh. Trong [32] đã phát triển kỹ thuật đối sánh
cặp màu để mô hình các đƣờng bao đối tƣợng phân biệt. Chua và cộng sự [16] đã
mở rộng kỹ thuật cặp màu để thực hiện tra cứu các ảnh đã đƣợc phân đoạn. Các hạn
chế trong nhiều kỹ thuật tra cứu dựa vào màu hiện có [32-30] bao gồm: thiếu khả
năng nhận dạng các đối tƣợng tƣơng tự có các màu khác nhau, nhạy cảm với tỷ lệ
của đối tƣợng. Chúng tôi đƣa ra kỹ thuật tra cứu ảnh dựa vào các đặc tính cục bộ
của vùng bao gồm màu và không gian áp dụng trong tra cứu các ảnh phong cảnh.
Kỹ thuật này nhằm khắc phục các hạn chế đã đƣợc đề cập ở trên thông qua một quá
trình ba bƣớc: Phân đoạn ảnh thành các cụm dựa vào màu (sử dụng thuật toán phân
lớp dữ liệu K-Means); Chia các ảnh thành dãy các hình chữ nhật bằng phƣơng pháp
phủ hình chữ nhật tối thiểu có độ thuần nhất; Cuối cùng, thông tin của vùng đƣợc
trích rút trong bƣớc thứ hai đƣợc sử dụng để tra cứu các ảnh liên quan từ một cơ sở
dữ liệu ảnh phong cảnh.
Với phƣơng pháp tra cứu ảnh dựa trên hình dạng, có nhiều nhóm nghiên cứu đã
đƣa ra những phƣơng pháp biểu diễn đặc trƣng hình dạng và thƣớc đo độ tƣơng tự
khác nhau. Yxin Chen [57] đƣa ra phƣơng pháp tiếp cận dựa trên hình dạng sử dụng logic
mờ. Đầu tiên, ảnh đƣợc phân đoạn thành một tập các vùng. Mỗi vùng đƣợc biểu diễn bởi
một tập mờ. Khoảng cách giữa hai ảnh đƣợc tính toán dựa trên việc so sánh khoảng cách
giữa tất cả các cặp vùng của 2 ảnh kết hợp với gán trọng số cho mỗi vùng. Cheng Chang
[15] đƣa ra phƣơng pháp biểu diễn đặc trƣng của vùng bởi một vector 15 chiều bao
gồm các thành phần màu đặc trƣng của vùng và các đặc trƣng hình dạng. Trong đề tài này,
với mục đích đơn giản hóa quá trình tính toán, chúng tôi đƣa ra hƣớng tiếp cận kết hợp hai
phƣơng pháp trên đồng thời đƣa ra cải tiến cách biểu diễn vector đặc trƣng của một
vùng theo ý tƣởng của Cheng Chang nhƣng chỉ sử dụng 6 thành phần (3 thành phần đặc
trƣng màu sắc và 3 thành phần đặc trƣng hình dạng); hình dạng các vùng đƣợc xấp xỉ bởi
đa giác. Đa giác biểu diễn hình dạng các vùng đƣợc xác định theo cách hoạt động của
radar.
Trong quá trình tra cứu ảnh dựa trên hình dạng có bƣớc phân đoạn. Thuật toán
phân đoạn ảnh màu JSEG [54] do 3 giáo sƣ của trƣờng đại học California là Yining Deng,
B. S. Manjunath và Hyundoo Shin xây dựng. Thuật toán JSEG đƣợc đề xuất và thử nghiệm
với sự kết hợp cùng thuật toán lƣợng tử bằng cách làm mịn và sử dụng trọng số (Peer
group filtering and perceptual color image – PGF and PCI [55]) cho kết quả tƣơng đối tốt.


Tuy nhiên, thuật toán này còn một số hạn chế khi làm việc với các ảnh thiên nhiên. Chúng
tôi đề xuất cải tiến thuật toán JSEG theo hƣớng kết hợp giữa JSEG và thuật toán lƣợng tử
OCTREES [22]. Cải tiến này cũng nhằm giảm khối lƣợng tính toán sau bƣớc lƣợng tử hoá.

Chúng tôi hoàn thành đề tài này có sự tham gia của một số cộng tác viên :
Nguyễn Thị Thu Hiền-sinh viên lớp K1C-Khoa Công nghệ thông tin trong quá
trình làm đồ án đã tham gia nghiên cứu cải tiến và cài đặt thử nghiệm một phƣơng
pháp phân đoạn ảnh màu; NCS Nguyễn Hữu Quỳnh – Trƣờng ĐH Điện lực (do
PGS, TS Ngô Quốc Tạo hƣớng dẫn) đã tham gia vào việc nghiên cứu sử dụng các
đặc trƣng cục bộ của vùng phục vụ tra cứu ảnh phong cảnh; sinh viên thực tập
Dominic Mai đã tham gia nghiên cứu cải tiến và triển khai cài đặt thử nghiệm
hƣớng tiếp cận tra cứu ảnh dựa vào hình dạng; nhóm sinh viên Đồng Văn Thái,
Nguyễn Thị Thanh Mai lớp K4B đã và đang phát triển phần mềm tra cứu ảnh trong
nội dung thực hiện đề tài NCKH sinh viên năm 2009 trên cơ sở các kết quả nghiên
cứu của đề tài này.


CHƢƠNG 2. CÁC VẤN ĐỀ LÝ THUYẾT LIÊN QUAN
1. Tổng quan về tra cứu ảnh
1.1. Vấn đề tra cứu ảnh
Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những ảnh
thoả mãn một yêu cầu nào đó. Ví dụ, ngƣời sử dụng có thể tìm kiếm tất cả các ảnh
về chủ đề về biển trong một cơ sở dữ liệu ảnh hoặc một ngƣời sử dụng khác lại
muốn phân loại cơ sở ảnh của mình thành các bộ sƣu tập có chủ đề khác nhau. Một
ví dụ khác về tra cứu ảnh là một ngƣời muốn tìm tất cả các ảnh tƣơng tự với một
bức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh.

?
Holiday?

Hình 2.1: Vấn đề tra cứu ảnh
Vấn đề tra cứu ảnh đã đƣợc nhìn nhận rộng rãi và việc tìm kiếm các giải pháp
cho vấn đề này trở thành một lĩnh vực rất sôi động, thu hút sự quan tâm của nhiều
nhà nghiên cứu và phát triển.
Những kỹ thuật tra cứu ảnh số đã đƣợc nghiên cứu từ cuối những năm 70 của
thế kỷ 20. Năm 1979 một cuộc hội thảo chuyên đề về "Các kỹ thuật tổ chức cơ sở
dữ liệu cho các ứng dụng đồ hoạ" đƣợc tổ chức ở thành phố Florence, Italia. Từ đó


đến nay, khả năng ứng dụng cao của các kỹ thuật quản lý cơ sở dữ liệu ảnh đã thu
hút sự quan tâm của nhiều nhà nghiên cứu [21,5].

1.2. Một số phƣơng pháp tra cứu ảnh
Các phƣơng pháp tra cứu ảnh đƣợc sử dụng đầu tiên không dựa trên các đặc
điểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh, đầu tiên
ngƣời ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa trên một đặc điểm
nào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản thông thƣờng để tìm
kiếm ảnh.
Phƣơng pháp tra cứu ảnh dựa trên văn bản nhƣ trên sử dụng các kỹ thuật cơ sở
dữ liệu truyền thống để quản lý ảnh. Dựa vào các lời chú thích, ngƣời ta có thể tổ
chức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữ nghĩa và việc
duyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool thông thƣờng. Phƣơng
pháp tra cứu ảnh dựa trên chú thích nhƣ trên còn đƣợc gọi là tra cứu ảnh theo từ
khoá. Do việc xây dựng các thuật toán có khả năng tự động sinh ra các chú thích
cho một cơ sở dữ liệu ảnh có nhiều chủ đề là hết sức khó khăn nên nói chung các hệ
thống tra cứu ảnh kiểu này vẫn yêu cầu phải chú thích ảnh một cách thủ công và
trên thực tế việc chú thích ảnh nhƣ vậy tốn rất nhiều công sức và quan trọng hơn là
nó mang tính chủ quan, bị ảnh hƣởng của hoàn cảnh và thƣờng là không đầy đủ [21,
20, 39].
Phƣơng pháp tra cứu ảnh theo nội dung ra đời đã khắc phục đƣợc những
nhƣợc điểm của phƣơng pháp từ khoá. Nội dung chính của phƣơng pháp này là dựa
trên sự tƣơng tự của những đặc điểm trực quan của ảnh nhƣ màu sắc, hình dạng, kết
cấu hay bố cục không gian của ảnh để phân loại, sắp xếp các ảnh trong một cơ sở
dữ liệu ảnh. Tuy nhiên những đặc điểm mà phƣơng pháp này trích chọn để tra cứu
vẫn là những đặc điểm ở mức thấp, chƣa phản ánh đƣợc nội dung mang tính ngữ
nghĩa của một đối tƣợng ảnh. Vì vậy ngƣời ta đã đƣa ra một số cách tiếp cận mới
phát triển phƣơng pháp tra cứu ảnh theo nội dung thành các phƣơng pháp tra cứu
ảnh theo đồ thị [39] hay tra cứu ảnh theo bản thể [20]...
Đầu những năm 1990, do sự phát triển của Internet và các công nghệ ảnh số
tiên tiến, số lƣợng ảnh số trong các lĩnh vực khoa học, giáo dục, y tế, công nghiệp...
đƣợc tung ra cho ngƣời sử dụng truy cập tăng lên một cách nhanh chóng. Điều này
làm cho những khó khăn của các hệ thống tra cứu ảnh dựa theo văn bản càng thêm
khó giải quyết. Sự cần thiết phải có một hệ thống quản lý hiệu quả các thông tin


trực quan là vô cùng cấp bách. Nhu cầu đó chính là động lực thúc đẩy các nhà


nghiên cứu vào cuộc mạnh mẽ hơn và cũng là nguyên nhân dẫn đến sự ra đời của
phƣơng pháp tra cứu ảnh theo nội dung.
Năm 1992, Quỹ Khoa học Quốc gia (National Science Foundation) của Hoa
Kỳ đã tổ chức một buổi Hội thảo về các hệ thống quản lý thông tin trực quan để xác
định hƣớng đi mới cho các hệ thống quản lý cơ sở dữ liệu ảnh. Tại buổi hội thảo này
ngƣời ra phải công nhận với nhau rằng cách hiệu quả nhất để thể hiện và sắp xếp các
thông tin trực quan của một bức ảnh là phải dựa trên các thuộc tính đƣợc trích chọn
từ chính những bức ảnh đó. Tất cả các nhà nghiên cứu từ các lĩnh vực khác nhau nhƣ
thị giác máy tính (computer vision), quản lý cơ sở dữ liệu, giao diện ngƣời-máy và
tra cứu thông tin đã nhận thấy đây là một lĩnh vực nghiên cứu hấp dẫn [21,5].
Từ đó đến nay, những công trình nghiên cứu về tra cứu ảnh theo nội dung
đƣợc triển khai rất nhiều [38]. Từ năm 1997 những kết quả nghiên cứu về tra cứu
ảnh theo nội dung nhƣ các kỹ thuật trích chọn thông tin trực quan, tổ chức, sắp xếp,
thiết kế truy vấn, tƣơng tác với ngƣời dùng, quản lý cơ sở dữ liệu... đƣợc công bố
ngày một nhiều[38]. Tƣơng tự nhƣ vậy, một số lƣợng lớn các mô hình nghiên cứu
cũng nhƣ sản phẩm thƣơng mại các hệ thống tra cứu ảnh theo nội dung đã đƣợc các
trƣờng đại học, các cơ quan nghiên cứu và các công ty tin học cho ra đời[38].
Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu:
o

QBIC hay Query By Image Content do hãng IBM và Trung tâm

nghiên cứu Almaden hợp tác phát triển. Hệ thống này cho phép ngƣời sử
dụng dùng các công cụ đồ hoạ để mô tả và hiệu chỉnh truy vấn dựa trên
nhiều thuộc tính trực quan nhƣ màu sắc, kết cấu và hình dạng của đối tƣợng
ảnh. QBIC hỗ trợ các kiểu truy vấn dựa trên ảnh mẫu, dựa trên hình phác
thảo hoặc dựa trên các mẫu màu hoặc mẫu kết cấu [17].
o

VIR Image Engine do Công ty Virage Inc. phát triển, cũng giống

nhƣ QBIC, hệ thống này cho phép tra cứu ảnh dựa trên các thuộc tính màu
sắc, kết cấu và cấu trúc [17].
o

VisualSEEK và WebSEEK do trƣờng Đại học Tổng hợp Columbia

(Mỹ) phát triển. Cả hai hệ thống này đều hỗ trợ các cách tìm kiếm theo màu
sắc, kết cấu và bố cục không gian [17].


o

NeTra do trƣờng Đại học Tổng hợp California (Mỹ) phát triển. Hệ

thống này hỗ trợ tìm kiếm theo màu sắc, hình dạng, bố cục không gian và kết
cấu cũng nhƣ theo sự phân mảnh của ảnh [17].
o

MARS hay Multimedia Analysis and Retrieval System do trƣờng Đại

học Tổng hợp Illinois phát triển, hỗ trợ tìm kiếm theo màu sắc, bố cục không
gian, kết cấu và hình dạng [17].
o Viper hay Visual Information Processing for Enhanced Retrieval do
trƣờng Đại học Geneva phát triển, tìm kiếm theo màu sắc và kết cấu [17].
Ngoài ra ngƣời ta còn giới thiệu nhiều phƣơng pháp tra cứu ảnh khác nhƣ tra
cứu ảnh theo nhận thức (Perception based image retrieval), tra cứu ảnh theo phân
đoạn (Segment based image retrieval), tra cứu ảnh theo đồ thị (Graph based image
retrieval), tra cứu ảnh theo bản thể (Ontology based image retrieval)...Tuy nhiên
phần lớn trong số các phƣơng pháp đó lại sử dụng các nguyên tắc cơ bản của tra
cứu ảnh theo nội dung.

2. Tra cứu ảnh theo nội dung
2.1. Giới thiệu
Phƣơng pháp tra cứu ảnh theo nội dung (Content-Based Image Retrieval) sử
dụng các nội dung trực quan của ảnh nhƣ màu sắc, hình dạng, kết cấu (texture) và
phân bố không gian để thể hiện và đánh chỉ số các ảnh [21, 41, 36, 12]. Trong một
hệ thống tra cứu ảnh theo nội dung điển hình (hình 2.2), các nội dung trực quan của
ảnh đƣợc trích chọn và mô tả bằng những vector đặc trƣng nhiều chiều. Tập hợp các
vector đặc trƣng của các ảnh trong một cơ sở dữ liệu ảnh tạo thành cơ sở dữ liệu đặc
trƣng. Quá trình tra cứu ảnh đƣợc tiến hành nhƣ sau: ngƣời sử dụng cung cấp cho
hệ thống tra cứu một ảnh mẫu cụ thể hoặc hình vẽ phác thảo của đối tƣợng ảnh cần
tìm. Sau đó hệ thống sẽ chuyển những mẫu này thành các vector đặc trƣng và tính
toán sự giống nhau (hay độ tƣơng tự) giữa vector đặc trƣng của ảnh mẫu và vector
đặc trƣng của các ảnh trong cơ sở dữ liệu. Sau cùng việc tra cứu đƣợc tiến hành với
sự trợ giúp của các sơ đồ đánh chỉ số. Sử dụng sơ đồ đánh chỉ số là cách hiệu quả để
tìm kiếm trong các cơ sở dữ liệu ảnh. Một số hệ thống tra cứu ảnh mới phát triển
gần đây còn tích hợp cả chức năng xử lý phản hồi của ngƣời sử dụng để cải tiến các
qui trình tra cứu, đƣa ra những kết quả tra cứu tốt hơn.


2.2. Mô hình hệ thống tra cứu ảnh theo nội dung
Phản hồi
thích hợp
Người
sử
dụng
Tạo truy vấn

Cơ sở dữ liệu
ảnh

Mô tả nội
dung trực
quan
Mô tả
nội dung

Các vector
đặc trƣng
Đánh giá độ
tƣơng tự
Cơ sở dữ liệu
đặc trƣng
Tra cứu và
đánh chỉ số

Đầu ra

Kết quả tra
cứu

Hình 2.2: Mô hình hệ thống Tra cứu ảnh theo nội dung

Trong mô hình này, ngƣời sử dụng sẽ tạo truy vấn bằng cách chọn một ảnh
mẫu trong một cơ sở dữ liệu ảnh cho trƣớc hoặc phác thảo một hình vẽ mô tả đối
tƣợng ảnh cần tìm bằng cách sử dụng một giao diện đồ hoạ của hệ thống. Ảnh mẫu
đó đƣợc đƣa qua khối mô tả nội dung trực quan, trong đó ngƣời ta sử dụng một
phƣơng pháp mô tả nội dung trực quan nào đó để trích chọn một đặc điểm nội dung
trực quan để xây dựng thành một vector đặc trƣng. Vector đặc trƣng của ảnh mẫu sẽ
đƣợc so sánh với vector đặc trƣng tƣơng ứng của các ảnh trong cơ sở dữ liệu ảnh.
Kết quả của phép so sánh là một chỉ số đánh giá độ tƣơng tự giữa ảnh mẫu và ảnh
lấy ra để so sánh. Dựa vào chỉ số độ tƣơng tự tính toán đƣợc ở trên, hệ thống sẽ sắp
xếp các ảnh tìm đƣợc trong cơ sở dữ liệu ảnh theo một sơ đồ đánh chỉ số nào đó.
Danh sách các ảnh tìm đƣợc (đã đƣợc sắp xếp) đƣợc đƣa ra đầu ra của hệ thống.

2.3. Các phƣơng pháp mô tả nội dung ảnh
Nếu nhìn một cách tổng quát thì nội dung của một bức ảnh có thể bao gồm cả
nội dung trực quan và nội dung ngữ nghĩa [21,5]. Nội dung trực quan của ảnh lại
đƣợc phân làm hai loại là nội dung tổng quan và nội dung đặc tả. Nội dung tổng
quan bao gồm màu sắc, kết cấu, hình dạng và các quan hệ không gian giữa các đối


tƣợng ảnh hoặc giữa các vùng ảnh. Nội dung đặc tả thì tuỳ vào từng ứng dụng cụ
thể, ví dụ với các ứng dụng tra cứu ảnh ngƣời thì mặt ngƣời hoặc con mắt là các nội
dung đặc tả; với các ứng dụng tra cứu ảnh ô tô thì bánh xe là một nội dung đặc tả
[21,5]. Nội dung ngữ nghĩa có thể phát hiện thông qua các chú thích hoặc sử dụng
các phƣơng pháp suy diễn từ nội dung trực quan.
Một phƣơng pháp mô tả nội dung trực quan đƣợc thiết kế tốt phải có tính bất
biến đối với các biến đổi bất thƣờng sinh ra trong quá trình xử lý ảnh (ví dụ nhƣ
những biến đổi bất thƣờng của độ sáng của cảnh vật). Tuy nhiên cũng cần phải chú
ý tới sự cân bằng giữa tính bất biến và khả năng đáp ứng những thay đổi tuỳ ý của
các đặc trƣng trực quan của ảnh, bởi vì một hệ thống có tính bất biến lớn thì thƣờng
là không có tính nhạy cảm, mất khả năng phản ánh những thay đổi nhỏ nhƣng rất
quan trọng.
Phƣơng pháp mô tả nội dung trực quan đƣợc chia làm 2 loại: phƣơng pháp
toàn cục hoặc phƣơng pháp cục bộ. Phƣơng pháp mô tả nội dung toàn cục sử dụng
các đặc trƣng trực quan của toàn bộ bức ảnh còn phƣơng pháp mô tả nội dung cục
bộ lại sử dụng những đặc trƣng trực quan của các vùng ảnh hoặc các đối tƣợng ảnh
để mô tả nội dung của ảnh.
Để mô tả đƣợc nội dung cục bộ trƣớc hết ngƣời ta phải chia ảnh thành các
phần riêng biệt. Cách đơn giản nhất để phân chia ảnh là sử dụng một bộ phân hoạch
chia ảnh thành các ô có kích thƣớc và hình dạng giống nhau. Cách phân chia nhƣ
vậy không tạo ra đƣợc những vùng ảnh có ý nghĩa thực sự nhƣng nó là cách đơn
giản để biểu diễn nội dung toàn cục của ảnh với độ chính xác cao hơn. Một phƣơng
pháp phân chia tốt hơn là phân đoạn ảnh thành các vùng đồng nhất dựa vào các tiêu
chí sử dụng các thuật toán phân đoạn ảnh đã đƣợc nghiên cứu và áp dụng trong
ngành thị giác máy tính. Một cách phức tạp hơn để phân chia ảnh là thực hiện phân
chia theo các đối tƣợng ảnh để tách ra các đối tƣợng ảnh có nghĩa thực sự (nhƣ quả
bóng, cái ô tô hay con ngựa) [21, 8].

2.3.1. Mô tả các đặc điểm màu sắc
Trên thực tế thì màu sắc đƣợc sử dụng nhiều nhất để mô tả nội dung trực quan
của ảnh. Lý do là vì màu sắc của ảnh có tác động lớn đến nhận thức của con ngƣời
về nội dung của ảnh hơn là các đặc điểm khác nhƣ hình dạng của các đối tƣợng ảnh,
kết cấu của ảnh hay sự phân bố không gian của các đối tƣợng ảnh.


2.3.1.1. Không gian màu
Giá trị của mỗi điểm ảnh trên một bức ảnh có thể đƣợc biểu diễn bằng một
vector trong một không gian màu 3 chiều. Những không gian màu đƣợc sử dụng
nhiều nhất trong các hệ thống tra cứu ảnh là RGB, CIE L*a*b, CIE L*u*v, HSV và
không gian màu đối lập. Ngƣời ta cũng chƣa chỉ ra đƣợc rằng không gian màu nào
đƣợc sử dụng tốt hơn cho việc tra cứu ảnh. Tuy nhiên tính chất quan trọng nhất để
một không gian màu phù hợp để sử dụng trong một hệ thống tra cứu ảnh là tính
đồng nhất. Một không gian màu đƣợc gọi là có tính đồng nhất nếu các cặp 2 màu
tƣơng tự nhau trong không gian màu thì cũng đƣợc con ngƣời cảm nhận nhƣ nhau.
Nói một cách khác, khoảng cách đo đƣợc giữa hai màu bất kỳ phải có liên quan trực
tiếp với độ tƣơng tự sinh học giữa hai màu đó.
RGB là không gian màu đƣợc sử dụng phổ biến nhất để hiển thị ảnh. Không
gian RGB bao gồm 3 thành phần màu là Red, Green và Blue.
CMY là không gian màu thƣờng sử dụng trong in ấn. Ba thành phần màu của
không gian CMY là màu Cyan, Magenta và Yellow.
Cả RGB và CMY đều phụ thuộc thiết bị và không có tính đồng nhất.
Các không gian màu CIE L*a*b và CIE L*u*v là các không gian màu không
phụ thuộc thiết bị và có thể coi là đồng nhất. Bao gồm các thành phần độ sáng (L)
và hai thành phần độ kết tủa màu (sắc độ màu) là a và b hoặc u và v. CIE L*a*b
đƣợc thiết kế để làm việc với việc trộn các thành phần màu trừ còn CIE L*u*v đƣợc
thiết kế để làm việc với việc trộn các thành phần màu cộng. Các không gian màu
RGB và CIE có thể chuyển đổi với nhau, tức là chúng ta có thể sử dụng các công
thức để chuyển đổi một giá trị màu từ không gian màu này sang không gian màu
khác. Không gian màu HSV đƣợc sử dụng rộng rãi trong đồ hoạ máy tính và đƣợc
coi là một phƣơng pháp biểu diễn màu sắc trực quan hơn. Ba thành phần màu là sắc
màu (hue), độ bão hoà màu (s) và giá trị độ sáng (v). Thành phần sắc màu không
thay đổi khi ta thay đổi độ chiếu sáng hay góc quan sát vì vậy thích hợp để sử dụng
trong việc nhận dạng đối tƣợng ảnh. Cũng có thể dễ dàng chuyển đổi các giá trị từ
không gian HSV sang RGB và ngƣợc lại. Không gian màu đối lập sử dụng các trục
màu ngƣợc (R-G, 2B-R-G, R+G+B), cách biểu diễn này có ƣu điểm là tách đƣợc
thông tin về độ sáng ra một trục riêng biệt (trục thứ ba). Bằng cách này, hai thành
phần kết tủa màu sẽ không bị thay đổi khi thay đổi độ chiếu sáng.


2.3.1.2. Các moment màu
Các moment màu đã đƣợc sử dụng rất thành công trong nhiều hệ thống tra cứu
ảnh đặc biệt là khi ảnh chỉ chứa một đối tƣợng ảnh. Các thành phần moment bậc
nhất (trung vị), bậc hai (phƣơng sai) và bậc ba (độ lệch) đã đƣợc chứng minh là có
thể đƣợc sử dụng rất hiệu quả để biểu diễn sự phân bố màu sắc của ảnh.
Công thức toán học để biểu diễn 3 moment này nhƣ sau:

3

(2.1)

f ij

j 1

1
N

i

si

N

1
N

i

1
N

N

( fij

i

j 1

)

2

(2.2)

N

(

i

)

3

f ij

(2.3)

j 1

Trong đó fij là giá trị của thành phần màu thứ i của điểm ảnh thứ j và N là số
lƣợng điểm ảnh của ảnh đó.
Sử dụng cả thành phần moment bậc ba si sẽ giúp tăng cƣờng hiệu năng tra cứu
so với khi chỉ sử dụng các moment bậc nhất

i

và bậc hai

i.

Tuy nhiên đôi khi việc

sử dụng moment bậc 3 làm cho việc biểu diễn đặc trƣng của ảnh nhạy cảm hơn đối
với những thay đổi của cảnh nền và do đó làm giảm khả năng của hệ thống.
Do chỉ sử dụng 9 giá trị (3 moment cho mỗi màu trong bộ ba màu) để biểu
diễn nội dung màu của mỗi ảnh nên việc sử dụng moment màu để biểu diễn vector
đặc trƣng màu là rất đơn giản nếu so sánh với các phƣơng pháp biểu diễn khác. Và
cũng chính do sự đơn giản đó nên phƣơng pháp này cho kết quả khá hạn chế.
Thông thƣờng, phƣơng pháp biểu diễn bằng moment màu đƣợc sử dụng trong
những bƣớc đầu tiên của quá trình tra cứu ảnh với mục đích làm giảm kích thƣớc
không gian tìm kiếm trƣớc khi áp dụng các phƣơng pháp phức tạp hơn để tra cứu.

2.3.1.3. Lược đồ màu (histogram màu)
Histogram màu là cách hiệu quả để biểu diễn nội dung màu của một bức ảnh
trong trƣờng hợp mẫu màu của bức ảnh đó là duy nhất trong tập hợp các ảnh trong
cơ sở dữ liệu. Histogram màu dễ tính toán và rất hiệu quả để biểu diễn cả sự phân


bố màu tổng quan và sự phân bố màu cục bộ của ảnh. Ngoài ra, histogram màu
không bị ảnh hƣởng bởi sự dịch chuyển hay sự quay của ảnh và rất ít bị ảnh hƣởng
của tỉ lệ và góc nhìn ảnh.
Do giá trị mỗi điểm ảnh đƣợc mô tả bằng ba thành phần trong một không gian
ảnh xác định (ví dụ: ba thành phần R, G và B trong không gian màu RGB hay ba
thành phần là sắc màu (H), độ bão hoà màu (S) và giá trị màu (V) trong không gian
HSV) nên có thể định nghĩa cho mỗi thành phần màu một histogram. Không gian
màu đƣợc chia thành một số bins, mỗi giá trị màu thuộc một bin nào đó, sau đó tính
sự phân bố một số lƣợng điểm ảnh cho mỗi bin lƣợng tử màu. Càng sử dụng nhiều
bin màu thì khả năng biểu diễn càng tốt. Tuy nhiên việc sử dụng quá nhiều bin màu
không chỉ làm tăng khối lƣợng tính toán mà còn không thích hợp để xây dựng một
sơ đồ đánh chỉ số hiệu quả cho cơ sở dữ liệu ảnh. Hơn nữa việc lƣợng tử hoá quá
mịn cũng không thật cần thiết trong nhiều trƣờng hợp.
Một cách để làm giảm số lƣợng bin màu là sử dụng không gian màu đối lập
cho phép làm giảm số lƣợng mẫu độ sáng của ảnh. Một cách khác là sử dụng các
phƣơng pháp phân cụm để xác định K màu tốt nhất trong một tập hợp ảnh xác
định, mỗi một màu trong K màu tốt nhất đó đƣợc coi là một bin màu. Do quá trình
phân cụm tính toán sự phân bố màu của tất cả các ảnh trong cơ sở dữ liệu nên sẽ
đƣợc giảm thiểu đƣợc số lƣợng các bin màu không chứa hoặc chứa rất ít điểm ảnh.
Một cách khác là sử dụng các bin màu có chứa nhiều điểm ảnh nhất, khi đó
chỉ cần một số lƣợng nhỏ bin màu cũng biểu diễn đƣợc đặc trƣng quan trọng nhất
của một bức ảnh. Cách làm này không những không làm giảm hiệu năng của
phƣơng pháp so sánh histogram mà đôi khi còn làm tăng hiệu năng do các bin màu
có kích thƣớc lớn sẽ tránh đƣợc ảnh hƣởng của nhiễu.
Khi cơ sở dữ liệu có chứa quá nhiều ảnh thì phƣơng pháp so sánh histogram
có thể bị bão hoà, khi đó kết quả so sánh histogram màu chƣa chắc đã phản ánh sự
tƣơng tự về nội dung của các ảnh, để khắc phục nhƣợc điểm này ngƣời ta đƣa ra kỹ
thuật histogram liên kết.
Histogram liên kết có bổ sung thêm các thông tin khác mà không làm giảm sự
đơn giản của histogram màu. Để đạt đƣợc điều này, ngƣời ta phải lựa chọn rất cẩn
thận các đặc trƣng cục bộ sẽ bổ sung vào histogram liên kết. Mỗi phần tử trong lƣợc


đồ histogram liên kết chứa số lƣợng điểm ảnh trong ảnh đƣợc mô tả bởi một bộ các
giá trị đặc trƣng. Nhƣ vậy histogram liên kết là lƣợc đồ histogram đa chiều.
Mặt khác, do histogram màu không phản ánh đƣợc các thông tin mang tính
không gian của các điểm ảnh, vì vậy về mặt lý thuyết, các ảnh rất khác nhau có thể
có sự phân bố màu tƣơng tự nhau. Vấn đề này rất dễ xảy ra đối với các cơ sở dữ liệu
ảnh lớn. Ngƣời ta đã đề xuất một vài cách khác nhau để khắc phục vấn đế này, một
cách đơn giản nhất là chia các bức ảnh thành những phân vùng nhỏ hơn và tính
histogram của từng phân vùng. Có thể sử dụng phƣơng pháp phân vùng đơn giản là
phân thành các hình chữ nhật đồng đều hoặc phức tạp hơn là phân theo các vùng
ảnh hoặc các đối tƣợng ảnh. Ảnh đƣợc phân vùng càng nhỏ thì độ chính xác càng
cao nhƣng khối lƣợng tính toán cũng nhiều hơn.

2.3.1.4. Vector gắn kết màu
Một cách tiếp cận khác để đƣa thông tin về không gian vào histogram màu là
sử dụng vector gắn kết màu (Color Cohefeence Vector - CCV). Phƣơng pháp này
có thể tóm tắt nhƣ sau:
Mỗi bin màu đƣợc phân thành 2 loại: loại có gắn kết nếu nhƣ bin màu đó
thuộc vào vùng có màu đồng nhất lớn, ngƣợc lại thì gọi là không gắn kết. Ký hiệu αi
là số lƣợng các điểm ảnh gắn kết trong bin màu thứ i và βi là số lƣợng các điểm ảnh
không gắn kết trong bin đó. Khi đó, CCV của một bức ảnh đƣợc định nghĩa là
vector: <(α1, β1),(α2, β2),..., (αN, βN)>
Nhƣ vậy, <α1 + β1,α2 + β2 ,..., αN + βN > chính là histogram màu của ảnh.
Do có chứa các thông tin về không gian của các điểm ảnh nên sử dụng các
vector gắn kết màu sẽ cho kết quả tra cứu tốt hơn so với sử dụng histogram màu,
đặc biệt là đối với những ảnh có vùng đồng nhất màu lớn.
Đối với cả phƣơng pháp dùng vector gắn kết màu và phƣơng pháp dùng
histogram màu thì sử dụng không gian HSV sẽ cho kết quả tốt hơn là sử dụng
không gian CIE L*u*v hay L*a*b.

2.3.1.5. Sơ đồ tương quan màu
Sơ đồ tƣơng quan màu không chỉ thể hiện sự phân bố màu của các điểm ảnh
mà còn thể hiện sự tƣơng quan về mặt không gian của từng cặp màu. Trong sơ đồ


tƣơng quan màu, thành phần thứ nhất và thứ hai của một histogram màu 3 chiều thể
hiện màu sắc của một cặp màu nào đó và thành phần thứ 3 là khoảng cách không
gian của chúng.
Sơ đồ tƣơng quan màu là một bảng đƣợc đánh chỉ số bởi các cặp màu, trong
đó thành phần thứ k của cặp (i,j) thể hiện xác suất để tìm thấy điểm ảnh có màu j ở
khoảng cách k so với điểm ảnh có màu i trong ảnh. Giả sử I là tập hợp tất cả các
điểm ảnh trong ảnh và Ic(i) là tập hợp các điểm ảnh có màu là c(i) thì có thể định
nghĩa sơ đồ tƣơng quan màu nhƣ sau:
(k )
i, j

Prp1

Ic ,p2 I
(i)

(2.4)

[ p2 I c ( j ) || p1 p2 | k ]

trong đó i, j {1, 2, ..., N}, k {1, 2, ..., d}, và |p1 – p2| là khoảng cách giữa
hai điểm p1 và p2. Nếu chúng ta tính toán cho tất cả các cặp màu có thể thì kích
2

thƣớc của sơ đồ tƣơng quan màu sẽ là rất lớn (O(N d), vì vậy để đơn giản ngƣời ta
thƣờng sử dụng sơ đồ tự tƣơng quan màu. Sơ đồ tự tƣơng quan màu chỉ tính toán sự
liên hệ không gian của các cặp màu giống nhau và vì vậy giảm kích thƣớc sơ đồ
tƣơng quan màu xuống còn cỡ O(Nd).
Nếu so sánh với phƣơng pháp dùng histogram màu và phƣơng pháp dùng
vector gắn kết màu thì phƣơng pháp dùng sơ đồ tƣơng quan màu cho kết quả tra
cứu tốt nhất, tuy nhiên độ phức tạp cao nhất do sử dụng số chiều nhiều hơn (3
chiều).

2.3.1.6. Các đặc điểm bất biến màu
Màu sắc không chỉ phụ thuộc vào chất liệu của bề mặt vật thể mà còn ảnh
hƣởng bởi sự thay đổi của độ chói, phƣơng hƣớng, góc chụp ảnh. Cần phải chú ý
đến những yếu tố này. Tuy nhiên, sự bất biến của các yếu tố môi trƣờng này đã
không đƣợc tính đến trong khi trích chọn các đặc điểm màu sắc đã trình bày ở trên.

2.3.2. Mô tả các đặc điểm hình dạng
2.3.2.1. Giới thiệu
Các đặc điểm hình dạng của các vùng ảnh và các đối tƣợng ảnh đƣợc sử dụng
trong rất nhiều hệ thống tra cứu ảnh. So với các đặc điểm về màu sắc và các đặc
điểm về kết cấu thì các đặc điểm về hình dạng thƣờng chỉ đƣợc sử dụng sau khi ảnh


đã phân thành các vùng hoặc các đối tƣợng ảnh. Nhƣng do việc phân vùng và tách
đối tƣợng ảnh khó thu đƣợc kết quả tốt nên việc sử dụng các đặc điểm hình dạng để
tra cứu ảnh thƣờng bị bó hẹp trong một số ứng dụng mà ở đó các vùng ảnh hoặc đối
tƣợng ảnh đã đƣợc tách biệt rõ ràng.
Các phƣơng pháp trích chọn đặc điểm hình dạng thƣờng đƣợc chia thành hai
loại là trích chọn dựa theo đường biên (xấp xỉ đa giác, mô hình phần tử hữu hạn, mô
tả hình dạng theo Fourier) và trích chọn dựa theo vùng ảnh (mô hình thống kê). Một
phƣơng pháp trích chọn đặc điểm hình dạng tốt phải đảm bảo yêu cầu là phải không
phụ thuộc vào vị trí, góc quay hay sự co giãn của đối tƣợng ảnh. Trƣớc khi áp dụng
các phƣơng pháp trích chọn đặc điểm hình dạng, các đối tƣợng ảnh cần phải đƣợc
tách ra khỏi ảnh. Giả sử là trong mỗi ảnh chỉ có một đối tƣợng ảnh duy nhất, nhiệm
vụ của hệ thống trƣớc hết là phải tách đƣợc đối tƣợng ảnh ra khỏi nền ảnh.
Cách biểu diễn hình dạng của đối tƣợng ảnh có thể chia thành hai kiểu:
[21,13]
o

Theo đƣờng bao quanh (biên)

o

Theo vùng

Cách biểu diễn theo đƣờng viền bao quanh chỉ sử dụng đƣờng biên bên ngoài
của hình dạng, điều này có thể thực hiện đƣợc bằng cách mô tả vùng đang quan tâm
bằng cách đặc tính bên ngoài của nó tức là các điểm ảnh dọc theo đƣờng viền bao
quanh đối tƣợng ảnh. Cách biểu diễn theo vùng sử dụng cả vùng ảnh bằng cách mô
tả vùng đang quan tâm bằng các đặc tính bên trong tức là các điểm ảnh ở bên trong
vùng đó.

Hình 2.3: Biểu diễn hình dạng theo đường biên và theo vùng

2.3.2.2. Xử lý ảnh trong miền tần số và biến đổi Fourier
Nhiều quá trình xử lý tín hiệu có thể đƣợc thực hiện trong một không gian
toán học nhƣ miền tần số. Để biểu diễn dữ liệu trong miền tần số cần phải thực hiện


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×