Tải bản đầy đủ

những nguyên tắc sáng tạo ứng dụng trong mô hình xử lý cú pháp và ngữ nghĩa cho câu hỏi tiếng việt trong hệ thống tìm kiếm thư viện

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÀI BÁO CÁO MÔN HỌC
PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC TRONG TIN HỌC




Đề tài:
NHỮNG NGUYÊN TẮC SÁNG TẠO ỨNG DỤNG
TRONG MÔ HÌNH XỬ LÝ CÚ PHÁP VÀ NGỮ
NGHĨA CHO CÂU HỎI TIẾNG VIỆT TRONG HỆ
THỐNG TÌM KIẾM THƯ VIỆN



Giảng viên hướng dẫn: GS.TSKH. HOÀNG KIẾM
Học viên thực hiện: NGUYỄN TRÍ PHÚC
Mã số: CH1101121






TP. Hồ Chí Minh, tháng 4 năm 2012



LỜI MỞ ĐẦU
“Nhân chi sơ tính sáng tạo”
Thật vậy, sáng tạo là tài nguyên cơ bản nhất của mỗi con người trong chúng ta. Sáng tạo
là phương châm và là động lực phát triển cho xã hội từ khi con người biết suy nghĩ. Nhờ
có tư duy sáng tạo,chúng ta có thể cải tiến công nghệ, làm cho những vấn đề gặp phải
trong cuộc sống sẽ được thực hiện theo những các đơn giản hơn và phù hợp hơn.
Sáng tạo là bản chất của con người tuy nhiên trong chúng ta hẳn có nhiều người tự hỏi
“Vì sao tôi có quá ít cải tiến sáng tạo?”, “Làm thế nào để có thể tạo ra nhiều cải tiến hơn
nữa trong công việc?”… Để tạo ra những ý tưởng, những cải tiến mới chúng ta cần phải
có phương pháp luận (các nguyên tắc, phương pháp, lý thuyết) về tư duy sáng tạo và đổi
mới. Điều này sẽ giúp chúng ta có những kỹ năng thực hành về suy nghĩ để giải quyết các
vấn đề và đưa ra những ý tưởng đổi mới sáng tạo.
Trong bài báo cáo này, tôi sẽ trình bày phương pháp luận về tư duy sáng tạo, đổi mới và
kèm theo đó là những phân tích về ứng dụng những nguyên tắc sáng tạo, đổi mới vào mô
hình xử lý cú pháp và ngữ nghĩa cho câu hỏi tiếng Việt trong hệ thống tìm kiếm thư viện.
TP. Hồ Chí Minh, tháng 4 năm 2012
Nguyễn Trí Phúc





MỤC LỤC
DANH MỤC HÌNH 1
DANH MỤC BẢNG 2
PHẦN 1: PHƯƠNG PHÁP LUẬN VỀ TƯ DUY SÁNG TẠO VÀ ĐỔI MỚI 3
1.1. Khái niệm 3
1.2. Ý nghĩa 3
1.3. Nội dung chính 4
1.3.1. Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế 4
1.3.2. Bốn mươi nguyên tắc sáng tạo cơ bản 4
1.3.3. Các phương pháp giải quyết vấn đề tổng quát 10


PHẦN 2: ỨNG DỤNG NGUYÊN TẮC SÁNG TẠO VÀO MÔ HÌNH XỬ LÝ CÚ PHÁP
VÀ NGỮ NGHĨA CHO CÂU HỎI TIẾNG VIỆT TRONG HỆ THỐNG TÌM KIẾM
THƯ VIỆN 12
2.1. Tổng quan về bài toán 12
2.1.1. Đặt vấn đề 12
2.1.2. Mục tiêu đề tài 12
2.1.3. Phạm vi nghiên cứu 12
2.2. Mô hình hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt 13
2.2.1. Kiến trúc hệ thống 13
2.2.2. Ontology học liệu mở 14
2.3. Mô hình cú pháp 20
2.4. Mô hình ngữ nghĩa 21
2.5. Phương pháp sinh mã truy vấn SPARQL 21
2.6. Cơ chế tạo sinh câu trả lời 22
2.7. Những nguyên tắc sáng tạo cơ bản được ứng dụng 22
2.7.1. Nguyên tắc phân nhỏ 22
2.7.2. Nguyên tắc tách khỏi 23
2.7.3. Nguyên tắc cục bộ 23



2.7.4. Nguyên tắc kết hợp 23
2.7.5. Nguyên tắc chứa trong 23
2.7.6. Nguyên tắc dự phòng 24
2.7.7. Nguyên tắc giải thiếu hoặc thừa 24
2.7.8. Nguyên tắc sao chép 24
KẾT LUẬN 25
TÀI LIỆU THAM KHẢO 26

1


DANH MỤC HÌNH
Hình 1:. Mô hình giải quyết vấn đề tổng quát 10
Hình 1: Kiến trúc hệ thống tìm kiếm tài liệu dựa trên cơ chế xử lý các câu hỏi tiếng Việt
14


2


DANH MỤC BẢNG
Bảng 1: Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế 4
Bảng 2: Các thành phần hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt 13
Bảng 3: Thống kê số lượng giáo trình trên các thư viện học học liệu mở 15
Bảng 4: Tổng hợp các thông tin mô tả học liệu mở cho 3 thư viện 16
Bảng 5: Các class trong ontology học liệu mở 16
Bảng 6: Object properties trong ontology học liệu mở 17
Bảng7: Datatype properties trong ontology học liệu mở 18
Bảng 8: Mô tả quan hệ của các lớp trong ontology học liệu mở 20
Bảng 9: Các cấu trúc tổng quát của câu hỏi tiếng Việt 21
Bảng 10:Chức năng các thành phần mô hình hệ thống 23
Bảng 11:Chức năng các thành phần mô hình hệ thống 24


3


PHẦN 1: PHƯƠNG PHÁP LUẬN VỀ TƯ DUY SÁNG TẠO VÀ
ĐỔI MỚI
1.1. Khái niệm
Phương pháp luận sáng tạo và đổi mới là phần ứng dụng của Khoa học về sáng tạo, bao
gồm hệ thống các phương pháp và các kĩ năng cụ thể giúp nâng cao năng suất và hiệu
quả, về lâu dài tiến tới điều khiển tư duy sáng tạo của người sử dụng.
1.2. Ý nghĩa
Suốt cuộc đời, mỗi người chúng ta dùng suy nghĩ rất nhiều (có thể nói là hằng ngày). Từ
việc trả lời những câu hỏi bình thường như “Hôm nay ăn gì? Mặc gì?Làm gì?Mua
gì?Xem gì? Đi đâu? ” đến làm các bài tập trên trường lớp, hoặc chọn ngành nghề đào
tạo, lo sức khỏe, việc làm, thu nhập, hôn nhân, nhà ở, giải quyết các vấn đề nảy sinh trong
công việc, trong quan hệ xã hội, gia đình, nuôi dạy con cái… tất tần tật đều đòi hỏi phải
suy nghĩ và chắc chắn rằng ai cũng muốn suy nghĩ tốt, ra những quyết định đúng để “đời
là bể khổ” trở thành “bể sướng”.
Chúng ta tuy được đào tạo và làm những ngành nghề khác nhau nhưng có lẽ có một nghề
chung, giữ nguyên suốt cuộc đời và là cần thiết cho tất cả mọi người.Đó là “nghề” suy
nghĩ và hành động giải quyết các vấn đề gặp phải trong suốt cuộc đời nhằm thỏa mãn các
nhu cầu chính đáng của cá nhân mình, đồng thời thỏa mãn các nhu cầu để xã hội tồn tại
và phát triển. Nhìn dưới góc độ này, Phương Pháp Luận Sáng Tạo Và Đổi Mới giúp trang
bị loại nghề chung nói trên, góp phần bổ sung cho giáo dục, đào tạo hiện nay, chủ yếu chỉ
đào tạo các nhà chuyên môn. Nhà chuyên môn có thể giải quyết tốt các vấn đề chuyên
môn nhưng nhiều khi không giải quyết tốt các vấn đề ngoài chuyên môn, do vậy không
thực sự hạnh phúc như ý.
Các nghiên cứu cho thấy, phần lớn mọi người thường suy nghĩ một cách tự nhiên như đi
lại, ăn uống, hít thở mà ít khi suy nghĩ về chính suy nghĩ của mình xem nó hoạt động ra
sao để cải tiến, làm suy nghĩ của mình trở nên tốt hơn như người ta thường cải tiến các
dụng cụ, máy móc dùng trong sinh hoạt và công việc. Cách suy nghĩ tự nhiên nói trên có
năng suất, hiệu quả rất thấp và nhiều khi trả giá đắt cho các quyết định sai. Tóm lại, cách
4


suy nghĩ tự nhiên ứng với việc lao động bằng xẻng thì Phương Pháp Luận Sáng Tạo Và
Đổi Mới là máy xúc với năng suất và hiệu quả cao hơn nhiều. Nếu xem bộ não của mỗi
người là máy tính tinh xảo – đỉnh cao tiến hóa và phát triển của tự nhiên thì phần mềm
(cách suy nghĩ) tự nhiên đi kèm với nó chỉ khai thác một phần rất nhỏ tiềm năng của bộ
não.Phương Pháp Luận Sáng Tạo Và Đổi Mới là phần mềm tiên tiến giúp máy tính – bộ
não hoạt động tốt hơn nhiều.Nếu như cần “học ăn, học nói, học gói, học mở” thì “học suy
nghĩ” cũng cần thiết cho tất cả mọi người.
Tóm lại, Phương Pháp Luận Sáng Tạo Và Đổi Mới đóng góp rất tích cực trong việc biến
thông tin thành tri thức, tri thức đã biết thành tri thức mới với các ích lợi toàn diện, không
chỉ riêng về mặt kinh tế.
1.3. Nội dung chính
1.3.1. Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng
chế
STT Phương pháp
1 Dựng Vepol đầy đủ
2 Chuyển sang Fepol
3 Phá vở Vepol
4 Xích Vepol
5 Liên trường
Bảng 1: Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế
1.3.2. Bốn mươi nguyên tắc sáng tạo cơ bản
Nhà khoa học Atshuler trong suốt quá trình làm việc của mình đã đưa ra một hệ thống các
nguyên tắc sáng tạo. Nó cung cấp hệ thống các cách xem xét sự vật; tăng tính nhanh nhạy
của việc tiếp thu và đánh giá giá trị của thông tin; đưa ra và lựa chọn các cách tiếp cận
thích hợp để giải quyết vấn đề. Hệ thống các nguyên tắc sáng tạo còn giúp cho chúng ta
5


xây dựng được tác phong, suy nghĩ và làm việc một cách khoa học, sáng tạo; góp phần
xây dựng tư duy biện chứng. Dưới đây xin được lần lượt điểm qua 40 nguyên tắc đó:
1/ Nguyên tắc phân nhỏ:
 Chia các đối tượng thành các thành phần độc lập.
 Làm đối tượng thành các thành phần tháo ráp.
 Tăng mức độ phân nhỏ đối tượng.
2/ Nguyên tắc “tách riêng”:
 Tách thành phần gây phiền phất ra khỏi đôi tượng hoặc ngược lại. Trách lấy phần
cần thiết.
3/ Nguyên tắc phẩm chất cục bộ:
 Chuyển đối tượng (hay môi trường bên ngoài, tác động bên ngoài) có cấu trúc
đồng nhất thành không đồng nhất.
 Các phần khác nhau của đối tượng phải có các chất năng khác nhau
 Mỗi phần của đối tượng phải có các chất năng khác nhau
4/ Nguyên tắc phản đối xứng:
 Chuyển đối tượng có hìng dạng, tính chất đối xứng thành phản đối xứng
5/ Nguyên tắc kết hợp:
 Kết hợp các đối tượng đồng nhất hoặc các đối tượng dùng cho các hoạt động kế
cận.
 Kết hợp về mặt thời gian các hoạt động đồng nhất hoặc kế cận gian rỗi của CPU,
tận dụng tài nguyên để cho ra hệ điều hành đa nhiệm, nhiều người dùng.
6/ Nguyên tắc vạn năng:
 Vật thể hoạt động đa chức năng loại bỏ một số vật thể khác.
7/ Nguyên tắc chứa trong
 Để một vật thể trong lòng một vật thể khác, vật thể khác này lại để trong lòng một
vật thể thứ ba.
 Chuyển một vật thể thông qua một khoảng trống của một vật thể khác
8/ Nguyên tắc phản trọng lượng
 Bù trừ trọng lượng của vật thể bằng cách nối với một vật thể khác mà có một lực
6


đẩy.
 Bù trừ trọng lượng của vật thể bằng tương tác với môi trường cung cấp khí hoặc
thủy động lực.
9/ Nguyên tắc gây ứng suất sơ bộ
 Thực hiện phản hoạt động trước tiên
 Nếu vật thể chịu áp lực thì cung cấp cung cấp một phản áp lực trước đó
10/ Nguyên tắc thực hiện sơ bộ
 Trước tiên thực hiện tất cả hoặc một phần hoạt động
 Sắp xếp các vật thể sao cho chúng có thể đi vào hoạt động trong một khoảng thời
gian hợp lí và từ một vị trí thích hợp
11/ Nguyên tắc dự phòng
 Bù trừ cho tính không tin cậy của vật thể bằng biện pháp trả đũa trước tiên
12/ Nguyên tắc đẳng thế
 Thay đổi điều kiện làm việc sao cho không phải nâng lên hoặc hạ xuống
13/ Nguyên tắc đảo ngược
 Thay cho một hành động điều khiển bởi các chi tiết kĩ thuật của bài toán, áp dụng
một hành động ngược lại
 Làm cho phần chuyển động của vật thể hoặt môi trường bên ngoài của vật thể trở
nên bất động và những phần bất động trở thành chuyển động
 Lật úp vật thể
14/ Nguyên tắc cầu (tròn) hóa
 Thay những vật thể thẳng hoặc bề mặt bằng phẳng thành những mặt cong ; thay
thể hình lập phương thành hình cầu
 Sử dụng con lăn, vật hình xoắn ốc
 Thay thế chuyển động thẳng bằng chuyển động quay ; tận dụng lực li tâm
15/ Nguyên tắc năng động
 Tạo một vật thể hoặc môi trường của nó tự động điều chỉnh tới chế độ tối ưu tại
mỗi trạng
 thái hoạt động
7


 Chia vật thể thành những phần nhỏ mà có thể thay đổi vị trí tương đối với nhau
 Nếu vật thể bất động thì làm cho nó chuyển động và có thể trao đổi được
16/ Nguyên tắc tác động bộ phận và dư thừa
 Nếu khó có thể đạt 100% hiệu quả mong muốn thì cố đạt đến cái đơn giản nhất
17/ Nguyên tắc bộ xung chiều khác
 Loại bỏ các bài toán bằng cách dịch chuyển một vật thể trong một chuyển động hai
chiều
 (tức là dọc theo mặt phẳng)
 Dùng tổ hợp chồng chập đa lớp thay cho đơn lớp
 Làm nghiêng vật thể hoặc quay nó lên cạnh của nó
18/ Sự dao động cơ học
 Đặt vật thể vào thế rung động
 Nếu đã rung động rồi thì tăng tần số, thậm chí đến tận tần số sóng siêu âm
 Sử dụng tần số cộng hưởng
 Thay áp rung cho rung cơ học
 Dùng rung động siêu âm với từ trường
19/ Nguyên tắc tác đông theo chu kỳ
 Thay một hành động liên tục thành một hành động tuần hoàn (xung)
 Nếu một hành động đã tuần hoàn rồi thì thay đổi tần số
 Sử dụng xung giữa các xung lực để cung cấp hành động bổ xung
20/ Nguyên tắc tác đông liên tục hữu hiệu
 Thực hiện một hành động liên tục (không nghỉ) trong đó tất cả các phần của vật thể
hoạt động hết công suất
 Loại bỏ các hành động không hiệu quả và trung gian
21/ Nguyên tắc vượt nhanh
 Thực hành các thao tác có hại hoặc mạo hiểm với tốc độ thật nhanh
22/ Nguyên tắc chuyển hại thành thắng
 Sử dụng những yếu tố có hại hoặc các tác động môi trường để thu những hiệu quả
tích cực
8


 Loại bỏ những yếu tố có hại bằng việc kết hợp nó với một yếu tố có hại khác
 Tăng tác động có hại đến khi nó tự triệt tiêu tính có hại của nó
23/ Nguyên tắc quan hệ phản hồi
 Mở đầu thông tin phản hồi
 Nếu đã có thông tin phản hồi thì đảo ngược nó
24/ Nguyên tắc sử dụng trung gian
 Dùng một vật thể trung gian để truyền hay thực hiện một hành động
 Tạm thời nối một vật thể với một vật thể khác mà nó dễ dàng được tháo bỏ đi
25/ Nguyên tắc tự phục vụ
 Làm cho vật thể tự phục vụ và thực hiện những thao tác bổ sung và sửa chữa
 Tận dụng vật liệu và năng lượng bỏ đi
26/ Nguyên tắc sao chép (copy)
 Dùng một bản sao đơn giản và rẻ tiền thay cho một vật thể phức tạp, đắt tiền, dễ vỡ
hay bất tiện
 Thay thế một vật thể bằng bản sao hoặc hình ảnh của nó, có thể dùng thước để tăng
hoặc giảm kích thước
 Nếu các bản sao quang học đã được dùng, thay chúng bằng những bản sao hồng
ngoại hoặc tử ngoại
27/ Nguyên tắc rẻ thay cho đắt
 Thay một vật thể đắt tiền bằng nhiều những vật thể rẻ tiền có ít ưu điểm hơn (ví dụ
tuổi thọ kém đi)
28/ Nguyên tắc thay thế sơ đồ cơ học
 Thay thế hệ cơ học bằng hệ quang, âm hoặc khứu giác (mùi)
 Dùng điện, từ, điện từ trường để tương tác với vật thể
 Thay thế các trường
o Trường tĩnh bằng các trường động
o Trường cố định bằng trường thay đổi theo thời gian
o Trường ngẫu nhiên bằng trường cấu trúc
o Dùng một trường kết hợp với các hạt sắt từ
9


29/ Nguyên tắc sử dụng các kết cấu thủy và khí
 Thay thế các phần cứng rắn của vật thể bằng khí hoặc chất lỏng. Các phần này có
thể dùng không khí hoặc nước để phồng lên, hoặc dùng đệm hơi hay đệm thủy tĩnh
30/ Sử dụng bao mềm dẻo và mềm mỏng
 Thay cấu trúc truyền thống bằng cấu trúc làm từ màng linh động hoặc màng mỏng
 Cô lập vật thể ra khỏi môi trường xung quanh bằng cách sử dụng màng linh động
hoặc màng mỏng
31/ Sử dụng vật liệu nhiều lỗ
 Dùng vật thể xốp hoặc các yếu tố xốp (chèn, phủ, …)
 Nếu một vật thể đã xốp thì làm đầy các lỗ chân lông trước bằng một vài chất liệu
32/ Nguyên tắc đổi màu
 Đổi màu của vật thể hoặc những thứ quanh nó
 Đổi độ trong suốt của vật thể hoặc quá trình mà khó có quan sát
 Dùng bổ sung màu để quan sát các vật thể hoặc quá trình khó quan sát
 Nếu đã dùng bổ sung màu thì dùng các yếu tố khác để theo dõi
33/ Nguyên tắc đồng nhất
 Làm các vật thể tương tác với vật thể đầu tiên bằng cùng loại vật liệu hoặc vật liệu
rất gần với vật thể đầu tiên đó
34/ Nguyên tắc loại bỏ và tái sinh từng phần
 Một yếu tố của vật thể sau khi hoàn thành chức năng hoặc trở nên vô dụng thì hãy
loại bỏ hoặc thay đổi nó (vứt bỏ, phân hủy, làm bay hơi, …)
 Loại bỏ ngay lập tức những phần của vật thể không còn tác dụng
35/ Đổi các thông số hóa lý của đối tượng
 Thay đổi trạng thái kết tập, phân bố mật độ, độ linh động, nhiệt độ của vật thể
36/ Sử dụng chuyển pha
 Ứng dụng các hiệu ứng trong quá trình chuyển pha của vật liệu. Ví dụ trong khi
thay đổi thể tích, bậc tự do hay hấp thụ nhiệt
37/ Sử dụng nở nhiệt
 Dùng vật liệu có thể co giãn theo nhiệt độ
10


 Sử dụng các vật liệu khác nhau với các hệ số giãn nở nhiệt khác nhau
38/ Sử dụng các chất oxy hóa
 Thay không khí thường bằng môi trường nhiều không khí
 Thay môi trường giàu không khí bằng ô xi
 Xử lí vật thể trong môi trường giàu không khí hoặc ô xi bằng phóng xạ ion hóa
 Sử dụng ô xi ion hóa
39/ Sử dụng môi trường trơ
 Thay môi trường thường bằng môi trường khí trơ
 Thực hiện quá trình trong chân không
40/ Sử dụng vật liệu tổng hợp (composit)
 Thay vật liệu đồng nhất bằng vật liệu composite
1.3.3. Các phương pháp giải quyết vấn đề tổng quát
Với thông tin ban đầu và cần giải quyết, ta có mô hình như sau:

Hình 1:. Mô hình giải quyết vấn đề tổng quát
1.3.3.1. Các phương pháp phân tích vấn đề
- Phân chia vấn đề
- Phân loại vấn đề
- Phân công vấn đề
- Phân cấp bài toán
11


- Phân tích.
1.3.3.2. Các phương pháp tổng hợp vấn đề
- Tổ hợp
- Đối hợp
- Tích hợp
- Kết hợp
- Tổng hợp theo không gian và thời gian
1.3.3.3. Các phương pháp giải quyết vấn đề trong tin học
- Phương pháp trực tiếp
- Phương pháp gián tiếp
 Phương pháp Thử Sai
 Phương pháp Heuristic
- Phương pháp Trí Tuệ Nhân Tạo
12


PHẦN 2: ỨNG DỤNG NGUYÊN TẮC SÁNG TẠO VÀO MÔ HÌNH
XỬ LÝ CÚ PHÁP VÀ NGỮ NGHĨA CHO CÂU HỎI TIẾNG VIỆT
TRONG HỆ THỐNG TÌM KIẾM THƯ VIỆN
2.1. Tổng quan về bài toán
2.1.1. Đặt vấn đề
Trong lĩnh vực tìm kiếm tài liệu, việc phát triển những hệ thống tìm kiếm có khả năng trả
lời các câu hỏi bằng ngôn ngữ tự nhiên sẽ đáp ứng được những nhu cầu sau:
 Người dùng có thể tương tác với hệ thống tìm kiếm bằng ngôn ngữ tự nhiên, theo
một cách thức gần gũi mà không cần hiểu biết về các qui ước tìm kiếm được qui
định sẵn trong các hệ thống.
 Câu hỏi được trả lời trực tiếp bằng kết quả tìm kiếm.
Tăng sự tương tác giữa con người với các hệ thống máy tính, góp phần cho sự phát triển
các hệ thống máy tính theo hướng tương tác người và máy trong tương lai.
2.1.2. Mục tiêu đề tài
Đề tài được thực hiện với mục tiêu xây dựng một hệ thống tìm kiếm tài liệu trong các thư
viện dựa trên cơ chế xử lý cáccâu hỏi tiếng Việt. Hệ thống tìm kiếm cho phép xử lý các
câu hỏi tiếng Việt đơn giản, có cấu trúc tường minh, diễn đạt ý nghĩa cụ thể, rõ ràng,
không chứa hàm ý hoặc các ý mơ hồ trong câu.
2.1.3. Phạm vi nghiên cứu
Đề hiện thực những mục tiêu được đặt ra cho đề tài, phạm vi nghiên cứu được hạn chế
như sau:
 Hệ thống được xây dựng và thử nghiệm trên thư viện học liệu mở được đề tài xây
dựng từ các nguồn dữ liệu: [9], [10], [11].
 Chỉ xử lý các dạng câu hỏi tiếng Việt có cấu trúc câu đơn, hỏi trực tiếp, thường
được dùng để hỏi những vấn đề trong phạm vi ứng dụng được xác định trước của
đề tài.
13


 Chỉ xây dựng bộ phân tích cú pháp tiếng Việt hạn chế trong mục tiêu đề tài.
 Giới hạn việc xử lý ngữ nghĩa cho những dạng câu hỏi có liên quan trực tiếp đến
việc truy vấn những thông tin mô tả về các tài liệu, được xác định trong mục tiêu
của đề tài.
 Không xử lý các vấn đề về thời, thức, thể, tình thái, hàm ý, phong cách, ngữ dụng
và các vấn đề phức tạp khác trong nội dung câu hỏi.
 Chỉ tìm kiếm tài liệu dựa trên những thông tin mô tả (tác giả, tựa đề, năm xuất bản,
nhà xuất bản, chủ đề, từ khóa, loại) về các tài liệu. Không tìm kiếm trong nội dung
văn bản của các tài liệu.
2.2. Mô hình hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt
2.2.1. Kiến trúc hệ thống
Đề tài xây dựng kiến của hệ thống với các thành phần chính như [Hình 2]:
STT Thành phần
1 Phân tích cú pháp
2 Phân tích ngữ nghĩa
3 Diễn dịch ngữ nghĩa
4 Tạo sinh câu trả lời
Bảng 2: Các thành phần hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt
14



Hình 2: Kiến trúc hệ thống tìm kiếm tài liệu dựa trên cơ chế xử lý các câu hỏi tiếng
Việt
2.2.2. Ontology học liệu mở
Nguồn dữ liệu để xây dựng ontology học liệu mở được lấy từ 3 web site chính:
Trang Số lượng tài liệu
http://voer.edu.vn 506

http://www.ebook.edu.vn

16436

15


http://ebook.edu.net.vn 1179

Bảng 3: Thống kê số lượng giáo trình trên các thư viện học học liệu mở
Do các thư viện nói trên sử dụng cách mô tả khác nhau đối với học liệu mở, nên ta
cần tổng hợp thông tinmô tả của các trang học liệu mở để có một danh sách như sau:
STT Thông tin mô tả học liệu mở
1 Chủ đề
2 Loại tài liệu
3 Nguồn phát hành
4 Tài liệu tham khảo
5 Tác giả
6 Từ khóa
7 Dạng lưu trữ
8 ISBN
9 Kích thước
10 Mã số
11 Ngôn ngữ
12 Sơ lược
13 Số trang
14 Tiêu đề
16


15 Thởi gian xuất bản
16 Tài liệu ở trang
Bảng 4:Tổng hợp các thông tin mô tả học liệu mở cho 3 thư viện
Trên cơ sở các thông tin mô tả trong bảng trên, ta tiến hành xây dựng ontology lưu
trữ thông tin mô tả học liệu mở.
Danh sách các lớp của ontology học liệu mở được trình bày trong bảng sau:
STT Class Name
1 Class_tài_liệu
2 Class_chủ_đề
3 Class_loại_tài_liệu
4 Class_nguồn_phát_hành
5 Class_tài_liệu_tham_khảo
6 Class_tác_giả
7 Class_từ_khóa
Bảng 5:Cácclass trong ontology học liệu mở



17


Danh sách các object properties
1
trong ontology học liệu mở được trình bày trong
bảng sau:
Property Name Domain Range
có_chủ_đề Class_tài_liệu Class_chủ_đề
có_loại_tài_liệu Class_tài_liệu Class_loại_tài_liệu
có_nguồn_phát_hành Class_tài_liệu Class_nguồn_phát_hành
có_tài_liệu_tham_khảo Class_tài_liệu Class_tài_liệu_tham_khảo
có_tác_giả Class_tài_liệu Class_tác_giả
có_từ_khóa Class_tài_liệu Class_từ_khóa
là_chủ_đề_của Class_chủ_đề Class_tài_liệu
là_loại_tài_liệu_của Class_loại_tài_liệu Class_tài_liệu
là_nguồn_phát_hành_của Class_nguồn_phát_hành Class_tài_liệu
là_tài_liệu_tham_khảo_của Class_tài_liệu_tham_khảo Class_tài_liệu
là_tác_giả_của Class_tác_giả Class_tài_liệu
là_từ_khóa_của Class_từ_khóa Class_tài_liệu
Bảng 6:Object properties trong ontology học liệu mở
Danh sách các datatype properties
2
trong ontology học liệu mở được trình bày trong
bảng sau:

1
Object property: Biểu diễn mối quan hệ giữa object này với object khác
2
Datatype property: Biễu diễn mối quan hệ giữa object với XML Schema Datatype value (ví dụ: integer, string).
18


Property Name Domain Range Funtional
có_dạng_lưu_trữ Class_tài_liệu string
có_ISBN Class_tài_liệu string funtional
có_kích_thước Class_tài_liệu string
có_mã_số Class_tài_liệu string
có_ngôn_ngữ Class_tài_liệu string
có_sơ_lược Class_tài_liệu string
có_số_trang Class_tài_liệu string
có_thời_gian_xuất bản Class_tài_liệu string
có_tiêu_đề Class_tài_liệu string funtional
tài_liệu_ở_trang Class_tài_liệu string
Bảng7: Datatype properties trong ontology học liệu mở
Quan hệ của các lớp trong ontology học liệu mở được mô tả trong bảng sau:
Class Name Conditions
Property Restriction
Class_tài_liệu có_chủ_đề only Class_chủ_đề
có_loại_tài_liệu only Class_loại_tài_liệu
có_nguồn_phát_hành only Class_nguồn_phát_hành
có_tài_liệu_tham_khảo only Class_tài_liệu_tham_khảo
19


có_tác_giả only Class_tác_giả
có_từ_khóa only Class_từ_khóa
có_tiêu_đề only string
có_ngôn_ngữ only string
có_dạng_lưu_trữ only string
có_mã_số only string
có_ISBN only string
có_kích_thước only string
có_sơ_lược only string
có_số_trang only string
có_thời_gian_xuất_bản only string
tài_liệu_ở_trang only string
Class_chủ_đề là_chủ_đề_của only Class_tài_liệu
Class_loại_tài_li
ệu
là_loại_tài_liệu_của only Class_tài_liệu
Class_nguồn_ph
át_hành
là_nguồn_phát_hành_của only Class_tài_liệu
Class_tài_liệu_th
am_khảo
là_tài_liệu_tham_khảo_của only Class_tài_liệu
Class_tác_giả là_tác_giả_của only Class_tài_liệu
20


Class_từ_khóa là_từ_khóa_của only Class_tài_liệu
Bảng 8: Mô tả quan hệ của các lớp trong ontology học liệu mở
2.3. Mô hình cú pháp
Phân tích cú pháp là bước đầu tiên trong quá trình xử lý câu hỏi tiếng Việt. Trên cơ sở kết
quả của trình phân tích cú pháp, ở bước sau đó chúng ta có thể thiết lập các cơ chế để
phân tích ngữ nghĩa cho câu hỏi tiếng Việt.
Một cách tổng quát, nội dung của một câu hỏi có thể chia thành hai thành phần:
- Thành phần truy vấn (những thông tin được hỏi).
- Thành phần thông tin (những thông tin đã biết).
Trừ những câu hỏi thuộc loại đúng/sai, những thông tin cần hỏi sẽ có thể được xác định
thông qua những thông tin đã biết trong câu hỏi. Trong phạm vi ứng dụng của đề tài, các
thành phần đều có liên hệ với nhau thông qua Class_tài_liệu.
Ví dụ: Tác giả nào đã viết sách do nhà xuất bản Nguyễn Thị Minh Khai phát hành?
Trong câu hỏi ở ví dụ, thành phần truy vấn là “tác giả”, thành phần thông tin là “nhà xuất
bản Nguyễn Thị Minh Khai”. Các thành phần này có quan hệ với nhau thông qua “sách”.
Do đó, từ thông tin “nhà xuất bản Nguyễn Thị Minh Khai”, có thể xác định được những
sách nào được nhà xuất bản Nguyễn Thị Minh Khai phát hành. Kế tiếp, từ những sách đã
biết, tiếp tục xác định được các tác giả của chúng. Cuối cùng, có được thông tin đầy đủ để
trả lời cho câu hỏi trong ví dụ.
Các bước truy vấn và xác định thông tin được mô tả như sau: Nhà xuất bản Nguyễn Thị
Minh Khai  những sách do nhà xuất bản Nguyễn Thị Minh Khai phát hành  tác giả
của các sách do nhà xuất bản Nguyễn Thị Minh Khai phát hành.
Cấu trúc tổng quát chung cho các loại câu hỏi như sau: các thông tin cần hỏi (thuộc thành
phần truy vấn) và các thông tin đã biết (thuộc thành phần thông tin). Tùy thuộc vào vị trí
21


đứng trước hay sau của thành phần truy vấn so với thành phần thông tin, chúng ta có hai
dạng cấu trúc tổng quát cho các câu hỏi như trình bày trong bảng sau.
Cấu trúc Thành phần đứng trước trong câu hỏi Thành phần đứng sau trong câu hỏi
Dạng 1 Thành phần truy vấn Thành phần thông tin
Dạng 2
Thành phần thông tin Thành phần truy vấn
Bảng 9:Các cấu trúc tổng quát của câu hỏi tiếng Việt
2.4. Mô hình ngữ nghĩa
Quá trìnhphân tích cú pháp cho một câu hỏi tiếng Việt nhằm mục đích xác định cấu trúc
cây cú pháp của câu hỏi. Sau đó, cây cú pháp này sẽ được chuyển về một cấu trúc nghĩa,
được biểu diễn dưới dạng cây ngữ nghĩa. Cây ngữ nghĩa bao gồm nhiều loại nút khác
nhau, các nút này được tổ chức thành một cấu trúc cây.
Mỗi nút trong cây ngữ nghĩa đều có hai thành phần: nhãn của nút và giá trị của nút. Nhãn
của nút cho biết nút đó chứa thông tin mô tả gì cho một hoặc nhiều tài liệu được hỏi. Giá
trị của nút cho biết cụ thể thông tin mô tả đó là gì.
Đối với mỗi loại câu hỏi, hệ thống cần phải xác định xem loại câu hỏi đó có những thành
phần nào: có đầy đủ cả thành phần truy vấn và thành phần thông tin, hoặc chỉ có thành
phần thông tin.
Từ các yếu tố trên, mô hình cây ngữ nghĩa có thể được dùng để biểu diễn ngữ nghĩa cho
các dạng câu hỏi mà trong đó một hoặc nhiều thông tin có thể được hỏi dựa trên các thông
tin khác đã biết trong câu hỏi đó. Đồng thời, mô hình cây ngữ nghĩa trên cũng cho phép
xử lý các quan hệ “và”, “hoặc” giữa các đối tượng trong cùng một thành phần truy vấn
hoặc thành phần thông tin.
2.5. Phương pháp sinh mã truy vấn SPARQL
Nguyên tắc sinh mã truy vấn SPARQL: mã truy vấn SPARQL gồm các thành phần quan
trọng:

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×
x