Tải bản đầy đủ

Tóm tắt văn bản dựa vào trích xuất câu

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NÔNG TIẾN CÔ
NG

TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

LẠNG SƠN, 2018


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NÔNG TIẾN CÔ
NG

TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU
Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS-TS Đoàn Văn Ban

LẠNG SƠN, 2018


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là sản phẩm nghiên cứu, tìm hiểu của cá nhân
tôi. Những điều được trình bày trong luận văn hoặc là của cá nhân tôi hoặc là
được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất
xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.
Lạng Sơn, tháng 4 năm 2018
TÁC GIẢ LUẬN VĂN

Nông Tiến Công


i

MỤC LỤC
MỤC LỤC .......................................................................................................... i
DANH MỤC CÁC HÌNH ................................................................................
iii DANH MỤC CÁC BẢNG...............................................................................
iv

MỞ

ĐẦU

........................................................................................................... 1
Chương 1 TÓM TẮT VĂN BẢN TIẾNG VIỆT.............................................. 2
1.1. Bài toán tóm tắt văn bản ................................................................. 2
1.1.1. Phân loại tóm tắt ....................................................................... 2
1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận ...... 5
1.2. Các phương pháp đánh giá ............................................................. 9


1.2.1. Các phương pháp đánh giá trong ........................................... 10
1.2.2. Các phương pháp đánh giá ngoài ........................................... 11
1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn đề
liên quan ........................................................................................ 12
1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt......................... 12
1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt ... 15
1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu ... 17
1.4. Tổng kết chương ........................................................................... 18
Chương 2 PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG
ĐỒNG CÂU........................................................................................ 19
2.1. Một số khái niệm và phương pháp tính độ tương đồng câu ......... 19
2.1.1. Độ tương đồng ........................................................................ 19


ii

2.1.2. Độ tương đồng ngữ nghĩa và phương pháp trích xuất câu dựa
trên độ tương đồng ngữ nghĩa câu. ........................................................... 20
2.1.3. Tính độ tương đồng theo độ đo Cosine .................................. 21
2.1.4. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn ...... 22
2.1.5. Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia
................................................................................................................... 25
2.2. Mô hình tóm tắt văn bản tiếng Việt dựa trên trích xuất câu quan
trọng theo phương pháp tính độ tương đồng câu.......................... 28
2.2.1. Giai đoạn tiền xử lý ................................................................ 29
2.2.2. Giai tạo danh sách câu khả dụng ............................................ 32
2.2.3. Giai đoạn sinh văn bản tóm tắt ............................................... 34
2.3. Tổng kết chương ........................................................................... 34
Chương 3 THỰC NGHIỆM MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT
............................................................................................................. 35
3.1. Môi trường thực nghiệm ............................................................... 35
3.2. Chương trình tóm tắt văn bản ....................................................... 35
3.3. Tiến hành thực nghiệm ................................................................. 37
3.3.1. Cơ sở dữ liệu tổng thể............................................................. 37
3.3.2. Mô hình suy luận chủ đề ẩn.................................................... 37
3.3.3. Dữ liệu thực nghiệm ............................................................... 38
3.3.4. Đánh giá độ chính xác của mô hình tóm tắt văn bản ............. 38
3.4. Tổng kết chương ........................................................................... 46
KẾT LUẬN ..................................................................................................... 47
TÀI LIỆU THAM KHẢO............................................................................... 48


3

DANH MỤC CÁC HÌNH
Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13] .................................... 5
Hình 1.2. Mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích
xuất
câu.................................................................................................................... 17
Hình 2.1. Mô hình tính độ tương đồng câu với chủ đề ẩn ..................... 24
Hình 2.2. Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wikipedia 26
Hình 2.3. Mô hình tóm tắt văn bản tiếng Việt ........................................ 28
Hình 2.4. Các câu sau khi tách trong cửa sổ nhỏ góc dưới bên trái ....... 29
Hình 2.5. Văn bản sau khi chuẩn hóa ..................................................... 30
Hình 2.6. Xác định từ dừng và ký tự vô ích............................................ 30
Hình 3.1. Giao diện chương trình ........................................................... 36
Hình 3.2. Các từ đặc trưng của lĩnh vực giáo dục có xác suất xuất hiện
cao ở chủ đề 83, 116, 136 trong mô hình suy luận chủ đề ẩn
............................... 38
Hình 3.3. Kết quả tóm tắt văn bản theo phương pháp tổ hợp với tỷ lệ nén
30%.................................................................................................................. 40
Hình 3.4. Độ chính xác của các phương pháp tóm tắt theo tỷ lệ nén ..... 44
Hình 3.5. Độ chính xác của các phương pháp tóm tắt ở tỷ lệ nén 30% đối
với một số lĩnh vực.......................................................................................... 45


4

DANH MỤC CÁC BẢNG
Bảng 3.1. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 10%...................... 41
Bảng 3.2. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 20%...................... 42
Bảng 3.3. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 30%...................... 43


1

MỞ ĐẦU
Với sự phát triển của công nghệ và Internet hiện nay, thông tin thời sự
được cập nhật trên các Website với tốc độ vũ bão. Điều đó đã mang lại cho
con người rất nhiều lợi ích thiết thực nhưng nó cũng khiến họ gặp phải không
ít khó khăn khi sàng lọc lấy thông tin hữu ích từ nguồn dữ liệu khổng lồ ấy.
Theo đánh giá của công ty Oracle1, hiện có đến 80% dữ liệu trên thế giới
là dữ liệu văn bản. Vì vậy, việc tổ chức quản lý và khai thác hiệu quả nguồn
dữ liệu này là những bài toán lớn cần được quan tâm nghiên cứu và giải
quyết. Tóm tắt văn bản tự động nhằm nhanh chóng thu được những thông tin
quan trọng, tăng hiệu quả xử lý thông tin là một trong các hướng tiếp cận khai
thác dữ liệu văn bản nhận được sự quan tâm nghiên cứu của nhiều nhà khoa
học, nhóm nghiên cứu cũng như các công ty lớn trên thế giới.
Tóm tắt văn bản tự động có nhiều ứng dụng trong thực tế như: tóm tắt tin
tức, tóm tắt kết quả tìm kiếm trong các máy tìm kiếm, tóm tắt hình ảnh, tóm
tắt video,...2
Do những đặc thù của ngôn ngữ nên việc giải quyết bài toán tóm tắt văn
bản tiếng Việt đặt ra cho các nhà nghiên cứu những thách thức, khó khăn
riêng. Các kết quả khả quan từ những nghiên cứu về tóm tắt văn bản tiếng
Việt được công bố hiện nay là cơ sở cho các dự án xây dựng hệ thống tóm tắt
văn bản tiếng Việt tự động hiệu quả trong tương lai [4], [5], [6], [7], [8].
Với việc chọn đề tài “Tóm tắt văn bản dựa vào trích xuất câu”, luận
văn trung vào việc nghiên cứu, đánh giá và lựa chọn phương pháp xây dựng
một mô hình tóm tắt văn bản tiếng Việt hiệu quả.

1
2

http://www.oracle.com/technetwork/testcontent/9ir2text -bwp-f-129974.pdf
https://en.wikipedia.org/wiki/Automatic_summarization


2

Chương 1
TÓM TẮT VĂN BẢN TIẾNG VIỆT
1.1. Bài toán tóm tắt văn bản
Theo Inderjeet Mani thì mục đích của tóm tắt văn bản tự động là: “Tóm
tắt văn bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin
và trình bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn
dạng súc tích và gây cảm xúc đối với người sử dụng hoặc một chương trình
cần đến” [13].
Theo Radev: “Văn bản tóm tắt là văn bản được tạo từ một hoặc nhiều văn
bản khác mà truyền tải được những thông tin quan trọng trong văn bản gốc
nhưng có độ dài không quá một nửa văn bản gốc (thường ngắn hơn đáng kể)”
[11].
Như vậy, tóm tắt văn bản là việc tìm các ý chính của văn bản. Bản tóm tắt
là có ba đặc điểm sau [10], [11], [12], [13]:
- Bảo toàn nội dung chính so với văn bản gốc: Các nội dung quan trọng
hay nổi bật của bản gốc phải được giữ lại trong bản tóm tắt.
- Ngắn ngọn: bản tóm tắt thường ngắn hơn bản gốc nhiều.
- Dễ đọc: người sử dụng có thể đọc và hiểu được dễ dàng.
Việc đưa ra được một bản tóm tắt có chất lượng và không bị giới hạn bởi
miền ứng dụng được xác định là rất khó khăn nên các phương pháp giải quyết
bài toán tóm tắt văn bản thường chỉ hướng đến một kiểu văn bản cụ thể hoặc
một kiểu tóm tắt cụ thể.
1.1.1. Phân loại tóm tắt
Có nhiều cách phân loại tóm tắt văn bản khác nhau, sau đây là một số
cách phân loại tiêu biểu [13]:
1.1.1.1. Theo định dạng đầu ra
- Tóm tắt trích xuất (Extract): là một bản tóm tắt gồm các đoạn văn bản
được rút trích từ văn bản gốc.


3

- Tóm tắt tóm lược (Abstract): là một bản tóm tắt được tạo ra dựa trên
các thông tin quan trọng trong văn bản gốc.
1.1.1.2. Theo mức độ xử lý
- Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng
khái niệm về các đặc trưng nông (shallow feature). Các đặc trưng nông bao
gồm các thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các
thuật ngữ trong văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật
ngữ trong các cụm từ dấu hiệu hay các thuật ngữ trong câu truy vấn của người
dùng. Kết quả là một bản tóm tắt dạng trích xuất (extract).
- Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng
trích xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp
ngôn ngữ tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về
mặt ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng
biểu diễn của các thực thể văn bản (đơn vị văn bản) và mối quan hệ giữa các
thực thể rồi từ đó tìm ra phần quan trọng. Mối quan hệ giữa các thực thể gồm
quan hệ ngữ nghĩa như: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan
hệ cú pháp: dựa trên cây phân tích cú pháp và các mối quan hệ khác.
1.1.1.3. Theo mục đích của bản tóm tắt
- Tóm tắt chỉ thị (Indicative): Đưa ra những thông tin ngắn gọn về chủ đề
chính của văn bản. Dạng tóm tắt này thường được sử dụng trong các hệ thống
tìm kiếm thông tin. Thông thường, độ dài của văn bản tóm tắt loại này chỉ từ 5
đến 10% độ dài của toàn bộ văn bản.
- Tóm tắt thông tin (Information): tóm tắt bao gồm tất cả các thông tin
nổi bật có trong văn bản nguồn tại nhiều mức độ chi tiết khác nhau.
- Tóm tắt đánh giá (Evaluation): tóm tắt nhằm mục đích đánh giá vấn đề
chính của văn bản nguồn, thể hiện quan điểm của tác giả đối với công việc của
họ.


4

Việc phân loại tóm tắt dựa theo mục đích như trên không loại trừ lẫn
nhau, có thể một bản tóm tắt vừa có chức năng cung cấp tin tức lại vừa là kiểu
trình bày sơ lược.
1.1.1.4. Theo người dùng hoặc chủ đề
- Tóm tắt chung (Generalized): tóm tắt nhằm mục đích đưa ra các nội
dung quan trọng bao quát văn bản gốc.
- Tóm tắt hướng truy vấn (Query-based): tóm tắt nhằm mục đích đưa ra
kết quả dựa vào câu truy vấn của người.
- Tóm tắt hướng đến người dùng hoặc chủ đề (User focused or Topic
focused summaries): văn bản tóm tắt đáp ứng nhu cầu của người dùng cụ thể
hoặc chủ đề cụ thể nào đó.
1.1.1.5. Theo số lượng văn bản đầu vào
- Tóm tắt đơn văn bản: đầu vào là một văn bản
- Tóm tắt đa văn bản: đầu vào là một tập văn bản
1.1.1.6. Theo ngôn ngữ
- Tóm tắt đơn ngôn ngữ (Monolingual): Chỉ dựa trên một ngôn ngữ.
- Tóm tắt đa ngôn ngữ (Multilingual): Thực hiện tóm tắt trên nhiều loại
ngôn ngữ khác nhau.
Cách phân loại trên chỉ mang tính tương đối, trên thực tế một bản tóm tắt
có thể mang nhiều đặc trưng phân loại khác nhau. Ví dụ, bản tóm tắt tin tức
trong chương trình điểm báo của đìa truyền hình Việt Nam có thể được xếp
vào dạng tóm tắt chỉ thị, hoặc tóm tắt đa văn bản, hoặc tóm tắt phục vụ tìm
kiếm,...
1.1.2. Một số thuật ngữ
- Tỷ lệ nén (Compression Rate): là độ đo thể hiện bao nhiêu thông tin
được cô đọng trong văn bản tóm tắt được tính bằng công thức:
CompressionRate

SummaryLength
SourceLength

(1.1)


SummaryLength: Độ dài văn bản tóm tắt
SourceLength: Độ dài văn bản nguồn
- Độ nổi bật hay liên quan (Salience or Relevance): là trọng số được
gán cho thông tin trong văn bản thể hiện độ quan trọng của thông tin đó đối
với toàn văn bản hay để chỉ sự liên quan của thông tin đó đối với chương trình
của người sử dụng.
- Sự cố kết (độ mạch lạc - coherence): Một văn bản tóm tắt gọi là cố kết
nếu tất cả các thành phần nằm trong nó tuân theo một thể thống nhất về mặt
nội dung và không có sự trùng lặp giữa các thành phần.
1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận

Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13]
Về cơ bản hệ thống tóm tắt văn bản tự động được chia thành 3 giai đoạn
chính [13]:
- Phân tích (Analysis or Interpretation): biểu diễn và hiểu văn bản nguồn
- Biến đổi (Transformation): trích chọn những nội dung quan trọng


- Tổng hợp (Synthesis or Realization): tạo văn bản mới chứa những điểm
chính, quan trọng của văn bản gốc.
Trong mô hình trên, đầu vào của hệ thống có thể là một hoặc nhiều tài
liệu, văn bản hay các thông tin đa phương tiện như ảnh, âm thanh, video.
Những thông số chính được đề cập trong mô hình ảnh hưởng lớn đến hoạt
động và chất lượng văn bản tóm tắt của hệ thống là:
- Tỷ lệ nén: Tỷ lệ nén cảng thấp thì thông tin sẽ bị mất càng nhiều.
- Mục đích tóm tắt: Cho đại chúng hay cho nhóm người dùng cụ thể.
- Chức năng: Tóm tắt chỉ thị, tóm tắt thông tin, hay tóm tắt đánh giá
- Độ mạch lạc: Văn bản tóm tắt cần diễn đạt câu từ liền mạch hay chỉ bao
gồm các đoạn rời rạc.
1.1.3.1. Các phương pháp áp dụng trong pha phân tích
Trong pha này, văn bản nguồn được phân tích để xác định các đơn vị ngữ
liệu và các đặc trưng của chúng, kết quả của pha này là đầu vào cho pha biến
đổi. Các phương pháp áp dụng trong pha này bao gồm:
➢ Phương pháp thống kê
Các phương pháp thuộc loại này sử dụng các số liệu thống kê về độ quan
trọng của các từ, cụm từ, câu hoặc đoạn văn. Các phương pháp thống kê gồm:
- Dựa vào vị trí
+ Chủ đề, tiêu đề: tiêu đề hay chủ đề của các đoạn văn thường chứa các từ
và ngữ quan trọng.
+ Câu ở đầu hoặc cuối đoạn: xác suất câu đầu đoạn hay câu cuối đoạn
chứa ý chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn. Ngoài ra các
đoạn đầu và cuối văn bản cũng quan trọng hơn các đoạn giữa.
+ Minh hoạ, chú thích: trong các câu chú thích, câu minh hoạ cho ảnh hay
đồ thị thường chứa các thông tin quan trọng.


- Dựa vào cụm từ dấu hiệu
Các cụm từ dấu hiệu có đặc điểm thống kê rất tốt. Sau các cụm từ này
thường là các từ hay câu quan trọng. Có hai loại cụm từ dấu hiệu:
+ Thứ nhất là các cụm từ mang ý nhấn mạnh, sau cụm từ này đoạn văn
quan trọng; chẳng hạn “nói chung là”, “đặc biệt là”, “tóm lại”, “cuối cùng thì”,
“trong bài viết này tôi muốn chỉ ra”, “bài viết nói về”, “nội dung gồm”...
+ Thứ hai là các cụm từ không quan trọng, sau cụm từ này là các thành
phần không có nhiều giá trị trong việc tóm tắt, chẳng hạn: “hiếm khi mà”, “bài
này không nói đến”, “không thể nào…”
- Dựa vào thống kê tần suất từ: Độ quan trọng của từ phụ thuộc vào số
lần xuất hiện của từ đó trong văn bản. Có thể dùng các kĩ thuật như tf-idf [23],
tập thuật ngữ thường xuyên (frequent item set) để xác định tần suất từ.
➢ Phương pháp cấu trúc
Các phương pháp này sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ
nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tư tưởng chính của các
phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên
quan nhiều với các thành phần khác sẽ có mức độ quan trọng cao. Việc đánh
giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa hoặc các quan hệ cú
pháp.
- Phương pháp sử dụng quan hệ giữa câu, đoạn: Phương pháp này xác
định mối quan hệ giữa các đoạn trong văn bản hay các câu trong đoạn với
nhau thông qua việc tính toán mức độ liên quan giữa chúng. Các độ Cosine,
Euclide, Jaccard… được chọn để xác định độ tương đồng giữa các câu hay
đoạn văn bản đó. Sau đó, ta chọn ra đoạn hay câu có độ liên quan lớn nhất.
- Phương pháp chuỗi từ vựng (lexical chains): Phương pháp liên kết từ
vựng sử dụng các từ điển quan hệ từ vựng để xây dựng các chuỗi từ liên kết
với nhau về mặt ngữ nghĩa. Sau khi xây dựng được chuỗi các từ vựng này, ta
đánh giá độ mạnh của chúng và chọn ra những câu phù hợp. Chuỗi từ vựng


không những chỉ dùng trong tóm tắt văn bản mà còn được coi là lý thuyết tổng
quát của vấn đề ngữ nghĩa trong xử lý ngôn ngữ tự nhiên [16].
- Phương pháp liên kết tham chiếu (word coreferences): Phương pháp
này gọi là phương pháp trích chọn trùng lặp (anaphora-based method). Theo
phương pháp này, các cụm trùng lặp được chọn ra, phân rã xem đâu là từ
(cụm từ) tham chiếu và từ (cụm từ) được tham chiếu. Sau khi phân tách các
cụm trùng lặp, chúng ta tạo chuỗi các từ (cụm từ) tham chiếu đến cùng một từ
được tham chiếu. Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu
chứa các từ trong chuỗi này có một độ ưu tiên nào đó thì sẽ được chọn.
Kết thúc pha phân tích sẽ là việc tổng hợp các chỉ số đánh giá độ quan
trọng của các đơn vị ngữ liệu và thực hiện việc chọn các đơn vị ngữ liệu nào có
độ quan trọng lớn làm đầu vào cho pha sau. Có thể nhận thấy các phương pháp
thống kê dễ cài đặt hơn các phương pháp cấu trúc. Việc cài đặt các phương
pháp thống kê đơn thuần chỉ là áp dụng các công thức toán học, còn để cài đặt
các phương pháp cấu trúc thì lại cần thực hiện rất nhiều kĩ thuật về cấu trúc dữ
liệu và thậm chí là các kĩ thuật trong lĩnh vực trí tuệ nhân tạo. Tuy nhiên trong
nhiều trường hợp phương pháp cấu trúc cho kết quả tóm tắt tốt hơn các phương
pháp thống kê.
1.1.3.2. Các phương pháp áp dụng trong pha biến đổi
Pha biến đổi có nhiệm vụ biến đổi đơn vị ngữ liệu được trích xuất trong
pha phân tích như cụm từ, câu, đoạn văn. Thông thường pha biến đổi thực
hiện rút gọn bản thân bên trong một câu, rồi có thể rút gọn đoạn mà không gây
ảnh hưởng đến độ chính xác. Các phương pháp trong pha biến đổi gồm [6]:
➢ Giản lược về cấu trúc câu
Lược bỏ các thành phần thừa, ít mang ý nghĩa trong câu, giúp cấu trúc
câu được thu gọn lại. Công việc này thường dựa trên phân tích cú pháp và
phân tích ngữ nghĩa các thành phần trong câu. Áp dụng phân tích cú pháp
chúng ta được các cấu trúc của câu, qua đó ta có thể thay thế thành phần
bằng những thành


phần tương đương, ghép thành phần có nghĩa tương đương theo một luật nào
đó. Phương pháp này có thể làm câu ngắn gọn hơn, tuy nhiên khó bảo toàn
được văn phong.
➢ Giản lược về mặt ngữ nghĩa
Thay thế hoặc loại bỏ các từ, cụm từ có ý nghĩa cụ thể bằng những từ,
cụm từ ý nghĩa lúc này sẽ tổng quát, điển hình là:
- Trừu trượng hoá khái niệm: thay thế các khái niệm cụ thể bằng khái
niệm chung.
- Thay thế ngữ (cụm từ - phrase) tương đương: thay thế các ngữ đóng vai
trò như nhau trong câu bằng một ngữ chung.
1.1.3.3. Các phương pháp trong pha tổng hợp kết quả
➢ Phương pháp hiển thị phân đoạn
Các đơn vị ngữ liệu được trích xuất hay giản lược từ các pha trước được
liên kết lại thành đoạn theo đúng thứ tự trong văn bản gốc, không thêm bớt từ
nối và cũng không sắp xếp lại. Văn bản kết quả của phương pháp này có độ dễ
đọc và dễ hiểu kém, thậm chí lủng củng vì các đơn vị ngữ liệu có thể bị mập
mờ tham chiếu, không có từ nối hoặc thừa từ.
➢ Phương pháp hiển thị liên kết
Với phương pháp này, ta sẽ đưa thêm các thông tin bổ sung vào văn bản
tóm tắt. Hai phương pháp thường được áp dụng là sử dụng mẫu (template) và
ngữ liệu huấn luyện (corpus).
Các phương pháp hiển thị phân đoạn dễ cài đặt và dễ áp dụng được trong
thực tiễn hơn so với các phương pháp hiển thị liên kết vì không gặp phải
những khó khăn do trong thiết kế mẫu hoặc xây dựng kho ngữ liệu huấn
luyện.
1.2. Các phương pháp đánh giá
Đánh giá một bản tóm tắt là một công việc khó bởi không tồn tại một
bản tóm tắt lý tưởng cho một (hoặc một tập) văn bản đưa ra. Hơn nữa, việc
đánh


giá nội dung tóm tắt cũng rất khó khăn. Trường hợp kết quả là một câu trả lời
cho một câu hỏi, ta có thể xác định được câu trả lời đó đúng hay sai, nhưng
trong các trường hợp khác, thật khó trả lời liệu đầu ra là phải một kết quả đúng
hay không? Thực tế luôn có khả năng một hệ thống sinh ra một bản tóm tắt tốt
nhưng lại sai khác với bản tóm tắt do người thực hiện. Bên cạnh đó, khi việc
đánh giá được thực hiện bởi con người thì chi phí đánh giá sẽ rất cao. Mặt
khác, tóm tắt văn bản còn liên quan đến tỉ lệ nén văn bản, do đó, việc đánh
giá bản tóm tắt cần phải quan tâm đến vấn đề này, khi đó độ phức tạp và chi
phí đánh giá sẽ tăng cao.
Có nhiều kiểu đánh giá khác nhau tuỳ thuộc vào kiểu tóm tắt của hệ
thống. Có thể là đánh giá trong (intrinsic) – tập trung vào chất lượng bản tóm
tắt và đánh giá ngoài (extrinsic) – tập trung vào nhiệm vụ [14].
Các tiêu chí đánh giá:
- Độ mạch lạc (sự cố kết - coherence): đánh giá mức độ rõ ràng của văn
bản tóm tắt, tính súc tích, khả năng có thể đọc và hiểu được của bài viết…
- Độ hàm chứa thông tin (Informationess): tỉ lệ thông tin của văn bản gốc
trong văn bản tóm tắt.
- Độ liên quan (Relevance): xác định mức độ phù hợp của văn bản tóm
tắt với chủ đề cho trước (chủ đề có thể là một câu truy vấn).
- Độ dễ đọc hiểu (Reading Comprehence): một người được giao việc đọc
văn bản kết quả, sau đó trả lời các câu hỏi, hệ thống sẽ phải cho điểm và từ đó
đưa ra phần trăm những câu trả lời đúng.
1.2.1. Các phương pháp đánh giá trong
1.2.1.1. So sánh với văn bản tóm tắt khác
Ý tưởng cơ bản của phương pháp này là đem văn bản do hệ thống tóm tắt
so sánh với các bản tóm tắt khác (có thể do hệ thống tóm tắt khác thực hiện
hoặc do con người thực hiện). Thông thường là đem so sánh với văn bản tóm


tắt do con người thực hiện. Việc so sánh giữa các bản tóm tắt này có thể do
con người thực hiện hoặc có thể thực hiện tự động.
Khi so sánh, có thể sử dụng một số độ đo sau:
- Độ chính xác (Precision) và độ bao phủ (Recall). Tuy nhiên, 2 độ đo
này chưa đủ để phân biệt các bản tóm tắt, các bản tóm tắt khác nội dung
nhưng vẫn có cùng độ đo.
- Độ đo hạng câu (Sentence Rank): thay thế cho độ bao phủ, khi đó, một
bản tóm tắt được đặc trưng bởi hạng của các câu trong các bản tóm tắt thích
hợp. Hạng của các câu trong bản tóm tắt do hệ thống thực hiện và trong các
bản tóm tắt dùng để so sánh có thể tính bằng độ đo tương quan. Độ do này áp
dụng đối với hệ thống tóm tắt dạng trích xuất.
- Độ đo dựa trên nội dung (Content-Based): dựa trên sự tương tự về mặt
từ vựng, và có thể áp dụng đối với cả 2 dạng tóm tắt. Tuy nhiên, độ đo này
hữu dụng với các bản tóm tắt trích xuất, hoặc với các bản tóm tắt dạng
abstract nhưng có mức độ cắt-dán cao (tức là văn bản tóm tắt được tạo bởi
nhiều từ, cụm từ, câu nguyên dạng trong văn bản nguồn).
1.2.1.2. So sánh với văn bản nguồn
Với phương pháp này, ta đem so sánh văn bản tóm tắt với văn bản nguồn
để xác định mức độ hàm chứa thông tin của văn bản tóm tắt. Các độ đo dựa
trên nội dung như trên có thể sử dụng để đánh giá. đã đưa ra phương pháp sử
dụng thống kê để xác định mỗi thuật ngữ có phải là thuật ngữ trung tâm hay
không phải thuật ngữ trung tâm. Tiếp đó, phân loại vào các nhóm chính xác
(Correct), không chính xác (Incorrect) và thiếu (Missing) [14].
1.2.2. Các phương pháp đánh giá ngoài
Ý tưởng cơ bản của các phương pháp đánh giá ngoài là đánh giá tác dụng
của bản tóm tắt với các nhiệm vụ khác nhau.


- Đánh giá mức độ liên quan (relevance): ý tưởng của phương pháp này
là đưa ra một văn bản và một chủ đề, đánh giá xem mức độ liên quan của văn
bản với chủ đề đó.
- Đánh giá mức độ đọc hiểu: trước tiên, một người được đọc các văn bản
tóm tắt từ một hoặc nhiều văn bản, sau đó trả lời các câu hỏi kiểm tra. Hệ
thống tự động tính điểm các câu trả lời và đánh giá tỉ lệ trả lời đúng. Nếu bản
tóm tắt cho phép trả lời các câu hỏi giống như khi đọc toàn bộ văn bản nguồn
thì bản tóm tắt đó có khả năng cung cấp thông tin cao. Marcu [9] thực hiện đo
mức độ cung cấp thông tin dựa trên việc người ta có thể khôi phục lại các
thông tin quan trọng trong văn bản khi đọc bản tóm tắt của văn bản đó. Bằng
thực nghiệm, tác giả tiến hành dựng lại văn bản gốc dựa trên việc đọc văn bản
tóm tắt kết hợp phỏng đoán.
1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn
đề liên quan
Bài toán tóm tắt văn bản tiếng Việt dự vào trích cuất câu có thể phát biểu
như sau: “Tạo một bản tóm tắt với theo tỷ lệ xác định từ văn bản gốc bằng
cách rút ra những câu quan trọng nhất. Ngôn ngữ trong văn bản gốc và văn
bản tóm tắt là tiếng Việt”.
Với những đặc thù riêng của ngôn ngữ, bài toán tóm tắt văn bản tiếng
Việt có những vấn đề phức tạp phải cần giải quyết như: cấu trúc ngữ pháp,
ngữ nghĩa, chính tả, bảng mã3,... [1], [2], [3], [6], [8]
1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt
1.3.1.1. Đặc điểm ngôn ngữ
Tiếng Việt là ngôn ngữ thuộc loại hình đơn lập, không biến hình từ và
âm tiết [1], [2], [3], [6]. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ
âm, từ
vựng, ngữ pháp.
3

https://vi.wikipedia.org/wiki/Bộ_gõ_tiếng_Việt


Về đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có nghĩa.
Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ
tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện
tượng..., chủ yếu nhờ phương thức ghép và phương thức láy [1], [3], [6].
Theo cấu tạo, có thể phân loại từ trong tiếng Việt thành:
Từ đơn: là từ chỉ chứa một tiếng. Ví dụ: học, trường, sách, sẽ, đang,...
Từ ghép: là từ gồm 2 tiếng trở lên, như tàu xe, trường học, máy tính,...
Do đó, đối với văn bản tiếng Việt không thể phân biệt các từ bằng
khoảng trống như đối với văn bản tiếng Anh mà cần phải xử lý tách từ để xác
định chính xác các từ cấu tạo nên từng câu hay toàn văn bản.
Về đặc điểm ngữ pháp: Việc sắp xếp các từ theo một trật tự nhất định là
cách chủ yếu để biểu thị các quan hệ cú pháp. Các phương thức ngữ pháp bên
ngoài từ chủ yếu trong tiếng Việt là: trật tự từ, hư từ và ngữ điệu [2], [3], [6].
1.3.1.2. Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng tiền xử lý dữ liệu văn
bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm như:
− Các tiếng đồng âm: như kĩ/kỹ, lí, lý,… thường bị sử dụng lẫn nhau như:
lý luận, lí luận, kĩ thuật, kỹ thuật,…
− Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ
thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc,…
− Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên
nguyên âm có ưu tiên cao nhất. Tuy nhiên, khi viết văn bản nhiều bộ gõ văn
bản không tuân thủ theo đúng nguyên tắc trên nên xảy ra hiện tượng dấu được
đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy,…
− Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết
hoa, tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện.


− Phiên âm tiếng nước ngoài: hiện nay, vẫn còn nhiều tranh cãi giữa việc
phiên âm tiếng nước ngoài thành tiếng Việt (Việt hoá), nên tồn tại nhiều cách
viết (giữ nguyên gốc tiếng nước ngoài, phiên âm ra tiếng Việt), ví dụ:
Singapore/Xin−ga−po.
− Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được
giữa nối tên riêng hay chú thích.
− Kí tự ngắt câu: các kí tự đặc biệt như “.”, “;”, “!”, “?”, “…” ngăn cách
giữa các câu hoặc các vế câu trong câu ghép.
1.3.1.3. Bảng mã tiếng Việt trên máy tính
Hiện nay, việc đưa tiếng Việt vào máy tính không chỉ để soạn thảo văn
bản mà còn để xây dựng các phần mềm có giao diện tiếng Việt và cũng để xử
lý tiếng Việt. Tuy nhiên, hiện nay có nhiều cách mã hoá các kí tự tiếng Việt
khác nhau, dẫn tới có nhiều bảng mã khác nhau được sử dụng. Theo thống kê,
có tới khoảng 14 bảng mã tiếng Việt khác nhau được sử dụng4, do đó , việc
khai thác tài liệu cũng như xử lý dữ liệu rất phức tạp. Có thể kể đến một số
bảng mã dưới đây.
- Unicode: là bộ mã chuẩn quốc tế được thiết kế để dùng làm bộ mã duy
nhất cho tất cả các ngôn ngữ khác nhau trên thế giới, kể cả các ngôn ngữ sử
dụng ký tự tượng hình phức tạp như tiếng Trung, tiếng Thái... Vì điểm ưu việt
đó, Unicode đã và đang từng bước thay thế các bộ mã truyền thống, kể cả bộ
mã tiêu chuẩn ISO 8859 và hiện đang được hỗ trợ trên rất nhiều phần mềm
cũng như các trình ứng dụng.
VISCII: (viết tắt của VIetnamese Standard Code for Information
Interchange trong tiếng Anh) là một bảng mã do nhóm Viet-Std đề xướng vào
năm 1992 dùng để gõ tiếng Việt. Bảng mã này thay thế các ký tự ít được dùng,
hay các ký tự được dùng trong các ngôn ngữ khác, bằng những ký tự chữ Quốc
4

https://vi.wikipedia.org/wiki/Bộ_gõ_tiếng_Việt


ngữ có dấu. VISCII trước đây được dùng trong nhiều hệ điều hành như MSDOS, Windows, Unix, Mac OS,...
TCVN3: Bảng mã theo tiêu chuẩn (cũ) của Việt Nam. Các font chữ trong
bảng mã này có tên bắt đầu bằng .Vn và mỗi font có hai loại thường và hoa
(font chữ hoa kết thúc bằng H). Ví dụ: .VnTime, .VNSouthernH. Ngày nay
TCVN đã quy định sử dụng font Unicode trong soạn thảo văn bản.
VNI: Bảng mã do công ty VNI (Vietnam-International) sở hữu bản
quyền. Các font chữ trong bảng mã VNI có tên bắt đầu bằng VNI-, ví dụ
như VNI- Times.
Unicode, TCVN3, VNI là ba bảng mã thông dụng nhất, ngoài ra còn có
các bảng mã như BK HCM, Vietware, VIQR,...
Tóm tại, những đặc điểm trên của tiếng Việt khiến cho việc xác định từ,
cụm từ, câu [4], [5], [6] trên máy tính là vấn đề khó, cần có nhiều nghiên cứu
thêm. Do vậy, tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) trở nên rất
phức tạp với việc xử lý các hư từ, phụ từ, từ láy…; hơn nữa, phương thức ngữ
pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất
hiện của từ có thể không chính xác như mong đợi. Mặt khác, ranh giới xác
định từ không phải là khoảng trắng, khiến cho việc tách từ trở nên khó khăn,
dẫn đến khó khăn cho các giai đoạn tiếp theo như kiểm lỗi chính tả, gán nhãn
từ loại, thống kê tần suất từ… Vì vậy, các phương pháp xử lý ngôn ngữ đang
áp dụng cho tiếng Anh không thể áp dụng trực tiếp cho tiếng Việt mà cần có
sự thay đổi cho phù hợp.
1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt
Tại Việt Nam hiện nay, lĩnh vực xử lý ngôn ngữ tự nhiên đã có được
những kết quả tốt trong phân tách từ, phân lớp và phân nhóm văn bản. Tuy
nhiên, bài toán tóm tắt văn bản chưa có nhiều nghiên cứu và đa phần các công
trình nghiên cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên thống
kê, cũng có một


số nghiên cứu có dựa trên ngữ nghĩa để nâng cao độ chính xác. Có thể kể đến
một số công trình nghiên cứu như:
Đỗ Phúc, Hoàng Kiếm [4] đã sử dụng cây hậu tố để phát hiện các dãy từ
phổ biến trong các câu của văn bản, dùng từ điển đồng nghĩa và WordNet
tiếng Việt để giải quyết vấn đề nghĩa của từ, rồi dùng kĩ thuật gom cụm để
gom các câu trong văn bản (vector đặc trưng cho câu) và hình thành các vector
đặc trưng cụm, sau đó rút ra câu chứa nhiều thành phần của các vector đặc
trưng cụm.
Vương Toàn [7] đã đề xuất quy trình tóm tắt văn bản khoa học. Theo đó,
đầu tiên cho máy đọc lướt văn bản và tìm xem có sẵn những đoạn văn mang
tính chất “tóm tắt” hay không; tiếp theo là định chủ đề, xác định 4-5 tiêu đề,
đề mục hoặc từ khoá để máy tự động chọn lưu tất cả những câu có các từ khoá
đó.
Nguyễn Trọng Phúc, Lê Thanh Hương [5] lại sử dụng cấu trúc diễn ngôn
để tóm tắt văn bản. Theo đó, xây dựng cây cấu trúc diễn ngôn biểu diễn mỗi
quan hệ diễn ngôn giữa các đoạn văn bản (như các quan hệ nhân-quả, liệt kê,
diễn giải,…), rồi từ cây cấu trúc diễn ngôn này đánh giá được độ quan trọng
của các đoạn văn bản và tiến hành trích xuất tạo ra bản tóm tắt.
Nói chung, có hai hướng để tóm tắt văn bản tự động được các nhà nghiên
cứu tập trung quan tâm: tóm tắt tóm lược và tóm tắt trích xuất. Nghiên cứu về
các phương pháp tóm lược tự động là một lĩnh vực nghiên cứu ngày càng
quan trọng và được quan tâm tích cực, tuy nhiên do các khó khăn phức tạp về
xử lý ngôn ngữ tự nhiên nên ở hướng nghiên cứu này chưa có được nhiều kết
quả khả quan so với hướng nghiên cứu tóm tắt dựa vào trích xuất. Những ứng
dụng thực tế dựa vào tóm tắt trích xuất ngày càng trở nên quan trọng và đa
dạng. Vì vậy, những nghiên cứu về tóm tắt văn bản tự động hiện nay tập
trung chủ yếu ở các phương pháp tóm tắt trích xuất.


1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu
Về cơ bản, mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu thể
hiện trong hình 1.2. Nhìn chung, ở mỗi giai đoạn trong quá trình thực hiện sẽ
có những xử lý thích hợp đối với văn bản tiếng Việt.

Hình 1.2. Mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất
câu
1.3.3.1. Tiền xử lý
Giai đoạn này nhằm chuẩn hoá văn bản về bảng mã, các lỗi chính tả, các
lỗi về dấu câu, v.v… sau đó, thực hiện tách từ, tách câu.
1.3.3.2. Biến đổi
Trong giai đoạn này có thể sử dụng các các phương pháp biến đổi văn
bản theo mô hình vector, mô hình đồ thị, mô hình cây. Khi đó mỗi câu trong
văn bản có thể được biểu diễn như là một vector, một đỉnh của đồ thị, hay một
nút trên cây (các phần tử trong mô hình biểu diễn).
Nhằm tăng cường tính chính xác trong việc xác định các câu quan trọng,
các phần tử trong mô hình biểu diễn có thể bổ sung thêm trọng số thông qua
việc xác định độ tương đồng ngữ nghĩa của từ, mức độ mạnh của các cấu trúc
của câu, hoặc một số đặc tính khác.


Ngoài ra đề giảm bớt sự phức tạp của mô hình, những từ, cụm từ ít giá trị
trong việc xác định thông tin như từ dừng, từ phổ biến cũng sẽ được loại bỏ ở
giai đoạn này.
1.3.3.3. Sinh văn bản
Căn cứ trên mô hình biến đổi văn bản của giai đoạn trước, các phương
pháp trích chọn câu quan trọng có thể được thực hiện qua các giải thuật như
gom cụm, duyệt đồ thị, duyệt cây,... quen thuộc.
1.4. Tổng kết chương
Chương này, luận văn đã trình bày một số vấn đề cơ bản để giải quyết bài
toán tóm tắt văn bản nói chung, tóm tắt văn bản tiếng Việt nói riêng; giới thiệu
mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất câu. Chương
tiếp theo, luận văn sẽ tập trung trình bày chi tiết phương pháp xác định độ
tương đồng ngữ nghĩa giữa hai câu dùng trong mô hình tóm tắt văn bản tiếng
Việt.


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×