Tải bản đầy đủ

Tóm tắt văn bản dựa vào trích xuất câu (Luận văn thạc sĩ)

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NÔNG TIẾN CÔNG

TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

LẠNG SƠN, 2018


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NÔNG TIẾN CÔNG

TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS-TS Đoàn Văn Ban

LẠNG SƠN, 2018


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là sản phẩm nghiên cứu, tìm hiểu của cá nhân
tôi. Những điều được trình bày trong luận văn hoặc là của cá nhân tôi hoặc là
được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất
xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.
Lạng Sơn, tháng 4 năm 2018
TÁC GIẢ LUẬN VĂN

Nông Tiến Công


i

MỤC LỤC
MỤC LỤC .......................................................................................................... i
DANH MỤC CÁC HÌNH ................................................................................ iii
DANH MỤC CÁC BẢNG............................................................................... iv
MỞ ĐẦU ........................................................................................................... 1
Chương 1 TÓM TẮT VĂN BẢN TIẾNG VIỆT .............................................. 2
1.1. Bài toán tóm tắt văn bản ................................................................. 2
1.1.1. Phân loại tóm tắt ....................................................................... 2
1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận ...... 5
1.2. Các phương pháp đánh giá ............................................................. 9
1.2.1. Các phương pháp đánh giá trong ........................................... 10
1.2.2. Các phương pháp đánh giá ngoài ........................................... 11
1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn đề
liên quan ........................................................................................ 12
1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt......................... 12
1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt ... 15
1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu ... 17
1.4. Tổng kết chương ........................................................................... 18


Chương 2 PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG
ĐỒNG CÂU ........................................................................................ 19
2.1. Một số khái niệm và phương pháp tính độ tương đồng câu ......... 19
2.1.1. Độ tương đồng ........................................................................ 19


ii

2.1.2. Độ tương đồng ngữ nghĩa và phương pháp trích xuất câu dựa
trên độ tương đồng ngữ nghĩa câu. ........................................................... 20
2.1.3. Tính độ tương đồng theo độ đo Cosine .................................. 21
2.1.4. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn ...... 22
2.1.5. Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia
................................................................................................................... 25
2.2. Mô hình tóm tắt văn bản tiếng Việt dựa trên trích xuất câu quan
trọng theo phương pháp tính độ tương đồng câu .......................... 28
2.2.1. Giai đoạn tiền xử lý ................................................................ 29
2.2.2. Giai tạo danh sách câu khả dụng ............................................ 32
2.2.3. Giai đoạn sinh văn bản tóm tắt ............................................... 34
2.3. Tổng kết chương ........................................................................... 34
Chương 3 THỰC NGHIỆM MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT
............................................................................................................. 35
3.1. Môi trường thực nghiệm ............................................................... 35
3.2. Chương trình tóm tắt văn bản ....................................................... 35
3.3. Tiến hành thực nghiệm ................................................................. 37
3.3.1. Cơ sở dữ liệu tổng thể ............................................................. 37
3.3.2. Mô hình suy luận chủ đề ẩn .................................................... 37
3.3.3. Dữ liệu thực nghiệm ............................................................... 38
3.3.4. Đánh giá độ chính xác của mô hình tóm tắt văn bản ............. 38
3.4. Tổng kết chương ........................................................................... 46
KẾT LUẬN ..................................................................................................... 47
TÀI LIỆU THAM KHẢO ............................................................................... 48


iii

DANH MỤC CÁC HÌNH
Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13] .................................... 5
Hình 1.2. Mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất
câu.................................................................................................................... 17
Hình 2.1. Mô hình tính độ tương đồng câu với chủ đề ẩn ..................... 24
Hình 2.2. Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wikipedia 26
Hình 2.3. Mô hình tóm tắt văn bản tiếng Việt ........................................ 28
Hình 2.4. Các câu sau khi tách trong cửa sổ nhỏ góc dưới bên trái ....... 29
Hình 2.5. Văn bản sau khi chuẩn hóa ..................................................... 30
Hình 2.6. Xác định từ dừng và ký tự vô ích............................................ 30
Hình 3.1. Giao diện chương trình ........................................................... 36
Hình 3.2. Các từ đặc trưng của lĩnh vực giáo dục có xác suất xuất hiện cao
ở chủ đề 83, 116, 136 trong mô hình suy luận chủ đề ẩn ............................... 38
Hình 3.3. Kết quả tóm tắt văn bản theo phương pháp tổ hợp với tỷ lệ nén
30%.................................................................................................................. 40
Hình 3.4. Độ chính xác của các phương pháp tóm tắt theo tỷ lệ nén ..... 44
Hình 3.5. Độ chính xác của các phương pháp tóm tắt ở tỷ lệ nén 30% đối
với một số lĩnh vực .......................................................................................... 45


iv

DANH MỤC CÁC BẢNG
Bảng 3.1. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 10%...................... 41
Bảng 3.2. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 20%...................... 42
Bảng 3.3. Kết quả tóm tắt 6 nhóm văn bản theo tỷ lệ nén 30%...................... 43


1

MỞ ĐẦU

Với sự phát triển của công nghệ và Internet hiện nay, thông tin thời sự
được cập nhật trên các Website với tốc độ vũ bão. Điều đó đã mang lại cho con
người rất nhiều lợi ích thiết thực nhưng nó cũng khiến họ gặp phải không ít khó
khăn khi sàng lọc lấy thông tin hữu ích từ nguồn dữ liệu khổng lồ ấy.
Theo đánh giá của công ty Oracle1, hiện có đến 80% dữ liệu trên thế giới
là dữ liệu văn bản. Vì vậy, việc tổ chức quản lý và khai thác hiệu quả nguồn dữ
liệu này là những bài toán lớn cần được quan tâm nghiên cứu và giải quyết.
Tóm tắt văn bản tự động nhằm nhanh chóng thu được những thông tin quan
trọng, tăng hiệu quả xử lý thông tin là một trong các hướng tiếp cận khai thác
dữ liệu văn bản nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học,
nhóm nghiên cứu cũng như các công ty lớn trên thế giới.
Tóm tắt văn bản tự động có nhiều ứng dụng trong thực tế như: tóm tắt tin
tức, tóm tắt kết quả tìm kiếm trong các máy tìm kiếm, tóm tắt hình ảnh, tóm tắt
video,...2
Do những đặc thù của ngôn ngữ nên việc giải quyết bài toán tóm tắt văn
bản tiếng Việt đặt ra cho các nhà nghiên cứu những thách thức, khó khăn riêng.
Các kết quả khả quan từ những nghiên cứu về tóm tắt văn bản tiếng Việt được
công bố hiện nay là cơ sở cho các dự án xây dựng hệ thống tóm tắt văn bản
tiếng Việt tự động hiệu quả trong tương lai [4], [5], [6], [7], [8].
Với việc chọn đề tài “Tóm tắt văn bản dựa vào trích xuất câu”, luận
văn trung vào việc nghiên cứu, đánh giá và lựa chọn phương pháp xây dựng
một mô hình tóm tắt văn bản tiếng Việt hiệu quả.

1
2

http://www.oracle.com/technetwork/testcontent/9ir2text-bwp-f-129974.pdf
https://en.wikipedia.org/wiki/Automatic_summarization


2

Chương 1
TÓM TẮT VĂN BẢN TIẾNG VIỆT
1.1. Bài toán tóm tắt văn bản
Theo Inderjeet Mani thì mục đích của tóm tắt văn bản tự động là: “Tóm tắt
văn bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình
bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích
và gây cảm xúc đối với người sử dụng hoặc một chương trình cần đến” [13].
Theo Radev: “Văn bản tóm tắt là văn bản được tạo từ một hoặc nhiều văn
bản khác mà truyền tải được những thông tin quan trọng trong văn bản gốc nhưng
có độ dài không quá một nửa văn bản gốc (thường ngắn hơn đáng kể)” [11].
Như vậy, tóm tắt văn bản là việc tìm các ý chính của văn bản. Bản tóm tắt
là có ba đặc điểm sau [10], [11], [12], [13]:
- Bảo toàn nội dung chính so với văn bản gốc: Các nội dung quan trọng
hay nổi bật của bản gốc phải được giữ lại trong bản tóm tắt.
- Ngắn ngọn: bản tóm tắt thường ngắn hơn bản gốc nhiều.
- Dễ đọc: người sử dụng có thể đọc và hiểu được dễ dàng.
Việc đưa ra được một bản tóm tắt có chất lượng và không bị giới hạn bởi
miền ứng dụng được xác định là rất khó khăn nên các phương pháp giải quyết
bài toán tóm tắt văn bản thường chỉ hướng đến một kiểu văn bản cụ thể hoặc
một kiểu tóm tắt cụ thể.
1.1.1. Phân loại tóm tắt
Có nhiều cách phân loại tóm tắt văn bản khác nhau, sau đây là một số cách
phân loại tiêu biểu [13]:
1.1.1.1. Theo định dạng đầu ra
- Tóm tắt trích xuất (Extract): là một bản tóm tắt gồm các đoạn văn bản
được rút trích từ văn bản gốc.


3

- Tóm tắt tóm lược (Abstract): là một bản tóm tắt được tạo ra dựa trên các
thông tin quan trọng trong văn bản gốc.
1.1.1.2. Theo mức độ xử lý
- Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng
khái niệm về các đặc trưng nông (shallow feature). Các đặc trưng nông bao
gồm các thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật
ngữ trong văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong
các cụm từ dấu hiệu hay các thuật ngữ trong câu truy vấn của người dùng. Kết
quả là một bản tóm tắt dạng trích xuất (extract).
- Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng
trích xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp
ngôn ngữ tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về mặt
ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu
diễn của các thực thể văn bản (đơn vị văn bản) và mối quan hệ giữa các thực
thể rồi từ đó tìm ra phần quan trọng. Mối quan hệ giữa các thực thể gồm quan
hệ ngữ nghĩa như: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú
pháp: dựa trên cây phân tích cú pháp và các mối quan hệ khác.
1.1.1.3. Theo mục đích của bản tóm tắt
- Tóm tắt chỉ thị (Indicative): Đưa ra những thông tin ngắn gọn về chủ đề
chính của văn bản. Dạng tóm tắt này thường được sử dụng trong các hệ thống
tìm kiếm thông tin. Thông thường, độ dài của văn bản tóm tắt loại này chỉ từ 5
đến 10% độ dài của toàn bộ văn bản.
- Tóm tắt thông tin (Information): tóm tắt bao gồm tất cả các thông tin nổi
bật có trong văn bản nguồn tại nhiều mức độ chi tiết khác nhau.
- Tóm tắt đánh giá (Evaluation): tóm tắt nhằm mục đích đánh giá vấn đề
chính của văn bản nguồn, thể hiện quan điểm của tác giả đối với công việc của họ.


4

Việc phân loại tóm tắt dựa theo mục đích như trên không loại trừ lẫn nhau,
có thể một bản tóm tắt vừa có chức năng cung cấp tin tức lại vừa là kiểu trình
bày sơ lược.
1.1.1.4. Theo người dùng hoặc chủ đề
- Tóm tắt chung (Generalized): tóm tắt nhằm mục đích đưa ra các nội dung
quan trọng bao quát văn bản gốc.
- Tóm tắt hướng truy vấn (Query-based): tóm tắt nhằm mục đích đưa ra
kết quả dựa vào câu truy vấn của người.
- Tóm tắt hướng đến người dùng hoặc chủ đề (User focused or Topic
focused summaries): văn bản tóm tắt đáp ứng nhu cầu của người dùng cụ thể
hoặc chủ đề cụ thể nào đó.
1.1.1.5. Theo số lượng văn bản đầu vào
- Tóm tắt đơn văn bản: đầu vào là một văn bản
- Tóm tắt đa văn bản: đầu vào là một tập văn bản
1.1.1.6. Theo ngôn ngữ
- Tóm tắt đơn ngôn ngữ (Monolingual): Chỉ dựa trên một ngôn ngữ.
- Tóm tắt đa ngôn ngữ (Multilingual): Thực hiện tóm tắt trên nhiều loại
ngôn ngữ khác nhau.
Cách phân loại trên chỉ mang tính tương đối, trên thực tế một bản tóm tắt
có thể mang nhiều đặc trưng phân loại khác nhau. Ví dụ, bản tóm tắt tin tức
trong chương trình điểm báo của đìa truyền hình Việt Nam có thể được xếp vào
dạng tóm tắt chỉ thị, hoặc tóm tắt đa văn bản, hoặc tóm tắt phục vụ tìm kiếm,...
1.1.2. Một số thuật ngữ
- Tỷ lệ nén (Compression Rate): là độ đo thể hiện bao nhiêu thông tin
được cô đọng trong văn bản tóm tắt được tính bằng công thức:
CompressionRate =

SummaryLength
SourceLength

(1.1)


5

SummaryLength: Độ dài văn bản tóm tắt
SourceLength: Độ dài văn bản nguồn
- Độ nổi bật hay liên quan (Salience or Relevance): là trọng số được gán
cho thông tin trong văn bản thể hiện độ quan trọng của thông tin đó đối với toàn
văn bản hay để chỉ sự liên quan của thông tin đó đối với chương trình của người
sử dụng.
- Sự cố kết (độ mạch lạc - coherence): Một văn bản tóm tắt gọi là cố kết
nếu tất cả các thành phần nằm trong nó tuân theo một thể thống nhất về mặt nội
dung và không có sự trùng lặp giữa các thành phần.
1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận

Hình 1.1. Mô hình hệ thống tóm tắt văn bản [13]
Về cơ bản hệ thống tóm tắt văn bản tự động được chia thành 3 giai đoạn
chính [13]:
- Phân tích (Analysis or Interpretation): biểu diễn và hiểu văn bản nguồn
- Biến đổi (Transformation): trích chọn những nội dung quan trọng


6

- Tổng hợp (Synthesis or Realization): tạo văn bản mới chứa những điểm
chính, quan trọng của văn bản gốc.
Trong mô hình trên, đầu vào của hệ thống có thể là một hoặc nhiều tài
liệu, văn bản hay các thông tin đa phương tiện như ảnh, âm thanh, video. Những
thông số chính được đề cập trong mô hình ảnh hưởng lớn đến hoạt động và chất
lượng văn bản tóm tắt của hệ thống là:
- Tỷ lệ nén: Tỷ lệ nén cảng thấp thì thông tin sẽ bị mất càng nhiều.
- Mục đích tóm tắt: Cho đại chúng hay cho nhóm người dùng cụ thể.
- Chức năng: Tóm tắt chỉ thị, tóm tắt thông tin, hay tóm tắt đánh giá
- Độ mạch lạc: Văn bản tóm tắt cần diễn đạt câu từ liền mạch hay chỉ bao
gồm các đoạn rời rạc.
1.1.3.1. Các phương pháp áp dụng trong pha phân tích
Trong pha này, văn bản nguồn được phân tích để xác định các đơn vị ngữ
liệu và các đặc trưng của chúng, kết quả của pha này là đầu vào cho pha biến
đổi. Các phương pháp áp dụng trong pha này bao gồm:
➢ Phương pháp thống kê
Các phương pháp thuộc loại này sử dụng các số liệu thống kê về độ quan
trọng của các từ, cụm từ, câu hoặc đoạn văn. Các phương pháp thống kê gồm:
- Dựa vào vị trí
+ Chủ đề, tiêu đề: tiêu đề hay chủ đề của các đoạn văn thường chứa các từ
và ngữ quan trọng.
+ Câu ở đầu hoặc cuối đoạn: xác suất câu đầu đoạn hay câu cuối đoạn
chứa ý chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn. Ngoài ra các đoạn
đầu và cuối văn bản cũng quan trọng hơn các đoạn giữa.
+ Minh hoạ, chú thích: trong các câu chú thích, câu minh hoạ cho ảnh hay
đồ thị thường chứa các thông tin quan trọng.


7

- Dựa vào cụm từ dấu hiệu
Các cụm từ dấu hiệu có đặc điểm thống kê rất tốt. Sau các cụm từ này
thường là các từ hay câu quan trọng. Có hai loại cụm từ dấu hiệu:
+ Thứ nhất là các cụm từ mang ý nhấn mạnh, sau cụm từ này đoạn văn
quan trọng; chẳng hạn “nói chung là”, “đặc biệt là”, “tóm lại”, “cuối cùng thì”,
“trong bài viết này tôi muốn chỉ ra”, “bài viết nói về”, “nội dung gồm”...
+ Thứ hai là các cụm từ không quan trọng, sau cụm từ này là các thành
phần không có nhiều giá trị trong việc tóm tắt, chẳng hạn: “hiếm khi mà”, “bài
này không nói đến”, “không thể nào…”
- Dựa vào thống kê tần suất từ: Độ quan trọng của từ phụ thuộc vào số
lần xuất hiện của từ đó trong văn bản. Có thể dùng các kĩ thuật như tf-idf [23],
tập thuật ngữ thường xuyên (frequent item set) để xác định tần suất từ.
➢ Phương pháp cấu trúc
Các phương pháp này sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ
nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tư tưởng chính của các
phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên
quan nhiều với các thành phần khác sẽ có mức độ quan trọng cao. Việc đánh
giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa hoặc các quan hệ cú pháp.
- Phương pháp sử dụng quan hệ giữa câu, đoạn: Phương pháp này xác
định mối quan hệ giữa các đoạn trong văn bản hay các câu trong đoạn với nhau
thông qua việc tính toán mức độ liên quan giữa chúng. Các độ Cosine, Euclide,
Jaccard… được chọn để xác định độ tương đồng giữa các câu hay đoạn văn bản
đó. Sau đó, ta chọn ra đoạn hay câu có độ liên quan lớn nhất.
- Phương pháp chuỗi từ vựng (lexical chains): Phương pháp liên kết từ
vựng sử dụng các từ điển quan hệ từ vựng để xây dựng các chuỗi từ liên kết
với nhau về mặt ngữ nghĩa. Sau khi xây dựng được chuỗi các từ vựng này, ta
đánh giá độ mạnh của chúng và chọn ra những câu phù hợp. Chuỗi từ vựng


8

không những chỉ dùng trong tóm tắt văn bản mà còn được coi là lý thuyết tổng
quát của vấn đề ngữ nghĩa trong xử lý ngôn ngữ tự nhiên [16].
- Phương pháp liên kết tham chiếu (word coreferences): Phương pháp
này gọi là phương pháp trích chọn trùng lặp (anaphora-based method). Theo
phương pháp này, các cụm trùng lặp được chọn ra, phân rã xem đâu là từ (cụm
từ) tham chiếu và từ (cụm từ) được tham chiếu. Sau khi phân tách các cụm
trùng lặp, chúng ta tạo chuỗi các từ (cụm từ) tham chiếu đến cùng một từ được
tham chiếu. Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu chứa các
từ trong chuỗi này có một độ ưu tiên nào đó thì sẽ được chọn.
Kết thúc pha phân tích sẽ là việc tổng hợp các chỉ số đánh giá độ quan trọng
của các đơn vị ngữ liệu và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan
trọng lớn làm đầu vào cho pha sau. Có thể nhận thấy các phương pháp thống kê
dễ cài đặt hơn các phương pháp cấu trúc. Việc cài đặt các phương pháp thống kê
đơn thuần chỉ là áp dụng các công thức toán học, còn để cài đặt các phương pháp
cấu trúc thì lại cần thực hiện rất nhiều kĩ thuật về cấu trúc dữ liệu và thậm chí là
các kĩ thuật trong lĩnh vực trí tuệ nhân tạo. Tuy nhiên trong nhiều trường hợp
phương pháp cấu trúc cho kết quả tóm tắt tốt hơn các phương pháp thống kê.
1.1.3.2. Các phương pháp áp dụng trong pha biến đổi
Pha biến đổi có nhiệm vụ biến đổi đơn vị ngữ liệu được trích xuất trong
pha phân tích như cụm từ, câu, đoạn văn. Thông thường pha biến đổi thực hiện
rút gọn bản thân bên trong một câu, rồi có thể rút gọn đoạn mà không gây ảnh
hưởng đến độ chính xác. Các phương pháp trong pha biến đổi gồm [6]:
➢ Giản lược về cấu trúc câu
Lược bỏ các thành phần thừa, ít mang ý nghĩa trong câu, giúp cấu trúc câu
được thu gọn lại. Công việc này thường dựa trên phân tích cú pháp và phân tích
ngữ nghĩa các thành phần trong câu. Áp dụng phân tích cú pháp chúng ta được
các cấu trúc của câu, qua đó ta có thể thay thế thành phần bằng những thành


9

phần tương đương, ghép thành phần có nghĩa tương đương theo một luật nào
đó. Phương pháp này có thể làm câu ngắn gọn hơn, tuy nhiên khó bảo toàn
được văn phong.
➢ Giản lược về mặt ngữ nghĩa
Thay thế hoặc loại bỏ các từ, cụm từ có ý nghĩa cụ thể bằng những từ, cụm
từ ý nghĩa lúc này sẽ tổng quát, điển hình là:
- Trừu trượng hoá khái niệm: thay thế các khái niệm cụ thể bằng khái niệm
chung.
- Thay thế ngữ (cụm từ - phrase) tương đương: thay thế các ngữ đóng vai
trò như nhau trong câu bằng một ngữ chung.
1.1.3.3. Các phương pháp trong pha tổng hợp kết quả
➢ Phương pháp hiển thị phân đoạn
Các đơn vị ngữ liệu được trích xuất hay giản lược từ các pha trước được
liên kết lại thành đoạn theo đúng thứ tự trong văn bản gốc, không thêm bớt từ
nối và cũng không sắp xếp lại. Văn bản kết quả của phương pháp này có độ dễ
đọc và dễ hiểu kém, thậm chí lủng củng vì các đơn vị ngữ liệu có thể bị mập
mờ tham chiếu, không có từ nối hoặc thừa từ.
➢ Phương pháp hiển thị liên kết
Với phương pháp này, ta sẽ đưa thêm các thông tin bổ sung vào văn bản
tóm tắt. Hai phương pháp thường được áp dụng là sử dụng mẫu (template) và
ngữ liệu huấn luyện (corpus).
Các phương pháp hiển thị phân đoạn dễ cài đặt và dễ áp dụng được trong
thực tiễn hơn so với các phương pháp hiển thị liên kết vì không gặp phải những
khó khăn do trong thiết kế mẫu hoặc xây dựng kho ngữ liệu huấn luyện.
1.2. Các phương pháp đánh giá
Đánh giá một bản tóm tắt là một công việc khó bởi không tồn tại một bản
tóm tắt lý tưởng cho một (hoặc một tập) văn bản đưa ra. Hơn nữa, việc đánh


10

giá nội dung tóm tắt cũng rất khó khăn. Trường hợp kết quả là một câu trả lời
cho một câu hỏi, ta có thể xác định được câu trả lời đó đúng hay sai, nhưng
trong các trường hợp khác, thật khó trả lời liệu đầu ra là phải một kết quả đúng
hay không? Thực tế luôn có khả năng một hệ thống sinh ra một bản tóm tắt tốt
nhưng lại sai khác với bản tóm tắt do người thực hiện. Bên cạnh đó, khi việc
đánh giá được thực hiện bởi con người thì chi phí đánh giá sẽ rất cao. Mặt khác,
tóm tắt văn bản còn liên quan đến tỉ lệ nén văn bản, do đó, việc đánh giá bản
tóm tắt cần phải quan tâm đến vấn đề này, khi đó độ phức tạp và chi phí đánh
giá sẽ tăng cao.
Có nhiều kiểu đánh giá khác nhau tuỳ thuộc vào kiểu tóm tắt của hệ thống.
Có thể là đánh giá trong (intrinsic) – tập trung vào chất lượng bản tóm tắt và
đánh giá ngoài (extrinsic) – tập trung vào nhiệm vụ [14].
Các tiêu chí đánh giá:
- Độ mạch lạc (sự cố kết - coherence): đánh giá mức độ rõ ràng của văn
bản tóm tắt, tính súc tích, khả năng có thể đọc và hiểu được của bài viết…
- Độ hàm chứa thông tin (Informationess): tỉ lệ thông tin của văn bản gốc
trong văn bản tóm tắt.
- Độ liên quan (Relevance): xác định mức độ phù hợp của văn bản tóm tắt
với chủ đề cho trước (chủ đề có thể là một câu truy vấn).
- Độ dễ đọc hiểu (Reading Comprehence): một người được giao việc đọc
văn bản kết quả, sau đó trả lời các câu hỏi, hệ thống sẽ phải cho điểm và từ đó
đưa ra phần trăm những câu trả lời đúng.
1.2.1. Các phương pháp đánh giá trong
1.2.1.1. So sánh với văn bản tóm tắt khác
Ý tưởng cơ bản của phương pháp này là đem văn bản do hệ thống tóm tắt
so sánh với các bản tóm tắt khác (có thể do hệ thống tóm tắt khác thực hiện
hoặc do con người thực hiện). Thông thường là đem so sánh với văn bản tóm


11

tắt do con người thực hiện. Việc so sánh giữa các bản tóm tắt này có thể do con
người thực hiện hoặc có thể thực hiện tự động.
Khi so sánh, có thể sử dụng một số độ đo sau:
- Độ chính xác (Precision) và độ bao phủ (Recall). Tuy nhiên, 2 độ đo này
chưa đủ để phân biệt các bản tóm tắt, các bản tóm tắt khác nội dung nhưng vẫn
có cùng độ đo.
- Độ đo hạng câu (Sentence Rank): thay thế cho độ bao phủ, khi đó, một
bản tóm tắt được đặc trưng bởi hạng của các câu trong các bản tóm tắt thích
hợp. Hạng của các câu trong bản tóm tắt do hệ thống thực hiện và trong các bản
tóm tắt dùng để so sánh có thể tính bằng độ đo tương quan. Độ do này áp dụng
đối với hệ thống tóm tắt dạng trích xuất.
- Độ đo dựa trên nội dung (Content-Based): dựa trên sự tương tự về mặt
từ vựng, và có thể áp dụng đối với cả 2 dạng tóm tắt. Tuy nhiên, độ đo này hữu
dụng với các bản tóm tắt trích xuất, hoặc với các bản tóm tắt dạng abstract
nhưng có mức độ cắt-dán cao (tức là văn bản tóm tắt được tạo bởi nhiều từ,
cụm từ, câu nguyên dạng trong văn bản nguồn).
1.2.1.2. So sánh với văn bản nguồn
Với phương pháp này, ta đem so sánh văn bản tóm tắt với văn bản nguồn
để xác định mức độ hàm chứa thông tin của văn bản tóm tắt. Các độ đo dựa
trên nội dung như trên có thể sử dụng để đánh giá. đã đưa ra phương pháp sử
dụng thống kê để xác định mỗi thuật ngữ có phải là thuật ngữ trung tâm hay
không phải thuật ngữ trung tâm. Tiếp đó, phân loại vào các nhóm chính xác
(Correct), không chính xác (Incorrect) và thiếu (Missing) [14].
1.2.2. Các phương pháp đánh giá ngoài
Ý tưởng cơ bản của các phương pháp đánh giá ngoài là đánh giá tác dụng
của bản tóm tắt với các nhiệm vụ khác nhau.


12

- Đánh giá mức độ liên quan (relevance): ý tưởng của phương pháp này là
đưa ra một văn bản và một chủ đề, đánh giá xem mức độ liên quan của văn bản
với chủ đề đó.
- Đánh giá mức độ đọc hiểu: trước tiên, một người được đọc các văn bản
tóm tắt từ một hoặc nhiều văn bản, sau đó trả lời các câu hỏi kiểm tra. Hệ thống
tự động tính điểm các câu trả lời và đánh giá tỉ lệ trả lời đúng. Nếu bản tóm tắt
cho phép trả lời các câu hỏi giống như khi đọc toàn bộ văn bản nguồn thì bản
tóm tắt đó có khả năng cung cấp thông tin cao. Marcu [9] thực hiện đo mức độ
cung cấp thông tin dựa trên việc người ta có thể khôi phục lại các thông tin
quan trọng trong văn bản khi đọc bản tóm tắt của văn bản đó. Bằng thực
nghiệm, tác giả tiến hành dựng lại văn bản gốc dựa trên việc đọc văn bản tóm
tắt kết hợp phỏng đoán.
1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn
đề liên quan
Bài toán tóm tắt văn bản tiếng Việt dự vào trích cuất câu có thể phát biểu
như sau: “Tạo một bản tóm tắt với theo tỷ lệ xác định từ văn bản gốc bằng cách
rút ra những câu quan trọng nhất. Ngôn ngữ trong văn bản gốc và văn bản tóm
tắt là tiếng Việt”.
Với những đặc thù riêng của ngôn ngữ, bài toán tóm tắt văn bản tiếng Việt
có những vấn đề phức tạp phải cần giải quyết như: cấu trúc ngữ pháp, ngữ
nghĩa, chính tả, bảng mã3,... [1], [2], [3], [6], [8]
1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt
1.3.1.1. Đặc điểm ngôn ngữ
Tiếng Việt là ngôn ngữ thuộc loại hình đơn lập, không biến hình từ và âm
tiết [1], [2], [3], [6]. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ
vựng, ngữ pháp.
3

https://vi.wikipedia.org/wiki/Bộ_gõ_tiếng_Việt


13

Về đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng
là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người
ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng..., chủ yếu
nhờ phương thức ghép và phương thức láy [1], [3], [6].
Theo cấu tạo, có thể phân loại từ trong tiếng Việt thành:
Từ đơn: là từ chỉ chứa một tiếng. Ví dụ: học, trường, sách, sẽ, đang,...
Từ ghép: là từ gồm 2 tiếng trở lên, như tàu xe, trường học, máy tính,...
Do đó, đối với văn bản tiếng Việt không thể phân biệt các từ bằng khoảng
trống như đối với văn bản tiếng Anh mà cần phải xử lý tách từ để xác định
chính xác các từ cấu tạo nên từng câu hay toàn văn bản.
Về đặc điểm ngữ pháp: Việc sắp xếp các từ theo một trật tự nhất định là
cách chủ yếu để biểu thị các quan hệ cú pháp. Các phương thức ngữ pháp bên
ngoài từ chủ yếu trong tiếng Việt là: trật tự từ, hư từ và ngữ điệu [2], [3], [6].
1.3.1.2. Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng tiền xử lý dữ liệu văn
bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm như:
− Các tiếng đồng âm: như kĩ/kỹ, lí, lý,… thường bị sử dụng lẫn nhau như:
lý luận, lí luận, kĩ thuật, kỹ thuật,…
− Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ
thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc,…
− Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên
nguyên âm có ưu tiên cao nhất. Tuy nhiên, khi viết văn bản nhiều bộ gõ văn
bản không tuân thủ theo đúng nguyên tắc trên nên xảy ra hiện tượng dấu được
đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy,…
− Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa,
tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện.


14

− Phiên âm tiếng nước ngoài: hiện nay, vẫn còn nhiều tranh cãi giữa việc
phiên âm tiếng nước ngoài thành tiếng Việt (Việt hoá), nên tồn tại nhiều cách
viết (giữ nguyên gốc tiếng nước ngoài, phiên âm ra tiếng Việt), ví dụ:
Singapore/Xin−ga−po.
− Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được
giữa nối tên riêng hay chú thích.
− Kí tự ngắt câu: các kí tự đặc biệt như “.”, “;”, “!”, “?”, “…” ngăn cách
giữa các câu hoặc các vế câu trong câu ghép.
1.3.1.3. Bảng mã tiếng Việt trên máy tính
Hiện nay, việc đưa tiếng Việt vào máy tính không chỉ để soạn thảo văn
bản mà còn để xây dựng các phần mềm có giao diện tiếng Việt và cũng để xử
lý tiếng Việt. Tuy nhiên, hiện nay có nhiều cách mã hoá các kí tự tiếng Việt
khác nhau, dẫn tới có nhiều bảng mã khác nhau được sử dụng. Theo thống kê,
có tới khoảng 14 bảng mã tiếng Việt khác nhau được sử dụng4, do đó , việc
khai thác tài liệu cũng như xử lý dữ liệu rất phức tạp. Có thể kể đến một số
bảng mã dưới đây.
- Unicode: là bộ mã chuẩn quốc tế được thiết kế để dùng làm bộ mã duy
nhất cho tất cả các ngôn ngữ khác nhau trên thế giới, kể cả các ngôn ngữ sử
dụng ký tự tượng hình phức tạp như tiếng Trung, tiếng Thái... Vì điểm ưu việt
đó, Unicode đã và đang từng bước thay thế các bộ mã truyền thống, kể cả bộ
mã tiêu chuẩn ISO 8859 và hiện đang được hỗ trợ trên rất nhiều phần mềm
cũng như các trình ứng dụng.
VISCII: (viết tắt của VIetnamese Standard Code for Information
Interchange trong tiếng Anh) là một bảng mã do nhóm Viet-Std đề xướng vào
năm 1992 dùng để gõ tiếng Việt. Bảng mã này thay thế các ký tự ít được dùng,
hay các ký tự được dùng trong các ngôn ngữ khác, bằng những ký tự chữ Quốc
4

https://vi.wikipedia.org/wiki/Bộ_gõ_tiếng_Việt


15

ngữ có dấu. VISCII trước đây được dùng trong nhiều hệ điều hành như MSDOS, Windows, Unix, Mac OS,...
TCVN3: Bảng mã theo tiêu chuẩn (cũ) của Việt Nam. Các font chữ trong
bảng mã này có tên bắt đầu bằng .Vn và mỗi font có hai loại thường và hoa
(font chữ hoa kết thúc bằng H). Ví dụ: .VnTime, .VNSouthernH. Ngày nay
TCVN đã quy định sử dụng font Unicode trong soạn thảo văn bản.
VNI: Bảng mã do công ty VNI (Vietnam-International) sở hữu bản quyền.
Các font chữ trong bảng mã VNI có tên bắt đầu bằng VNI-, ví dụ như VNITimes.
Unicode, TCVN3, VNI là ba bảng mã thông dụng nhất, ngoài ra còn có
các bảng mã như BK HCM, Vietware, VIQR,...
Tóm tại, những đặc điểm trên của tiếng Việt khiến cho việc xác định từ,
cụm từ, câu [4], [5], [6] trên máy tính là vấn đề khó, cần có nhiều nghiên cứu
thêm. Do vậy, tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) trở nên rất
phức tạp với việc xử lý các hư từ, phụ từ, từ láy…; hơn nữa, phương thức ngữ
pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện
của từ có thể không chính xác như mong đợi. Mặt khác, ranh giới xác định từ
không phải là khoảng trắng, khiến cho việc tách từ trở nên khó khăn, dẫn đến
khó khăn cho các giai đoạn tiếp theo như kiểm lỗi chính tả, gán nhãn từ loại,
thống kê tần suất từ… Vì vậy, các phương pháp xử lý ngôn ngữ đang áp dụng
cho tiếng Anh không thể áp dụng trực tiếp cho tiếng Việt mà cần có sự thay đổi
cho phù hợp.
1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt
Tại Việt Nam hiện nay, lĩnh vực xử lý ngôn ngữ tự nhiên đã có được những
kết quả tốt trong phân tách từ, phân lớp và phân nhóm văn bản. Tuy nhiên, bài
toán tóm tắt văn bản chưa có nhiều nghiên cứu và đa phần các công trình nghiên
cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên thống kê, cũng có một


16

số nghiên cứu có dựa trên ngữ nghĩa để nâng cao độ chính xác. Có thể kể đến
một số công trình nghiên cứu như:
Đỗ Phúc, Hoàng Kiếm [4] đã sử dụng cây hậu tố để phát hiện các dãy từ
phổ biến trong các câu của văn bản, dùng từ điển đồng nghĩa và WordNet tiếng
Việt để giải quyết vấn đề nghĩa của từ, rồi dùng kĩ thuật gom cụm để gom các
câu trong văn bản (vector đặc trưng cho câu) và hình thành các vector đặc trưng
cụm, sau đó rút ra câu chứa nhiều thành phần của các vector đặc trưng cụm.
Vương Toàn [7] đã đề xuất quy trình tóm tắt văn bản khoa học. Theo đó,
đầu tiên cho máy đọc lướt văn bản và tìm xem có sẵn những đoạn văn mang
tính chất “tóm tắt” hay không; tiếp theo là định chủ đề, xác định 4-5 tiêu đề, đề
mục hoặc từ khoá để máy tự động chọn lưu tất cả những câu có các từ khoá đó.
Nguyễn Trọng Phúc, Lê Thanh Hương [5] lại sử dụng cấu trúc diễn ngôn
để tóm tắt văn bản. Theo đó, xây dựng cây cấu trúc diễn ngôn biểu diễn mỗi
quan hệ diễn ngôn giữa các đoạn văn bản (như các quan hệ nhân-quả, liệt kê,
diễn giải,…), rồi từ cây cấu trúc diễn ngôn này đánh giá được độ quan trọng
của các đoạn văn bản và tiến hành trích xuất tạo ra bản tóm tắt.
Nói chung, có hai hướng để tóm tắt văn bản tự động được các nhà nghiên
cứu tập trung quan tâm: tóm tắt tóm lược và tóm tắt trích xuất. Nghiên cứu về
các phương pháp tóm lược tự động là một lĩnh vực nghiên cứu ngày càng quan
trọng và được quan tâm tích cực, tuy nhiên do các khó khăn phức tạp về xử lý
ngôn ngữ tự nhiên nên ở hướng nghiên cứu này chưa có được nhiều kết quả
khả quan so với hướng nghiên cứu tóm tắt dựa vào trích xuất. Những ứng dụng
thực tế dựa vào tóm tắt trích xuất ngày càng trở nên quan trọng và đa dạng. Vì
vậy, những nghiên cứu về tóm tắt văn bản tự động hiện nay tập trung chủ yếu
ở các phương pháp tóm tắt trích xuất.


17

1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu
Về cơ bản, mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu thể
hiện trong hình 1.2. Nhìn chung, ở mỗi giai đoạn trong quá trình thực hiện sẽ
có những xử lý thích hợp đối với văn bản tiếng Việt.

Hình 1.2. Mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất câu
1.3.3.1. Tiền xử lý
Giai đoạn này nhằm chuẩn hoá văn bản về bảng mã, các lỗi chính tả, các
lỗi về dấu câu, v.v… sau đó, thực hiện tách từ, tách câu.
1.3.3.2. Biến đổi
Trong giai đoạn này có thể sử dụng các các phương pháp biến đổi văn bản
theo mô hình vector, mô hình đồ thị, mô hình cây. Khi đó mỗi câu trong văn
bản có thể được biểu diễn như là một vector, một đỉnh của đồ thị, hay một nút
trên cây (các phần tử trong mô hình biểu diễn).
Nhằm tăng cường tính chính xác trong việc xác định các câu quan trọng,
các phần tử trong mô hình biểu diễn có thể bổ sung thêm trọng số thông qua
việc xác định độ tương đồng ngữ nghĩa của từ, mức độ mạnh của các cấu trúc
của câu, hoặc một số đặc tính khác.


18

Ngoài ra đề giảm bớt sự phức tạp của mô hình, những từ, cụm từ ít giá trị
trong việc xác định thông tin như từ dừng, từ phổ biến cũng sẽ được loại bỏ ở
giai đoạn này.
1.3.3.3. Sinh văn bản
Căn cứ trên mô hình biến đổi văn bản của giai đoạn trước, các phương
pháp trích chọn câu quan trọng có thể được thực hiện qua các giải thuật như
gom cụm, duyệt đồ thị, duyệt cây,... quen thuộc.
1.4. Tổng kết chương
Chương này, luận văn đã trình bày một số vấn đề cơ bản để giải quyết bài
toán tóm tắt văn bản nói chung, tóm tắt văn bản tiếng Việt nói riêng; giới thiệu
mô hình chung cho tóm tắt văn bản tiếng Việt dựa vào trích xuất câu. Chương
tiếp theo, luận văn sẽ tập trung trình bày chi tiết phương pháp xác định độ tương
đồng ngữ nghĩa giữa hai câu dùng trong mô hình tóm tắt văn bản tiếng Việt.


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×