Tải bản đầy đủ

CNTT7 nguyễn văn ước

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Văn Ước

TRÍCH CHỌN QUAN HỆ TRONG DỮ LIỆU Y SINH
SỬ DỤNG CÁC PHƯƠNG PHÁP
HỌC SÂU TIÊN TIẾN

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Truyền thông và Mạng máy tính

HÀ NỘI – 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Văn Ước

TRÍCH CHỌN QUAN HỆ TRONG DỮ LIỆU Y SINH

SỬ DỤNG CÁC PHƯƠNG PHÁP
HỌC SÂU TIÊN TIẾN

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Truyền thông và Mạng máy tính

Cán bộ hướng dẫn: ThS. Lê Hoàng Quỳnh

HÀ NỘI - 2019


TÓM TẮT
Bài toán phát hiện hóa chất, bệnh và mối quan hệ giữa chúng trong văn bản đóng
một vai trò quan trọng trong lĩnh vực y sinh học nhưng cho đến nay kết quả vẫn còn hạn
chế do chi phí cao và sự phát triển nhanh chóng của số lượng các tài liệu. Các nhà nghiên
cứu đã đề xuất nhiều phương pháp tiếp cận để giải quyết bài toán trích chọn quan hệ
một cách tự động, bao gồm các phương pháp thủ công, học máy dựa trên đặc trưng và
gần đây là học sâu. Nhận thấy các ưu điểm của học sâu cũng như dựa trên nền tảng tìm
hiểu các nghiên cứu liên quan, đồ án tập trung giải quyết bài toán trích chọn quan hệ
dựa trên phương pháp học sâu sử dụng mạng nơ-ron tích chập và xây dựng mô hình kết
hợp dựa trên nhiều mô hình học sâu riêng lẻ.
Phạm vi của đồ án tập trung vào mối quan hệ nội câu thể hiện quan hệ hóa chất
gây ra bệnh (hay còn gọi là phản ứng phụ của thuốc). Trong đó các quan hệ được biểu
diễn dưới dạng đường đi phụ thuộc ngắn nhất trong cây phụ thuộc và bài toán trích chọn
quan hệ được giải quyết dưới dạng một bài toán phân lớp.
Kết quả thử nghiệm trên bộ dữ liệu thực tế BioCreative V Chemical Disease
Relation cho thấy mô hình học sâu dựa trên mạng nơ-ron tích chập mà đồ án xây dựng
đạt được kết quả khá cạnh tranh so sánh với các nghiên cứu liên quan. Ngoài ra, để khắc
phục một số nhược điểm của mô hình học sâu và tăng hiệu suất mô hình, đồ án xây dựng
một hệ thống kết hợp nhiều mô hình khác nhau bằng phương pháp bỏ phiếu và tính trung
bình phân phối. Thực nghiệm đã chứng minh, việc kết hợp nhiều mô hình học sâu có
tác dụng tăng hiệu suất cũng như đảm bảo tính ổn định của mô hình.
Từ khóa: Trích chọn quan hệ, xử lí ngôn ngữ tự nhiên, y sinh học, mạng
nơ-ron tích chập, tác dụng phụ của thuốc

iii


LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới ThS. Lê Hoàng
Quỳnh, CN. Cấn Duy Cát, giảng viên khoa Công nghệ thông tin, trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội - Người đã dành tâm huyết hướng dẫn tôi hoàn thành
đồ án tốt nghiệp này. Sự hướng dẫn tận tình đó đã giúp đỡ tôi rất nhiều trong việc hoàn
thành tốt đồ án như ngày hôm nay. Qua đó, tôi đã nhận được rất nhiều bài học quý báu.
Tôi xin cảm ơn đến Quý thầy cô trường Đại học Công nghệ - Đại học Quốc gia Hà
Nội đã truyền đạt kiến thức, cũng như tạo điều kiện thuận lợi trong quá trình học tập tại
trường, giúp tôi có thể hoàn thành đồ án.
Tôi cũng xin gửi lời cảm ơn tới các thầy cô, anh chị, các bạn sinh viên tại Phòng
thí nghiệm Khoa học dữ liệu và Công nghệ tri thức DS&KTLab, khoa Công nghệ thông
tin đã giúp tôi rất nhiều trong việc hoàn thiện kiến thức còn thiếu. Tôi xin gửi lời cảm
ơn tới các bạn trong lớp K59N đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập
tại trường.
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình thân yêu, bạn bè,
những người đã luôn tin tưởng và ủng hộ tôi.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày

tháng

năm 2019

Sinh viên thực hiện

Nguyễn Văn Ước

iv


LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong đồ án là kết quả công trình nghiên cứu
của riêng tôi dưới sự hướng dẫn của ThS. Lê Hoàng Quỳnh, không sao chép lại từ tổ
chức hoặc cá nhân nào khác. Trong toàn bộ nội dung của đồ án, những điều được trình
bày hoặc là của cá nhân, hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài
liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời
cam đoan của mình.
Hà Nội, ngày

tháng

năm 2019

Sinh viên thực hiện

Nguyễn Văn Ước

v


MỤC LỤC
Tóm tắt ..................................................................................................................... iii
Lời cảm ơn ................................................................................................................ iv
Lời cam đoan ............................................................................................................. v
Mục lục ...................................................................................................................... vi
Danh mục từ viết tắt ...............................................................................................viii
Danh mục Hình ảnh.................................................................................................. ix
Danh mục bảng biểu .................................................................................................. x
MỞ ĐẦU .................................................................................................................... 1
CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ ...................... 3
1.1. Động lực nghiên cứu......................................................................................... 3


1.2. Phát biểu bài toán ............................................................................................. 7
1.2.1. Định nghĩa bài toán ................................................................................... 7
1.2.2. Ví dụ ......................................................................................................... 9
1.3. Khó khăn và thách thức .................................................................................... 9
CHƯƠNG 2. CÁC HƯỚNG TIẾP CẬN PHỔ BIẾN CHO BÀI TOÁN TRÍCH
CHỌN QUAN HỆ .................................................................................................... 12
2.1. Các phương pháp thủ công ............................................................................. 12
2.2. Các phương pháp học máy có giám sát ........................................................... 12
2.2.1. Học máy dựa trên đặc trưng ..................................................................... 12
2.2.2. Học sâu.................................................................................................... 14
2.3. Học máy không giám sát................................................................................. 15
2.4. Phương pháp học từ xa và bán giám sát .......................................................... 15
CHƯƠNG 3. MẠNG NƠ-RON TÍCH CHẬP ........................................................ 16
3.1. Mạng nơ-ron nhân tạo..................................................................................... 16
3.2. Mạng nơ-ron tích chập .................................................................................... 18
3.2.1. Tích chập ................................................................................................. 18
3.2.2. Tổng quan về mạng nơ-ron tích chập ....................................................... 19

vi


3.3. Mạng nơ-ron tích chập áp dụng cho bài toán xử lí ngôn ngữ tự nhiên ............. 22
CHƯƠNG 4. MÔ HÌNH ĐỀ XUẤT VÀ CÁC KHÁI NIỆM LIÊN QUAN .......... 25
4.1. Đường đi phụ thuộc ngắn nhất ........................................................................ 25
4.1.1. Cây phụ thuộc và đường đi phụ thuộc ngắn nhất...................................... 25
4.1.2. Chuẩn hóa cây phụ thuộc ......................................................................... 25
4.2. Đề xuất mô hình phân lớp quan hệ dựa trên mạng nơ ron tích chập ................ 26
4.2.1. Biểu diễn đầu vào .................................................................................... 26
4.2.2. Biểu diễn quan hệ phụ thuộc: ................................................................... 27
4.2.3. Phân lớp .................................................................................................. 31
4.2.4. Hàm huấn luyện mục tiêu và phương pháp huấn luyện ............................ 31
4.3. Đề xuất mô hình kết hợp ................................................................................. 31
4.4. Các siêu tham số của mô hình ......................................................................... 32
CHƯƠNG 5. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................. 34
5.1. Tập dữ liệu và phương pháp đánh giá ............................................................. 34
5.1.1. Tập dữ liệu .............................................................................................. 34
5.1.2. Độ đo sử dụng để đánh giá mô hình ......................................................... 34
5.2. Kết quả và đánh giá ........................................................................................ 35
5.2.1. Kết quả phân lớp của mô hình CNN ........................................................ 35
5.2.2. Kết quả phân lớp của mô hình kết hợp ..................................................... 38
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO ....................................... 43
TÀI LIỆU THAM KHẢO ....................................................................................... 45
Phụ lục 1: Tóm tắt kết quả CID BioCreative V ..................................................... 48
Phụ lục 2: Tóm tắt kết quả CID BioCreative V ..................................................... 49
Phụ lục 3: Chi tiết kết quả khi thay đổi số lượng mô hình con sử dụng phương pháp
bỏ phiếu .................................................................................................................... 50

vii


DANH MỤC TỪ VIẾT TẮT
STT

Tên viết tắt

Thuật ngữ

1

ANN

Artificial neural network – Mạng nơ-ron nhân tạo

2

BC5

BioCreative V

3

CDR

Chemical Disease Relation

4

CNN

Convolutional Neural Network – Mạng nơ-ron tích chập

5

CID

Chemical-induced Desease – Hóa chất gây ra bệnh

6

CTD

Comparative Toxicogenomics Database – Cơ sở dữ liệu so sánh
độc tính

7

NER

Named Entity Recognition – Nhận dạng thực thể định danh

8

NLP

Natural Language Processing – Xử lí ngôn ngữ tự nhiên

9

RE

Relation Extraction – Trích chọn quan hệ

10

SDP

Shortest Dependency Path – Đường đi phụ thuộc ngắn nhất

11

SVM

Support Vector Machine – Máy véc-tơ hỗ trợ

viii


DANH MỤC HÌNH ẢNH
Hình 1.1. Tăng trưởng trích dẫn PubMed từ năm 1986 đến 2017 .......................... 4
Hình 1.2. Mối quan hệ nội (trong) câu ...................................................................... 9
Hình 1.3. Mối quan hệ liên (ngoài) câu ..................................................................... 9
Hình 3.1. Mô hình mạng nơ-ron nhân tạo .............................................................. 16
Hình 3.2. Tích chập với bộ lọc 3×3 ......................................................................... 19
Hình 3.3. Mô hình cơ bản của mạng nơ-ron tích chập........................................... 20
Hình 3.4. Tích chập hẹp và tích chập rộng ............................................................. 20
Hình 3.5. Ví dụ về kích thước bước nhảy ............................................................... 21
Hình 3.6. Pooling layer ............................................................................................ 21
Hình 3.7. Minh họa kiến trúc mạng nơ-ron tích chập để phân lớp câu ................ 24
Hình 4.1. Ví dụ về cây phụ thuộc ............................................................................ 25
Hình 4.2. Ví dụ về cây phụ thuộc chuẩn hóa. ......................................................... 26
Hình 4.3. Tổng quan về mô hình đề xuất ................................................................ 27
Hình 4.4. Sử dụng tích chập để trích chọn đặc trưng kí tự.................................... 29
Hình 4.5. Một ví dụ về biểu diễn từ, tích chập và lớp max-pooling ....................... 30
Hình 4.6. Mô hình kết hợp ...................................................................................... 32
Hình 5.1. Sự thay đổi của P, R, F1 khi thay đổi số lượng mô hình con bằng phương
pháp bỏ phiếu........................................................................................................... 40
Hình 5.2. Sự thay đổi hiệu suất của mô hình kết hợp khi thay đổi ngưỡng bỏ phiếu
này với 97 mô hình con ............................................................................................ 42

ix


DANH MỤC BẢNG BIỂU
Bảng 5.1. Thống kê bộ dữ liệu CDR ....................................................................... 34
Bảng 5.2. Ma trận độ đo để đánh giá mô hình ....................................................... 34
Bảng 5.3. Kết quả của 20 lần chạy mô hình CNN .................................................. 35
Bảng 5.4. Hiệu suất của mô hình trên tập dữ liệu BioCreative V CDR ................ 37
Bảng 5.5. So sánh kết quả ở mức tóm tắt khi thay đổi số lượng mô hình con với 2
cách kết hợp ............................................................................................................. 39
Bảng 5.6. Kết quả của mô hình kết hợp sử dụng 97 mô hình con ......................... 41

x


MỞ ĐẦU
Bài toán phát hiện hóa chất, bệnh và mối quan hệ giữa chúng trong văn bản đóng một
vai trò quan trọng trong lĩnh vực y sinh học nhưng cho đến nay kết quả vẫn còn hạn chế
do chi phí cao và sự phát triển nhanh chóng của số lượng các tài liệu. Các nhà nghiên cứu
đã đề xuất nhiều phương pháp tiếp cận để giải quyết bài toán trích chọn quan hệ một cách
tự động, bao gồm các phương pháp thủ công, học máy dựa trên đặc trưng và gần đây là
học sâu. Nhận thấy các ưu điểm của học sâu cũng như dựa trên nền tảng tìm hiểu các
nghiên cứu liên quan, đồ án tập trung giải quyết bài toán trích chọn quan hệ dựa trên
phương pháp học sâu sử dụng mạng nơ-ron tích chập và xây dựng mô hình kết hợp dựa
trên nhiều mô hình học sâu riêng lẻ.
Phạm vi của đồ án tập trung vào mối quan hệ nội câu thể hiện quan hệ hóa chất gây
ra bệnh (hay còn gọi là phản ứng phụ của thuốc). Trong đó các quan hệ được biểu diễn
dưới dạng đường đi phụ thuộc ngắn nhất trong cây phụ thuộc và bài toán trích chọn quan
hệ được giải quyết dưới dạng một bài toán phân lớp.
Nội dung chính của đồ án tốt nghiệp bố cục gồm có 5 chương chính kèm các phần
mở đầu, kết luận với nội dung như sau:
Chương 1: Giới thiệu bài toán trích chọn quan hệ. Chương 1 trình bày các nội dung
chính như động lực nghiên cứu của đồ án, phát biểu bài toán trích chọn quan hệ qua định
nghĩa và các ví dụ. Khó khăn và thách thức đối với xử lí ngôn ngữ tự nhiên trong miền
bình thường nói chung và miền y sinh nói riêng.
Chương 2: Các hướng tiếp cận phổ biến cho bài toán trích chọn quan hệ. Chương
này giới thiệu các hướng tiếp cận chính cho bài toán trích chọn quan hệ như: hướng tiếp
cận dựa trên hệ luật, các phương pháp học máy có giám sát, không giám sát, bán giám sát
và học từ xa.
Chương 3: Mạng nơ-ron tích chập. Phần đầu chương 3 giới thiệu các cơ sở lý thuyết
về mạng nơ-ron nhân tạo nói chung, chi tiết về mạng nơ-ron tích chập, ứng dụng của mạng
nơ-ron tích chập vào bài toán xử lí ngôn ngữ tự nhiên.
Chương 4: Mô hình đề xuất. Tại chương này sẽ đề xuất mô hình phân lớp trích chọn
quan hệ hóa chất gây ra bệnh. Giới thiệu các kỹ thuật sử dụng trong mô hình như cây phụ
thuộc, đường đi phụ thuộc ngắn nhất, cách biểu diễn đầu vào từ câu ban đầu, các hàm huấn
luyện, kỹ thuật phân lớp. Chi tiết từng kỹ thuật sẽ được trình bày cụ thể trong phần này.

1


Chương 5: Kết quả thực nghiệm và đánh giá. Chương 5 trình bày các bước tiến hành,
môi trường cũng như công cụ thực nghiệm. Đánh giá dựa trên kết quả nhận được từ thực
nghiệm sau đó rút ra nhận xét.
Phần kết luận và hướng nghiên cứu tiếp theo: Tóm tắt những nội dung chính đã
đạt được của đồ án đồng thời chỉ ra những điểm cần khắc phục và đưa ra những định hướng
nghiên cứu trong thời gian sắp tới.

2


CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ
1.1. Động lực nghiên cứu
Trong nhiều thập kỷ qua, y sinh và chăm sóc sức khỏe con người đã nhận được sự
quan tâm ngày càng tăng của cộng đồng nghiên cứu và toàn xã hội. Ví dụ, vào năm 2011,
nghiên cứu y sinh tại Hoa Kỳ đã nhận được 100 tỷ đô la đầu tư, với khoảng 65% được hỗ
trợ bởi các ngành công nghiệp, 30% bởi chính phủ và 5% còn lại từ các tổ chức từ thiện,
tổ chức hoặc nhà tài trợ cá nhân [1]. Kết quả là những đột phá trong y học và chăm sóc sức
khỏe đã có nhiều thành quả kỳ diệu, bao gồm nhiều tiến bộ về bệnh lý, di truyền, tiêm
chủng, các loại thuốc mới, phẫu thuật và các thiết bị y tế. Cho đến hiện tại, nhiều nhà
nghiên cứu làm việc không ngừng nghỉ với kỳ vọng rằng sẽ có nhiều tiến bộ tương tự để
hỗ trợ khoa học y sinh và chăm sóc sức khỏe. Để làm điều này, nhu cầu không thể tránh
khỏi là hiểu và phân tích thông tin để tận dụng nguồn tài nguyên, kiến thức đã tồn tại.
Mười năm qua đã chứng kiến sự phát triển của Internet và các kho dữ liệu lớn, cùng
với sự tăng trưởng theo cấp số nhân của dữ liệu y sinh ở định dạng điện tử. Một phần chính
của những kiến thức hữu ích này được trình bày và phổ biến dưới dạng tài liệu y sinh học
thuật, tức là các bài báo khoa học được đánh giá cao; có trên 3000 bài báo được xuất bản
trên các tạp chí y sinh mỗi ngày [2].
Một trong những kho lưu trữ kỹ thuật số y sinh nổi tiếng nhất và lớn nhất là
MEDLINE ® (Medical Literature Analysis and Retrieval System Online - Phân tích tài liệu
y khoa và hệ thống truy hồi trực tuyến). MEDLINE là phần thư mục hàng đầu của loạt cơ
sở dữ liệu Entrez do Trung tâm Thông tin Công nghệ sinh học Hoa Kỳ (National Center
for Biotechnology Information - NCBI) cung cấp tại Thư viện Y khoa Quốc gia Hoa Kỳ
(National Library of Medicine® - NLM). Nó chứa hơn 24 triệu tài liệu tham khảo cho các
bài báo trong khoa học đời sống, tài liệu y sinh được lập chỉ mục MeSH (Medical Subject
Headings - MeSH® ). MEDLINE bao gồm thông tin thư mục cho các bài báo từ các tạp chí
học thuật về y học, điều dưỡng, dược phẩm, nha khoa, thú y, chăm sóc sức khỏe và khoa
học lâm sàng. Nó cũng bao gồm phần lớn các tài liệu về sinh học và hóa sinh, cũng như
các lĩnh vực như tiến hóa phân tử.
PubMed® (Truy xuất MEDLINE trên World Wide Web) là một tài nguyên miễn phí
được NCBI phát triển và duy trì, cung cấp quyền truy cập miễn phí vào MEDLINE.
PubMed là một phần của hệ thống truy xuất NCBI từ Entrad cung cấp quyền truy cập vào
bộ 38 cơ sở dữ liệu đa dạng, trong đó, MEDLINE là thành phần chính. PubMed hiện bao
gồm các trích dẫn và tóm tắt từ hơn 5000 tạp chí khoa học đời sống cho các bài báo y sinh
từ năm 1948. Kể từ khi thành lập, PubMed đã trở thành một công cụ chính để tìm kiếm và
truy xuất tài liệu y sinh.
3


Nhiều bản tóm tắt PubMed cũng chứa các liên kết đến các bài báo toàn văn, một phần
trong đó là miễn phí, ví dụ như PubMed Central (PMC) hoặc tại các trang web của nhà
xuất bản và các tài nguyên liên quan khác. PMC là một kho lưu trữ điện tử cho phép truy
cập miễn phí toàn văn nhiều tài liệu tạp chí khoa học y sinh và khoa học đời sống tại Mỹ.
Kích thước của các kho lưu trữ điện tử này đã tăng theo cấp số nhân trong vài năm
qua [1]. Tính đến năm 2017, có hơn 24 triệu trích dẫn được lập chỉ mục trong MEDLINE
cũng như PubMed. Hình 1.1 minh họa sự tăng trưởng của các trích dẫn PubMed từ 1970
đến 2017, tăng từ 1 triệu năm 1970 lên 24 triệu vào năm 2017, ấn tượng hơn, con số này
đã tăng 1,7 lần trong 12 năm qua (từ 14 triệu năm 2005 đến 24 triệu trong năm 2017).

Hình 1.1. Tăng trưởng trích dẫn PubMed từ năm 1986 đến 2017
Vì PubMed cung cấp giao diện tìm kiếm rộng rãi, cập nhật và hiệu quả, hàng triệu
truy vấn từ hàng triệu người dùng được phát hành trên PubMed mỗi ngày bởi người dùng
trên toàn cầu. Tuy nhiên, ngay cả khi nhận được kết quả từ PubMed, khó khăn trong việc
xử lý các tài liệu này ngày càng tăng, nó xuất phát từ khối lượng tài liệu y sinh tăng trưởng
nhanh, phạm vi tại chỗ, tính chất liên ngành và hình thức không cấu trúc của nó. Bởi vì
các ấn phẩm học thuật chủ yếu được viết bằng văn bản, khai thác văn bản và xử lý ngôn
ngữ tự nhiên ngày càng trở nên quan trọng trong nghiên cứu y sinh, vì nó có thể tạo điều
kiện thuận lợi cho năng suất nghiên cứu bằng cách khai thác thông tin hữu ích ẩn trong
văn bản miễn phí sau đó chuyển nó thành kiến thức có cấu trúc. Từ cuối những năm 1990,
sự hợp tác liên ngành giữa xử lí ngôn ngữ tự nhiên và cộng đồng y sinh đã trở nên phổ
4


biến hơn, hình thành một lĩnh vực nghiên cứu mới được gọi là xử lý ngôn ngữ tự nhiên y
sinh (Biomedical natural language processing - BioNLP) hoặc khai thác văn bản với mục
tiêu phát triển các phương pháp y sinh cho các loại ứng dụng y sinh.
Các nhà nghiên cứu BioNLP sau đó kết hợp các công nghệ trích chọn thông tin để
tìm và trích chọn các loại thông tin được xác định trước từ văn bản bán cấu trúc hoặc không
cấu trúc có thể thể hiện trọng tâm thông tin được nhắm mục tiêu. Khai thác thông tin có ý
nghĩa quan trọng đối với nghiên cứu y sinh; nhưng với việc triển khai công cụ tìm kiếm
PubMed hiện nay, việc trích chọn thủ công các thông tin hữu ích bị ảnh hưởng bởi chi phí
cao và sự phát triển nhanh chóng của tài liệu y sinh. Do đó, mong muốn phát triển phương
pháp mới để tự động trích chọn kiến thức từ văn học. Nó có một loạt các ứng dụng trong
khai thác tài liệu y sinh và thu hút đầu tư đáng kể của các cộng đồng nghiên cứu trên toàn
thế giới, phản ánh vai trò trung tâm của họ trong nhiều lĩnh vực nghiên cứu y sinh và khoa
học chăm sóc sức khỏe.
Các nhiệm vụ, cuộc thi trong lĩnh vực y sinh học có chuẩn mực đánh giá:
Do những động lực này, các phương pháp cải tiến cho lĩnh vực này thu hút nhiều sự
quan tâm của cộng đồng nghiên cứu nhưng đòi hỏi phải xem xét và đánh giá cẩn thận. Một
trong những cách hiệu quả nhất để cải thiện các nghiên cứu tiên tiến là thông qua các thách
thức với đánh giá điểm chuẩn. Việc tổ chức các thách thức y sinh cũng được thúc đẩy bởi
số lượng ngày càng tăng của các nhóm làm việc trong lĩnh vực khai thác văn bản. Tuy
nhiên, mặc dù hoạt động gia tăng trong lĩnh vực này, không có tiêu chuẩn chung hoặc tiêu
chí đánh giá chung để cho phép so sánh giữa các phương pháp khác nhau. Các nhóm khác
nhau đã giải quyết các bài toán khác nhau, thường sử dụng các bộ dữ liệu riêng tư và do
đó, không thể xác định các hệ thống hiện tại hoạt động tốt như thế nào, liệu chúng có mở
rộng ra các ứng dụng thực hay không và hiệu suất có thể được mong đợi. Do đó, một số
thử thách đánh giá đã được tổ chức bởi cộng đồng nghiên cứu khai thác văn bản để đánh
giá và thúc đẩy các nghiên cứu xử lí ngôn ngữ tự nhiên cho y sinh, một trong số chúng đã
được tổ chức trong vài năm. Các thử thách đánh giá thường được tổ chức như một cuộc
thi hoặc nhiệm vụ chung với nhiều chủ đề, nhiệm vụ và dữ liệu khác nhau. Các nhà tổ chức
của các hội nghị này đã xác định các nhiệm vụ cho tất cả những người tham gia, chuẩn bị
dữ liệu và phát triển khung đánh giá cho từng nhiệm vụ. Các nhà nghiên cứu đã phải giải
quyết nhiệm vụ và tìm ra giải pháp tốt nhất; do đó nó đã thêm yếu tố cạnh tranh vào nghiên
cứu.
Trong lĩnh vực xử lý văn bản y sinh học, một loạt các chuỗi nhiệm vụ, thách thức đã
được tổ chức với các chủ đề, mục đích, bài toán khác nhau và thu hút nhiều nhóm nghiên
cứu trên toàn thế giới [3]. Có thể kể đến một số chuỗi nhiệm vụ nổi tiếng như:
5


 BioNLP Shared Task (BioNLP-ST) biểu diễn cho xu hướng khai thác văn bản trong
cộng đồng sinh học đối với việc khai thác thông tin chi tiết/trích chọn quan hệ.
Chuỗi nhiệm vụ này thường sử dụng bộ dữ liệu GENIA Event Corpus tập trung vào
sinh học phân tử và các tập con của nó. Ví dụ, BioNLP-ST năm 2009, 2011 và 2013
chủ yếu dựa trên một tập hợp con đơn giản của GENIA Event Corpus ban đầu, sau
đó yêu cầu người tham gia trích chọn các sự kiện liên quan đến gen như quy định,
biểu hiện và phiên mã cũng như liên kết giữa chúng. BioNLP-ST 2016 tuân theo
phác thảo và mục tiêu chung của các nhiệm vụ trước đó vào năm 2011 và 2013. Nó
xác định các mục tiêu trích chọn có liên quan về mặt sinh học và đề xuất phương
pháp có động lực về mặt ngôn ngữ để biểu diễn cho sự kiện. BioNLP-ST 2016 có
ba nhiệm vụ trích chọn sự kiện, trong đó nhiệm vụ Bacteria Biotope (BB3) bao gồm
nhiệm vụ phụ là trích chọn các sự kiện giữa vi khuẩn và môi trường sống của chúng.
 Chuỗi nhiệm vụ BioCreative giới thiệu hai bài toán trích chọn quan hệ chính: trích
chọn tương tác protein protein (ví dụ như nhiệm vụ PPI trong BioCreative II) và
trích chọn quan hệ hóa chất gây ra bệnh (nhiệm vụ CDR trong BioCreative V).
 Năm 2011, nhiệm vụ DDIExtraction (Extraction of Drug-Drug Interactions from
BioMedical Texts - Trích chọn tương tác thuốc - thuốc từ văn bản y sinh học) lần
đầu tiên được giới thiệu và sau đó được tổ chức thêm một lần nữa vào năm 2013
như một phần của Hội thảo quốc tế về đánh giá ngữ nghĩa (Semantic Evaluation SemEval).

6


1.2. Phát biểu bài toán
1.2.1. Định nghĩa bài toán
Trích chọn thông tin là quá trình lấy thông tin từ dữ liệu phi cấu trúc hoặc bán cấu
trúc và biến nó thành dữ liệu có cấu trúc.
Một trong những nhiệm vụ cơ bản nhất trong trích chọn thông tin là trích chọn quan
hệ, tức là, xác định mối quan hệ ngữ nghĩa giữa các cặp thực thể có tên được đề cập đến
trong văn bản. Culotta (2006) [4] định nghĩa trích chọn quan hệ là là nhiệm vụ khai phá
các liên kết về mặt ngữ nghĩa giữa các thực thể. Thông thường, bài toán trích chọn quan
hệ bao gồm xác định và trích chọn các mối quan hệ ngữ nghĩa giữa các thực thể được đặt
tên trong văn bản [5]. Tức là, bài toán này yêu cầu dữ liệu phải được xác định trước các
thực thể. Cụ thể hơn, đối với bài toán trích chọn quan hệ hai ngôi mà đồ án này đang tập
trung giải quyết, mỗi hai thực thể sẽ được ghép cặp để quyết định xem mối quan hệ giữa
chúng là gì (hoặc không có quan hệ).
Như vậy, thông thường, bài toán trích chọn quan hệ sẽ được giải quyết như một bài
toán phân lớp có đầu vào và đầu ra như sau:
Đầu vào: Một (tập) văn bản đã được gán nhãn thực thể và tập nhãn quan hệ đã xác
định trước.
Đầu ra: Nhãn quan hệ tương ứng cho từng cặp thực thể trong tập văn bản đó. Một
cặp thực thể có thể có một hoặc nhiều nhãn, tương ứng với bài toán phân lớp quan hệ đơn
nhãn hoặc đa nhãn.
Đồ án này chỉ tập trung giải quyết bài toán phân lớp quan hệ hai ngôi đơn nhãn, tức
là một quan hệ chỉ bao gồm hai thực thể, và một cặp thực thể chỉ có thể nhận một nhãn
duy nhất.
Một quan hệ hai ngôi được mô tả dưới dạng toán học là một bộ ba < , rel,

>, trong

đó:




là các thực thể định danh (hoặc cụm danh từ) trong một câu (hoặc một

đoạn văn bản) mà từ đó mối quan hệ được trích chọn
 rel là nhãn quan hệ tương ứng giữa hai thực thể nói trên.
Tương ứng, bài toán phân lớp quan hệ được định nghĩa dưới dạng toán học: là
một hàm

để xác định xem các thực thể tương ứng có thuộc một mối quan hệ nào đó hay

không:

7


+1

nếu



có liên quan theo quan hệ ;(1.1)

(T( , 1, 2)) =
−1

nếu không có quan hệ

Trong đó:




là hai thực thể tạo ra một đề xuất để phân lớp quan hệ.

 d là một tài liệu bao gồm các thực thể tương ứng



. d có thể là một câu,

một đoạn văn hoặc một tài liệu tùy thuộc vào phạm vi của các mối quan hệ.
 T (d) là thông tin được trích chọn từ d.
Có nhiều khía cạnh nên được xem xét trong hệ thống phân lớp quan hệ, chúng thường
khác nhau trên các loại thực thể khác nhau [3]:


Có thể có một hoặc nhiều loại quan hệ trong một tập dữ liệu. Ví dụ, BioCreative V
Chemical Disease Relation và tập dữ liệu BioNLP-ST 2016 BB3 chỉ được chú thích
với một loại quan hệ, trong khi văn bản Phenebank và SemEval 2013 DDI-2013 có
một số loại quan hệ.



Một số mối quan hệ được định hướng và bị ảnh hưởng bởi trật tự các thực thể, chẳng
hạn như mối quan hệ Mechanism trong kho dữ liệu DDI corpus, mối quan hệ giữa
Inherit trong tập dữ liệu Phenebank. Các quan hệ như vậy đòi hỏi mô hình phải dự
đoán chính xác cả hai loại quan hệ và thứ tự thực thể. Ngược lại, đối với các mối
quan hệ không có hướng, chẳng hạn như Associated của tập Phenebank, cả hai
hướng đều có thể được chấp nhận, một ví dụ khác là mối quan hệ hóa chất gây ra
bệnh (CID) trong BioCreative V CDR mà hướng của nó luôn đi từ hóa chất sang
bệnh.

 Mối quan hệ là mối quan hệ trong câu (nghĩa là hai thực thể tương ứng xuất hiện
trong cùng một câu) hoặc quan hệ câu chéo (nghĩa là hai thực thể tương ứng có thể xuất
hiện trong các câu khác nhau).
Nắm bắt được các động lực và nhu cầu cao trong việc xử lý dữ liệu y sinh học tự
động để phục vụ cho y tế, xã hội, sức khỏe cộng đồng, đồ án này tập trung vào việc phân
lớp quan hệ trong dữ liệu y sinh học.
Trích chọn quan hệ trong dữ liệu y sinh học thường tập trung vào các mối quan hệ
đặc trưng giữa các thực thể (hoặc cụm danh từ) y sinh. Các mối quan hệ y sinh phổ biến
bao gồm tương tác thuốc-thuốc, quan hệ hóa chất-bệnh, tương tác protein-protein và nhiều
loại khác. Với số lượng nhãn quan hệ phong phú như thế, điều quan trọng là phải hiểu
được cách các hệ thống hoạt động sử dụng các cài đặt khác nhau nhằm mục đích khác
nhau.

8


1.2.2. Ví dụ
Mục này đưa ra một số ví dụ trong dữ liệu BioCreative V Chemical Disease Relation
(BC5 CDR) [6], là tập dữ liệu y sinh tập trung vào mối quan hệ hóa chất gây ra bệnh. Mối
quan hệ giữa thực thế hóa chất (màu xanh) và thực thể bệnh (màu vàng) được giới thiệu
trong hình 1.3 là quan hệ nội câu và quan hệ liên câu.

Hình 1.2. Mối quan hệ nội (trong) câu

Hình 1.3. Mối quan hệ liên (ngoài) câu

1.3. Khó khăn và thách thức
Các đặc trưng đặc biệt của dữ liệu y sinh mang lại nhiều khó khăn cho cộng đồng
nghiên cứu. Nhận dạng thực thể định danh và trích chọn quan hệ trong lĩnh vực y sinh
thường được coi là khó khăn hơn so với các lĩnh vực khác [1,8]. Hệ thống trích chọn quan
hệ y sinh phải đối mặt với cả những thách thức chung của xử lý ngôn ngữ tự nhiên thông
thường và những khó khăn cụ thể của lĩnh vực y sinh.
Thứ nhất, xử lí ngôn ngữ tự nhiên y sinh vẫn đang phải đối mặt với nhiều bài toán
xử lí ngôn ngữ tự nhiên hiện tại, tức là, các bài toán không chỉ tồn tại trong lĩnh vực y
sinh, mà còn trong lĩnh vực chung của xử lí ngôn ngữ tự nhiên. Ba trong số đó là [3]:
(i) Dữ liệu mất cân bằng được coi là một bài toán cực kỳ nghiêm trọng trong phân
lớp, trong đó chúng ta có thể mong đợi độ chính xác kém đối với các lớp hiếm. Thông
thường, trong hầu hết các trích chọn quan hệ, chỉ có các trường hợp tích cực được chú
thích. Do đó, các trường hợp phủ định phải được tạo tự động bằng cách ghép tất cả các
thực thể xuất hiện trong cùng một câu chưa được chú thích là tích cực. Vì có một số lượng
lớn các thực thể như vậy, số lượng các cặp phủ định có thể rất lớn, chiếm một tỷ lệ lớn

9


trong các trường hợp. Hơn nữa, tỷ lệ nhỏ của các ví dụ tích cực có thể bao gồm một số
loại, gây mất cân bằng nghiêm trọng trong dữ liệu.
(ii) Đơn vị ngôn ngữ học đặc biệt như phủ định và kết hợp cũng là những thách
thức trong nhiều bài toán xử lí ngôn ngữ tự nhiên, bao gồm nhận dạng thực thể được dặt
tên và phân lớp quan hệ trong lĩnh vực y sinh. Phủ định là một bài toán nổi tiếng trong
cách hiểu ngôn ngữ vì nó có thể thay đổi bản chất của toàn bộ mệnh đề hoặc câu. Kết hợp
có thể là một phần của thực thể hoặc sự xuất hiện của chúng trong văn bản có thể mang lại
lỗi phân tích cú pháp sau đó dẫn đến nhiễu để phân lớp quan hệ.
(iii) Một thách thức khác đối với phân lớp quan hệ là trong việc mô hình hóa thứ tự
của các thực thể trong quan hệ có hướng. Một số mối quan hệ được định hướng và nhạy
cảm với trật tự, chẳng hạn như mối quan hệ trong tập dữ liệu DDI, mối quan hệ giữa
Inheres-in trong tập thể Phenebank. Các quan hệ như vậy đòi hỏi mô hình phải dự đoán
chính xác cả hai loại quan hệ và thứ tự thực thể. Ngược lại, đối với các mối quan hệ không
mong muốn, chẳng hạn như Associated trong Phenebank, cả hai hướng đều có thể được
chấp nhận, một ví dụ khác là mối quan hệ hóa chất gây ra bệnh trong BioCreative V CDR
[6] mà hướng của nó luôn đi từ hóa chất sang bệnh.
Thứ hai, khai thác thông tin trong lĩnh vực y sinh thường bị lỗi do hiệu quả của các
bước tiền xử lý tương đối thấp. NER và phân lớp quan hệ yêu cầu nhiều bước xử lý
trước, chẳng hạn như từ, phân đoạn câu, phân giải viết tắt, phân tích cú pháp, chuẩn hóa
thực thể và phân giải đồng tham chiếu. Chúng có ảnh hưởng lớn đến hiệu quả của hệ thống
trích chọn quan hệ. Các bước tiền xử lý này cần được dựa trên khung trích chọn thông tin
hiện tại. Thật không may, vì miền y sinh có nhiều đặc điểm đặc biệt, các công cụ tiền xử
lý được xây dựng cho văn bản chung thường không hoạt động tốt trong miền này. Mặc dù
đã có nhiều nghiên cứu về những bài toán này trong lĩnh vực y sinh, nhưng kết quả vẫn
còn nhiều hạn chế. Đó là vì những khó khăn bản thân cũng như thiếu dữ liệu đào tạo chú
thích.
Thứ ba, các thực thể định danh y sinh (Named Entity - NE) có sự đa dạng và
đặc điểm riêng dẫn đến tính biến đổi cao và mập mờ so với các lĩnh vực khác. Sự mập
mờ trong văn bản có nhiều dạng khác nhau tùy theo loại ngữ nghĩa của thực thể nhưng có
thể do thiếu định danh tiêu chuẩn, danh pháp mở rộng và ngày càng tăng đối với
protein/gen trên nhiều sinh vật hoặc sử dụng rộng rãi các từ viết tắt và tên mô tả. Thật
không may, vì thiếu các quy ước đặt tên tiêu chuẩn, các thực thể có tên y sinh thường
không tuân theo bất kỳ danh pháp nào trước khi một tên tiêu chuẩn được chấp nhận. Ngoài
ra, có hàng triệu tên thực thể được sử dụng và tên mới được thêm liên tục, ngụ ý rằng cả
từ điển và dữ liệu đào tạo sẽ không đủ toàn diện.
10


Thứ tư, một khi thực thể có tên được xác định, sau đó nó được phân lớp thành một
lớp như gen, bệnh, kiểu hình, hóa chất, v.v ... sự mập mờ và không nhất quán thường gặp
ở giai đoạn này. Các thực thể có tên có cùng đặc điểm hình thái có thể thuộc các loại khác
nhau (ví dụ, có một sự mập mờ lớn giữa kiểu hình và bệnh). Các thực thể lồng nhau hoặc
chồng chéo cũng là một thách thức khó khăn vì nhiều thực thể có thể bao gồm các thực thể
khác như một phần của chúng, ví dụ GENIA corpus chứa các thực thể lồng nhau như,
< RNA >< DNA > CIIT A < /DNA > mRNA < /RNA >
trong đó chuỗi “CIITA”, biểu thị một DNA và toàn bộ chuỗi ‘CIITA mRNA, đề cập
đến một RNA Ngay cả khi chúng ta chỉ làm việc với các thực thể liên tục, không lồng nhau
và không chồng chéo, bài toán không rõ ràng vẫn là một thách thức lớn. Do đó, nội câu
hóa (xác định ranh giới chính xác của thực thể) và định hướng (phân lớp nhịp văn bản
thành loại thực thể chính xác) là hai bước quan trọng để ánh xạ các biến thể của tên y sinh
trong văn bản sang loại thực thể y sinh duy nhất. Những bài toán này đặc biệt nổi bật trong
bệnh có tên là nhận dạng thực thể và cần được khắc phục để phân lớp quan hệ.
Cuối cùng, y sinh là một lĩnh vực liên ngành. Theo truyền thống, nghiên cứu y sinh
đã được thực hiện chủ yếu trong phạm vi nhỏ. Tuy nhiên, sự phức tạp của lĩnh vực sinh
học và khả năng phát triển của nghiên cứu y sinh ngày càng phụ thuộc vào sự phát triển
của các phương pháp và khái niệm vượt qua các ranh giới này. Việc khám phá toàn diện
các cơ chế sinh học và phát triển các phương pháp trị liệu mới đòi hỏi kiến thức và kỹ năng
của nhiều chuyên ngành. Kết quả là, ngoài các lĩnh vực trực tiếp và liên quan chặt chẽ,
sinh học, hóa học, y tế và xã hội học, nhiều lĩnh vực khác cũng được áp dụng cho nghiên
cứu y sinh như khoa học máy tính, kỹ thuật, vật lý và toán học. Điều này dẫn đến các tài
liệu khoa học được công bố với các nghiên cứu này cũng chứa nhiều thuật ngữ và thông
tin liên ngành. Ngay cả khi chúng ta tạm thời không đề cập đến các ngành khoa học khác,
bài toán thu hẹp khoảng cách giữa các nhà sinh học và nhà khoa học tính toán dường như
rất quan trọng đối với sự thành công của khai thác thông tin y sinh và Nhận dạng thực thể
định danh nói chung, về phân lớp nói riêng. Hiện nay, khai thác tài liệu khoa học tự động
được xử lý bởi các nhà nghiên cứu với nền tảng tính toán. Tuy nhiên, họ cần kiến thức y
sinh, vốn được sở hữu bởi các nhà sinh học. Điều đó rất quan trọng để xác định các tiêu
chuẩn để đánh giá, để xác định các yêu cầu cụ thể, các ứng dụng tiềm năng và hệ thống
thông tin tích hợp để truy vấn, trực quan hóa và phân tích dữ liệu trên quy mô lớn và để
xác minh thử nghiệm nhằm tạo thuận lợi cho sự hiểu biết về tương tác sinh học. Gần đây,
việc thành lập các nhóm đa ngành rất quan trọng đối với nghiên cứu y sinh học hiện đại.
Các nhóm này là những người đóng góp quan trọng cho sự tiến bộ của khám phá khoa học
cũng như các khám phá đó thành thực hành hữu ích.

11


CHƯƠNG 2. CÁC HƯỚNG TIẾP CẬN PHỔ BIẾN
CHO BÀI TOÁN TRÍCH CHỌN QUAN HỆ
2.1. Các phương pháp thủ công
Phương pháp tiếp cận đơn giản nhất để phát hiện các mối quan hệ tiềm năng giữa hai
thực thể dựa trên số liệu thống kê về sự đồng xuất hiện [7]. Phương pháp này dựa trên giả
thuyết rằng nếu hai thực thể thường xuyên được nhắc đến cùng nhau, bằng cách nào đó có
khả năng chúng có liên quan đến nhau. Phương pháp này xác định mối quan hệ thông qua
việc đếm sự tồn tại của chúng trong toàn bộ các câu trong tập dữ liệu. Tuy nhiên, việc
thống kê đồng xuất hiện chỉ có thể xác định hai thực thể có khả năng có quan hệ mà không
thể chỉ ra được quan hệ đó là gì.
Hướng tiếp cận thủ công dựa trên hệ luật thường dựa vào một bộ luật hoặc mẫu đã
được xây dựng sẵn để xác định mối quan hệ giữa hai thực thể dựa vào ngữ cảnh chứa
chúng. Một trong những nghiên cứu dựa trên hệ luật gần đây nhất là hệ thống có tên
iXtractR [9], đó là một khung xử lí ngôn ngữ tự nhiên tổng quát sử dụng một số giả thuyết
mới để phát triển các mô hình trích chọn quan hệ y sinh. Các phương pháp dựa trên luật
hoặc mẫu không yêu cầu bất kỳ dữ liệu chú thích nào để huấn luyện một hệ thống nhưng
thường gặp hai nhược điểm:
(i) Các hệ luật và mô hình dựa trên các hệ luật/mô hình được tạo thủ công, rất tốn
kém, mất thời gian và thường đòi hỏi cần các chuyên gia về miền dữ liệu đang
xét.
(ii) Chúng bị giới hạn trong việc trích chọn các loại quan hệ cụ thể và miền dữ liệu
cụ thể.

2.2. Các phương pháp học máy có giám sát
Hầu hết các phương pháp học máy có giám sát sẽ xử lý bài toán trích chọn quan hệ
dưới dạng một bài toán phân lớp. Dữ liệu cần phải được xác định trước các thực thể (cùng
với loại của chúng, nếu cần), các loại quan hệ cũng cần phải được định nghĩa trước. Nhiệm
vụ của mô hình học máy có giám sát là phân lớp một câu chứa hai thực thể về một trong
số các nhãn cho trước. Để xây dựng được mô hình này, chúng ta cần sử dụng một bộ dữ
liệu đã được gán nhãn chuẩn để huấn luyện.

2.2.1. Học máy dựa trên đặc trưng
Đối với các phương pháp học máy dựa trên đặc trưng, một tập hợp các đặc trưng đại
diện cho quan hệ đang xét cũng như dữ liệu sẽ được thiết kế bởi các chuyên gia. Sau đó,
bộ đặc trưng này được chuyển cho bộ phân lớp với mục đích đào tạo và phân lớp quan hệ.

12


Quá trình trích chọn đặc trưng thực chất là quá trình biến đổi một câu đầu vào thành một
véctơ trong không gian đặc trưng để đưa vào mô hình học máy.
Các hệ thống dựa trên đặc trưng yêu cầu biểu diễn từng trường hợp dữ liệu chú thích
dưới dạng vectơ đặc trưng F =
...;

;

; ...;

trong một không gian n chiều, trong đó

;

;

là các đặc trưng được trích chọn tuân theo bộ đặc trưng được xác định trước.
Các đặc trưng thường được sử dụng cho nhiệm vụ trích chọn quan hệ bao gồm [25,

26]:
 Các đặc trưng từ vựng: Trong bộ đặc trưng này, các đặc trưng từ vựng như
vị trí của cặp thực thể được đề cập, số lượng từ giữa cặp được đề cập, từ
trước hoặc sau cặp được đề cập, v.v ... được sử dụng để nắm bắt ngữ cảnh
của câu.
 Các đặc trưng của cây cú pháp: Trong bộ đặc trưng này, cấu trúc ngữ pháp
của câu và cặp được đề cập được sử dụng để tạo đặc trưng. Ví dụ, nhãn từ
loại cho mỗi cặp được đề cập, phần đầu, v.v., có thể được sử dụng như một
đặc trưng để trích chọn quan hệ.
 Các đặc trưng của cây phụ thuộc: Cây phụ thuộc cung cấp cho chúng ta
các từ mà cặp thực thể được đề cập là phụ thuộc và chúng ta có thể sử dụng
các từ đó và các nhãn từ loại của chúng trong bộ đặc trưng. Với điều này,
chúng ta cũng có thể sử dụng đường dẫn cây phụ thuộc giữa cặp được đề
cập, nhãn đường dẫn, khoảng cách giữa cặp thực thể được đề cập trong cây
phụ thuộc, v.v…
 Các đặc trưng thực thể: Một mối quan hệ có thể tồn tại giữa một số loại
thực thể nhất định, ví dụ: TreatmentForMedicalProbols có thể tồn tại giữa
một thực thể điều trị và thực thể bài toán. Vì vậy, loại cặp thực thể được đề
cập cũng là các giá trị đặc trưng quan trọng cho mục đích phân lớp. Các đặc
trưng thực thể cũng bao gồm sự hiện diện của các thực thể y tế khác giữa các
cặp được đề cập.
 Các đặc trưng biểu diễn từ: Mặc dù các đặc trưng từ vựng biểu diễn cho
cấu trúc câu với cặp được đề cập, chúng ta có thể sử dụng các từ nhúng để
thể hiện cặp thực thể được đề cập. Các đặc trưng nhúng từ có một vai trò
quan trọng trong Nhận dạng thực thể định danh, phân tích cú pháp phụ thuộc,
gán nhãn ngữ nghĩa và trích chọn quan hệ.
Với các phương pháp dựa trên đặc trưng, các nhà nghiên cứu thường cố gắng cải
thiện hiện suất mô hình bằng cách đề xuất và sử dụng một bộ đặc trưng phong phú. Các
nghiên cứu điển hình là Le [10], Rink [11], trong đó rất nhiều đặc trưng được sử dụng để
13


nắm bắt thông tin về ngữ nghĩa và cú pháp, sau đó vectơ đặc trưng được đưa đến một mô
hình máy véc-tơ hỗ trợ (Support Vector Machine – SVM) để trích chọn các mối quan hệ
của các thực thể.
Tuy nhiên, các phương pháp này vẫn có một nhược điểm là việc xây dựng một bộ
đặc trưng phù hợp cho từng dữ liệu cụ thể đòi hỏi sức lao động rất lớn của con người và
vẫn không đảm bảo có thể đáp ứng tốt cho các miền dữ liệu đặc biệt.

2.2.2. Học sâu
Những thành công gần đây của các phương pháp học sâu đã kích thích sự quan tâm
trong việc áp dụng các kiến trúc mạng nơ-ron học sâu vào việc phân lớp quan hệ. Chúng
đã được chứng minh là cực kỳ tốt trong việc xử lí dữ liệu nhiễu bằng cách tự động sinh
các đặc trưng bằng cách học từ dữ liệu, do đó, không yêu cầu xây dựng tập đặc trưng một
cách thủ công nhưng vẫn mang lại hiệu quả cao.
Mạng nơ-ron tích chập là một trong những phương pháp được áp dụng thành công
cho bài toán phân lớp quan hệ y sinh và mang lại kết quả rất tốt. Barnickel [12] đã đề xuất
một mạng nơ-ron tích chập dựa trên nhiệm vụ gán nhãn ngữ nghĩa để trích chọn quan hệ
quy mô lớn trong văn bản y sinh. Z. Zhao và công sự đã sử dụng mạng nơ-ron tích chập
để trích chọn tương tác thuốc - thuốc [13]. H. Zhou và cộng sự áp dụng mạng nơ-ron tích
chập vào đường đi phụ thuộc ngắn nhất để trích chọn quan hệ hóa chất gây ra bệnh [14].
Mạng nơ-ron hồi quy (Recurrent Neural Networks – RNNs) là một phương pháp
khác để thể hiện các mối quan hệ và rất tốt trong việc mô hình hóa các mối quan hệ của
cặp thực thể cách xa nhau trong dữ liệu ngôn ngữ có cấu trúc. Có một số biến thể của RNN
đã được áp dụng cho việc phân lớp quan hệ y sinh [15].
 RNN thông thường
 RNN kết hợp với LSTM được sử dụng để mở rộng phạm vi bối cảnh
 Mạng nơ-ron đệ quy
Ngoài bản thân các câu, các mô hình dựa trên RNN thường lấy thông tin trích chọn
đầu vào từ các cây phụ thuộc, chẳng hạn như các đường đi phụ thuộc ngắn nhất (SDP) [15]
hoặc toàn bộ cây.
Biểu diễn từ: Một kỹ thuật quan trọng trong mô hình học sâu là biểu diễn từ (word
embedding), bước này gần như thường nằm trong lớp đầu tiên của các mô hình học sâu.
M. Habibi đã chứng minh tính sự ảnh hưởng của việc biểu diễn từ đối với hiệu suất của
một mô hình học sâu [16]. Hầu hết các mô hình học sâu đã được xây dựng để phân lớp
quan hệ cũng sử dụng kỹ thuật biểu diễn từ nhúng trong lớp đầu tiên.

14


2.3. Học máy không giám sát
Một số phương pháp học máy không giám sát cũng đã được áp dụng thành công cho
bài toán trích chọn quan hệ y sinh [17]. Các mô hình học máy không giám sát cũng phải
dựa trên việc xây dựng tập đặc trưng thủ công như đã nhắc đến trong mục 2.2.1, các loại
đặc trưng được sử dụng cũng tương đối tương đồng với học máy có giám sát. Hai điểm
khác biệt chính là:
 Học máy không giám sát thường giải quyết bài toán trích chọn quan hệ như một bài
toán phân cụm, trong đó mỗi nhãn quan hệ sẽ tương ứng với một cụm.
 Học máy không giám sát không yêu cầu dữ liệu đã gán nhãn mà chỉ sử dụng một
lượng lớn dữ liệu không nhãn.

2.4. Phương pháp học từ xa và bán giám sát
Phương pháp học từ xa (phương pháp giám sát yếu): thường sử dụng dữ liệu được
gán nhãn yếu xuất phát từ tập dữ liệu về mối quan hệ đã biết để tự động thu thập lượng lớn
dữ liệu đào tạo từ dữ liệu chưa được gán nhãn. Một bộ phân lớp giám sát sau đó được học
với tất cả dữ liệu huấn luyện thu thập được để đưa ra kết quả cuối cùng. Do đó, nó chỉ yêu
cầu một lượng dữ liệu gán nhãn nhỏ. Phương pháp này đã thu hút sự chú ý trong cộng
đồng nghiên cứu để xây dựng các hệ thống phân lớp y sinh vì nó có thể tận dụng các nguồn
tài liệu sẵn có một cách rất linh hoạt [18].
Các phương pháp học bán giám sát: sử dụng một tập hợp nhỏ các quan hệ được gán
nhãn như là tập “hạt giống” để trích chọn các quan hệ mới. Các phương pháp học bán giám
sát để trích chọn quan hệ thường sử dụng ý tưởng về phương pháp dựa trên nhãn. Nghĩa
là, trích rút ra các quan hệ từ ngữ cảnh văn bản của sau đó sử dụng các nhãn này để phát
hiện thêm các mối quan hệ. Tìm các nhãn mới và dự đoán các mối quan hệ mới được xử
lý luân phiên và lặp đi lặp lại trong kiến trúc lặp.

15


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×

×