Tải bản đầy đủ

Phân tích cú pháp phụ thuộc tiếng việt

Đ I H C QU C GIA HÀ N I
TRƯ NG Đ I H C KHOA H C T

NHIÊN

——————————

Hà M Linh

PHÂN TÍCH CÚ PHÁP PH
TI NG VI T

LU N VĂN TH C SĨ KHOA H C

Hà N i - 2015

THU C


Đ I H C QU C GIA HÀ N I
TRƯ NG Đ I H C KHOA H C T


NHIÊN

——————————

Hà M Linh

PHÂN TÍCH CÚ PHÁP PH

THU C

TI NG VI T

Chuyên ngành: Cơ s toán cho tin h c
Mã s : 60460110

LU N VĂN TH C SĨ KHOA H C

NGƯ I HƯ NG D N KHOA H C: TS Lê H ng Phương

Hà N i - 2015


L i c m ơn
Em xin g i l i c m ơn t i các th y giáo, cô giáo, cán b khoa Toán - Cơ Tin h c, trư ng Đ i h c Khoa h c t nhiên, Đ i h c Qu c gia Hà N i đã t n tình d y d
và giúp đ em trong su t th i gian h c cao h c và làm vi c t i B môn Tin h c.
Trong quá trình th c hi n lu n văn này cũng như trong su t nh ng năm h c v a
qua, em đã nh n đư c s ch b o và hư ng d n nhi t tình c a TS. Lê H ng Phương
và TS. Nguy n Th Minh Huy n. Em xin g i t i Th y Cô l i c m ơn chân thành nh t.
Em cũng xin g i l i c m ơn t i gia đình, b n bè đã đ ng viên, khuy n khích
và t o đi u ki n cho em trong quá trình h c t p và th c hi n lu n văn này.
M c dù đã c g ng đ hoàn thành lu n văn, nhưng do h n ch v kinh nghi m và th i
gian, nên lu n văn không th tránh kh i nh ng thi u sót. Em mong nh n đư c s c m
thông và nh ng ý ki n đóng góp c a các th y cô và các b n.
Hà N i, tháng 9 năm 2015
H c viên

Hà M Linh

i



M cl c
Danh sách b ng

iv

Danh sách hình v

v

L im đ u

1

1 T ng quan v cú pháp ph thu c

3

1.1

1.2

Cú pháp ph thu c . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.1.1

Đ nh nghĩa cú pháp ph thu c . . . . . . . . . . . . . . .

3

1.1.2

Bi u di n cú pháp ph thu c

5

...............

Các thu t toán phân tích cú pháp ph thu c . . . . . . . . . . .

7

1.2.1

Phân tích cú pháp ph thu c d a trên đ th

9

1.2.2

Phân tích cú pháp ph thu c d a trên các bư c chuy n .

......

2 Xây d ng t p nhãn ph thu c cho ti ng Vi t

11
16

2.1

Kho ng li u ti ng Vi t - Viettreebank . . . . . . . . . . . . . .

16

2.2

T p nhãn quan h ph thu c đa ngôn ng

19

2.3

T p nhãn quan h ph thu c cho ti ng Vi t . . . . . . . . . . .

............

3 Th c nghi m
3.1

3.2

23
33

Các công c phân tích cú pháp ph thu c . . . . . . . . . . . .

33

3.1.1

MSTParser . . . . . . . . . . . . . . . . . . . . . . . . .

33

3.1.2

MaltParser . . . . . . . . . . . . . . . . . . . . . . . . .

35

Thu t toán xây d ng tài nguyên ti ng Vi t t đ ng . . . . . . .

39

3.2.1

40

T p lu t tìm ph n t trung tâm . . . . . . . . . . . . . .

ii


3.2.2
3.3

Thu t toán chuy n t đ ng t Viettreebank sang cú pháp
ph thu c . . . . . . . . . . . . . . . . . . . . . . . . . .

41

K t qu th c nghi m . . . . . . . . . . . . . . . . . . . . . . . .

45

K t lu n

48

Các công trình công b liên quan đ n lu n văn

49

Tài li u tham kh o

50

Ph l c

54

iii


Danh sách b ng
1.1
1.2
1.3
1.4
2.1
2.2
2.3
2.4
2.5

3.1
3.2
3.3
3.4
3.5
3.6
3.7

K t qu phân tích cú pháp ph thu c c a hai mô hình cho h
th ng CoNLL-X (Buchholz và Marsi 2006). . . . . . . . . . . . . Các đ

8

c trưng dùng trong MSTParser . . . . . . . . . . . . . . . Các đ c trưng

10

dùng trong MaltParser . . . . . . . . . . . . . . . Ví d v phân tích cú

14

pháp d a vào các bư c chuy n. . . . . . .

15

T p nhãn t lo i ti ng Vi t. . . . . . . . . . . . . . . . . . . . .

18

T p nhãn c m t ti ng Vi t. . . . . . . . . . . . . . . . . . . . . T p nhãn m

19

nh đ ti ng Vi t. . . . . . . . . . . . . . . . . . . . T p nhãn ch c năng cú

19

pháp ti ng Vi t. . . . . . . . . . . . . . So sánh t p nhãn ph thu c ti ng

20

Vi t v i t p nhãn ph thu c đa ngôn ng (UD) và t p nhãn ph thu c ti
ng Anh (SD). . . .

32

K t qu c a MSTParser. . . . . . . . . . . . . . . . . . . . . . .

35

K t qu c a MaltParser. . . . . . . . . . . . . . . . . . . . . . . T p quy t c

39

xác đ nh ph n t trung tâm. . . . . . . . . . . . . . Câu ti ng Vi t theo đ

40

nh d ng CoNLL-X chưa đư c phân tích. . Câu ti ng Vi t theo đ nh

45

d ng CoNLL-X đã đư c phân tích ph thu c. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . K t qu phân tích cú pháp ph thu c v i t p d li

46

u 2700 . . . K t qu phân tích cú pháp ph thu c v i t p d li u 6546

46

câu .

47

iv


Danh sách hình v
1.1

C u trúc c m t . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Đ th ph thu c c a m t câu ti ng Anh. . . . . . . . . . . . . .
61.3

4


d v phân tích cú pháp d a trên đ th . . . . . . . . . . . .

11

3.1

41

Cú pháp thành ph n c a m t câu ti ng Vi t . . . . . . . . . . .

v


L im đ u
X lí ngôn ng t nhiên (Natural Language Processing - NLP) là m t nhánh
trong trí tu nhân t o, t p trung các ng d ng nh m giúp các h th ng máy tính hi u
và x lí đư c ngôn ng c a con ngư i. X lí ngôn ng t nhiên là m t trong nh ng v n đ
khó và thu hút r t nhi u nhóm nghiên c u vì nó liên quan đ n vi c ph i hi u ý
nghĩa ngôn ng - là công c hoàn h o nh t c a tư duy và giao ti p. Phân tích cú
pháp là m t trong nh ng v n đ quan tr ng trong lĩnh v c x lí ngôn ng t nhiên. V i m
t b phân tích cú pháp t t, chúng ta có th tích h p vào nhi u ng d ng trong x lí
ngôn ng t nhiên như d ch máy, tóm t t văn b n, các h th ng h i đáp, trích ch n
thông tin,... đ tăng tính chính xác c a các ng d ng đó.
Trong phân tích cú pháp, phân tích cú pháp ph thu c nghiên c u v s ph
thu c gi a các t trong câu d a trên ng nghĩa. G n đây, phân tích cú pháp
ph thu c thu hút đư c s quan tâm c a nhi u nhóm nghiên c u ngôn ng t
nhiên trên th gi i b i quan h ph thu c gi a hai t trong câu nghiên c u kh nh p nh
ng ng nghĩa c a câu và cú pháp này có kh năng mô hình hóa các ngôn ng có tr
t t t t do. Đ i v i nhi u ngôn ng như ti ng Anh, ti ng Pháp, ti ng Trung,... đã có r t
nhi u nghiên c u và các công c phân tích cú pháp ph thu c v i hi u qu cao. Tuy
nhiên, các ti p c n cho bài toán này h u h t d a trên h c máy và đòi h i kho ng li
u v i nhi u thông tin v t lo i và
quan h ph thu c nên có r t ít công b nghiên c u v phân tích cú pháp ph thu c ti
ng Vi t.
Hi n nay, các công c phân tích cú pháp ph thu c cho ti ng Vi t đã đ t đư c m t
s k t qu nh t đ nh. Nhóm tác gi Nguy n Lê Minh và c ng s [1]
s d ng thu t toán phân tích cú pháp d a vào đ th , th c nghi m v i công c
1


MSTParser và b d li u khá h n ch g m 450 câu làm b ng tay v i đ chính
xác là 63.11%. Nhóm tác gi Lê H ng Phương và c ng s [20] nghiên c u phân tích
cú pháp ph thu c d a vào văn ph m k t n i cây t v ng hóa, th c nghi m hu n luy n
v i 8637 câu trong kho ng li u cú pháp thành ph n ti ng Vi t, phân tích 441 câu
có đ dài nh hơn 30 t và đ t đ chính xác là 73.21%. G n đây
nh t là công b c a nhóm nghiên c u c a tác gi Nguy n Qu c Đ t và c ng s [7],
tác gi đã chuy n t đ ng kho ng li u cú pháp thành ph n sang kho ng
li u cú pháp ph thu c, cùng v i t p 33 nhãn quan h ph thu c v i đ chính xác là
71.66%. Tuy nhiên, h u h t các nghiên c u đ i v i ti ng Vi t đ u chưa th ng nh t đư
c t p nhãn ph thu c, các nhãn ph thu c chưa đư c mô t m t cách rõ ràng và hi u
qu phân tích còn khá h n ch .
Lu n văn s trình bày v v n đ phân tích cú pháp ph thu c, t p trung vào vi c xây
d ng t p nhãn ph thu c cho ti ng Vi t và th nghi m trên hai công c phân tích cú
pháp là MaltParser và MSTParser. N i dung chính c a lu n
văn g m có 3 chương:

• Chương 1. T ng quan: Chương này trình bày nh ng v n đ liên quan t i
cú pháp ph thu c, các khái ni m cơ b n v phân tích cú pháp ph thu c. Và m
t s nh ng thu t toán phân tích cú pháp ph thu c t t nh t hi n nay.

• Chương 2. Xây d ng t p nhãn ph

thu c cho ti ng Vi t: Chương

này trình bày v vi c nghiên c u và xây d ng t p nhãn ph thu c cho ti ng Vi t
có đ i sánh v i t p nhãn ph thu c đa ngôn ng c a nhóm nghiên c u trư ng Đ i
h c Stanford. Ngoài ra, Chương này cũng so sánh s khác nhau gi a hai b
nhãn đ th y đư c nh ng đ c trưng trong ti ng Vi t.

• Chương 3: Th c nghi m: Chương này trình bày v m t s công c phân
tích cú pháp ph thu c hi u qu nh t hi n nay: MSTParser và MaltParser. Ti p
theo là thu t toán chuy n t đ ng t kho ng li u cú pháp thành ph n
Viettreebank sang kho ng li u cú pháp ph thu c. Ti n hành th c nghi m phân
tích cú pháp ph thu c cho ti ng Vi t v i hai công c trên, sau đó so sánh k t
qu đ t đư c gi a nh ng t p d li u khác nhau và đưa ra k t lu n.
2


Chương 1

T ng quan v cú pháp ph thu c
Chương này s trình bày các ki n th c cơ s s d ng trong các ph n sau, đ c
bi t là khái ni m liên quan t i phân tích cú pháp ph thu c và các thu t toán phân
tích cú pháp ph thu c đi n hình.

1.1

Cú pháp ph thu c

Cú pháp là ch đ nghiên c u c a hai c ng đ ng g m nh ng ngư i làm ngôn
ng và nh ng ngư i làm tin h c. Cú pháp v a là đ i tư ng nghiên c u, v a là m t
trong các c p đ c n mô t đ i v i c ng đ ng nh ng ngư i làm ngôn ng . Đ i v i c ng đ
ng nh ng ngư i làm tin h c, c n làm cho máy tính phân tích đư c cú pháp v i hai
m c tiêu là xây d ng các ng d ng, gi i quy t m t s bài toán th c t , đ i tư ng nghiên
c u c a h là các h hình th c và các thu t toán.
1.1.1

Đ nh nghĩa cú pháp ph thu c

Ki n th c và ví d trong ph n này trình bày theo tài li u c a các tác gi
Joakim Nivre và Johan Hall cùng c ng s [9].
Cú pháp là quy t c dùng các ti ng đ đ t câu văn cho chính xác. Đ s d ng ngôn
ng linh ho t, ta ph i hi u rõ v cú pháp. Mu n hi u rõ v cú pháp, ta ph i hi u th nào
là câu, các lo i câu, m nh đ , các lo i m nh đ , cùng c u trúc c a chúng.
V i m t câu có th có hai cách phân tích cú pháp: phân tích cú pháp thành
3


ph n và phân tích cú pháp ph thu c.
Đ nh nghĩa 1.1.1 (Cú pháp thành ph n). Cú pháp thành ph n là c u trúc câu
theo th b c các thành ph n c a câu, s d ng c u trúc c m t . Ví d : Hình 1.1.

Hình 1.1: C u trúc c m t .

Đ nh nghĩa 1.1.2 (Cú pháp ph thu c). Cú pháp ph thu c là c u trúc bi u
di n quan h gi a các t trong câu d a trên ng nghĩa.
Quan h ph thu c gi a hai t v ng là quan h nh phân không đ i x ng.
Các quan h ph thu c này đư c đ t tên đ làm rõ quan h gi a hai t trong
câu. Chúng ta cũng có th đ nh nghĩa m t cách hình th c như sau: cú pháp ph
thu c c a m t câu cho trư c là m t đ th có hư ng v i g c root là m t đ nh gi , thư
ng đư c chèn vào phía bên trái câu, các đ nh còn l i là các t c a câu.
C u trúc ph thu c đư c xác đ nh b i m i quan h gi a m t t trung tâm (head ) và
t ph thu c (dependent) c a nó. Theo quy ư c ph bi n trong các
tài li u v cú pháp ph thu c thì t n m
nm

g c c a mũi tên là t trung tâm, t

đ u mũi tên là t ph thu c. C u trúc ph thu c thư ng đơn gi n hơn

c u trúc thành ph n, d dàng hơn cho c ngư i và máy khi h c m t c u trúc cú
pháp. Hơn n a, c u trúc ph thu c thích h p hơn v i các ngôn ng có tr t t
t t do, như ti ng Séc hay Th Nhĩ Kì. Tuy nhiên, không ph i vì th mà các ngôn
ng có tr t t t t do thì luôn dùng cú pháp ph thu c và ngư c l i.
Bài toán phân tích cú pháp ph thu c
4


Phân tích cú pháp ph thu c đưa ra mô t v quan h và vai trò ng pháp
c a các t trong câu, đ ng th i đưa ra hình thái c a câu. Bài toán phân tích cú
pháp ph thu c là tìm đ th ph thu c cho m t câu. Đ u vào c a bài toán là câu đã
đư c tách t và gán nhãn t lo i, trong đó m i t có đ c đi m hình thái xác đ nh. M c
tiêu c a bài toán là tìm ra phương pháp sinh đ th ph thu c chính xác nh t cho m
t câu đ u vào, nghĩa là làm c c đ i s cung chính xác
trong đ th và s nhãn gán đúng cho các cung. Ta có:

• Đ u vào:
- Câu x = w1, w2, ..., wn đã đư c ti n x lý, tách t và gán nhãn t lo i.
- Kho ng li u g m các câu đã đư c gán nhãn ph thu c (ph c v cho
quá trình hu n luy n trong các thu t toán).

• Đ u ra: Đ th ph thu c c a câu x.
1.1.2

Bi u di n cú pháp ph thu c

Cho m t câu x g m n t w1, w2, ..., wn, khi đó ta s kí hi u x như sau:
x = (w1, w2, ..., wn).
Trong phân tích cú pháp ph thu c, cú pháp ph thu c c a m t câu đư c bi u
di n b i m t đ th có hư ng, các đ nh trong đ th tương ng v i các t c a m t câu,
các cung trong đ th đư c gán nhãn, các nhãn c a cung tương ng v i lo i ph thu c
gi a hai t .
Đ nh nghĩa 1.1.3 (Đ th ph thu c). Cho m t t p L = {r1, ..., r L } các lo i
| |

ph thu c (các nhãn cung), đ th ph thu c c a m t câu x = (w1, ..., wn) là
m t đ th có hư ng đư c gán nhãn G = (V, E, R), trong đó:
1. V = Zn+1.
2. E ⊆ V ⋅ V.
3. R là m t hàm xác đ nh nhãn cung.

5


T p đ nh V là m t t p Zn+1 = {0, 1, 2, ..., n}, n ∈ Z+, là t p s nguyên không

âm tăng d n t i n. Đi u này có nghĩa là t t c các t trong câu là m t đ nh
(1 ≤ i ≤ n) và có m t đ nh đ c bi t 0, không tương ng v i b t kỳ t nào c a câu và luôn là g c
c a đ th ph thu c. S d ng V + là t p t t c các đ nh
tương ng v i các t c a câu c th x = (w1, ..., wn). Th a mãn: |V +| = n và
|V | = n + 1.

T p h p các cung E là m t c p (i, j), trong đó i, j là các đ nh, kí hi u i → j có


nghĩa là m t cung n i gi a đ nh i và đ nh j, khi đó ta có: (i, j) ∈ E. Kí hi u i → j khi và
ch khi i = j ho c có m t cung n i t đ nh i đ n đ nh j.
Hàm R ch m t lo i ph thu c r ∈ L t i m i cung e ∈ E. Kí hi u i →r j có nghĩa là có m
t cung có nhãn r k t n i đ nh i v i đ nh j (ví d i → j và R((i, j)) = r).
T w0 là t đư c thêm vào ngay đ u c a câu và không b nghĩa cho b t c
t nào trong câu, đó chính là đ nh g c c a đ th . M i wi bi u di n cho m t t ,
m t d u câu, m t ph t , ti n t ho c b t c hình v nào trong câu. Quy ư c 0
(tương ng v i t w0) luôn là g c c a đ th ph thu c c a câu c n phân tích.
Ví d : Đ th ph thu c c a câu "Bills on ports and immigration were submitted by Senator Brownback, Republican of Kansas" trong Hình 1.2.

Hình 1.2: Đ th ph thu c c a m t câu ti ng Anh.

Trong ví d trên, t p L = {nsubjpass, auxpass, prep, pobj, nn, cc, conj, appos}
6


là các quan h ph thu c c a các t trong câu, và cũng là các nhãn cung c a đ
th ph thu c. Các t

g c mũi tên là các t trung tâm, các t

đ u mũi tên

là các t ph thu c. V i m t cung: "submitted −→ Bills", thì "submitted" là t
trung tâm, "Bills" là t ph thu c và quan h ph thu c gi a hai t này đư c bi u th b ng
nhãn ph thu c nsubjpass.
Đ nh nghĩa 1.1.4 (Đ th ph thu c xây d ng đúng). M t đ th ph thu c
G xây d ng đúng n u và ch n u:
1. Đ nh 0 là g c (ROOT ).
2. G liên thông y u (CONNECTEDNESS ).
3. M i đ nh đ u có nhi u nh t m t t trung tâm, t c là n u i → j thì v i m t
t b t kì khác trong câu,

k th a mãn k = i và k → j (SINGLE-HEAD).


4. Các đ th G là không có chu trình, t c là có i → j thì j → i (ACYCLICITY ).
Ngoài các tính ch t trên c a m t đ th ph thu c, h u h t các đ th còn
th a mãn đi u ki n x

nh. Các đ th là x



nh, n u như có i → j thì i → k,

∀k th a mãn i ≤ k ≤ j ho c j ≤ k ≤ i (PROJECTIVITY ). Tuy nhiên, không ph i t t c các câu
đ u th a mãn đi u ki n này nên m t s thu t toán đư c phát
tri n đ gi i quy t v n đ không x

nh trong phân tích cú pháp ph thu c.

Nh cách mô hình hóa như trên, cú pháp ph thu c bi u di n đư c nh ng ngôn
ng có tr t t t t do, đây là đi u mà cú pháp c u trúc c m (v n phù h p v i nh ng
ngôn ng có nhi u quy t c ch t ch trong c u thành câu) không làm đư c. Tuy v y,
không có nghĩa là phân tích ngôn ng có tr t t t xác đ nh thì ch dùng c u trúc c m
hay phân tích ngôn ng có tr t t t t do thì ch dùng c u trúc ph thu c.

1.2

Các thu t toán phân tích cú pháp ph thu c

Ki n th c trong ph n này trình bày theo tài li u c a các tác gi Joakim Nivre
và Johan Hall cùng c ng s [9], Ryan McDonald cùng c ng s [21], [22].
Có hai phương pháp phân tích cú pháp ph thu c cơ b n sau:
7


• Phân tích cú pháp ph thu c d a vào đ th : phân tích cú pháp ph thu c
thông qua tham s hóa mô hình ph thu c d a vào các đ th con và hu n luy n
các tham s trên toàn b các đ th . S d ng suy lu n toàn c c trong h th ng đ
tìm nh ng đ th có tr ng s cao nh t trong s các cách thi t l p t t c các đ th .
Mô hình phân tích cú pháp ph thu c d a trên đ th đư c Eisner (1996),
McDonald cùng c ng s (2005) phát tri n.

• Phân tích cú pháp ph thu c d a vào bư c chuy n: phân tích cú pháp ph
thu c thông qua các bư c chuy n t tr ng thái phân tích này t i tr ng thái
phân tích khác. Các tham s trong mô hình thư ng đư c hu n luy n s
d ng kĩ thu t phân l p chu n đ d đoán bư c chuy n ti p theo t m t t p h p các
bư c chuy n trư c đó. S d ng suy lu n c c b , h th ng b t đ u t m t tr ng thái
ban đ u c đ nh và xây d ng các đ th b ng hàm đi m chuy n đ i cao nh t t i m
i tr ng thái cho đ n khi m t đi u ki n đư c đáp
ng. Mô hình phân tích cú pháp ph thu c d a trên các bư c chuy n đư c
Nivre cùng c ng s (2004), Yamada và c ng s (2003) phát tri n.
C hai phương pháp đ u đưa ra k t qu phân tích v i đ chính xác tương
đương nhau, như đưa ra trong B ng 1.1 m t s ngôn ng khác nhau.
B ng 1.1: K t qu phân tích cú pháp ph thu c c a hai mô hình cho h th ng CoNLL-X (Buchholz và Marsi
2006).
Ngôn ng
Arabic
Bulgarian
Chinese
Czech
Danish
Dutch
German
Japanese
Portuguese
Slovene
Spanish
Swedish
Turkish

Graph-based

Transition-based

(McDonald cùng c ng s )
66.91%
87.57%
85.90%
80.18%
84.79%
79.19%
87.34%
90.71%
86.82%
73.44%
82.25%
82.55%
63.19%

(Nivre cùng c ng s )
66.71%
87.41%
86.92%
78.42%
84.77%
78.59%
85.82%
91.65%
87.60%
70.30%
81.29%
84.58%
65.68%

S câu
t p hu n luy n
1500
14400
57000
72700
5200
13300
39200
17000
9100
1500
3300
11000
5000

S nhãn
ph thu c
27
18
82
78
52
26
46
7
55
25
21
56
25

Ngoài hai phương pháp khá ph bi n và đ t hi u qu cao v i nhi u ngôn ng
8


trên, phân tích cú pháp ph thu c còn đư c phát tri n d a vào m t phương
pháp m i, đư c tác gi Danqi Chen và Christopher D. Manning xây d ng và th
nghi m vào năm vào năm 2014. Phương pháp này mang l i hi u qu khá cao
(92.00%) khi th nghi m v i Penntreebank [6]. K t qu c a phương pháp này đ i v i
ti ng Anh t t hơn 2% so v i phân tích cú pháp ph thu c d a vào bư c chuy n và
kho ng 0.2% v i thu t toán phân tích cú pháp ph thu c d a vào đ th . Tuy nhiên,
lu n văn t p trung trình bày hai phương pháp d a trên đ th và d a trên các bư c
chuy n, th c nghi m v i hai công c tương ng v i hai phương pháp này và đưa ra
so sánh, nh n xét trong Chương 3.
1.2.1

Phân tích cú pháp ph thu c d a trên đ th

Cho m t câu đ u vào x = w0, w1, ..., wn có t p đ nh là Vx, ta đ nh nghĩa l i

t p cung Ex c a đ th ph thu c cho câu x như sau:
Ex = {(i, j, r)|i, j ∈ Vx và r ∈ L}

Gx là nh ng đ th ph thu c đúng c a câu x. D(Gx) là nh ng đ th con
c a Gx. Vì Gx ch a t t c nh ng cung đư c gán nhãn, t p D(Gx) ph i ch a t t
c nh ng đ th ph thu c c a x.
Gi s đã t n t i m t hàm tính tr ng s c a c nh ph thu c, s : V ⋅V ⋅L −→ R. Đ nh
nghĩa tr ng s c a m t đ th là t ng các tr ng s c a c nh trong đ
th đó:
(i,j,r)∈Ex

s(Gx = (Vx, Ex)) =

s(i, j, r).

Tr ng s c a m t c nh, s(i, j, r) bi u di n kh năng t o ra quan h ph thu c
r gi a t trung tâm wi v i t ph thu c wj trong đ th ph thu c. Tr ng s
c a c nh đư c đ nh nghĩa là tích c a véc-tơ đ c trưng f v i véc-tơ tham s w:
s(i, j, r) = w.f (i, j, r).
Các đ c trưng đ i di n f (i, j) đư c trình bày trong B ng 1.2 cho m t cung không
đư c gán nhãn (i, j). Nh ng đ c trưng này đ i di n cho các thông tin liên quan đ n t
trung tâm trong quan h ph thu c, nhãn ph thu c. Ngoài ra còn có c nh ng đ c
trưng v nhãn t lo i c a các t k ti p (bao g m c nhãn thô
và nhãn m n). C th v i m t cung (i, j), ta có:

• Nhóm đ c trưng (a) và (b): xét cho t lo i và t v ng c a cung (i, j) trong
9


B ng 1.2: Các đ c trưng dùng trong MSTParser
(a) Đ c trưng Uni-gram

(b) Đ c trưng Bi-gram

(c) Đ c trưng t

lo i

xi − word, xi − pos

xi − word, xi − pos, xj − pos, xj − word

xi − pos, xb − pos, xj − pos

xi − word

xi − pos, xj − pos, xj − word

xi − pos, xi+1 − pos, xj−1 − pos, xj − pos

xi − pos

xi − word, xj − pos, xj − word

xi−1 − pos, xi − pos, xj−1 − pos, xj − pos xi − pos, xi+1 − pos,

xj − word, xj − pos

xi − word, xi − pos, xj − pos

xj − pos, xj+1 − pos xi−1 − pos, xi − pos, xj − pos, xj+1 − pos

xj − word

xi − word, xi − pos, xj − word

xi−1 − pos, xi − pos, xj − pos, xj+1 − pos

xj − pos

xi − word, xj − word
xi − pos, xj − pos

ng c nh Uni-gram và Bi-gram.

• N u t i hay j có nhi u hơn 5 kí t thì xét thêm đ c trưng 5-gram phía
trư c t đó.

• Nhóm (c): b sung cho b i c nh đ th ph thu c (nhóm (a) và (b)), ta xét
các t trong b i c nh câu, c th là thông qua t lo i c a các t n m gi a t i và j,
cùng v i t lo i c a các t n m bên trái và bên ph i t i và t j.
Các tác gi đã th thêm b t ho c thay đ i nhi u l n các đ c trưng và ch ng
minh b ng th c nghi m r ng các đ c trưng này là hi u qu nh t đ i v i phân tích cú
pháp ph thu c cho ti ng Anh.
Véc-tơ w là m t véc-tơ tr ng s đư c đưa ra cho m i câu b ng phương pháp h c
máy (MIRA - Margin Infused Relaxed Algorithm) [13]. Phương pháp h c máy
MIRA đư c l a ch n vì nó có nhi u nh ng đ c tính phù h p v i bài toán phân tích cú
pháp ph thu c.
Khi hàm tr ng s c a c nh đã có, thì vi c phân tích cú pháp có th đư c bi u
di n:
(i,j,r)∈Ex



G = argmaxG∈D(Gx)s(G) = argmaxG∈D(Gx)

s(i, j, r).

McDonald cùng c ng s (2005) ch ra v n đ này là tương đương v i vi c tìm
ra cây bao trùm c c đ i có hư ng c a đ th Gx ban đ u.
Thu t toán Chu-Liu-Edmonds đư c s d ng đ tìm ra cây bao trùm l n nh t
trong đ th có hư ng v i trư ng h p không x

nh. Thu t toán Eisner cũng

đư c s d ng đ tìm ra cây bao trùm l n nh t trong đ th có hư ng v i trư ng
h px

nh.
10


M t ví d c a đ th đ y đ Gx và đ th ph thu c có hàm tr ng s cao

nh t đư c đưa ra trong Hình 1.3 cho câu "John saw Mary". Hình 1.3 g m đ
th đ y đ Gx ch a tr ng s trên các c nh, sau đó d a vào thu t toán phân tích
cú pháp ph thu c trên đ th đ chuy n thành đ th ph thu c chính xác c a
câu.

Hình 1.3: Ví d v phân tích cú pháp d a trên đ th .

1.2.2

Phân tích cú pháp ph thu c d a trên các bư c chuy n

Thu t toán Shift - Reduce (phân tích cú pháp ph thu c d a vào các bư c
chuy n) là m t thu t toán cơ b n và có hi u qu cao v i r t nhi u các ngôn ng khác
nhau. Thu t toán này phân tích câu đ u vào t bên trái sang bên ph i s
d ng hai c u trúc d li u chính: m t vùng đ m lưu tr nh ng d li u đ u vào còn l i và
m t ngăn x p lưu tr nh ng d li u đã x lý m t ph n. Gi ng như h u h t các thu t toán
s d ng cho phân tích cú pháp ph thu c trong th c t ,
thu t toán này thư ng s d ng v i đ th ph thu c x

nh. Chúng ta b t đ u

b ng cách xác đ nh m t c u hình phân tích cú pháp cho m t câu x = (w1, ..., wn)
liên quan t i t p L các lo i ph thu c (bao g m c m t kí hi u đ c bi t r0 là
nhãn ph thu c c a g c). M t trong nh ng thu t toán d a vào bư c chuy n t t
nh t hi n nay là thu t toán arc-eager đư c phát tri n b i Nivre.J và c ng s (2003).
Thu t toán đư c mô t như sau:
Trong m t h th ng arc-eager, cho t p L = (r0, ..., rm) là t p nhãn ph thu c
và m t câu x = (w0, ...., wn), m t c u hình phân tích cú pháp ph thu c là m t
11


b ba: c = {σ, β, A}. Trong đó, c ch a m t ngăn x p σ, m t vùng đ m β và m t
t p các cung ph thu c A.
C u hình ban đ u c a m t câu s = w1, w2, ..., wn là:

• σ = RO O T
• β = [w1, w2, ..., wn]
• A=∅
M t c u hình c là c u hình k t n u như vùng đ m r ng và ngăn x p ch a duy
nh t m t ph n t ROOT. S d ng kí hi u v|β đ ch ra r ng ph n t đ u tiên c a vùng đ m là
t v, kí hi u σ|u đ ch ra r ng ph n t trên cùng c a ngăn
x p là t u, và Ac = (x, y), trong đó x, y là các t c a câu c n đư c phân tích
đ ch ra t p cung ph thu c c a m t c u hình c.
Thu t toán phân tích cú pháp ph thu c arc-eager đ nh nghĩa b n lo i hàm
chuy n như sau:
1. LEFT-ARC(r):
(σ|u, v|β, A) → (σ, v|β, A ∪ (v, u)) v i đi u ki n k : (k, u) ∈ A.
2. RIGHT-ARC(r):
(σ|u, v|β, A) → (σ|u|v, β, A ∪ (u, v)) v i đi u ki n k : (k, v) ∈ A.
3. REDUCE:
(σ|u, β, A) → (σ, β, A) v i đi u ki n ∃v : (v, u) ∈ A.
4. SHIFT:
(σ, v|β, A) → (σ|v, β, A).
B n hàm chuy n trên có th đư c gi i thích m t cách rõ ràng như sau:

• Bư c chuy n LEF T − ARC(r) : u ← v là n u không t n t i b t kì cung
nào đi đ n u hay nói cách khác u không ph i là ph thu c c a b t c t
nào thì phân tích c a u s đư c th c hi n, có m t cung đi t v đ n u v i nhãn r.
Khi đó u s đư c l y ra kh i ngăn x p .

12


• Bư c chuy n RIGHT − ARC(r) : u → v là n u không t n t i b t kì cung
nào đ n v thì v đư c đưa vào trong ngăn x p đ xét các t ti p theo. Chú ý r ng
có th có nhi u cung đi ra t u.

• Bư c chuy n REDU CE: Là bư c l y m t t u ra kh i ngăn x p n u như có
m t quan h ph thu c gi a t u và t v trong bư c chuy n RIGHT −ARC trư c đó.

• Bư c chuy n SHIF T : Là bư c l y ph n t đ u tiên c a vùng đ m và đ y
nó vào trong ngăn x p. Quá trình chuy n này không đòi h i b t c đi u ki n
tiên quy t nào.
H th ng bư c chuy n đư c xác đ nh là không đơn đ nh, vì th thư ng có
nhi u hơn m t bư c chuy n đ i v i m t c u hình nh t đ nh. Đ th c hi n phân tích cú
pháp đơn đ nh, h th ng các bư c chuy n c n ph i b sung m t kĩ thu t
đ d đoán bư c chuy n ti p theo

m i l a ch n không đơn đ nh, cũng như l a

ch n m t lo i ph thu c r cho quá trình chuy n đ i LEFT-ARC(r) và RIGHT- ARC(r).
N u tr ng thái phân tích cú pháp chưa ph i là tr ng thái k t, thì h th ng s ti p t c th
c hi n các tr ng thái ti p theo, n u ngăn x p r ng thì s th c hi n bư c chuy n
SHIFT, ngư c l i s th c hi n m t hàm ch c năng đ đưa ra bư c chuy n k ti p, hàm
này đư c d đoán b ng các thu t toán hu n luy n d a vào các đ c trưng c a mô
hình. Khi th c hi n đ n c u hình k t, thì ta thu đư c đ th ph thu c c a câu đ u vào.
Đ th ph thu c đư c đưa ra
cu i cùng đ m b o không có chu trình và không x

nh.

Các mô hình đ c trưng cho phân tích cú pháp ph thu c d a vào bư c chuy n thư
ng k t h p các đ c trưng t lo i, t v ng v i các đ c trưng ph thu c như nhãn ph thu
c hay t trung tâm trong quan h ph thu c c a các t trong ngăn x p hay trong b đ
m. Mô hình đ c trưng chu n là mô hình k t h p các đ c trưng t lo i, t v ng và lo i
ph thu c, theo B ng 1.3.
Mô hình này ch a 6 đ c trưng t lo i, là t lo i c a hai t trên cùng c a ngăn
x p là (p(σ0), p(σ1)) và 4 t đ u tiên c a đ u vào là p(τ0), p(τ1), p(τ2), p(τ3). Các
đ c tính lo i ph thu c bao g m t trên đ u c a ngăn x p d(σ0), và con trái nh t, con ph
i nh t c a nó là (d(r(σ0), d(l(σ0))) và con trái nh t c a t ti p
13


B ng 1.3: Các đ c trưng dùng trong MaltParser
w(h(σ0))
d(l(σ0))
p(σ1)
w( σ )
d(σ )
p(σ0)
p(τ0)
p(τ1)

0

w(τ0)
w(τ1)

0

d(r(σ0))
d(l(τ0))

p(τ2)
p(τ3)

theo c a đ u vào là d(l(τ0)). Cu i cùng, mô hình chu n ch a 4 đ c tính t v ng,
là d ng t c a t đ u tiên trong ngăn x p w(σ0), đ u c a t đ u tiên trong
ngăn x p w(h(σ0)), và hai t ti p theo

đ u vào là (w(τ0), w(τ1)).

Khi dùng các đ c trưng này, các t trong câu thư ng đư c mã hóa và bi u
di n b ng m t véc-tơ nóng (one-hot vector ) hay cũng đư c g i là véc-tơ ch s v i
các giá tr trong véc-tơ là 0 ho c 1. Đây là cách bi u di n này khá đơn gi n
và d hi u, đư c áp d ng trong r t nhi u nh ng h th ng c a x lý ngôn ng
t nhiên. Tuy nhiên, bi u di n theo d ng này g p ph i hai v n đ l n. M t là, d li u
thưa, các thông s tương ng v i các t hi m ho c các t không xác đ nh thư ng đư c
ư c tính kém. Hai là, nó không có kh năng n m b t s gi ng nhau v ng nghĩa gi a
các t có liên quan ch t ch đ n nhau. S h n ch này đã thúc đ y các phương pháp
giám sát đ t o ra m t bi u di n t t t hơn. G n đây, bi u di n phân tán t đư c ch ng
minh là đã đ t đư c nhi u k t qu t t trong các bài toán x lý ngôn ng t nhiên. Bi u
di n phân tán (hay còn đư c g i là nhúng t - Word embedding) có th đư c s d ng
cho các đơn v khác nhau c a ngôn ng như t , c m t , câu và các tài li u. S d ng
bi u di n phân tán, các đơn v ngôn ng đư c nhúng trong m t không gian ít chi u
và liên t c.
M i chi u c a bi u di n phân tán đ i di n cho m t tính năng ti m n c a t và hi v ng
có th n m b t đư c các đ c tính v cú pháp và tương đ ng ng
nghĩa [23]. Thông thư ng, các bi u di n phân tán t thư ng đư c t o ra b ng cách s
d ng mô hình m ng nơ-ron, trong đó các m ng nơ-ron đư c s d ng đ d đoán. M t s
nh ng mô hình đã đư c phát tri n đ t o ra bi u di n phân tán t như: mô hình skipgram và mô hình bag-of-word [24]. Phương pháp này đã và đang đư c s d ng
trong nhi u v n đ liên quan đ n phân tích cú pháp ph thu c. Nó đư c ch ng minh r
ng đã đ t đư c hi u qu cao và có th áp
14


d ng cho nhi u ng n ng khác nhau. Ngoài ra, bi u di n phân tán còn đư c s
d ng đ phân tích cú pháp ph thu c đa ngôn ng [8]. Phương pháp này cũng đã đư
c nhóm tác gi Lê H ng Phương và c ng s s d ng và đem l i k t qu khá kh quan đ
i v i ti ng Vi t [14].
D a vào các đ c trưng, v n đ hu n luy n đư c chuy n thành v n đ phân lo i,
trong đó đ u vào là các véc-tơ đ c trưng và các l p đ u ra là nh ng quy t đ nh
trong phân tích cú pháp. Hu n luy n mô hình phân tích cú pháp ph thu c là bư c
quan tr ng đ có m t k t qu t t. Vi c phân l p t d li u đã đư c gán nhãn s d ng bài
toán phân l p d a vào m t s thư vi n có s n như LIBSVM
(Support Vector Machine), TiMBL (K - láng gi ng g n nh t) và LibLinear.
Ví d phân tích cú pháp ph thu c d a vào các bư c chuy n đ i v i câu: "He had
good control." [6] trong B ng 1.4.
B ng 1.4: Ví d v phân tích cú pháp d a vào các bư c chuy n.
Trasition

Stack
[ROOT]

Buffer

A

[He has good control .]



SHIFT

[ROOT He]

SHIFT

[ROOT He has]

[good control .]

[ROOT has]

[good control .]

LEFT-ARC(nsubj)
SHIFT

[ROOT has good]

SHIFT

[has good control .]
A ∪ nsubj(has, He)

[control .]

[ROOT has good control]

[.] [.]

LEFT-ARC(amod)

[ROOT has control]

[.] ...

A ∪ amod(control, good)

RIGHT-ARC(dobj)

[ROOT has]

[]

A ∪ dobj(has, control) ...

...

A ∪ root(ROOT, has)

...

RIGHT-ARC(root)

[ROOT]

Như v y, trong Chương 1, lu n văn đã trình bày nh ng ki n th c t ng quát
liên quan đ n phân tích cú pháp ph thu c, các thu t toán đ gi i quy t bài toán
phân tích cú pháp ph thu c. Ti p theo trong Chương 2, lu n văn s trình
bày v các t p nhãn quan h ph thu c và cách xây d ng t p nhãn quan h ph thu c
đ i v i ti ng Vi t.

15


Chương 2

Xây d ng t p nhãn ph thu c cho
ti ng Vi t
Mu n phân tích cú pháp ph thu c có đ chính xác cao, chúng ta ph i đ
c p đ n hai v n đ chính: tài nguyên cho phân tích cú pháp ph thu c và công c
phân tích cú pháp ph thu c. Tài nguyên cú pháp ph thu c chính là d li u
hu n luy n, d li u đ ki m tra tính chính xác và d li u đ u vào c a công c
phân tích cú pháp. Ti ng Vi t có nh ng đ c trưng riêng, vì th vi c chu n b tài
nguyên phân tích cú pháp ph thu c ti ng Vi t là giai đo n quan tr ng. Vi c chu n
b d li u đ u vào còn ph thu c vào nhi u y u t như kho ng li u ti ng
Vi t hi n có là gì, t p nhãn quan h ph thu c như th nào, công c chuy n t
đ ng ra sao? Chương này s trình bày v t p nhãn quan h ph thu c đa ngôn ng
(Universal Dependency) c a nhóm nghiên c u trư ng Đ i h c Standford và cách
xây d ng nhãn quan h ph thu c cho ti ng Vi t d a vào kho ng li u VietTreebank
và b nhãn chu n trên. Sau đó đưa ra s so sánh gi a hai t p nhãn đ th y đư c nh
ng đ c trưng c a ti ng Vi t.

2.1

Kho ng li u ti ng Vi t - Viettreebank

Ki n th c trong ph n này trình bày theo tài li u c a tác gi Nguy n Phương
Thái cùng c ng s [3].
Trong các phương pháp gi i các bài toán cơ b n c a phân tích ngôn ng thì

16


phương pháp th ng kê trên m t t p d li u m u đư c các nhà nghiên c u đ c
bi t quan tâm hơn c . Các phương pháp th ng kê trong phân tích cú pháp s
cho k t qu

n đ nh và đ chính xác cao n u có t p d li u m u đ l n. T p

d li u m u này chính là kho ng li u. Kho ng li u mà trong đó m i câu đư c chú gi i
c u trúc cú pháp là ngu n tài nguyên r t h u ích trong lĩnh v c x lý ngôn ng t
nhiên. Kho ng li u này đư c g i là treebank. Treebank có nhi u
ng d ng quan tr ng như đánh giá, ki m đ nh các công c x lí ngôn ng t đ ng,
các ph n m m d ch máy, tóm t t văn b n, các h th ng h i đáp,... Các h th ng
treebank cho các th ti ng đư c nghiên c u nhi u như Anh, Pháp, Trung qu c,...
đã đư c xây d ng t lâu.
Đ i v i ti ng Vi t, vi c xây d ng treebank cũng đã có m t s k t qu nh t đ nh. V i
ti ng Vi t, treebank đư c nghiên c u xây d ng trong khuôn kh đ tài VLSP và có
tên là Vietreebank. M c tiêu c a Vietreebank là xây d ng đư c lư c đ gi i thích cú
pháp v i hơn 10000 câu.
T p nhãn c a Vietreebank đư c thi t k g m có:

• T p nhãn t lo i: V nguyên t c, các thông tin v t có th đư c ch a trong
nhãn t lo i bao g m: t lo i cơ s (danh t , đ ng t ,... ), thông tin hình thái (s ít,
s nhi u, thì, ngôi,... ), thông tin v phân lo i con (ví d đ ng t đi v i danh t , đ
ng t đi v i m nh đ ,... ), thông tin ng nghĩa, hay
m t s thông tin cú pháp khác. V i đ c đi m c a ti ng Vi t, t p nhãn t
lo i ch ch a thông tin v t lo i cơ s mà không bao g m các thông tin như hình
thái, phân lo i con,...
Ti ng Vi t có h th ng t lo i đư c đưa ra trong B ng 2.1.

• T p nhãn các thành ph n cú pháp: T p nhãn này ch a các nhãn mô t các
thành ph n cú pháp cơ b n là c m t và m nh đ . Nhãn thành ph n cú pháp là
thông tin cơ b n nh t trên cây cú pháp, nó t o thành xương s ng c a cây cú
pháp.
Các nhãn c m t c a ti ng Vi t đư c đưa ra trong B ng 2.2.
Các nhãn m nh đ c a ti ng Vi t đư c đưa ra trong B ng 2.3.
17


B ng 2.1: T p nhãn t lo i ti ng Vi t.
STT

Tên

Chú thích

1

N

Danh t

2

Np

Danh t riêng

3

Nc

Danh t ch lo i

4

Nu

Danh t đơn v

5

V

Đ ng t Tính t

6

A

Đ it

7

P

Đ nh t

8

L

St

9

M

Ph t

10

R

Gi i t

11

E

Liên t

12

C

Thán t

13

I

Tr t , ti u t , t tình thái

14

T

T đơn l

15

U

T vi t t t

16

Y

Các t không phân lo i đư c

17

X

• T p nhãn ch c năng ng pháp: Nhãn ch c năng c a m t thành ph n cú
pháp cho bi t vai trò c a nó trong thành ph n cú pháp m c cao hơn. Nhãn
ch c năng cú pháp đư c gán cho các thành ph n chính trong câu như ch ng ,
v ng , tân ng . Nh thông tin do nhãn ch c năng cung c p ta có th
xác đ nh các lo i quan h ng pháp cơ b n sau đây:
- Ch -v
- Đ -thuy t
- Ph n chêm
- B ng
- Ph ng
-S kth p
Các nhãn ch c năng cú pháp c a ti ng Vi t đư c đưa ra trong B ng 2.4.

18


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×