Tải bản đầy đủ

Tìm hiểu về machine translation

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ- ĐHQGHN
KHOA CÔNG NGHỆ THÔNG TIN
----------

BÁO CÁO BÀI TẬP LỚN
XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Đề tài: Tìm hiểu về Machine Translation

Thành viên: Mai Văn An
Trần Tuấn Linh
Trần Đồng Hưng


Mục lục
1 Giới thiệu .........................................................................................3
1.1 Định nghĩa dịch máy ..................................................................3
1.2 Vai trò của dịch máy ..................................................................3
1.3 Lịch sử dịch máy ........................................................................4
2 Phân loại dịch máy ...........................................................................5
2.1 Vấn đề ngôn ngữ trong dịch máy: ..............................................5

2.2 Phương pháp dịch máy dựa trên cơ sở luật ................................8
2.3 Phương pháp dịch máy dựa trên cơ sở ví dụ ..............................8
2.4 Phương pháp dịch máy thống kê (Statistical Machine
Translation) .........................................................................................9
2.4.1 Phương pháp dịch máy thống kê dựa vào từ ........................9
2.4.2 Phương pháp dịch máy thống kê dựa trên cơ sở cụm từ ....10
2.4.3 Phương pháp dịch máy dựa trên thống kê cú pháp ............10
3 Thuật toán dịch máy sử dụng mạng neuron (NMT) ......................10
3.1 Giới thiệu ..................................................................................10
3.2 Mô hình NMT ..........................................................................12
3.3 Mô hình NMT lai .....................................................................14
3.3.1 Dịch máy dựa trên từ là xương sống ..................................15
3.3.2 Biểu diễn các kí tự nguồn ...................................................15
3.3.3 Tạo các ký tự đích ...............................................................15
3.3.4 Ghép từ vào trong câu .........................................................16
4 Thí nghiệm và kết luận. .................................................................16
4.1 Dữ liệu ......................................................................................16
4.2 Kết quả......................................................................................16
4.3 Kết Luận ...................................................................................17


1 Giới thiệu
1.1 Định nghĩa dịch máy
Khái niệm dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên
(natural language processing) định nghĩa, tuy có khác biệt đôi chút giữa các định
nghĩa này nhưng hầu hết đều tương đương như định nghĩa dưới đây:
Một hệ dịch máy (Machine Translation System) là một hệ thống sử dụng máy
tính để chuyển đổi câu văn bản được viết trong ngôn ngữ tự nhiên này thành bản
dịch tương đương trong ngôn ngữ khác.
Ngôn ngữ của văn bản cần dịch được gọi là văn bản nguồn,ngôn ngữ của bản
dịch được gọi là ngôn ngữ đích.
Đầu vào của một hệ dịch máy là một văn bản nguồn, đầu ra là văn bản đích. Kết
quả của văn bản đích có thể hiệu đính để trở thành bản dịch tốt, gần với ngôn
ngữ tự nhiên của con người hơn.

1.2 Vai trò của dịch máy
Từ xa xưa, con người đã có nhu cầu hiểu tiếng khác (giao lưu hàng hóa từ thời
xưa), ngày nay, nhu cầu trao đổi thông tin giữa các quốc gia, giữa các văn hóa,
giữa người với người càng làm cho việc dịch trở nên quan trọng. Để giải quyết
vấn đề này, ban đầu những người biết nhiều hơn hai ngôn ngữ đóng vai trò như
thông dịch, tuy nhiên công việc dịch sử dụng sức người là công việc thủ công,
chất lượng cao nhưng năng suất thấp và giá thành cũng không hề rẻ.
Vào giữa thế kỉ 20, khi mà cách mạng về máy tính bùng nổ, việc tận dụng tài
nguyên này để ứng dụng vào dịch là một trong những đề tài được nhiều nhà khoa
học nghiên cứu cho đến tận bây giờ và kết quả nó mang lại rất khả quan. Dịch
với sự trợ giúp của máy tính còn tiến xa hơn, bằng cách kết hợp dùng phần mềm
có khả năng ví dụ như tự động ghi và lưu lại các cấu trức ngữ pháp hoặc cách
sắp xếp từ nhất định trong ngôn ngữ đích và ngôn ngữ dịch.
Tóm lại, với sự phát triển mạnh mẽ của khoa học công nghệ, khối lượng thông
tin trao đổi của con người ngày càng nhiều. Trong nhiều trường hợp có thể con
người không cần đến chất lượng dịch cao như sử dụng phiên dịch viên mà chỉ


cần có một bản dịch tạm đủ để cung cấp đủ nội dung mà không phải chờ đợi lâu.
Vì vậy, một hệ dịch máy chất lượng tương đối sẽ đáp ứng tốt hơn một người
phiên dịch giỏi. Nếu xây dựng hệ dịch máy thành công, đây là công cụ giúp con
người tiếp cận với kho tri thức viết bằng các ngôn ngữ khác trên thế giới.

1.3 Lịch sử dịch máy
Ngành dịch máy đã có quá trình phát triển trên 50 năm, tuy có những giai đoạn
hầu như không có bất kì thành tựu nào đáng kể nhưng dịch máy vẫn là một trong
những chuyên ngành phát triển của khoa học máy tính với nhiều kết quả về lý
thuyết và ứng dụng thực tế. Có thể chia sự phát triển của ngành dịch máy thành
4 giai đoạn chính như sau:
 Giai đoạn 1930 – 1940

Từ thế kỉ 17 nhiều nhà nghiên cứu đã nỗ lực trong việc xây dựng một cách biểu
diễn chung cho các ngôn ngữ. Năm 1933, George Artsrouni đã thiết kế một thiết
bị lưu trữ có thể tìm kiếm nhanh chóng các cặp từ - giải nghĩa của hai ngôn ngữ
bất kỳ. Đây được xem như cuốn từ điển số đầu tiên của nhân loại. Cũng trong
năm đó một người Nga là Petr Smirnov-Troyanskii đã thiết kế một thiết bị dịch
gồm 3 công đoạn: phân tích câu nguồn, chuyển đổi từ ngữ và sinh câu đích. Thiết
kế của Troyanskii là ý tưởng cơ bản cho nhiều loại máy dịch được thiết kế sau
này.
 Giai đoạn 1940-1970

Vào giai đoạn này, máy tính được phát minh và ứng dụng thành công vào việc
giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy tính vào việc phiên
dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kì sang tiếng Anh như việc
giải mã văn bản tiêng Anh được viết bằng một loại mật mã nào đó. Khái niệm
dịch máy được hình thành và những chương trình dịch đầu tiên chỉ sử dụng
phương pháp dịch từ sang từ đã được hình thành mặc dù kết quả còn rất hạn chế.
 Giai đoạn 1970-1990

Giai đoạn này đánh dấu một số thành công trong nghiên cứu về lý thuyết xử lí
ngôn ngữ tự nhiên và sức mạnh của máy tính cũng tăng lên đáng kể nhiều trung


tâm nghiên cứu bắt đầu tập trung hơn vào lĩnh vực dịch máy và đã đạt được một
số các thành công nhất định. Năm 1973, Yorick Wilks giới thiệu một hệ thống
dịch tự động Anh – Pháp cho kết quả khá tốt khi một người Pháp có thể đọc hiểu
được mà không cần đọc văn bản nguồn.
 Giai đoạn 1990-nay

Đầu những năm 1990, với sự phát triển mạnh mẽ của Internet, nhu cầu trao đổi
thông tin bùng nổ, cộng với sự tích lũy kiến thức về mặt ngôn ngữ của nhân loại,
sức mạnh của máy tính tăng mạnh đã thúc đẩy phát triển các hệ thống dịch. Dịch
máy đã bước sang giai đoạn phát triển mới, đạt nhiều thành tựu đáng khích lệ.

2 Phân loại dịch máy
2.1 Vấn đề ngôn ngữ trong dịch máy:
Có thể nói xử lý ngôn ngữ tự động trên máy tính là một trong những vấn đề khó
nhất của Công nghệ thông tin. Những vấn đề gặp phải là làm sao cho máy hiểu
được ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ
thể, đến hiểu nghĩa một câu, rồi cả văn bản. Minh họa lại bằng ví dụ của Marvin
Minsky (1992): xét từ “sợi dây” chẳng hạn. Ngày nay không một máy tính nào
có thể hiểu nghĩa từ này như con người. Chúng ta ai cũng biết có thể dùng sợi
dây để kéo một vật, nhưng không thể đẩy vật bằng một sợi dây. Ta có thể gói
hàng bằng sợi dây, nhưng không thể ăn sợi dây. Chúng ta có thể chỉ ra hàng trăm
cách dùng hoặc không dùng một sợi dây nhưng không máy tính nào thực hiện
được việc này.
Tiếng anh và tiếng Việt là hai ngôn ngữ của hai quốc gia khác nhau, nền văn hóa
khác nhau. Nên yếu tố khác nhau giữa tiếng Anh và tiếng Việt là một khó khăn
trong vấn đề xử lý ngữ nghĩa. Hơn thế nữa, trong những ngữ cảnh khác nhau, ý
nghĩa của một từ là khác nhau. Ví dụ như: nếu ta viết “An old driver drives the
car” thì nghĩa ở đây của an old driver là một người tài xế già và nếu ta viết “I
installed that old driver into this computer” thì cụm từ đó lại mang nghĩa hoàn
toàn khác. Tham chiếu sang tiếng việt, chúng ta cũng gặp những sự nhập nhằng


của ngôn ngữ dưới nhiều góc độ, điển hình như là ví dụ kinh điển sau: “Ông già
đi nhanh quá”
Chúng ta có 3 cách hiểu:
Cách 1: Ông già | đi | nhanh quá.
Cách 2: Ông | già đi | nhanh quá.
Cách 3: Ông già đã chết một cách đột ngột.
Ta có bảng so sánh sơ bộ về ngữ pháp tiếng Việt và tiếng Anh:



2.2 Phương pháp dịch máy dựa trên cơ sở luật (Rule Based Machine
Translation - RBMT)
Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp,
ngữ nghĩa nên dịch khá hiệu quả. Tuy nhiên máy tính khó có thể phân tích cú
pháp cho những câu có ngữ nghĩa phức tạp, và việc xây dựng tập luật và cú pháp
và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn đòi hỏi
người thực hiện phải có kiến thức sâu về ngôn ngữ.
Dịch dựa trên cơ sở luật thực hiện phân tích cú pháp câu được nhập vào và sau
đó áp dụng những luật ngôn ngữ và từ vựng (hay còn gọi là những luật chuyển
đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ này sang ngôn ngữ khác. Do đó,
không thể giải quyết các trường hợp nhập nhằng ngữ nghĩa của câu có cùng cấu
trúc những nghĩa khác nhau.
Kết hợp giữa mức độ phân tích cú pháp và phân giải ngữ nghĩa. Hệ dịch chủ yế
dựa vào phân tích cú pháp, và phân giải ngữ nghĩa ở mức cần thiết để khử nhập
nhằng nghĩa.

2.3 Phương pháp dịch máy dựa trên cơ sở ví dụ (Example Based Machine
Translation – EBMT)

Hướng dịch máy dựa trên mẫu ví dụ được giới thiệu lần đầu bởi Nagao vào năm
1984 trong nỗ lực xây dựng hệ dịch tự động Anh – Nhật. Tư tưởng của tiếp cận
dịch bằng ví dụ rất đơn giản: Để dịch một câu chúng ta có thể sử dụng kết quả
dịch của một câu khác gần giống như vậy, sửa đổi đi đôi chút.


Hướng tiếp cận này có nhiều ưu điểm:




Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ thống có
một tập các ví dụ đủ lớn.
Các ngôn ngữ nguồn và đích không cần phải được khảo sát trước về mặt từ
vựng và ngữ pháp.
Tập dữ liệu càng phong phú, chất lượng dịch càng cao, đây là ưu thế lớn so
với một số phương pháp khác, một vài tiếp cận dịch có thể bị giảm chất lượng
nếu tri thức dịch tăng lên.

Tuy nhiên nó cũng có nhược điểm là phụ thuộc vào chất lượng của các cặp ví dụ
được sử dụng để làm mẫu và thuật toán đối chiếu mẫu thực hiện khá chậm so với
một số cách tiếp cận khác.

2.4 Phương pháp dịch máy thống kê (Statistical Machine Translation)
Tiếp cận dịch máy dựa trên thống kê xuất hiện vào cuối những năm 1980, được
đề xuất bởi trung tâm nghiên cứu IBM TJ Watson với hệ dịch máy Anh-Pháp. Ý
tưởng dịch máy bằng thống kê rất đơn giản và thuần túy toán học: thay vì xây
dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịch này tự động xây
dựng các từ điển, các quy luật dựa trên thống kê. Cách tiếp cận này không đòi
hỏi sự phân tích sâu về ngôn ngữ, chúng thực hiện hoàn toàn tự động các quát
trình phân tích, chuyển đổi…
Phương pháp dịch máy dựa trên thống kê được chia thành 3 loại sau:
2.4.1 Phương pháp dịch máy thống kê dựa vào từ (word-based SMT)
Trong dịch máy thống kê trên cơ sở từ, các đơn vị cơ bản của bản dịch là một từ
trong ngôn ngữ tự nhiên. Dịch máy thống kê trên cơ sở từ không sử dụng rộng
rãi ngày nay, thay vào đó là dịch máy thống kê trên cơ sở cụm từ. Hầu hết các
hệ thống dựa trên cụm từ sử dụng Giza++ để gióng hàng câu, trích rút ra các cặp
câu song ngữ và mô hình ngôn ngữ. Vì những ưu thế của Giza++, hiện nay có
một số nỗ lực đưa áp dụng tính toán phân tán trực tuyến cho phần mềm này.


2.4.2 Phương pháp dịch máy thống kê dựa trên cơ sở cụm từ (pharse-based
SMT)
Dịch máy thống kê trên cơ sở cụm từ có mục đích là để giảm bớt các hạn chế
của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đó độ dài cụm
từ nguồn và cụm từ đích có thể khác nhau. Các cụm từ trong kỹ thuật này thường
không theo nghĩa ngôn ngữ học mà là các cụm từ được tìm thấy bằng cách sử
dụng phương pháp thống kê để trích rút từ các cặp câu.

2.4.3 Phương pháp dịch máy dựa trên thống kê cú pháp (Syntax-based SMT)
Dịch máy thống kê trên cơ sở cú pháp dựa trên ý tưởng của dịch các đơn vị cú
pháp (phân tích cây của câu), hơn là những từ đơn hay cụm từ (như trong dịch
máy thống kê trên cơ sở cụm từ). Ý tưởng này đã xuất hiện từ lâu, tuy nhiên
phiên bản thống kê của ý tưởng này chỉ được hình thành khi có những bộ phân
tích ngẫu nhiên mạnh mẽ trong những năm 1990.

3 Thuật toán dịch máy sử dụng mạng neuron (NMT)
3.1 Giới thiệu
 Dịch máy dùng mạng neuron(NMT) là một kiến trúc mới và đơn giản để cho máy
tính có thể dịch được các ngôn ngữ ra các ngôn ngữ khác nhau. NMT là một mạng
neuron sâu được huấn luyện từ đâu đến cuối với nhiều lợi ích như đơn giản và
tổng quan hóa. Mặc dù khá mới ( được nghiên cứu và phát triển từ năm 2014)
nhưng NMT đã đạt được những kết quả đáng mong đợi trong việc dịch máy với
nhiều cặp ngôn ngữ khác nhau như Tiếng Anh – Tiếng Pháp, Tiếng Anh – Tiếng
Đức hay tiếng Anh – tiếng Séc …
 NMT sử dụng nhiều phương pháp dịch cụm từ truyền thống nhưng gần đấy, NMT

sử dụng những từ mới được giới hạn và coi những từ khác là những ký tự .


Những ký tự này sẽ được chú thích với thông tin như thông tin định vị, các từ liên
quan, xác suất để theo dõi sự sắp xếp của các từ trong câu. Sau đó, các thông tin
này sẽ được tra trong từ điển hoặc những bản thông số sẽ được dùng để thay thế
các kí hiệu này.
 Mặc dù đơn giản nhưng phương pháp NMT này vẫn tồn tại nhiều vấn đề như:
- Đơn ngữ: Các từ được coi như những thực thể độc lập. NMT có thể học được
những từ phổ biến như “distinct” nhưng lại không thể học được những từ hiếm
nhưng

lại



liên

quan

đến

những

từ

này như

“distinctiveness”

- Đa ngữ: Những ngôn ngữ có thể có những bảng chữ cái khác nhau vì thế không
thể chỉ ngây thơ ghi nhớ những từ dịch trên bề mặt như tiếng hán hay tiếng nôm…
 Để giải quyết những vấn đề này, một kiến trúc lai cho NMT được sử dụng ( hybrid
NMT). NMT lai dịch hầu hết sử dụng NMT ở mức độ từ ( word level) và gợi ý
các từ hiếm sử dụng các thành phần ký tự nếu cần thiết.

Hình 1: Mô hình NMT lai
 Trong hình trên, việc dịch dùng NMT dựa vào từ được dùng với hầu hết các từ

cần dịch, nhưng với các từ hiếm như “cute” và “joli”, chúng được xử lý riêng
biệt. Về phía nguồn (source), từ “cute” được dịch sử dụng mạng neuron hồi quy
sâu ( deep recurrent neutral network) hoạt động ở mức độ ký tự. Về phía đích (
target) , NMT có một mô hình riêng để hồi phục các hình thức bề mặt, tức đưa


từ thành “joli”. Các thành phần này được học cùng nhau từ đầu đến cuối
nên có sự chính xác cao.
 Mô hình NMT lai có nhiều lợi ích:

- Mô hình nhanh hơn và dễ huấn luyện hơn so với mô hình dịch dựa trên kí tự.
- Không bao giờ cung cấp những từ không biết như trong mô hình dịch dựa trên
từ.

3.2 Mô hình NMT
 NMT có mục đích trực tiếp mô hình các xác suất có điều kiện p(y|x) để dịch một
câu nguồn: x1, x2, …, xn thành một câu đích: y1,y2,…,ym. NMT đạt được bằng
cách sử dụng một framework mã hóa – giải mã. Mô hình mã hóa tính biểu diễn
s của mỗi câu nguồn. Dựa trên biểu diễn này, mô hình giải mã tạo một bản dịch,
một từ mục tiêu vào một thời điểm và do đó, phân tích log của xác suất có điều
kiện:

 Mô hình mạng neuron tái phát (RNN) được sử dụng trong mô hình NMT này.
Tuy nhiên có một vài sự thay đổi so với mô hình mạng neuron tái phát truyền
thống:
- Kiến trúc: từ một chiều thành hai chiều: dựa trên ý tưởng output tại thời điểm t
không chỉ phụ thuộc vào các thành phần trước đó mà còn phụ thuộc vào các
thành phần trong tương lai. Ví dụ, để dự đoán một từ bị thiếu (missing word)
trong chuỗi, ta cần quan sát các từ bên trái và bên phải xung quanh từ đó. Mô
hình này chỉ gồm hai RNNs nạp chồng lên nhau. Trong đó, các hidden state được
tính toán dựa trên cả hai thành phần bên trái và bên phải của mạng.
- RNN hai chiều sâu: tương tự như RNNs hai chiều , điểm khác là mô hình gồm
nhiều tầng RNN 2 chiều tại mỗi thời điểm. Mô hình này sẽ cho phép thực hiện
các tính toán nâng cao nhưng đòi hỏi tập dữ liệu phải đủ lớn.
- Loại RNN: sử dụng mạng có độ dài trí nhớ ngắn dài(LTSM – long short-term
memory network): mô hình này có cấu trúc tương tự RNNs nhưng có cách tính


toán khác với hidden state. Memory trong LTSM s được gọi là các cells (hạt
nhân). Ta có thể xem đây là một hộp đen nhận thông tin đầu vào gồm các trạng
thái ẩn( hidden state) s(t-1) và giá trị x(t). Bên trong các hạt nhân này, chúng sẽ
quyết định thông tin nào cần lưu lại và thông tin nào cần xóa đi, nhờ vậy mà mô
hình này có thể lưu trữ được thông tin dài hạn.
 Đối với những tầng tái phát bên trên cùng trong một LSTM, với h(t) là trạng thái
ẩn (hidden state) tại thời điểm thứ t, NMT tính xác suất giải mã của mỗi tự đích
y(t) là:

 Đối với những cặp câu song song, chúng ta huấn luyện mô hình bằng cách tối
giản hóa mô hình mất entropy bên dưới:

Cơ chế chú ý (Attention Mechanism): đây là cơ chế dùng để sắp xếp lại trật tự
các từ để thành một câu hoàn chỉnh. Ban đầu, cơ chế này chỉ sử dụng trạng thái
mã hóa cuối cùng để tính bộ giải mã. Sau đó, Một cơ chế bộ nhớ truy cập ngẫu
nhiên cho NMT để đối phó với những câu dài. Tiếp đó, một chức năng để tính
điểm khác nhau, được dùng để so sánh trạng thái đích và nguồn cũng như các
chiến lược khác nhau để đặt sự “chú ý”. Trong tất cả các mô hình, sử dụng cơ
chế “chú ý” toàn diện và mẫu song tuyến (bilinear) cho chức năng đánh giá điểm
của cơ chế “chú ý”.


Hình 2: Cơ chế “chú ý”

Cơ chế “chú ý” gồm 2 bước:
a. Vector ngữ cảnh – trạng thái ẩn hiện tại h(t) được so sánh riêng với trạng thái
ẩn của nguồn trong s để học vector liên kết, thứ được dùng để tính vector ngữ
cảnh c(t) như là một trọng lượng trung bình của s.
b. trạng thái ẩn “chú ý” – vector ngữ cảnh c(t) được dùng để lấy một trạng thái
ẩn “chú ý”:

Vector này sau đó thay thế vector h(t) trong việc dự đoán từ tiếp theo.

3.3 Mô hình NMT lai
Mô hình NMT lai tác động đến cả từ và ký tự để đạt được hiệu quả tốt nhất.
Điểm đặc trưng của thuật toán này là sử dụng NMT theo mức độ từ để làm cho
thuật toán nhanh và dễ để huấn luyện. Thành phần ký tự dùng để tăng khả năng
dịch cho hệ thống dịch dựa trên từ với khả năng tính toán bất kỳ từ nào từ các kí
tự để phục hồi lại các từ hiếm từ kí hiệu


3.3.1 Dịch máy dựa trên từ là xương sống
Phần lõi của NMT lai là hệ thống mã hóa – giải mã sâu LSTM dịch các từ riêng
biệt. NMT có một từ điển các từ với |V| để chỉ tần suất xuất hiện của các từ đó.
Những từ nằm ngoài từ điển này được coi như là từ hiếm, khi dịch các từ này
được dùng với kí hiệu . NMT lai được dịch như là NMT dựa trên các từ
ngoại trừ các trường hợp có kí hiệu
3.3.2 Biểu diễn các kí tự nguồn
Trong NMT dựa trên từ thông thường, đối với các từ hiếm ngoài từ điển, những
từ được nhúng vào câu như là đầu vào của phần mã hóa. Điều này khó
khăn do nó mất các giá trị thông tin về các từ nguồn. Để chỉnh sửa điều này, một
mô hình LSTM sâu được dùng giữa các kí tự của các từ. Ví dụ trong hình 1,
chúng ta chạy mô hình LSTM sâu dựa trên kí tự qua các chữ cái ‘c’,’u’,’t’,’e’ và
‘_’ (biểu tượng viền). Trạng thái ẩn cuối cùng của lớp trên cùng sẽ được dùng
như là giá trị biểu diễn cho từ hiếm này.
3.3.3 Tạo các ký tự đích
 Thông thường NMT dựa trên từ cho phép tạo trong câu kết quả. Sau đó
sẽ có một bước hậu xử lý để xử lý các từ chưa được biết đến này bằng cách tận
dụng thông tin lấy được từ tính toán bên trên và thực hiện những tìm kiếm đơn
giản trong từ điển. Khi phương pháp này làm việc, nó chịu nhiều vấn đề như việc
không đồng nhất giữa các bảng chữ cái giữa từ điển nguồn và đích và sự sắp xếp
tạo ra rất nhiều từ khác nhau.
 Để giải quyết vấn đề này, chúng ta có một LSTM sâu riêng để dịch những từ ở
mức ký tự này . Chúng ta huấn luyện hệ thống để bất cứ khi nào một NMT dựa
trên từ cung cấp một từ , chúng ta có thể gợi ý và giải mã nó để lấy từ cần
tìm.
Mô hình huấn luyện hiện giờ là:


Tại đây, J(w) là sự mất mát thông thường của NMT ở mức độ từ. Trong ví dụ tại
hình 1 là tổng của phủ định log likelihood khi tạo {“un”,””,”chat”}. J( c)
tương ứng với việc mất mát phải chịu bởi giải mã mức ký tự khi dự đoán các ký
tự
3.3.4 Ghép từ vào trong câu
Sử dụng cơ chế “chú ý” để ghép các từ vào thành câu.

4 Thí nghiệm và kết luận.
Sử dụng bộ dữ liệu tiếng Anh – tiếng Séc với 3000 câu năm 2013 là tập phát
triển, dữ liệu và 2656 câu năm 2015 như tập kiểm tra.

4.1 Dữ liệu

Sử đụng dịch ngôn ngữ tiếng Anh – tiếng Séc

4.2 Kết quả
Đã so sánh với nhiều hệ thống mạnh khác, bao gồm hệ thông thắng cuộc trong
WMT 2015, thức được huấn luyện với nhiều lượng dữ liệu lớn (52.6 triệu câu
song song và 393 triệu câu đơn ngữ). Trái lại, NMT chỉ dùng khoảng 15.8 triệu
câu song song nhưng lại đạt được kết quả tốt nhất.


Trong hình 2, chỉ với phương thức tiếp cận dựa trên từ, một mô hình NMT đơn
đã vượt hơn so với mô hình tốt nhât với 1.8 điểm mặc dù bộ dữ liệu là nhỏ hơn
( chỉ 50K từ so với 200K từ).

4.3 Kết Luận
Trong bài trên ta đã mô tả sơ qua được kiến trúc lai kết hợp cả mô hình dịch máy
dựa trên từ và ký tự. Dịch máy dựa trên từ huấn luyện nhanh và có chất lượng
dịch cao, tuy nhiên, mô hình dịch dựa trên ký tự giúp đạt được những sự mở rộng
về từ ngữ khi dịch, đặc biệt là từ hiếm. Việc kết hợp 2 phương pháp này giúp cải
tiến việc dịch đạt kết quả cao hơn so với thuật toán dịch máy dùng mạng neuron
dựa trên từ thông thường và các thuật toán dịch máy không sử dụng mạng neuron.


Tài liệu tham khảo:
Minh-Thang Luong and Christopher D.Manning, 2016, Achieving OpenVocabulary
Neural Machine Translation with Hybrid Word-Character Models.

Luận văn Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không.
Trần Lâm Quân.
Wikipedia Machine Translation.



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×

×