Tải bản đầy đủ

Tổng hợp tiếng nói trên thiết bị giám sát hành trình

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ
PHẠM MINH DƯƠNG

TỔNG HỢP TIẾNG NÓI TRÊN THIẾT BỊ
GIÁM SÁT HÀNH TRÌNH

NGÀNH: KỸ THUẬT ĐIỆN TỬ - 60520203

S K C0 0 4 7 5 5

Tp. Hồ Chí Minh, tháng 10/2015


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH




LUẬN VĂN THẠC SĨ
PHẠM MINH DƢƠNG

TỔNG HỢP TIẾNG NÓI TRÊN THIẾT BỊ
GIÁM SÁT HÀNH TRÌNH

NGÀNH: KỸ THUẬT ĐIỆN TỬ - 60520203
Hƣớng dẫn khoa học:
PGS.TS TRẦN THU HÀ

TP. Hồ Chí Minh, tháng 10 năm 2015


LÝ LỊCH KHOA HỌC
I.

LÝ LỊCH SƠ LƢỢC
Họ và tên: Phạm Minh Dƣơng

Giới tính: Nam

Ngày, tháng, năm sinh: 26/02/1983

Nơi sinh: Tây Ninh

Quê quán: Hòa Thành, Tây Ninh

Dân tộc: Kinh

Địa chỉ liên lạc: 261/12/13 Đình Phong Phú, Tổ 6, Khu phố 3, Phƣờng Tăng
Nhơn Phú B, Quận 9, Tp.HCM.

II.

Điện thoại cơ quan:

Di động: 0913 531 247


Email: duong.phamminh@icdrec.edu.vn

Fax:

QUÁ TRÌNH ĐÀO TẠO
Hệ đào tạo: Chính quy

Thời gian đào tạo: Từ 2003 đến 2008

Nơi học: Trƣờng Đại học Bách Khoa Tp.HCM
Ngành học: Điện tử - Viễn thông
Tên đồ án tốt nghiệp: Nghiên cứu và thiết kế một số ngoại vi giao tiếp kit
ARM Evaluator – 7T
Ngày bảo vệ đồ án tốt nghiệp: 01/2008
Ngƣời hƣớng dẫn: TS. Nguyễn Nhƣ Anh
III. QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP
ĐẠI HỌC
Thời gian

Nơi công tác

Công việc đảm nhiệm

2008 đến nay

Trung tâm Nghiên cứu và Đào tạo Nhân viên thiết kế phần
Thiết kế Vi mạch
cứng và lập trình ứng dụng

2012 đến nay

Công ty Cổ Phần Công Nghệ Thiết kế phần cứng và lập
Định Vị Sài Gòn Track
trình thiết bị giám sát hành
trình
(Hỗ trợ kỷ thuật)

i


LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai
công bố trong bất kỳ công trình nào khác
Tp. Hồ Chí Minh, ngày 18 tháng 10 năm 2015
(Ký tên và ghi rõ họ tên)

Phạm Minh Dƣơng

ii


LỜI CẢM TẠ
Xin chân thành gửi lời cảm ơn đến PGS.TS Trần Thu Hà và
Ban lãnh đạo Trung tâm Nghiên cứu và Đào tạo Thiết kế Vi mạch

(ICDREC) đã tận tình hƣớng dẫn và tạo điều kiện cho em hoàn thành
tốt luận văn này.
Xin chân thành gửi lời cảm ơn đến toàn thể quý thầy cô Trƣờng
Đại học Sƣ phạm Kỷ thuật TP. Hồ Chí Minh đã giảng dạy, hƣớng
dẫn, truyền đạt kiến thức, kinh nghiệm quý báu và tạo mọi điều kiện
học tập tốt cho em.
Xin cảm ơn đến những đồng nghiệp, bạn bè tôi đã cùng chia sẽ,
học hỏi kinh nghiệm trong suốt thời gian qua.
Cảm ơn ba mẹ, anh chị em, vợ và bạn bè đã động viên tôi trong
suốt thời gian học.
Xin kính chúc sức khỏe và chân thành cảm ơn.

HỌC VIÊN
Phạm Minh Dƣơng

LỜI CẢM TẠ

iii


TÓM TẮT LUẬN VĂN
Trong đề tài này, ta đã thiết kế và thi công thiết bị giám sát hành trình
(TBGSHT) có tổng hợp tiếng nói bằng phƣơng pháp ghép nối để giúp cho ngƣời sử
dụng có thể giám sát, quản lý phƣơng tiện của mình một cách trực quan. Đồng thời,
ngƣời sử dụng có thể truyền thông tin xuống lái xe để phát thông báo hoặc rao trạm
xe buýt tùy vào ứng dụng cụ thể.
Tổng hợp tiếng nói bằng phƣơng pháp ghép nối lựa chọn đơn vị các từ, cụm từ
hoặc câu làm cho tiếng nói sau khi tổng hợp đạt đƣợc chất lƣợng về mức độ tự
nhiên và mức độ dễ nghe. Văn bản đầu vào là dạng chữ hoa, chữ thƣờng, số, từ viết
tắt, tên địa danh tiếng nƣớc ngoài, do đó văn bản này phải đƣợc chuẩn hóa thành
dạng chuẩn chữ hoa rồi mới tiến hành tổng hợp ghép nối.
Văn bản đƣợc truyền xuống TBGSHT bằng tin nhắn SMS hoặc bằng máy chủ
qua giao thức TCP/IP. Sau khi nhận văn bản đầu vào, TBGSHT chuẩn hóa văn bản
và thực hiện việc ghép nối các đơn vị âm thanh bằng ngữ cảnh thích hợp, sau đó
phát tiếng nói ở đầu ra của hệ thống. Ngoài ra, TBGSHT này cũng có đầy đủ các
tính năng theo quy chuẩn QCVN 31:2014/BGTVT của Bộ Giao thông vận tải.

iv


ABSTRACT
In this thesis, I have designed and test-fabricated the tracking surveillance
device with speech synthesis by pairing method that the users can monitor and
manage their vehicles intuitively. As the same time, users can transmit the
information to the driver or speak with the bus station depending on the specific
application.
The speech by the unit selection synthetic method with words, phrases or
sentences made speech after synthesis achieved at high quantity of natural level and
listening easy level. The input text is uppercase, lowercase, number, acronym, or the
name of the foreign language places, therefore, this text must be standardized into
uppercase and then processing the pairing synthesis.
The text is transmitted to the tracking surveillance device by Short Message
Service (SMS) or Server via TCP/IP protocol. After receiving the input text, the
tracking surveillance device standardizes it and performs the pairing audio unit
appropriate context, and then, the corresponding voice is generated at the output of
the system. Besides, the tracking surveillance device also has fully compliant
features of QCVN 31:2014/BGTVT of the Ministry of Transport.

v


Mục lục

NỘI DUNG
LÝ LỊCH KHOA HỌC ................................................................................................................................ i
LỜI CAM ĐOAN......................................................................................................................................... ii
LỜI CẢM TẠ .............................................................................................................................................. iii
TÓM TẮT LUẬN VĂN ............................................................................................................................. iv
ABSTRACT ................................................................................................................................................... v
NỘI DUNG ................................................................................................................................................... vi
DANH SÁCH HÌNH .................................................................................................................................. ix
DANH SÁCH BẢNG ................................................................................................................................... x
DANH SÁCH TỪ VIẾT TẮT .................................................................................................................. xi
Chƣơng 1. GIỚI THIỆU ĐỀ TÀI .............................................................................................................1
1.1.

Tổng quan về hƣớng nghiên cứu .........................................................................................1

1.2.

Tình hình nghiên cứu trong nƣớc và ngoài nƣớc ................................................................2

1.3.

Tính cấp thiết của đề tài ......................................................................................................3

1.4.

Mục tiêu nghiên cứu............................................................................................................4

1.5.

Nhiệm vụ nghiên cứu ..........................................................................................................4

1.6.

Phƣơng pháp nghiên cứu.....................................................................................................6

Chƣơng 2. CƠ SỞ LÝ THUYẾT...............................................................................................................7
2.1.

Sơ đồ khối tổng quát của hệ thống thiết bị giám sát hành trình ..........................................7

2.2.

Kiến trúc tổng quát khối tổng hợp tiếng nói .......................................................................9

2.3.

Bộ tổ chức dữ liệu ............................................................................................................ 10

2.3.1.

Xây dựng dữ liệu âm thanh ...................................................................................... 10

2.3.2.

Phân đoạn tập câu thu âm......................................................................................... 11

2.4.

Bộ tổng hợp ...................................................................................................................... 11

2.4.1.

Chuẩn hóa văn bản ................................................................................................... 11

2.4.1.1.

Từ viết tắt ......................................................................................................... 12

2.4.1.2.

Số ...................................................................................................................... 12

2.4.1.3.

Từ nước ngoài .................................................................................................. 12

2.4.1.4.

Từ viết sai chính tả ........................................................................................... 12

2.4.1.5.

Các ký hiệu đặc biệt ......................................................................................... 13

2.4.2.

Tổng hợp ghép nối – Lựa chọn đơn vị (Unit Selection) .......................................... 13

2.4.2.1.

Khái niệm ......................................................................................................... 13

vi


Mục lục

2.4.2.2.

Mô hình Unit Selection..................................................................................... 14

a.

Giải thuật SHA-1...................................................................................................... 15

b.

Thuật toán tìm kiếm trong Unit Selection ................................................................ 19

2.4.2.3.

Định nghĩa Unit................................................................................................ 21

2.5.

Bộ từ viết tắt ..................................................................................................................... 21

2.6.

Bộ phiên âm tiếng nƣớc ngoài ......................................................................................... 23

2.6.1.

Đặt vấn đề ................................................................................................................ 23

2.6.2.

Phƣơng pháp thủ công.............................................................................................. 23

2.6.3.

Phƣơng pháp chuỗi kết nối mô hình Joint Sequence ............................................... 23

Chƣơng 3. THIẾT KẾ PHẦN CỨNG VÀ CHƢƠNG TRÌNH TỔNG HỢP TIẾNG NÓI ...... 26
3.1.

Thiết kế phần cứng ........................................................................................................... 26

3.1.1.

Khối MPU ................................................................................................................ 26

3.1.2.

Khối SDRAM, NAND Flash ................................................................................... 27

3.1.3.

Khối GSM ................................................................................................................ 27

3.1.4.

Khối GPS ................................................................................................................. 28

3.1.5.

Khối LED trạng thái và Buzzer ................................................................................ 29

3.1.6.

Khối SD Card ........................................................................................................... 29

3.1.7.

Khối Accessory Port ................................................................................................ 30

3.1.8.

Khối RS232 Interface ............................................................................................... 30

3.1.9.

Khối RS485 Interface ............................................................................................... 30

3.1.10.

Khối Audio ............................................................................................................... 31

3.1.11.

Khối Power Supply .................................................................................................. 32

3.2.

Sơ đồ nguyên lý của TBGSHT ........................................................................................ 32

3.2.1.

Sơ đồ nguyên lý mạch MCU .................................................................................... 33

3.2.2.

Sơ đồ nguyên lý mạch INTERFACE ....................................................................... 35

3.2.3.

Mặt trƣớc và sau của board mạch thiết kế................................................................ 41

3.3.

Chƣơng trình tổng hợp tiếng nói trên TBGSHT .............................................................. 42

3.3.1.

Chƣơng trình tổng hợp tiếng nói .............................................................................. 42

3.3.1.1.

Lưu đồ giải thuật tổng hợp tiếng nói ................................................................ 42

3.3.1.2.

Lưu đồ giải thuật chuẩn hóa văn bản .............................................................. 43

3.3.1.3.

Lưu đồ giải thuật tổng hợp ghép nối câu ......................................................... 45

3.3.2.

Chƣơng trình của TBGSHT xe ô tô ......................................................................... 46

Chƣơng 4. ĐẶC TẢ KỸ THUẬT CỦA THIẾT BỊ GIÁM SÁT HÀNH TRÌNH ....................... 47

vii


Mục lục

4.1.

Tính năng của TBGSHT theo QCVN 31:2014/BGTVT .................................................. 47

4.2.

Đặc tính kỷ thuật và tín hiệu kết nối của TBGSHT ......................................................... 48

4.3.

Hƣớng dẫn cài đặt và quá trình khởi động của thiết bị .................................................... 49

4.4.

Cấu hình TBGSHT bằng tin nhắn SMS hoặc bằng Terminal .......................................... 50

4.4.1.

Mã lệnh cấu hình cho TBGSHT............................................................................... 50

4.4.2.

Một số ví dụ thay đổi cấu hình TBGSHT ................................................................ 55

4.5.

Giao thức truyền/nhận dữ liệu giữa TBGSHT và server .................................................. 57

4.5.1.

Cấu trúc Dữ liệu hành trình ...................................................................................... 58

4.5.2.

Cấu trúc dữ liệu gởi đầu ngày .................................................................................. 61

4.6.

Kết nối phần mềm phân tích dữ liệu ................................................................................ 63

4.6.1.

Mã dữ liệu của từng loại dữ liệu: ............................................................................. 63

4.6.2.

Nội dung của từng loại dữ liệu ................................................................................. 63

4.7.

4.6.2.1.

Thông tin cơ bản của thiết bị: (Loại dữ liệu 1) ................................................ 63

4.6.2.2.

Thông tin thời gian làm việc của lái xe: (Loại dữ liệu 2)................................. 65

4.6.2.3.

Thông tin về số lần và thời gian dừng, đỗ xe: (Loại dữ liệu 3) ........................ 65

4.6.2.4.

Thông tin về hành trình xe chạy: (Loại dữ liệu 4)............................................ 66

4.6.2.5.

Thông tin về tốc độ từng giây của xe: (Loại dữ liệu 5) .................................... 66

Truyền nhận văn bản tổng hợp tiếng nói.......................................................................... 67

4.7.1.

Truyền bằng TCP/IP ................................................................................................ 67

4.7.2.

Truyền bằng tin nhắn SMS ...................................................................................... 69

Chƣơng 5. KẾT LUẬN ............................................................................................................................. 70
5.1.

Đánh giá kết quả .............................................................................................................. 70

5.2.

Hƣớng phát triển của đề tài .............................................................................................. 73

TÀI LIỆU THAM KHẢO........................................................................................................................ 76
PHỤ LỤC..................................................................................................................................................... 77
Phụ lục 1. Các tính năng của thiết bị giám sát hành trình ............................................................ 77
Phụ lục 2. Tóm tắt cơ sở dữ liệu của hệ thống tổng hợp tiếng nói ............................................... 78
Phụ lục 3. Bảng mã UTF-8 của các ký tự tiếng Việt ................................................................... 79
Phụ lục 4. Bảng mã Unicode 2 byte cố định ................................................................................ 81

viii


Mục lục

DANH SÁCH HÌNH
Hình 1.1: Sơ đồ hoạt động tổng quan của TBGHST. ............................................................ 2
Hình 2.1: Sơ đồ khối của TBGSHT có tích hợp TTS. ............................................................ 7
Hình 2.2: Kiến trúc tổng quát của hệ thống tổng hợp tiếng nói. ........................................... 9
Hình 2.3: Xử lý SHA-1 của một khối đơn 512-bit................................................................ 17
Hình 2.4: Hàm nén giải thuật SHA-1. ................................................................................. 18
Hình 2.5: Cơ chế lựa chọn đơn vị. ....................................................................................... 21
Hình 3.1: Sơ đồ khối chức năng module M95. .................................................................... 28
Hình 3.2: Sơ đồ khối chức năng module L70. ..................................................................... 29
Hình 3.3: Sơ đồ khối giao tiếp với SD card. ........................................................................ 30
Hình 3.4: Sơ đồ chuyển đổi của giao diện RS485. .............................................................. 31
Hình 3.5: Sơ đồ chân của SP3485EN transceiver. .............................................................. 31
Hình 3.6: Sơ đồ giải mã âm thanh của VS1003. .................................................................. 32
Hình 3.7: Sơ đồ điều chỉnh nguồn cấp cho board mạch. .................................................... 32
Hình 3.8: Mặt trước board mạch TBGSHT. ........................................................................ 41
Hình 3.9: Mặt sau board mạch TBGSHT. ........................................................................... 41
Hình 3.10: Lưu đồ giải thuật tổng hợp tiếng nói. ................................................................ 43
Hình 3.11: Lưu đồ giải thuật chuẩn hóa văn bản. ............................................................... 44
Hình 3.12: Lưu đồ giải thuật tổng hợp ghép nối câu. ......................................................... 45
Hình 3.13: Lưu đồ giải thuật của TBGSHT xe ô tô. ............................................................ 46
Hình 5.1: Bản đồ số giám sát TBGSHT. .............................................................................. 72
Hình 5.2: Văn bản tổng hợp được truyền bằng SMS hoặc TCP/IP. .................................... 72

ix


Mục lục

DANH SÁCH BẢNG
Bảng 2.1: Bộ dữ liệu thu âm. ............................................................................................... 11
Bảng 2.2: Ví dụ kết quả phân đoạn theo cụm từ.................................................................. 11
Bảng 2.3: Kết quả tìm kiếm các cụm từ để ghép nối các tệp tin âm thanh. ......................... 21
Bảng 2.4: Mô tả tên tập tin và số từ viết tắt. ....................................................................... 22
Bảng 2.5: Mô tả tên tệp tin và số từ của tiếng nước ngoài.................................................. 24
Bảng 3.1: Các trạng thái tín hiệu từ xe. .............................................................................. 30
Bảng 4.1: Đặc tính kỹ thuật. ................................................................................................ 48
Bảng 4.2: Các tín hiệu kết nối với TBGSHT. ....................................................................... 48
Bảng 4.3: Mã lệnh cấu hình cho TBGSHT qua cấu trúc tin nhắn. ...................................... 50
Bảng 4.4: Mô tả ý nghĩa từng trường trong thông điệp gởi định kỳ. .................................. 58
Bảng 4.5: Mô tả trạng thái các bit trong Mã_trạng_thái_1. ............................................... 60
Bảng 4.6: Mô tả trạng thái các bit trong Mã_trạng_thái_2. ............................................... 61
Bảng 4.7: Mô tả ý nghĩa từng trường trong bản tin đầu ngày. ........................................... 61
Bảng 4.8: Mã loại dữ liệu. ................................................................................................... 63
Bảng 4.9: Loại dữ liệu thông tin cơ bản của thiết bị. .......................................................... 63
Bảng 5.1: Mô tả cơ sở dữ liệu tổng hợp tiếng nói. .............................................................. 71
Bảng 5.2: Đánh giá một số ví dụ về mức độ tổng hợp tiếng nói. ........................................ 72

x


Mục lục

DANH SÁCH TỪ VIẾT TẮT
BGTVT:
FTP:
GMT:
GPRS:
GPS:
GSM:
HTTP:
MPU:
RFID:
SDRAM:
SHA-1:
SMS:
TBGSHT:
TCP/IP:
TTS:
UTF-8:

Bộ Giao thông vận tải
File Transfer Protocol
Greenwich Mean Time
General Packet Radio Service
Global Positioning System
Global System for Mobile
The Hypertext Transfer Protocol
Microprocessor Unit
Radio Frequency Identification
Synchronous Dynamic Random Access Memory
Secure Hashing Algorithm 1
Short Message Service
Thiết bị giám sát hành trình
Transmission Control Protocol/Internet Protocol
Text to Speech
8-bit Unicode Transformation Format

xi


Chương 1: Giới thiệu đề tài

Chƣơng 1

GIỚI THIỆU ĐỀ TÀI
1.1. Tổng quan về hƣớng nghiên cứu
Hiện nay thiết bị giám sát hành trình (TBGSHT) ở nƣớc ta đang phát triển rất
nhanh, nhất là từ khi Nghị định 08 của Bộ Giao thông vận tải số: 08/2011/TTBGTVT ban hành. Ngoài các tính năng mà Nghị định đƣa ra, TBGSHT còn có thêm
một số tính năng mở rộng để đáp ứng nhu cầu sử dụng của khách hàng, đặc biệt là
các tính năng này có thể đƣợc tích hợp cùng với TBGSHT nhằm tăng tính tiện ích
và giảm chi phí cho ngƣời sử dụng. Chẳng hạn các tính năng đó là: Máy tính cƣớc
taxi, Thông báo thông tin từ trung tâm điều hành, Rao trạm xe buýt, Thanh toán tiền
tự động bằng RFID, v.v.
Đề tài này sẽ hƣớng tới phần đọc thông báo, đọc địa chỉ khách hàng khi đăng
ký đi taxi, hoặc rao trạm xe buýt. Các thông tin này đƣợc truyền từ trung tâm điều
hành dƣới dạng văn bản để TBGSHT thực hiện việc “Tổng hợp tiếng nói trên thiết
bị giám sát hành trình” và phát ra thông báo mà các thiết bị trên thị trƣờng hiện nay
chỉ dừng lại ở mức thu âm và phát theo các tuyến đƣờng cố định hoặc chƣa thể làm
đƣợc.
Để có thể đáp ứng đƣợc các tính năng theo Nghị định và yêu cầu đề tài đặt ra,
thì TBGSHT phải đƣợc thiết kế hợp lý cả về phần cứng và phần mềm. Hình 1.1 mô
tả sơ đồ hoạt động tổng quan của TBGSHT có tích hợp thuật toán tổng hợp tiếng
nói (TTS).
Trong hình 1.1, TBGSHT có hai chức năng chính cần xử lý: chức năng thứ
nhất là TBGSHT phải thực hiện đầy đủ các tính năng theo Nghị định của Bộ Giao
thông vận tải quy định, chức năng thứ hai là tổng hợp tiếng nói.
Trong chức năng thứ nhất, TBGSHT thực hiện việc thu thập dữ liệu từ vệ tinh
nhƣ: thời gian, vận tốc di chuyển, tọa độ, v.v. và thu thập các tín hiệu từ xe nhƣ: tín

1


Chương 1: Giới thiệu đề tài

hiệu cửa, động cơ, máy điều hòa, v.v. sau đó TBGSHT xử lý các thông tin này để
truyền đến trung tâm giám sát qua GPRS.
Trong chức năng thứ hai, TBGSHT nhận văn bản từ SMS hoặc từ máy chủ
qua giao thức TCP/IP để tổng hợp tiếng nói. Văn bản cần tổng hợp đƣợc lƣu vào bộ
nhớ của thiết bị, sau đó văn bản sẽ đƣợc chuẩn hóa và đƣa vào cơ sở dữ liệu để so
sánh, tổng hợp và phát ra âm thanh.

Vệ tinh
Vệ tinh

Tín hiệu
GPS

Tín hiệu
GPS

GPRS

SM

TC S
P/
IP

TBGSHT

iệu
t dữ l

u
x
Truy internet
qua

Máy chủ
(Server)

Hình 1.1: Sơ đồ hoạt động tổng quan của TBGHST.

1.2. Tình hình nghiên cứu trong nƣớc và ngoài nƣớc
Đối với các nƣớc phát triển phƣơng Tây thì TBGSHT xe ô tô đã xuất hiện từ
rất sớm, nó đƣợc tích hợp vào xe có các chức năng nhƣ: giám sát lƣu lƣợng xe đi
trên đƣờng, hƣớng dẫn chỉ đƣờng (Navigator), và thông báo ùn tắt xe trên đƣờng.

2


Chương 1: Giới thiệu đề tài

Với nƣớc ta, TBGSHT bắt đầu xuất hiện từ cuối năm 2009 do hai công ty điện
tử sản xuất tại Việt Nam nhƣ Công ty điện tử Bình Anh (tại Hà Nội) và Công ty
TNHH TM điện tử Vinh Hiển (tại TP.HCM). Trong thời gian này đồng thời cũng
xuất hiện một số sản phẩm TBGSHT từ Trung Quốc, Đài Loan, Mỷ, v.v.
Từ khi Nghị định ban hành của Bộ Giao thông vận tải (số 08/2011/TTBGTVT) cho đến nay thì quá trình phát triển của TBGSHT nƣớc ta rất nhanh. Đến
thời điểm này thì có hơn 50 đơn vị cung cấp TBGSHT đã hợp quy thiết bị.
Ngoài các tính năng đáp ứng theo Nghị định ban hành, các TBGSHT hiện nay
hỗ trợ thêm một số tính năng mở rộng để phục vụ theo yêu cầu của khách hàng.
Trên thị trƣờng hiện nay thì việc rao trạm cho xe buýt đã đƣợc đƣa vào sử dụng,
nhƣng không sử dụng thuật toán tổng hợp tiếng nói mà chỉ thu âm theo các trạm và
đoạn đƣờng cố định. Do đó, việc sử dụng sẽ bị hạn chế và không linh hoạt.
Với phƣơng pháp tổng hợp tiếng nói Formant của tác giả Phan Thanh Tài [5]
sử dụng mô hình Klatt là mô hình nối tiếp và mô hình song song để tổng hợp các
nguyên âm và phụ âm, đề tài này còn hạn chế về mức độ tự nhiên và mức độ dễ
nghe.
Đối với phƣơng pháp Tổng hợp tiếng nói bằng phƣơng pháp ghép nối của tác
giả Võ Văn Nguyên [7] sử dụng giải thuật TD_PSOLA bằng cách ghép nối các
diphone còn một số hạn chế nhƣ sau: chỉ tổng hợp các câu đơn giản, chƣa có tổng
hợp các tên riêng, địa danh tiếng nƣớc ngoài thƣờng gặp, tổng hợp các diphone có
dấu cho hiệu quả chƣa cao.
Cả hai đề tài trên đều chỉ dừng lại ở mức mô phỏng trên Matlab mà chƣa đƣợc
ứng dụng vào thiết bị sản phẩm thực tế.

1.3. Tính cấp thiết của đề tài
Với tình hình ùn tắt giao thông nhƣ hiện nay thì vấn đề giải quyết cho lƣu
lƣợng xe lƣu thông một cách hợp lý đang là một nổi lo lắng của nƣớc ta. Do đó, các
xe vận tải phải đƣợc lắp đặt TBGSHT và đồng thời phải đƣợc quản lý bởi cơ quan

3


Chương 1: Giới thiệu đề tài

chức năng để có thể kiểm soát lƣu lƣợng xe trên đƣờng và đƣa ra hƣớng giải quyết
kịp thời.
Ngoài các tính năng của Nghị định đƣa ra, TBGSHT còn phải đƣợc bổ sung
tính năng rao trạm xe buýt, hƣớng dẫn lái xe lƣu thông bằng âm thanh khi xảy ra kẹt
xe, đồng thời có thể giới thiệu các địa danh cho khách du lịch, v.v.
Trƣớc tình hình này, thì việc thiết kế và thi công thiết bị giám sát hành trình có
tích hợp giải thuật tổng hợp tiếng nói bằng phƣơng pháp ghép nối với tên đề tài
“Tổng hợp tiếng nói trên thiết bị giám sát hành trình” là rất cần thiết trong thời
điểm hiện nay.
Về việc tích hợp thêm thuật toán tổng hợp tiếng nói vào TBGSHT sẽ giúp cho
TBGSHT linh hoạt hơn trong việc sử dụng nhƣ: đọc thông báo từ trung tâm điều
hành, rao trạm xe buýt, đọc tin nhắn, v.v.

1.4. Mục tiêu nghiên cứu
Nghiên cứu hệ thống tổng hợp tiếng nói tiếng Việt bằng phƣơng pháp ghép
nối dựa trên các đơn vị ngữ âm cơ sở [2, 6, 8].
Mô phỏng hệ thống tổng hợp tiếng nói trên máy tính có hệ điều hành Linux, so
sánh hệ thống với các hệ thống tổng hợp tiếng nói bằng các phƣơng pháp khác [4].
Ứng dụng hệ thống tổng hợp tiếng nói tiếng Việt vào thiết bị giám sát hành
trình xe ô tô để đọc văn bản thông báo đƣợc gửi từ trung tâm điều khiển, hoặc rao
trạm xe buýt.

1.5. Nhiệm vụ nghiên cứu
Trong chuyên đề 1: “Thiết kế và thi công thiết bị giám sát hành trình xe ô tô
có tích hợp thuật toán tổng hợp tiếng nói (Text To Speech) bằng phƣơng pháp ghép
nối” ở phần trƣớc của đề tài, ta đã thực hiện việc khảo sát và tìm hiểu thuật toán
tổng hợp tiếng nói bằng phƣơng pháp ghép nối với các nhiệm vụ nhƣ sau:

4


Chương 1: Giới thiệu đề tài

- Thực hiện chuẩn hóa văn bản đầu vào, phân cụm, và ghép nối các đơn vị ngữ
âm thành tiếng nói tổng hợp.
- Tổ chức dữ liệu thực hiện quản lý và phân đoạn kho ngữ liệu âm thanh thành
các đơn vị cơ sở (âm tiết, từ, cụm từ v.v).
- Tìm hiểu thuật toán chuyển đổi một từ nƣớc ngoài bất kỳ sang cách đọc tiếng
Việt gần đúng nhất có thể.
Trong chuyên đề 2: “Tổng hợp tiếng nói trên thiết bị giám sát hành trình” ở
phần trƣớc của đề tài, ta đã thực hiện các nhiệm vụ sau:
- Bổ sung, điều chỉnh cơ sở dữ liệu phù với thiết bị giám sát hành trình xe ô tô.
- Chuẩn hóa văn bản đầu vào với các từ viết tắt, số, từ nƣớc ngoài và các ký
hiệu đặc biệt.
- Cải cách phƣơng pháp lựa chọn ghép nối sao cho tốc độ xử lý tổng hợp tiếng
nói trên thiết bị giám sát hành trình đƣợc nâng cao.
- Mô phỏng thuật toán tổng hợp tiếng nói bằng phƣơng pháp ghép nối trên máy
tính có hệ điều hành Linux.
- So sánh với các hệ thống tổng hợp tiếng nói trƣớc đây.
- Vẽ sơ đồ mạch cho TBGSHT có tích hợp bộ TTS.
- Mô phỏng tổng hợp tiếng nói trên thiết bị giám sát hành trình.
Trong phần luận văn, ta sẽ thực hiện các nhiệm vụ nhƣ sau:
- Viết chƣơng trình cho TBGSHT đáp ứng đầy đủ các tính năng theo Nghị định
của Bộ Giao thông vận tải.
- Tích hợp hệ thống tổng hợp tiếng nói tiếng Việt vào TBGSHT để đọc thông
báo đƣợc gửi từ trung tâm điều khiển, hoặc rao trạm xe buýt.
- Kiểm tra, hoàn thiện thiết bị.
- So sánh kết quả tổng hợp tiếng nói tiếng Việt trên thiết bị với trên máy tính.

5


Chương 1: Giới thiệu đề tài

1.6. Phƣơng pháp nghiên cứu
Qua tình hình nghiên cứu về tổng hợp tiếng nói trong và ngoài nƣớc, có thể
thấy TBGSHT nƣớc ta hiện nay đang phát triển mạnh (nƣớc ta có trên 50 đơn vị
cung cấp TBGSHT), nhất là một TBGSHT có tích hợp thuật toán tổng hợp tiếng
nói, vì nó có phạm vi ứng dụng rất lớn trong xã hội.
Các nghiên cứu trên thế giới về TTS vẫn đang hƣớng đến việc giải quyết hai
yêu cầu cơ bản về chất lƣợng của tiếng nói đƣợc tổng hợp, đó là mức độ tự nhiên và
mức độ dễ nghe [3, 6]. Cần khẳng định ngay là chất lƣợng của các hệ thống TTS
cho tiếng Việt hiện nay vẫn còn hạn chế, xét theo hai tiêu chí trên. Các nguyên nhân
chính dẫn đến các hạn chế này bao gồm:
 Đối với các hệ thống TTS dựa trên phƣơng pháp kết nối, các đơn vị tiếng nói
cơ sở đƣợc thu âm một cách rời rạc trong khi ngôn điệu của lời nói cần đƣợc
đặt trong phạm vi của cả cụm từ hoặc câu hoặc thậm chí là cả đoạn văn bản.
 Với các hệ thống TTS dựa trên formant, do bản chất của phƣơng pháp này là
tạo ra tiếng nói tổng hợp từ các tham số nên rất khó có thể thỏa mãn tiêu chí
“tự nhiên”. Phƣơng pháp này chỉ thích hợp cho các ứng dụng chạy trên môi
trƣờng có tài nguyên hạn chế về bộ nhớ cũng nhƣ dung lƣợng lƣu trữ.
 Ngoài ra, một điểm hạn chế nữa của các hệ thống TTS cho tiếng Việt là khả
năng xử lý các từ nƣớc ngoài. Số lƣợng từ nƣớc ngoài có thể đọc đƣợc rất ít
hoặc hoàn toàn không.
Do vậy việc đầu tƣ nghiên cứu cơ bản cho bài toán TTS tiếng Việt là thực sự
cần thiết để có thể từng bƣớc vƣợt qua những hạn chế này. Trong khuôn khổ đề tài,
ta chọn phƣơng pháp “Tổng hợp tiếng nói tiếng Việt bằng phương pháp ghép nối
dựa trên các đơn vị ngữ âm cơ sở”. Trong đó các đơn vị ngữ âm cơ sở là câu, cụm
từ hoặc từ để giúp cho việc tổng hợp tiếng nói có chất lƣợng tốt hơn. Đây là lý do ta
chọn đề tài “Tổng hợp tiếng nói trên thiết bị giám sát hành trình”.

6


Chương 2: Cơ sở lý thuyết

Chƣơng 2

CƠ SỞ LÝ THUYẾT
2.1. Sơ đồ khối tổng quát của hệ thống thiết bị giám sát hành trình
Hình 2.1 mô tả toàn bộ sơ đồ khối của TBGSHT có tích hợp thuật toán tổng
hợp tiếng nói bằng phƣơng pháp ghép nối.
Earphone

SIM Holder

Microphone

GSM
Accessory Port

GPS

IC Temperature
Sensor

LED Status

MPU

RS232 Interface

Buzzer

RS485 Interface

SDRAM,
NANDFLASH

TTS database

SD Card
Audio

DC
DC in
in

Supply
Supply

Power
protection

Regulator

Power Supply

Hình 2.1: Sơ đồ khối của TBGSHT có tích hợp TTS.

7


Chương 2: Cơ sở lý thuyết

Mô tả sơ lƣợc các khối chức năng trong TBGSHT:
- Khối MPU: Vi xử lý AT91SAM9260, tốc độ 180 MHz.
- Khối SDRAM, NAND FLASH: 64 MB SDRAM và 256 MB NAND Flash.
- Khối Power Supply: hỗ trợ nguồn cấp DC từ 8V – 36V, cung cấp nguồn cho
các khối chức năng hoạt động.
- Khối GSM: giao tiếp với MPU để truyền nhận dữ liệu lên trung tâm điều
khiển qua giao thức TCP/IP, giao thức HTTP hoặc giao thức FTP.
- Khối GPS: phân tích các thành phần dữ liệu đƣợc nhận từ module GPS, ta có
đƣợc các thông số nhƣ: kinh độ, vĩ độ, vận tốc di chuyển, hƣớng di chuyển,
thời gian thực, v.v.
- Khối LED trạng thái và Buzzer: hiển thị và thông báo các trạng thái của
TBGSHT.
- Khối SD Card: lƣu trữ cơ sở dữ liệu âm thanh và các thông tin hoạt động của
TBGSHT.
- Khối Accessory Port: khối này dùng để giao tiếp với các tín hiệu của xe nhƣ:
khóa xe, cửa xe, máy điều hòa, vận tốc cơ của xe, nhiên liệu, nút nhấn SOS.
-

Khối IC Temperature Sensor: dùng IC số để cảm biến nhiệt độ xe, hoặc các
ứng dụng có nhiệt độ từ 0 đến 100 độ C.

- Khối RS232 Interface: giao tiếp với phần mềm phân tích dữ liệu TBGSHT của
Tổng cục Đƣờng bộ Việt Nam theo QCVN 31:2014/BGTVT của Bộ Giao
thông vận tải.
- Khối RS485 Interface: dùng để mở rộng giao tiếp với các ngoại vi khác nhƣ
Camera, RFID, và một số ngoại vi theo yêu cầu của khách hàng.
- Khối TTS database: lƣu trữ thƣ viện âm thanh để ứng dụng đọc văn bản.
- Khối Audio: giải mã và phát âm thanh cho ứng dụng TTS.

8


S

K

L

0

0

2

1

5

4



x

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×