Tải bản đầy đủ

Nghiên cứu phương pháp khôi phục tiếng nói truyền trong xương

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

NGUYỄN THỊ KIM DUNG

NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC
TIẾNG NÓI TRUYỀN TRONG XƯƠNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2016


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

NGUYỄN THỊ KIM DUNG

NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC
TIẾNG NÓI TRUYỀN TRONG XƯƠNG
Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. PHÙNG TRUNG NGHĨA

THÁI NGUYÊN - 2016


i

LỜI CẢM ƠN
Lời đầu tiên em xin chân thành cảm ơn TS Phùng Trung Nghĩa đã dành
nhiều tâm huyết, kinh nghiệm của thầy để chỉ dẫn, định hướng nghiên cứu
cũng như luôn luôn góp ý cho em để hoàn thành luận văn này.
Em chân thành cảm ơn toàn thể các thầy cô đã ân cần dạy dỗ, chỉ bảo,
truyền đạt cho chúng em những kiến thức quý báu trong suốt quá trình học.
Cuối cùng em cũng xin gửi lời cảm ơn tới gia đình, những người đã luôn
động viên và tạo mọi điều kiện cho em học tập và nghiên cứu thật tốt. Và gửi
lời cảm ơn tới những người bạn đã giúp đỡ em trong quá trình học tập cũng
như hoàn thành đề tài luận văn.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2016
Học viên

Nguyễn Thị Kim Dung


ii

LỜI CAM ĐOAN
Tôi xin cam đoan đề tài nghiên cứu của tôi hoàn toàn do tôi tự làm dưới
sự hướng dẫn của thầy giáo TS Phùng Trung Nghĩa. Những kết quả tìm hiểu
và nghiên cứu trình bày trong luận văn là hoàn toàn trung thực và chưa từng
được công bố trong bất cứ công trình nào.
Nếu xảy ra bất cứ điều gì không đúng như những lời cam đoan trên, tôi
xin chịu hoàn toàn trách nhiệm trước Nhà trường.

Thái Nguyên, ngày tháng năm 2016
Tác giả


Nguyễn Thị Kim Dung


iii

MỤC LỤC
LỜI CẢM ƠN ................................................................................................ i
LỜI CAM ĐOAN .......................................................................................... ii
DANH MỤC BẢNG ..................................................................................... iv
DANH MỤC HÌNH ....................................................................................... v
DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU .............................................. vi
LỜI NÓI ĐẦU ............................................................................................... 1
1. Lý do chọn đề tài ........................................................................................ 1
2. Đối tượng và phạm vi nghiên cứu............................................................... 2
3. Hướng nghiên cứu của luận văn ................................................................. 3
4. Những nội dung nghiên cứu chính .............................................................. 3
5. Phương pháp nghiên cứu ............................................................................ 3
6. Ý nghĩa khoa học của luận văn ................................................................... 3
CHƯƠNG I. TỔNG QUAN VỀ TIẾNG NÓI TRUYỀN TRONG KHÔNG
KHÍ VÀ TIẾNG NÓI TRUYỀN TRONG XƯƠNG....................................... 4
1.1. Tổng quan về tiếng nói ............................................................................ 4
1.1.1. Nguồn gốc và phân loại tiếng nói...................................................... 4
1.1.2. Quá trình tạo tiếng nói ...................................................................... 5
1.2. Các đặc điểm của tiếng nói tiếng việt ...................................................... 8
1.2.1. Đặc tính âm học của tiếng nói ........................................................... 8
1.2.2. Các đặc tính khác............................................................................ 10
1.2.3. Đặc điểm của thanh điệu tiếng Việt................................................. 12
1.2.4. Ngữ điệu của tiếng nói trong Tiếng Việt ......................................... 13
1.3. Tiếng nói truyền trong xương (BC- Bone Conducted) ........................... 16
1.4. Khôi phục tiếng nói truyền trong xương ................................................ 18
1.4.1. Phương pháp phổ chéo.................................................................... 19
1.4.2. Phương pháp biến đổi Fourier......................................................... 21


iv

CHƯƠNG 2: MÔ HÌNH KHÔI PHỤC MÙ TIẾNG NÓI TRUYỀN
TRONG XƯƠNG ...................................................................................... 23
2.1. Giới thiệu về xử lý mù ........................................................................... 23
2.2. Phương pháp khôi phục dùng mô hình dự đoán tuyến tính (LP) ............ 24
2.2.1. Khái niệm mô hình LP.................................................................... 24
2.2.2. Phân tích và tổng hợp LP ................................................................ 28
2.2.3. Phương pháp khôi phục .................................................................. 29
2.3. Các phương pháp khôi phục mù LP ....................................................... 30
2.3.1. Hệ số LSF ....................................................................................... 30
2.3.3. Mô hình Gaussian hỗn hợp (Gaussian Mixture Model – GMM) ..... 36
2.3.4. Hệ số dự đoán ................................................................................. 38
2.3.5. Khôi phục mù LP-GMM................................................................. 39
CHƯƠNG 3: CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ CÁC PHƯƠNG
PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG .................... 42
3.1. Cơ sở dữ liệu tiếng nói AC/BC tiếng Việt ............................................. 42
3.1.1. Môi trường và thiết bị ..................................................................... 43
3.1.2. Danh sách từ tiếng Việt .................................................................. 45
3.2. Cài đặt các phương pháp ....................................................................... 46
3.3. Đánh giá kết quả thực nghiệm ............................................................... 48
3.3.1. Phương pháp đánh giá chủ quan ..................................................... 48
3.3.2. Phương pháp đánh giá khách quan.................................................. 50
3.3.3. Kết quả đánh giá thực nghiệm ........................................................ 50
3.4. Nhận xét chung về kết quả..................................................................... 51
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 52


iv

DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU

Từ
Tiếng anh

Nghĩa tiếng việt

viết tắt
ASR

Automatic speech recognition Nhận dạng tiếng nói tự động

AC

Air conducted speech

Tiếng nói truyền trong không khí

BC

Bone conducted speech

Tiếng nói truyền trong xương

LP

Linear Prediction

Dự đoán tuyến tính

GMM

Gausian Mixture Models

Mô hình hỗn hợp Gaussian

F0

Fundamental Frequency

Tần số dao động cơ bản

ZT

Z Transform

Phép biến đổi Z

LPC

Linear predictive coding

Mã hóa dự đoán tuyến tính

LSF

Line spectral frequency

Tần số đường phổ

MOS

Mean Opinion Scores

Đánh giá theo quan điểm người nghe

FFT

Fast Fourier Transform

Phép biến đổi Fourier nhanh

RNN

Recurrent nerual network

Mạng nơron hồi quy

SRN

Simple recurrent network

Mạng hồi quy đơn giản

WAV

Waveform Audio

Dữ liệu âm thanh không nén

HMM

Hidden Markor Model

Mô hình Mackor ẩn

Autoregressive

Tự hồi quy

LP coefficient distance

Khoảng cách hệ số LP

AR
LCD


iv

DANH MỤC BẢNG
Bảng 1.1: Giá trị tần số cơ bản tương ứng với giới tính và độ tuổi................ 11
Bảng 3.1. Thông tin cơ sở dữ liệu tiếng nói AC/BC ..................................... 42
Bảng 3.2. Danh sách các thiết bị................................................................... 43
Bảng 3.3. Mô tả các điểm đặt mic .................................................................. 44
Bảng 3.4. TEMPCO Microphone thông số kỹ thuật. ....................................... 44
Bảng 3.5. Mô tả mức điểm đánh giá ............................................................. 49
Bảng 3.6. Kết quả đánh giá bằng phương pháp LCD của 100 mẫu tín hiệu .. 50
Bảng 3.7. Kết quả đánh giá bằng phương pháp MOS ................................... 51


vi

DANH MỤC HÌNH

Hình 1. Sơ đồ thu âm tiếng nói truyền trong xương (tiếng nói BC) ở Mic B, C
tại các vị trí 1, 2, 3, 4, 5 và tiếng nói truyền trong không khí (tiếng
nói AC) ở Mic A............................................................................. 1
Hình 1.1. Mô phỏng quá trình truyền tiếng nói trong không khí ..................... 5
Hình 1.2. Bộ máy phát âm của con người ...................................................... 5
Hình 1.3.Mô tả dây thanh âm ......................................................................... 6
Hình 1.4. Phổ tín hiệu của các giai đoạn ......................................................... 7
Hình 1.5. Mô hình nguồn lọc tạo tiếng nói ..................................................... 8
Hình 1.6. Sự thay đổi của F0 khi các thanh đi với chữ “Chi”........................ 13
Hình 1.7. Mô hình nguồn lọc của tiếng nói truyền trong không khí và tiếng
nói truyền trong xương. ................................................................ 17
Hình 1.8. Định nghĩa các hàm: (a) sóng tín hiệu, (b) miền thời gian, và(c)
đường bao công suất. .................................................................... 19
Hình 1.9. Mối quan hệ của tiếng nói truyền trong không khí và tiếng nói
truyền trong xương trong mô hình khôi phục ................................ 20
Hình 1.10. (a) Biến đổi từ tiếng nói truyền trong không khí ra tiếng nói truyền
trong xương, và (b) từ tiếng nói truyền trong xương ra tiếng nói
truyền trong không khí. ................................................................ 21
Hình 2.1. Mô hình tổng hợp tiếng nói bằng phương pháp LP ....................... 25
Hình 2.2. Tỷ lệ dư lượng AC/BC, (a) tiếng nói AC, (b) tiếng nói BC, (c) tương
quan dư lượng (gx(n), gy (n)), (d) tỷ lệ dư lượng Gy (z)/Gx(z). ............. 28
Hình 2.3. Hàm chuyển đổi của mô hình LP .................................................. 29
Hình 2.4. Sơ đồ khối (a) Mô hình khôi phục không mù ................................ 32


vii

Hình 2.5. Mô hình SRN................................................................................ 34
Hình 2.6. Hàm mật độ Gauss ........................................................................ 36
Hình 2.7. Mô hình GMM ............................................................................. 37
Hình 2.8. Hàm mật độ của GMM có 3 phân phối Gauss............................... 38
Hình 3.1. Môi trường ghi âmtiếng nói AC/BC ............................................. 43
Hình 3.2. TEMPCO micro thu âm tiếng nói truyền trong xương .................. 45
Hình 3.3. Huấn luyện mô hình GMM cho tham số phổ LSF......................... 46
Hình 3.4. Chuyển đổi mô hình GMM cho tham số phổ LSF......................... 47


1

LỜI NÓI ĐẦU
1. Lý do chọn đề tài
Chất lượng và độ nghe hiểu của tiếng nói bị suy giảm nghiêm trọng
trong môi trường nhiễu nặng. Các nghiên cứu về tiếng nói cho thấy bản thân
người nói vẫn có thể nghe được tiếng nói của mình trong môi trường nhiễu
nặng [4]. Điều này được lí giải do tiếng nói không chỉ được truyền từ miệng
đến tai qua môi trường không khí mà còn được truyền bên trong xương mặt
và tiếng nói truyền trong xương ít bị ảnh hưởng bởi môi trường bên ngoài [4].
Xuất phát từ thực tế này, một số nhà nghiên cứu đã đề xuất việc sử dụng tiếng
nói truyền trong xương (bone-conducted / BC speech) thay cho tiếng nói
truyền trong không khí (air-conducted / AC speech) [4-9]. Nói cách khác,
micro thu âm sẽ đặt ở một số điểm trên khuôn mặt thay vì đặt trực tiếp ở
miệng như mô tả trong Hình 1. Việc thu âm tiếng nói truyền trong xương để
truyền trong môi trường nhiễu nặng đã được chứng minh bằng thực nghiệm là
ít bị ảnh hưởng bởi môi trường truyền hơn truyền trực tiếp tiếng nói truyền
trong không khí và có thể được sử dụng để truyền tiếng nói trong các môi
trường đặc biệt như trong công nghiệp, quân sự hay dưới nước,… [4-5].

Hình 1. Sơ đồ thu âm tiếng nói truyền trong xương (tiếng nói BC) ở Mic B, C
tại các vị trí 1, 2, 3, 4, 5 và tiếng nói truyền trong không khí (tiếng nói AC) ở
Mic A.
Vấn đề là mặc dù tiếng nói BC ít bị ảnh hưởng bởi môi trường truyền
hơn tiếng nói AC, bản thân chất lượng tiếng nói BC lại thấp hơn tiếng nói


2

AC tại điểm thu âm ở đầu phát do việc mất thông tin gây ra bởi quá trình
truyền trong xương [6]. Chính vì vậy việc khôi phục tiếng nói BC trở về
tiếng nói AC ở đầu thu là một vấn đề quan trọng được nhiều nhà nghiên cứu
quan tâm [6-9].
Có nhiều phương pháp khôi phục tiếng nói AC từ tiếng nói BC đã được
đề xuất như phương pháp dùng phổ chéo (Cross-spectrum) [5], phương pháp
dùng biến đổi Fourier [6]. Tuy nhiên các phương pháp này yêu cầu có tiếng
nói AC tham chiếu tại đầu thu để biến đổi tiếng nói BC thành AC. Nói cách
khác, đây là các phương pháp không mù (non-blind). Hiển nhiên phạm vi áp
dụng của các phương pháp này là rất hạn chế.
Trong nghiên cứu [7], [8], [9], phương pháp khôi phục tiếng nói BC mù
(không cần có tín hiệu tham chiếu tại đầu thu) sử dụng mô hình dự đoán tuyến
tính LP được đề xuất như phương pháp khôi phục mù LP-SRN hay LP-GMM.
Các phương pháp này cũng đã được so sánh thực nghiệm trên cơ sở dữ liệu
tiếng nói tiếng Nhật [9]. Trong nghiên cứu này sẽ tập trung nghiên cứu về
phương pháp khôi phục mù tiếng nói BC sử dụng mô hình LP-GMM và so
sánh thực nghiệm trên cơ sở dữ liệu tiếng nói tiếng Việt để có được đánh giá
đầy đủ hơn về phương pháp này và sự phù hợp của phương pháp với tiếng nói
tiếng Việt.
2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là tiếng nói và các phương pháp khôi
phục tiếng nói.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tiếng nói AC,
BC, các phương pháp khôi phục không mù và mù, và tập trung vào nghiên
cứu thực nghiệm đánh giá về hiệu quả của phương pháp khôi phục không mù
phổ chéo, Fourier, và phương pháp mù dùng mô hình LP-GMM [9] đối với cơ
sở dữ liệu tiếng nói BC tiếng Việt.


3

3. Hướng nghiên cứu của luận văn
Hướng nghiên cứu của luận văn là nghiên cứu về vấn đề xử lý nhiễu cho
tín hiệu tiếng nói bằng giải pháp dùng tiếng nói BC. Trong đó, luận văn tập
trung nghiên cứu phương pháp khôi phục mù dùng mô hình LP-GMM [9].
4. Những nội dung nghiên cứu chính
- Tổng quan về tiếng nói AC/BC.
- Ảnh hưởng của nhiễu đối với tiếng nói AC/BC.
- Khôi phục tiếng nói AC từ BC.
- Mô hình LP.
- Phương pháp khôi phục mù dùng mô hình LP-GMM.
- Mô tả bài toán khôi phục BC thành AC trên CSDL tiếng Việt để áp
dụng cho các hệ thống sử dụng tiếng nói BC.
- Kết quả đánh giá khách quan và chủ quan đối với phương pháp phổ
chéo, Fourier, và phương pháp dùng mô hình LP-GMM.
- Đánh giá kết luận và đưa ra kiến nghị.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [4-9] để phân tích, đánh giá về phương pháp khôi phục mù tiếng
nói BC thành tiếng nói AC.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm để xác định phương pháp tối ưu với tiếng Việt.
6. Ý nghĩa khoa học của luận văn
Như đã trình bày trong phần 1, nghiên cứu khôi phục tiếng nói BC thành
tiếng nói AC có vai trò quan trọng, đặc biệt trong các hệ thống truyền thông
tiếng nói trong quân sự, công nghiệp hay các môi trường đặc biệt như dưới
nước. Đây là hướng nghiên cứu còn khá mới mẻ ở Việt Nam. Do vậy vấn đề
nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn.


4

CHƯƠNG I. TỔNG QUAN VỀ TIẾNG NÓI TRUYỀN TRONG
KHÔNG KHÍ VÀ TIẾNG NÓI TRUYỀN TRONG XƯƠNG
1.1. Tổng quan về tiếng nói
1.1.1. Nguồn gốc và phân loại tiếng nói.
Tiếng nói là phương tiện giao tiếp chính trong đàm thoại. Nếu phân tích
quá trình giao tiếp qua nhiều lớp thì lớp thứ nhất chính là âm thanh và lớp
cuối cùng là tiếng nói diễn tả ý nghĩa muốn nói.
Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung
quanh ta về bản chất đều là những sóng âm được lan truyền trong một môi
trường nhất định (thường là không khí). Khi chúng ta nói dây thanh trong hầu
bị trấn động tạo nên những sóng âm, sóng truyền trong không khí đến màng
nhĩ – một màng rất mỏng rất nhạy cảm của tai làm cho màng nhĩ cũng dao
động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số
giao động của sóng đạt đến một độ lớn nhất định. Tai con người chỉ cảm thụ
được những dao động có tần số từ khoảng 20Hz đến khoảng 20000Hz. Những
dao động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng
tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 20Hz gọi là sóng hạ
âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm những sóng
này con người không cảm nhận được. Sóng âm, sóng siêu âm và hạ âm không
chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường
rắn, lỏng. Do đó cũng được sử dụng nhiều trong các thiết bị máy móc hiện
nay. Câu nói, mỗi câu gồm nhiều từ, mỗi từ lại có thể có 1 hay nhiều âm tiết.
Ở tiếng Việt, số âm tiết được sử dụng vào khoảng 6700. Khi chúng ta phát ra
một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh
quản,… kết hợp với nhau để tạo thành âm thanh. Âm thanh phát ra được lan
truyền trong không khí để đến tai người nhận. Vì âm thanh phát ra từ sự kết
hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau thì hầu


5

như là khác nhau dẫn đến khó khăn khi muốn phân chia tiếng nói theo những
đặc tính riêng.

Hình 1.1. Mô phỏng quá trình truyền tiếng nói trong không khí
1.1.2. Quá trình tạo tiếng nói
a. Bộ máy phát âm

Hình 1.2. Bộ máy phát âm của con người
Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản,
thanh quản, và các đường dẫn miệng, mũi. Trong đó:
- Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh.


6

- Ống dẫn âm là một ống không đồng dạng bắt đầu từ môi, kết thúc
bởi dây thanh hoặc thanh quản. Ống có độ dài khoảng 17cm đối với người
bình thường.
- Khoang mũi cũng là ống không đồng dạng thuộc vùng cố định bắt đầu
từ mũi, kết thúc tại vòm miệng, đối với người bình thường khoang mũi có độ
dài 12 cm.
- Khoang miệng là các nếp da chuyển động có thể điều khiển sự ghép âm
thanh giữa khoang miệng và khoang mũi.
- Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng
cần thiết để tạo ra âm thanh.

Hình 1.3.Mô tả dây thanh âm
b. Cơ chế phát âm
Hình 1.2 mô tả bộ máy phát âm của con người. Năng lượng nguồn nằm ở
thanh môn, tuyến âm sẽ được kích thích bởi năng lượng nguồn tại thanh môn.
Tiếng nói được tạo ra sóng âm học do kích thích từ thanh môn phát ra đẩy
không khí có trong phổi lên tạo thành dòng khí va chạm vào hai dây thanh
trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm
sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau
khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói.


7

Trong quá trình phát âm, nếu là âm mũi thì vòm miệng hạ thấp và dòng
khí chỉ đi qua đường mũi, nếu là âm thường thì vòm miệng mở, đường mũi
khép lại và dòng khí đi theo khoang miệng ra môi.
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở,
khoang mũi đóng lại, dòng khí sẽ chỉ đi qua khoang miệng. Khi phát âm mũi,
vòm miệng hạ thấp và dòng khí sẽ chỉ đi qua khoang mũi.
Nói cách khác:
- Tần số rung của dây âm thanh xác định cao độ của tiếng nói
- Vị trí/ hình dạng của môi, lưỡi và mũi xác định âm sắc.
- Độ nén từ phổi xác định âm lượng của tiếng nói.
Chúng ta có thể nghĩ quá trình tạo tiếng nói của người như mô hình lọc
nguồn nơi mà nguồn là luồng không khí được tạo ra bởi các dây âm thanh và
bộ lọc bao gồm khoang yết hầu, mũi, miệng. Hình dưới đây cho thấy phổ tín
hiệu của mỗi giai đoạn.

Hình 1.4. Phổ tín hiệu của các giai đoạn
Nói chung, rung động đều đặn của dây thanh âm sẽ tạo ra âm thanh bán
tuần hoàn, mặt khác nếu luồng không khí không đều sẽ tạo ra âm vô thanh.


8

Chúng ta cũng có thể sử dụng sơ đồ khối để biểu diễn mô hình nguồn lọc
tạo tiếng nói:

Hình 1.5. Mô hình nguồn lọc tạo tiếng nói
1.2. Các đặc điểm của tiếng nói tiếng việt
1.2.1. Đặc tính âm học của tiếng nói
a. Âm hữu thanh
Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và chúng
rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra và sau
đó thanh môn xẹp xuống do không khí chạy qua. Do sự cộng hưởng của dây
thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần như tuần hoàn. Phổ của âm
hữu thanh có nhiều thành phần tại giá trị bội số của tần số cộng hưởng, còn
gọi là tần số cơ bản.
b. Âm vô thanh
Khi tạo ra âm vô thanh dây thanh không cộng hưởng. Âm vô thanh có
hai loại cơ bản là âm xát và âm tắc.
Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm trong
tuyến âm. Không khí khi đi qua điểm co thắt sẽ chuyển thành chuyển động
hỗn loạn tạo nên kích thích giống như nhiễu ngẫu nhiên. Thông thường điểm


9

co thắt xảy ra gần miệng nên sự cộng hưởng của tuyến âm ảnh hưởng rất ít
đến đặc tính của âm xát được tạo ra.
Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một số điểm
làm cho áp suất không khí tăng lên và sau đó được giải phóng đột ngột. Sự
giải phóng đột ngột này tạo ra kích thích nhất thời của tuyến âm. Sự kích
thích này có thể xảy ra với sự cộng hưởng hoặc không cộng hưởng của dây
thanh tương ứng với âm tắc hữu thanh hoặc vô thanh.
c. Âm vị
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt
ngôn ngữ và được mô tả bởi các âm vị khác nhau. Như vậy, âm vị là đơn vị
nhỏ nhất của ngôn ngữ. Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị
nhiều hay ít (thông thường số lượng các âm vị vào khoảng 20 – 30). Các âm
vị được chia thành hai loại: nguyên âm và phụ âm.
+ Nguyên âm
Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây
thanh khi dòng khí được thanh môn đẩy lên. Khoang miệng được tạo lập
thành nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau. Số
lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định.
+ Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những
điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Phụ âm có
đặc tính hữu thanh hay vô thanh tuỳ thuộc vào việc dây thanh có dao động để
tạo nên cộng hưởng không. Dòng không khí tại chỗ đóng của vòm miệng tạo
ra phụ âm tắc. Phụ âm xát được phát ra từ chỗ co thắt lớn nhất.


10

1.2.2. Các đặc tính khác
a. Tỷ suất thời gian
Trong khi nói chuyện, khoảng thời gian nói và khoảng thời gian nghỉ xen
kẽ nhau. Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ được gọi là
tỷ suất thời gian. Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có
thể phân loại thành nói nhanh, nói chậm hay nói bình thường.
b. Hàm năng lượng ngắn hạn
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia
tín hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu. Các khung này
được đưa qua một cửa sổ có dạng hàm như sau:

Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau:

Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ Hamming,
cửa sổ Hanning và cửa sổ chữ nhật. Hàm năng lượng thời gian ngắn của âm
hữu thanh thường lớn hơn so với âm vô thanh.
c. Tần số cơ bản
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó
biên độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại
gần như tuần hoàn). Phần tín hiệu có tính chu kỳ chứa các thành phần tần số
có dạng điều hòa. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần
số dao động của dây thanh. Đối với những người nói khác nhau, tần số cơ bản
cũng khác nhau. Dưới đây là một số giá trị tần số cơ bản tương ứng với từng
giới tính và độ tuổi.


11

Bảng 1.1: Giá trị tần số cơ bản tương ứng với giới tính và độ tuổi
Giá trị tần số cơ bản

Người nói

80 – 200 Hz

Nam giới

150 – 450 Hz

Nữ giới

200 – 600 Hz

Trẻ em

d. Formant
Với phổ của tín hiệu tiếng nói, mỗi đỉnh có biên độ lớn nhất xét trong
một khoảng nào đó (cực đại khu vực) tương ứng với một formant. Ngoài tần
số, formant còn được xác định bởi biên độ và dải thông. Về mặt vật lý, các
formant tương ứng với các tần số cộng hưởng của tuyến âm. Trong xử lý
tiếng nói và nhất là trong tổng hợp tiếng nói, để mô phỏng lại tuyến âm người
ta phải xác định được các tham số formant đối với từng loại âm vị, do đó việc
đánh giá, ước lượng các formant có ý nghĩa rất quan trọng.
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính
của người nói và phụ thuộc vào các dạng âm vị tương ứng với formant đó.
Đồng thời, formant còn phụ thuộc các âm vị trước và sau đó. Về cấu trúc tự
nhiên, tần số formant có liên hệ chặt chẽ với hình dạng và kích thước tuyến
âm. Thông thường phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ
có 3 formant đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị,
các formant còn lại cũng có ảnh hưởng song rất ít.
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào
người nói trong điều kiện phát âm nhất định. Mặc dù phạm vi của các tần số
formant tương ứng với mỗi nguyên âm có thể trùm lên nhau nhưng vị trí giữa
các formant là không đổi vì sự xê dịch của các formant là song song.


12

1.2.3. Đặc điểm của thanh điệu tiếng Việt
Đối với tiếng Việt thì mỗi cách viết chỉ có duy nhất một cách đọc. Tuy
nhiên, một trong những khó khăn lớn nhất của tiếng Việt chính là vấn đề
thanh điệu. Việc mỗi nguyên âm có 6 thanh (ngang, sắc, huyền, ngã, hỏi,
nặng) lại làm cho việc tổng hợp gặp những khó khăn khác. Việc đọc không
dấu chúng ta hầu hết có thể hiểu được nhưng như vậy vẫn có thể gây ra
những hiểu lầm. Tuy nhiên, nếu ta đã sinh được sóng âm cho tiếng Việt
không dấu, thì ta có thể biến đổi sóng âm đó để thu được sóng âm thể hiện
tiếng Việt có dấu.
Một âm tiết tiếng Việt khi đọc có 5 loại âm thanh: âm đầu (phụ âm), âm
trung bình (bán nguyên âm), âm trung tâm (nguyên âm hoặc nguyên âm đôi),
âm cuối (nguyên âm hoặc bán nguyên âm) và thanh điệu (dấu). Khi thay các
thanh điệu vào cùng từ, giá trị F0 thay đổi như sau:[1]
 Với thanh ngang, giá trị F0 bắt đầu lớn nhất và duy trì cho tới khi kết
thúc âm tiết.
 Thanh huyền giá trị F0 bắt đầu thấp hơn thanh ngang, thanh sắc và
thanh ngã.
 Thanh ngã giá trị F0 bắt đầu cao, tới giữa âm tiết thì giảm xuống, và
tăng lên cao nhất khi đến cuối âm tiết. Trong hầu hết các trường hợp, các âm
tiết có thanh ngã có giá trị F0 cực tiểu rơi vào khoảng giữa đến 2/3 của F0 tại
thời điểm ban đầu.
 Thanh hỏi giá trị F0 giảm dần đến khoảng 2/3 giá trị F0 ban đầu rồi
tăng trở lại.
 Thanh sắc giá trị F0 giữ ổn định trong khoảng 2/3 thời gian của âm tiết
rồi sau đó tăng nhanh.
 Thanh nặng giá trị F0 giảm nhanh và thời gian kéo dài thường chỉ bằng
2/3 thời gian các thanh khác.


13

Dưới đây là đồ thị mô tả sự biến thiên của giá trị F0 các thanh và ví dụ
với việc ghi âm chữ “chi” cùng với 6 thanh lần lượt là ngang, huyền, ngã, hỏi,
sắc, nặng. [17]

Hình 1.6. Sự thay đổi của F0 khi các thanh đi với chữ “Chi”
1.2.4. Ngữ điệu của tiếng nói trong Tiếng Việt
Các ngôn ngữ không có thanh điệu bản thân các âm tiết không phân biệt
nhau về âm vực. Chỉ khi từ ngữ đi vào cấu tạo câu thì âm tiết mới có cao độ:
thấp, cao, trung bình. Kết quả của việc biến đổi cao độ làm cho câu có âm
điệu, có đường nét lên xuống khác nhau tức là có ngữ điệu. Diễn biến cao độ
đó diễn ra trong suốt quá trình câu được phát ra khiến người ta xác định được
các mẫu ngữ điệu (Xuống – Lên, Lên – Xuống), các mẫu này sẽ làm nên các
đường nét khiến người ta có thể xác định được các loại hình câu (tường thuật


14

hay nghi vấn, phủ định hay khẳng định…). Còn đối với tiếng Việt, bản thân
các âm tiết đã bao gồm trong đó các tiêu chí âm điệu của thanh điệu nên một
câu tiếng Việt luôn có các đường nét lên xuống.
Các thành tố của ngữ điệu Việt
Đường nét của ngữ điệu Việt thường được tạo nên bởi sự phân bố (hay
biến đổi) của bốn thành tố cơ bản là cao độ, cường độ (năng lượng) và trường
độ, nhịp độ.
+ Cao độ (Pitch): Ngữ điệu tiếng Việt được tạo thành từ sự biến đổi
ngưỡng âm vực thanh điệu của hình tiết. Hình tiết tiếng Việt là nơi chứa thanh
điệu. Mỗi hình tiết đều mang một thanh điệu nhất định. Mỗi thanh điệu lại
mang hai thông số là âm vực (cao độ) và âm điệu (diễn biến của cao độ). Cao
độ là độ trầm bổng của âm thanh, chính là tần số sóng cơ học của âm thanh.
Đối với tiếng nói, tần số dao động của dây thanh âm quy định độ cao giọng
nói của con người. Mỗi người có một độ cao giọng nói khác nhau, độ cao của
nữ giới thường cao hơn nam giới và độ cao của trẻ em thường cao hơn của
người lớn. Cao độ giọng nói cũng thay đổi với những trạng thái biểu lộ cảm
xúc khác nhau. Cao độ là yếu tố cơ bản tạo nên những hiện tượng ngữ điệu
như: thanh điệu, sắc thái biểu cảm và cả trọng âm. Cao độ (pitch) đem đến
cặp nét khác biệt ngữ điệu đầu tiên là Cao/Thấp.
+ Cường độ (Intensity): là độ to nhỏ của âm thanh. Cường độ càng lớn
thì âm thanh có thể truyền đi được càng xa. Xét trên phương diện sóng cơ học
thì cường độ chính là biên độ của dao động sóng âm, nó quyết định năng
lượng của sóng âm. Cường độ âm thanh được đo bằng đơn vị Decibel (dB).
Cường độ là yếu tố chính tạo nên hiện tượng trọng âm, sự phân bố của cường
độ chính là trọng âm. Trọng âm là một đơn vị của ngôn điệu, trọng âm có vai
trò quan trọng trong việc tạo lập ngữ điệu. Việc một âm tiết nào đó vừa mang
tính trọng âm, vừa mang thuộc tính của ngữ điệu là một việc hoàn toàn bình


15

thường trong Việt ngữ. Ngữ điệu tiếng Việt là loại mang ngữ điệu mang đậm
tính chất cường độ chứ không đơn giản chỉ là sự biến thiên của cao độ cố hữu
của thanh điệu. Sự đối lập về cường độ (intensity) hay độ lớn (loundness)
đem đến nét khu biệt ngữ điệu thứ hai là Mạnh/Yếu. Cường độ thông thường
là cao nhất cho giận dữ và thấp nhất cho cảm xúc buồn.
+ Trường độ (Duration): là cảm xúc ngữ điệu theo thời gian hay là độ
dài của âm thanh thể hiện qua tốc độ phát âm. Nó tạo nên sự tương phản giữa
các bộ phận của lời nói. Biến đổi về cao độ đưa đến kết quả là có tiếng trầm,
tiếng bổng ở trong câu, biến đổi về cường độ cho ta câu nói có “tiếng bấc,
tiếng chì”, còn biến đổi về trường độ cho ta câu có thêm tiếng ngắn, tiếng dài.
Đặc trưng trường độ chính là nét khu biệt của ngữ điệu học, đặc trưng này
hoạt động rất yếu ớt trong ngữ điệu các ngôn ngữ phi thanh điệu Âu châu. Vì
vậy, nó thường được nói đến như ngữ điệu cá nhân, liên quan đến tâm lý, giới
tính,… của người nói, hoàn cảnh nói và nội dung câu nói. Trong tiếng Việt,
trường độ là một thuộc tính có vai trò quan trọng không kém cao độ và cường
độ. Sự đối lập về trường độ (duration) hay độ dài (lengh) đem đến nét khác
biệt ngữ điệu thứ ba là Dài/Ngắn. Ta có thể thấy thời gian phát âm thường là ít
nhất với cảm xúc giận dữ (nói rất nhanh) và nhiều nhất với cảm xúc buồn bã
(nói chậm).
+ Nhịp độ (Tempo): là diễn biến của các âm đoạn trên trục thời gian
theo cách chúng bị ngắt quãng (cách quãng, đứt quãng, gián đoạn,…) hay liền
mạch (liên tục, không đổi, không nghỉ,…), nó khác với tốc độ (sự nhanh
chậm), nhịp điệu là sự đều đặn. Nhịp độ ở các ngôn ngữ Âu châu hoạt động
không nhiều, còn đối với Việt ngữ gần như là bắt buộc vì nó còn liên quan
đến nghĩa của câu. Nhịp độ có liên quan chặt chẽ đến trường độ. Tóm lại, biến
đổi về nhịp độ cũng là một nhân tố góp phần làm nên ngữ điệu tiếng Việt. Sự
đối lập về nhịp độ (tempo) đem đến nét khác biệt ngữ điệu thứ tư là Ngắt
(quãng)/Liền (mạch).


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×