Tải bản đầy đủ

Nén âm thanh tiếng nói dải rộng (audio hifi)

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

─────── * ───────

BÁO CÁO BÀI TẬP LỚN
MÔN HỌC: XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN

ĐỀ TÀI 17
Nén âm thanh tiếng nói dải rộng (audio HiFi)
Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Hoàng Lan
Nhóm sinh viên thực hiện:
Trần Văn Tùng
Nguyễn Tú Chi
Chu Thế Anh
Chu Văn Huy

20122760
20121301
20121177
20121786



Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Mục lục

Danh mục hình vẽ

2


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Lời nói đầu
Trong học phần Xử Lý Dữ Liệu Đa Phương Tiện này chúng em được học về
dữ liệu đa phương tiện và các phương pháp xử lí dữ liệu dùng trong nén, giải nén dữ
liệu đa phương tiện. Dữ liệu đa phương tiện bao gồm văn bản, hình ảnh, các đối
tượng đồ họa (bao gồm bản vẽ, phác thảo và hình minh họa) các chuỗi hình ảnh
động, âm thanh và video. Trong đó nén âm thanh audio là một công nghệ vô cùng
quan trọng. Tại sao ta phải nén audio? Những file audio gốc với dung lượng lớn khó
truyền tải, lưu trữ nếu không có nén. Tùy theo nhu cầu và các kĩ thuật thực hiện,
chúng ta đã phát minh ra nhiều chuẩn nén audio khác nhau, phù hợp với nhiều mục
đích sử dụng.
Chính vì vậy nhóm em đã chọn đề tài “Nén âm thanh tiếng nói dải rộng
(Audio HiFi) để tìm hiểu, và trình bày trong báo cáo này. Tuy nhóm đã rất cố gắng
tìm hiểu, thực hiện đề tài, nhưng không thể tránh khỏi những sai sót, và hạn chế về
mặt hiểu biết, nên rất mong được cô nhận xét, đánh giá để chúng em rút kinh
nghiệm.
Chúng em xin chân thành cảm ơn!

3


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Phần 1. Tín hiệu âm thanh dải rộng
1.1. Đặc điểm âm thanh dải rộng
Âm thanh có bản chất là tín hiệu, dựa trên dải tần của tín hiệu người ta chia
thành 2 loại như sau:
• Âm thanh dải tần cơ sở (âm thanh tiếng nói thoại) với dải tần số từ 300Hz

đến 4KHz.
• Âm thanh tiếng nói dải rộng (tiếng nói trình diễn, hát, âm nhạc …) với dải
tần số từ 100Hz đến 20KHz
Tiếng nói thoại

Tiếng nói dải rộng

Giới hạn dải phổ tín hiệu

4kHz

Tần số lấy mẫu

Fs = 8 kHz, Ts= 125µs

20kHz
Fs = 44.1 kHz
Fs chuyên dụng = 48 kHz

Lượng tử hóa

8 bit

16, 20 bit

Tốc độ cần thiết

8bits x 8 kHz= 64Kbit/s

176Kbyte/s

Các chuẩn nén GSM

15,2Kbit/s, ADPCM: 32Kbit/s

MPEG-1, MPEG-2, MPEG-3

Hình 1. So sánh giữa tiếng nói thoại và tiếng nói dải rộng

Âm thanh đầu vào của quá trình nén MP3 là âm thanh dải rộng. Âm thanh dải
rộng là một công nghệ âm thanh được sử dụng phổ biến trong điện thoại và mở rộng
phạm vi tần số của tín hiệu âm thanh truyền qua đường dây điện thoại với phạm vi
của tiếng nói của con người kéo dài từ 80Hz đến 14 kHz. Âm thanh tiếng nói dải
rộng giới hạn về băng thông và truyền thông với phạm vi tần số từ 50 Hz đến 7 kHz.
Âm thanh dải rộng được đưa ra nhằm cải thiện chất lượng cũng như độ tự nhiên của
âm thanh bằng cách mở rộng dải phổ so với tiếng nói thoại bình thường. Việc mở
rộng tần số âm thanh được áp dụng rất nhiều trong mạng điện thoại cũng như trong
4


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
âm nhạc, trong mạng điện thoại từ dải tần cơ bản để cải thiện chất lượng người ta đã
mở rộng lên dải tần 200-700Hz, còn trong âm nhạc có thể nên tới 20kHz.

1.2. Mô hình cảm thụ âm thanh
Thính giác của con người có mô hình giống như bộ lọc băng thông với 25 bộ
lọc con được xếp chồng lên nhau với tần số từ 0- 20 kHz. Tai người không thể phân
biệt những âm thanh ở cùng một dải tần và xảy ra cùng một lúc. Mỗi dải được gọi là
một dải tần tới hạn. Độ rộng của mỗi dải tần tới hạn là khoảng 100Hz đối với tín
hiệu số dưới 500 Hz và tăng tuyến tính với tín hiệu có tần số từ 500 Hz đến 5000
Hz.
Dựa vào đặc điểm của tai người nghe mà người ta xây dựng nên mô hình cảm thụ
âm thanh. Trong đó các đặc điểm được sử dụng như ngưỡng nghe, cảm nhận con
người về mức độ ồn, các hiện tượng che…

1.2.1.

Độ ồn và ngưỡng nghe tối thiểu

Đơn vị thể hiện độ lớn của âm thanh theo như con người cảm nhận thấy gọi là
độ ồn. Giá trị này phụ thuộc nhiều vào cảm giác của con người về cường độ của âm
thanh vì vậy việc đo lường là không hề dễ dàng. Có nhiều yếu tố của độ ồn mà ta
cần chú ý đến khi khi xây dựng bộ mã hóa âm thanh. Một trong những yếu tố đó là
ngưỡng nghe tối thiểu:
-

Là mức mà dưới nó âm thanh không thể nghe được.
Thay đổi theo tần số âm thanh.
Có tính thích nghi.

Một yếu tố khác đó là cách mà cơ chế cảm nhận âm thanh của con người phát
hiện ra sự thay đổi của độ ồn khi mà các thông số khác như phổ và chu kì là không
đổi.
Các công thức liên quan:
-

Mức độ sức ép âm thanh của một nguồn âm thanh với cường độ I

5


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

-

Độ lớn âm thanh mà con người cảm nhận được H và cường độ âm thanh I

(2.7)
Tính chất quan trọng nhất của độ ồn là sự phụ thuộc của độ ồn vào tần số. Để
duy trì một độ ồn như nhau khi tần số âm thanh thay đổi ta sẽ phải sử dụng các
cường độ âm thanh khác nhau. Chẳng hạn như để duy trì cùng một độ ồn của một tín
hiệu tần số thấp với một tín hiệu khác có tần số cao thì tín hiệu tần số thấp cần có
cường độ lớn hơn nhiều. Mức cường độ tương ứng mà mỗi tần số cần có để độ ồn
bằng một giá trị cho trước được gọi là mức độ ồn cân bằng. Tất cả những mức độ ồn
cân bằng của những cường độ tuyệt đối khác nhau hợp thành đường độ ồn cân bằng.
Ví dụ: ở mức 20 phon (1 phon là đơn vị cường độ 1dB khi tần số là 1kHz) ta thấy
rằng một tín hiệu với tần số 50Hz cần phải có cường độ lớn hơn 30dB so với một tín
hiệu ở 1kHz để tạo ra cùng một độ ồn. Đường cong thấp nhất trong hình được gọi là
trường nghe tối thiểu và tương ứng với một ngưỡng nghe được trung bình của con
người.

6


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Hình 2. Mức sức ép âm thanh cần thiết ở từng tần số

1.2.2.

Hiện tượng che

Một tính chất cơ bản khác của thính giác con người mà các phương pháp mã
hóa âm thanh hay lợi dụng đó là hiện tượng che. Đây là hiện tượng khi một hoặc
một số âm thanh tuy tồn tại trong không gian (vẫn nằm trong dải tần mà con người
có thể cảm nhận được) nhưng ta không thể nghe thấy do một số lý do nhất định
(biên độ nhỏ hoặc bị âm thanh khác lấn át mất).

Hình 3. Hiện tượng che.

Theo những thử nghiệm của Fletcher về ảnh hưởng của hiện tượng che và vai
trò của những thông số như phổ, mức độ và chu kì của tín hiệu che thì những âm
thanh với tần số cao dễ bị che hơn là những âm thanh với tần số thấp. Điều này
nghĩa là nếu ta mã hóa một tín hiệu âm thanh là hợp của nhiều nguồn với tần số khác
nhau thì hiện tượng che sẽ khiến ta có cảm giác rằng những tín hiệu ở tần số thấp
được tăng mức cường độ (do các tín hiệu ở tần số cao dễ bị che phủ hơn và gây cho
7


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
người nghe cảm giác là nó có cường độ thấp hơn). Nếu tín hiệu che được tiếp nhận
bởi một tai còn tín hiệu bị che được tiếp nhận độc lập bởi tai còn lại thì ta sẽ không
cảm thấy cường độ các âm tần số thấp được tăng lên.
Phân loại hiện tượng che:
a) Hiện tượng che theo tần số

Hiện tượng che đối với các âm thanh phức tạp hợp của nhiều âm thanh đơn lẻ
không chỉ là sự hợp nhất của kết quả trên từng âm thanh đơn lẻ mà còn là kết quả
của tổng cũng như sự chênh lệch giữa các âm thanh đó. Phổ của tín hiệu che luôn
đóng một vai trò quan trọng trong quá trình che, một tín hiệu đơn nhất (tức là phổ
chỉ bao gồm 1 đường) có thể đóng vai trò như 1 tín hiệu che.
Các tín hiệu tần số thấp có thể che phủ các tín hiệu tần số cao nhưng các tín hiệu
tần số cao không thích hợp để đóng vai trò tín hiệu che cho các tín hiệu tần số thấp.
Khi cường độ của tín hiệu che tăng lên, tác dụng che phủ của nó chỉ tăng về phía
các tín hiệu có tần số cao mà không tăng về phía các tín hiệu có tần số thấp, hơn
nữa các tín hiệu che ở tần số thấp có khoảng che phủ cao hơn nhiều so với các tín
hiệu có tần số cao.
⇒ Các tín hiệu che tần số thấp có thể ảnh hưởng lên một vùng tần số rộng hơn

nhiều so với khả năng của tín hiệu che có tần số cao

Hình 4. Hiện tượng che theo tần số

Ngưỡng che phủ của một giai điệu là tỉ lệ thuận với cả băng thông của nhiếu che,
tuy nhiên khi tín hiệu che đạt đến một độ rộng nhất định thì tác dụng che phủ của
nó không tăng thêm nữa. Điều này cho phép đặt ra giả thuyết rằng mỗi bộ lọc nghe
được có một vùng găng xác định. Fletcher định nghĩa vùng găng như là tỉ lệ giữa

8


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
cường độ của tín hiệu và cường độ của nhiễu, thể hiện bằng độ chênh lệch tính bằng
dB giữa tín hiệu âm thanh và tín hiệu che.
b) Hiện tượng che trên miền thời gian

Với hiện tượng che về mặt tần số hai âm thanh cùng xuất hiện đồng thời thì hiện
tượng che về mặt thời gian hai âm thanh che và bị che có thể xuất hiện ở các thời
điểm khác nhau. Hiện tượng che về mặt thời gian có thể chia làm 2 loại:

Hình 5. Hiện tượng che trên miền thời gian

Che thuận: Tín hiệu che xuất hiện trước tín hiệu bị che. Với hiện tượng che thuận
khi âm thanh che có cường độ lớn xuất hiện thì sau đó một lúc tai ta mới có thể
nghe được âm thanh khác. Nếu âm thanh bị che xuất hiện trong khoảng thời gian
này thì ta không thể nghe thấy được. Đây là dạng thường thấy của hiện tượng che
về mặt thời gian. Hiện tượng này xuất hiện khi khoảng cách giữa 2 tín hiệu che và
bị che là nhỏ hơn 200 ms.
Che ngược: Tín hiệu che xuất hiện sau tín hiệu bị che. Đây là hiện tượng âm thanh
che sẽ che mất phần cuối của âm thanh trước đó được phát ra. Hiện tượng này ít
xảy ra hơn và ngược chỉ có thể xảy ra khi mức độ của tín hiệu che cao hơn tương
đối nhiều so với mức độ của tín hiệu âm thanh bị che phủ và khoảng cách thời gian
giữa 2 tín hiệu này nhỏ hơn 25ms. Mặc dù tín hiệu âm thanh tới tai trước nhưng do
não bộ lại xủa lý tín hiệu che (có độ ồn cao) trước nên hiện tượng che ngược xuất
hiện.
c) Hiện tượng che chênh lệch

9


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
Hiện tượng này xuất hiện khi tín hiệu che đến một bên tai còn tín hiệu còn lại
đến tai còn lại. Khi cường độ của tín hiệu che tăng đến một ngưỡng nào đó, nó có
thể che phủ được tín hiệu âm thanh ở bên tai còn lại. Hiện tượng che chênh lệch có
hiệu quả thấp hơn rất nhiều so với hiện tượng che cùng một bên tai. Tuy nhiên
trong trường hợp này, các tín hiệu ở tần số cao lại có tác dụng che phủ lớn hơn
nhiều so với các tín hiệu ở tần số thấp (tín hiệu che cần phải có biên độ lớn hơn rất
nhiều so với tín hiệu bị che).

10


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Phần 2. Phương pháp nén Audio kết hợp mô hình
cảm thụ âm thanh
2.1. Quá trình nén Audio

Hình 6. Quá trình nén Audio

Trong hình ở trên ta có thể thấy các bước chính của quá trình nén.Tín hiệu
đầu vào được chia ra thành nhiều dải tần số khác nhau, trải rộng trên khắp phổ tần
số. Sau khi thực hiện xong việc phân chia, ta có thể xử lí từng dải tần số đó một cách
riêng rẽ, dựa vào các đặc điểm của quá trình cảm nhận âm thanh của cơ quan thính
giác của con người và từ ảnh hưởng che của các dải tần số xung quanh, từng dải sẽ
có một ngưỡng nghe mới nhất định. Nếu như dải nào có cường độ thấp hơn ngưỡng
nghe đó thì ta có thể loại bỏ nó đi (vì dải này đã bị che bởi các dải lân cận và tai
người không thể cảm nhận được nó nữa). Đối với những dải có cường độ cao hơn
ngưỡng nghe mới thì quá trình mã hóa sẽ được thực hiện. Tín hiệu có cường độ càng
cao thì con người sẽ càng cảm nhận được nó một các rõ ràng, vì vậy nó sẽ được mã
hóa bởi nhiều bit hơn so với những tín hiệu có cường độ thấp. Cuối cùng, bộ mã hóa
sẽ thực hiện việc format dòng dữ liệu, giảm thiểu kích thước dữ liệu và tổ chức
chúng thành các dòng bit dữ liệu để bộ giải mã có thể hiểu được. Ngoài ra bộ mã
hóa cũng sẽ bổ sung thêm một số thông tin điều khiển để đảm bảo rằng quá trình
11


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
nhận dạng dữ liệu có thể được thực hiện một cách dễ dàng, các thông tin được bổ
sung có thể là tần số lấy mẫu hay tần số bit…. Ở bước này nếu cần thiết ta cũng có
thể bổ sung thêm các thông tin phát hiện và sửa lỗi.


Khối Time/Frequency Mapping

Khối có đầu vào là tín hiệu gốc. Được sử dụng để chia tín hiệu đầu vào thành các
subband. Khối này thường là băng lọc với nhiều bộ lọc với đáp ứng tần số khác
nhau.


Khối Psychoacoustic Model

Khối này có đầu vào là tín hiệu gốc và tín hiệu sau khi đã được chia thành các
subbands. Khối được sử dụng để tính toán các hiệu ứng che của tín hiệu đưa vào dựa
vào mô hình cảm thụ âm thanh của con người. Từ đó tính ra masking level cho mỗi
bang tần và đưa tới khối lượng tử hóa để tiến hành lượng tử hóa.


Khối lượng tử hóa và mã hóa (Quantizer and Coding)

Khối có đầu vào là các subband được chia sau khi tín hiệu gốc đi qua băng lọc và
các hiệu ứng che được tính toán từ khối Psychoacoustic Model. Nhiệm vụ của khối
này là tiến hành lượng tử hóa tín hiệu trên các subbands một cách phù hợp sao cho
số bit sử dụng cho mỗi subband là ít nhất (tất nhiên vẫn cần đảm bảo chất lượng tín
hiệu) và sau đó mã hóa tín hiệu trên các subband với các phương pháp mã hóa như
huffman, mã hóa đại số …
Ví dụ: Giả sử ta có một tín hiệu mà 16 dải tần số đầu tiên có cường độ như ở
bảng dưới đây:

Với cường độ là 60dB, tín hiệu dải tần thứ 8 sẽ gây ra hiện tượng che làm
ngưỡng nghe ở dải 7 chở thành 12dB và ngưỡng nghe ở dải 9 trở thành 15dB Vì
cường độ tín hiệu ở dải 7 chỉ là 10dB nên ta không cần mã hóa dải này mà bỏ qua nó
luôn. Vì cường độ dải 9 là 35dB nên ta cần phải mã hóa dải này.

12


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
Ta có sai số lượng tử với trường hợp lượng tử đều và bước lượng tử là Q gần như
xấp xỉ với phân bố đều trong khoảng ( với phương sai là (Đây là nhiễu gây ra do
lượng tử)
Giả sử tín hiệu gốc có phân phối đều trên khoảng B. Với R bits/mẫu ta sẽ có mức
lượng tử có thể sử dụng. Mối liên hệ giữa bước lượng tử Q và R :
Nhiễu do lượng tử hóa sẽ giảm đi 6 dB với việc ta sử dụng thêm một bit cho việc
lượng tử :

Như ta đã biết mỗi subband có ngưỡng che riêng (masking threshold – masking
level). Khối lượng tử hóa làm nhiệm vụ lượng tử tín hiệu của mỗi subband với đủ số
bit để duy trì khoảng cách giữa nhiễu do lượng tử và ngưỡng che của mỗi subband
(giữ cho nhiễu lượng tử nhỏ hơn ngưỡng che của subband để các thành phần nhiễu
này không thể nghe thấy được bởi tai con người). Như vậy ta có thể giảm được số
bit cần để lượng tử hóa mỗi mẫu tín hiệu của subband tùy thuộc vào ngưỡng che của
subband tương ứng nhờ vậy ta có thể tăng được hiệu quả nén dữ liệu (việc giảm mỗi
bit làm tăng nhiễu lượng tử lên 6 dB ta cần giữ cho giá trị nhiễu này nhỏ hơn
ngưỡng che). Bên cạnh đó, ta cũng thấy được một trong những giới hạn của mã hóa
tín hiệu âm thanh là khi nhiễu do lượng tử hóa vượt quá ngưỡng che và trở thành
một phần của tín hiệu âm thanh mà tai có thể nghe được. Ta luôn phải cố gắng giảm
số bit sử dụng để lượng tử hóa giá trị của mẫu sao cho giá trị của nhiễu do lượng tử
xấp xỉ với giá trị của ngưỡng che nhưng luôn phải nhỏ hơn giá trị của ngưỡng che.
Sau khi tiến hành lượng tử hóa với số bit tương ứng cho từng subband ta tiến hành
encode cho từng subband bằng các phương pháp mã hóa đã nêu.


Khối Frame Packing
13


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
Dữ liệu sau khi ta lượng tử và mã hóa được đưa vào khối này để đóng gói thành các
frame và chuyển đi trong hệ thống mạng.

2.2. Mã hóa Audio HiFi dựa trên mô hình cảm thụ âm thanh.
Nén audio kết hợp với mô hình cảm nhận âm thanh là phương pháp giảm lượng dữ
liệu cần thiết khi số hóa các tín hiệu âm thanh. Điểm khác biệt giữa phương pháp
này và các phương pháp nén thông thường khác đó là mặc dù những âm thanh bị cắt
bỏ có thể dễ dàng bị nhận ra nếu ta phát nó riêng rẽ nhưng chúng lại không thể được
nghe thấy nếu như ta phát toàn bộ tín hiệu ban đầu. Phương pháp này ưu việt hơn
những phương pháp nén khác ví dụ như nó khác với ADPCM ở chỗ nó có thể dựa
vào cơ chế cảm nhận âm thanh của tai người nhằm làm tăng tỉ số nén. Cơ sở của
phương pháp nén này là một số tín hiệu âm thanh có khả năng gây kích thích mạnh
lên não bộ và khiến não bộ bỏ qua không xử lí những tín hiệu âm thanh khác.Nghĩa
là một âm thanh có thể che lấp những âm thanh khác, vì vậy ta có thể lợi dụng điểm
này và bỏ qua không mã hóa những âm thanh đó.

14


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Phần 3. Phân tách các dải tần con trong nén audio
theo chuẩn MP3
3.1. Kỹ thuật phân tách tín hiệu nguồn thành tín hiệu trên các
dải tần con
Bao gồm các bộ lọc thông dải dùng để phân tích tín hiệu số audio số thành tín hiệu
thành phần với tần số lấy mẫu nhỏ hơn 32 lần

Hình 7. Sơ đồ phân tách tín hiệu thành các dải tần con

Đầu vào của hệ thống băng lọc là mẫu tín hiệu âm thanh PCM được kí hiệu là s(n)
Tín hiệu PCM này được đưa qua băng lọc thông dải với 32 dải tần con phụ thuộc
vào tần số Nyquist của tín hiệu PCM
-

Nếu lấy tần số lấy mẫu của tín hiệu PCM là 44,1 kHz thì tần số Nyquist sẽ là

22,05 kHz.
-

Mỗi dải tần con sẽ có độ rộng xấp xỉ 22050 Hz/32=689 Hz như vậy subband

đầu tiên có dải tần từ 0 - 689 Hz, tiếp theo là 689 -1378 Hz.
Tín hiệu có tần số lấy mẫu là 44,1kHz có dải tần 0 - 22,05 kHz sẽ được băng lọc
phân tách thành 32 tín hiệu dải tần con. Đầu ra của hệ thống là 32 tín hiệu dải tần
con theo sơ đồ có nghĩa là tần số lấy mẫu mỗi dải tần giảm theo một nhân tố 32 hay
15


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
chu kỳ lấy mẫu tăng 32 như vậy đầu ra của hệ thống cung cấp 32 tín hiệu mà mỗi tín
hiệu là một dải tần con của tín hiệu gốc
Từ sơ đồ trên ta có:
-

32 tín hiệu được đưa vào bộ đệm là chuỗi gồm 512 phần tử x[n] sao cho

-

Tín hiệu ở đầu ra được xác định theo công thức
với

-

C[i] là 512 hệ số của bộ lọc thông thấp

3.2. Quá trình MDCT
Đối với audio theo chuẩn MP3(MPEG1 layer 3) tín hiệu sau khi đi qua băng lọc
thông dải để phân tách thành 32 tín hiệu dải tần con thì còn 1 quá trình MDCT trước
khi lượng tử hóa

Hình 8. Sơ đồ nén audio MP3

16


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Hình 9. Sơ đồ mô phỏng băng lọc được sử dụng trong khối Analysis Filterbanks

Phương pháp nén audio theo chuẩn MP3 thực hiện việc chia tín hiệu nguồn thành
các tín hiệu trên các dải tần con khác nhau bằng cách sử dụng một băng lọc song
song cách đều nhau chứa 32 bộ lọc phân tích (Khối Analysis Filterbanks). Tín hiệu
nguồn là: tín hiệu audio PCM, 1 chuỗi 1152 mẫu PCM được lọc bởi băng lọc song
song cách đều chứa 32 subband, mỗi subband lại chứa 36 mẫu subband như hình
dưới :

Trong nén MP3 sau khi tín hiệu nguồn được chia thành các tín hiệu trên các dải tần
con khác nhau bởi băng lọc thì nó sẽ được ánh xạ vào một MDCT, trước khi quá
trình biến đổi trong MDCT xảy ra các subband sẽ được áp dụng một loại cửa sổ, cửa
sổ dài hay ngắn được áp dụng tùy thuộc vào mỗi subband và quyết định chọn cửa sổ
nào đc áp dụng phụ thuộc vào khối Masking Thresholds. Với mỗi subband đc áp
dụng cửa sổ dài sau khi qua MDCT sẽ sản sinh ra 18 dòng tần số. Và các subband
17


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
được áp dụng cửa sổ ngắn sẽ sinh ra thêm 3 nhóm của 6 tần số. Công thức cho đầu
ra của khối MDCT được xác định

N = 36, k = 1…N/2
Trong đó h(n) là hàm cửa sổ truyền đạt được chọn 1 trong 4 loại cửa sổ dựa theo mô
hình cảm thụ âm thanh Do có sự chồng cửa sổ lên nhau 50% nên kích thước cửa sổ
là 36 mẫu cho khối dài và 12 mẫu cho khối ngắn.
⇒ Như vậy đầu ra của khối MDCT sẽ có 18*32 = 576 tín hiệu.

Cửa sổ dài được áp dụng nhằm tăng cường độ phân giải phổ được đưa ra bởi MDCT
Cửa sổ ngắn: chứa 3 cửa sổ ngắn gối lên nhau có tác dụng tăng cường độ phân giải
thời gian được đưa ra bởi MDCT. Dưới đây là hình ảnh của 1 cửa sổ dài và 3 cửa sổ
ngắn:

Hình 10. Cửa sổ dài và cửa sổ ngắn

18


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Phần 4. Xây dựng thuật toán và thử nghiệm
4.1. Ý tưởng


Analisys subbands filter

Lấy thông số tín hiệu PCM từ file (.wav), xử lý tín hiệu dựa theo khối analisys
subband filter chia mỗi 1152 tín hiệu đầu vào thành 64 đầu ra ứng với 32 subband x
2 kênh truyền, mỗi một đầu ra gồm 18 tín hiệu.
Đầu vào của thuật toán là 1152 tín hiệu PCM chia thành 2 kênh, mỗi kênh có 576 tín
hiệu được chia thành 18 phần cho 18 tín hiệu đầu ra.

Hình 11. Ý tưởng thuật toán

Mỗi phần là 32 tín hiệu PCM để cho ra 32 tín hiệu qua xử lý chia đều cho 32
subband filter
-

32 tín hiệu được đưa vào bộ đệm là chuỗi gồm 512 phần tử x[n] sao cho

-

Tín hiệu ở đầu ra được xác định theo công thức:

19


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

với
C[i] là 512 hệ số của bộ lọc thông thấp
Như vậy từ đầu vào x[2][576] (2 kênh, 576 tín hiệu PCM/kênh) thì tại đầu ra ta có
bảng S[2][32][18] (2 kênh, 32 subband, 18 tín hiệu).


Khối MDCT

Ở mỗi subband sau khi xử lý 2 khối 1152PCM ta được 36 tín hiệu đầu vào cho
khối xử lý MDCT, từ 36 tín hiệu này ta tạo ra 6 cửa sổ (1 long window, 1 start
window, 1 stop window, 3 short window), sau đó biến đổi fourier 36 tín hiệu ở mỗi
cửa sổ làm giảm số lượng mẫu còn 18 tín hiệu cho mỗi cửa sổ (việc chọn cửa sổ
trong chương trình nén MP3 phụ thuộc vào mô hình cảm thụ âm thanh, thuật toán
này chỉ tính toán dữ liệu các cửa sổ sẽ có).
Công thức cho đầu ra của khối MDCT được xác định
N = 36, k = 1…N/2
Trong đó h(n) là hàm cửa sổ truyền đạt được chọn 1 trong 4 loại cửa sổ dựa theo mô
hình cảm thụ âm thanh.
Đầu ra của khối MDCT sẽ có 18*32 = 576 tín hiệu.
Các dữ liệu ở mỗi subband, mỗi kênh, mỗi cửa sổ và dữ liệu mẫu sẽ được lưu vào
file .txt để đưa vào chương trình matlab.

4.2. Kịch bản thử nghiệm
Chương trình phân tách giải tần (viết bằng ngôn ngữ C++):
Đọc các frame 1000 và 1001 , 2000 và 2001 của file wav Track01.wav, xử lý
theo thuật toán và lưu dữ liệu đầu ra của các subband và các cửa sổ trong
khối MDCT.
• Vẽ đồ thị (Sử dụng công cụ Matlab)
- Đồ thị khối chuyển đổi PCM - subband: frame 1000+2000 (kênh 1), các
subband 0 – 15 – 31 tương ứng.
- Đồ thị khối chuyển đổi subband-window: subband 0 của khối 1000+1001
(kênh1) và 6 cửa sổ tương ứng.
- Đồ thị sau biến đổi fourier của 6 cửa sổ.

-

20


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
Sử dụng các dữ liệu được tạo ra từ chương trình C++ để vẽ đồ thị.

4.3. Kết quả
Khối chuyển đổi PCM – subband frame 1000 và frame 2000.

Hình 12. Khối chuyển đổi PCM- subband frame 1000

Hình 13. Thực nghiệm - khối chuyển đổi PCM- subband frame 2000

Hình trên cùng là đồ thị của 576 mẫu PCM và bên dưới là 3 subband 0 – 15 – 31
dưới dạng đồ thị và dạng xung tín hiệu.
21


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
Khối chuyển đổi subband – window:

Hình 14 . Thực nghiệm – khối chuyển đổi subband - window

Hai hình a,b là đầu vào của khối MDCT, 6 hình dưới (c) tương ứng với 6 loại cửa sổ
cửa sổ.
Xử lý MDCT giảm số mẫu:

Hình 15. Thực nghiệm – xử lý MDCT giảm số mẫu

22


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17
6 cửa sổ với 36 mẫu có được từ phần trên sau khi qua biến đổi fourier thành 6 bộ dữ
liệu khác nhau với số mẫu 18.

23


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Phần 5. Tổng kết
5.1. Kết quả bài tập lớn.
Ưu điểm:
- Hoàn thành đầy đủ các yêu cầu đề tài đặt ra.
- Thực nghiêm thành công thuật toán mã hóa trên Matlab.
• Nhược điểm:
- Còn tồn tại sự rời rạc giữa các yêu cầu đề tài, chưa có sự liên kết với
nhau.


5.2. Phân chia công việc.
Trần Văn Tùng, Chu Văn Huy:
- Tìm hiểu tín hiệu âm thanh dải rộng và giải thích mô hình cảm thụ âm
thanh.
- Tìm hiểu phương pháp nén audio kết hợp mô hình cảm thụ âm thanh
và giải thích tại sao mã hóa audio HiFi dựa trên mô hình cảm thụ âm
thanh.
• Nguyễn Tú Chi, Chu Thế Anh:
- Phân tích sơ đồ phân tách các dải tần con trong nén audio theo chuẩn
MP3.
- Xây dựng thuật toán mã xử lý theo sơ đồ phân tích trên và cài đặt thử
nghiệm.


5.3. Mức độ đóng góp và hoàn thành công việc.





Trần Văn Tùng: 25%
Nguyễn Tú Chi: 25%
Chu Văn Huy: 25%
Chu Thế Anh: 25%

24


Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17

Tài Liệu Tham Khảo
-

Audio coding – Yao Wang, Polytechnic University, Brooklyn, NY11201.
Subband Coding – 2005
http://wiki.hydrogenaud.io/ - MPEG-1 Audio Layer 3
Xử lý âm thanh, hình ảnh – PTIT
Bài giảng Xử Lí Dữ Liệu Đa Phương Tiện - Nguyễn Thị Hoàng Lan

25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×