Lý thuyết báo cáo xử lý Tín hiệu số

Phần 6.4 - Prentice Hall.
6.4 HIển thị quang phổ.

Khái niệm về biểu diễn Fourier phụ thuộc vào thời gian đã phổ biến từ lâu trước khi có các kỹ thuật xử lý tín hiệu số để phân tích giọng nói.Thật vậy, các nhà nghiên cứu lời nói đã phụ thuộc rất nhiều vào các kỹ thuật phân tích phổ từ những năm 1930. Một trong những hiện thân sớm nhất của đại diện Fourier phụ thuộc vào thời gian là máy quang phổ âm thanh, một thiết bị đã trở thành một công cụ thiết yếu trong hầu hết mọi giai đoạn nghiên cứu lời nói.Trong thiết bị này, một lời nói ngắn (2 giây) lặp đi lặp lại điều chỉnh một bộ dao động tần số thay đổi. Tín hiệu điều chế được đưa vào bộ lọc thông dải. Năng lượng trung bình trong đầu ra của bộ lọc thông dải tại một thời điểm và tần số nhất định là thước đo thô của biến đổi Fourier phụ thuộc. Năng lượng này được ghi lại bởi một hệ thống cơ điện khéo léo trên giấy teledeltos. Kết quả, được gọi là phổ, là biểu diễn hai chiều của phổ phụ thuộc thời gian, trong đó chiều dọc trên giấy biểu thị tần số và chiều ngang biểu thị thời gian. Độ lớn phổ được thể hiện bằng độ tối của việc tạo ra trên giấy. Nếu bộ lọc thông dải có băng thông rộng (300 Hz), biểu đồ phổ hiển thị độ phân giải thời gian tốt và độ phân giải tần số kém. Mặt khác, nếu bộ lọc thông dải có băng thông hẹp (45 Hz), thì phổ tần có độ phân giải tần số tốt và độ phân giải thời gian kém. Các ví dụ được thể hiện trong hình 6.36

Hình 6.36a cho thấy một phổ phổ băng rộng của câu nói "Mỗi làn gió muối đến từ biển". Ví dụ này minh họa một số tính năng đặc trưng của phổ phụ thuộc thời gian băng rộng. Đầu tiên, chúng tôi quan sát thấy rằng một thời điểm cụ thể, phổ thay đổi theo tần số theo cách được đề xuất bởi Figs 6.3 và 6.5, tức là, phổ bao gồm một đỉnh rộng mới tương ứng với tần số định dạng. Biểu đồ phổ hiển thị rõ ràng sự thay đổi của tần số định dạng theo thời gian. Một tính năng thú vị khác của phổ tần băng rộng là các dải dọc xuất hiện trong các vùng của giọng nói. Điều này là do thực tế là đáp ứng xung của bộ lọc phân tích (tức là cửa sổ phân tích phổ) có cùng thời lượng với khoảng thời gian cao độ. Do đó, năng lượng trong đầu ra của bộ lọc là tối đa khi đỉnh của đáp ứng xung được căn chỉnh với mức tối đa của từng khoảng thời gian riêng lẻ. Tại thời điểm khác, năng lượng đầu ra là ít hơn đáng kể. Đối với lời nói không được truyền đạt, tất nhiên, không phải là định kỳ, các chuỗi dọc không xuất hiện và mô hình quang phổ bị rách nát hơn nhiều. Hình 6.36b là một phổ phổ hẹp của cùng cách phát âm. Trong trường hợp này, băng thông của bộ lọc sao cho các sóng hài riêng lẻ được phân giải ở các vùng có tiếng. Do đó, trong khi tần số định dạng vẫn còn trong bằng chứng, một mặt cắt tại một thời điểm cụ thể gợi nhớ đến Figs 6.2 và 6.4. Không còn là mô hình xuất hiện trong các khu vực có tiếng nói, vì đáp ứng xung lực băng hẹp kéo dài một vài giai đoạn; nhưng, đúng hơn, kích thước tần số hiện rõ ràng đặt bằng chứng tần số cơ bản và sóng hài của nó. Các khu vực không được bảo vệ bị phân tán bởi sự thiếu tính tuần hoàn trong kích thước tần số. Băng thông rộng và phổ tần hẹp cho thấy rất nhiều thông tin về các tính chất của cách nói. Thật vậy, khi thiết bị hiển thị các biểu diễn Fourier phụ thuộc thời gian như vậy lần đầu tiên có sẵn, hy vọng rằng các màn hình như vậy có thể cung cấp một "ngôn ngữ" mới để giao tiếp với người khiếm thính. Mặc dù hy vọng này đã không được thực hiện, nhưng nghiên cứu tiếp theo dẫn đến cuốn sách Visible Speech [8] vẫn là một nguồn thông tin phong phú về các tính chất phổ và thời gian của lời nói. Trong những năm kể từ công việc đầu tiên này, nhiều nhà nghiên cứu lời nói đã thực hiện các phép đo phổ để xác định các tham số giọng nói như tần số định dạng và tần số cơ bản. Một kết quả khác của việc phát minh ra máy quang phổ âm thanh là khái niệm rằng danh tính của người nói có thể được tiết lộ bằng một phân tích chi tiết về một quang phổ hoặc "giọng nói" của cách nói. Mặc dù vẫn còn câu hỏi quan trọng về sự liên quan của các kỹ thuật nhận dạng giọng nói dựa trên các phổ [9], những kỹ thuật này đã đạt được một số sự chấp nhận tại tòa án của pháp luật [10]. Máy quang phổ âm thanh trong một thời gian dài là công cụ phân tích cơ bản trong nghiên cứu lời nói. Tuy nhiên, với sự sẵn có của các cơ sở máy tính dành riêng cho nghiên cứu lời nói, điều này không còn là vấn đề nữa. Các phần trước của chương này đã chỉ ra các cách để thiết kế và triển khai các biểu diễn Fourier phụ thuộc vào thời gian với độ tinh vi lớn hơn nhiều so với khả năng sử dụng phần cứng tương tự. Tất nhiên, những đại diện này có thể được thực hiện như một phần cứng kỹ thuật số cho mục đích đặc biệt hoặc là một chương trình trong một máy tính có mục đích chung. Ví dụ, bằng cách sử dụng các kỹ thuật của Mục 6.3, chúng ta có thể thu được $X_n(e^{j2\pi k\text{ / } N})$ đó là biểu diễn hai chiều phức tạp của tín hiệu giọng nói rời rạc về thời gian và tần số và hơn nữa là định kỳ theo chiều tần số. Vì vậy, chúng ta phải đối mặt với vấn đề làm thế nào để hiển thị một đại diện như vậy. Nói chung, tất cả các thông tin là không cần thiết trong một màn hình. Thường thì chỉ $|X_n(e^{j2\pi k\text{ / } N})|$ sẽ được hiển thị. Ngoài ra, vì $|X_n(e^{j2\pi k\text{ / } N})|$ là chẵn và định kỳ theo k với chu kỳ N, nên chỉ cần hiển thị các giá trị trong phạm vi $0\le k\le N\text{ / } 2$ .Khi một thiết bị như máy hiện sóng đồ họa hoặc máy vẽ tăng dần có sẵn cho đầu ra từ máy tính, biến đổi Fourier phụ thuộc thời gian có thể được vẽ như một chuỗi các ô của ... như là một hàm của k cho các giá trị cố định của n. Thông thường các giá trị của n sẽ được đặt cách nhau một lượng tương ứng với lấy mẫu Nyquist của các kênh phổ. Ví dụ, đối với phân tích băng hẹp, khoảng cách thời gian có thể theo thứ tự từ 10 đến 20 msec. Hình 6.37 [11] cho thấy một chuỗi các dải phổ hẹp được tính toán trong các khoảng thời gian 20 msec. Rõ ràng trong Hình 6.37 rằng toàn bộ khoảng thời gian của bài phát biểu được lên tiếng. Một cách khác để hiển thị quang phổ dưới dạng các phần xuyên qua bề mặt được xác định bởi $|X_n(e^{j2\pi k\text{ / } N})|$ là hiển thị bề mặt đó trong bản vẽ phối cảnh. Một ví dụ về loại màn hình này được hiển thị trong Hình 6.38 [12]. Rõ ràng, âm mưu này ít hữu ích cho phép đo định lượng, nhưng có ưu điểm, giống như biểu đồ phổ, hiển thị toàn bộ cách nói trong một hình thức nhỏ gọn. Theo quan điểm về tính hữu dụng đã được chứng minh và sự chấp nhận rộng rãi của phổ như là một công cụ cơ bản, một quang phổ được tạo bằng kỹ thuật số có thể hữu ích hơn so với các màn hình trước đây. Nếu màn hình TV hoặc CRT có sẵn để xuất hình ảnh được lấy mẫu, thì $|X_n(e^{j2\pi k\text{ / } N})|$ trong khoảng thời gian có kích thước phù hợp có thể được coi là hình ảnh được lấy mẫu như vậy. Một số nghiên cứu đã điều tra các đầu ra như vậy và đã phát hiện ra rằng có thể nhân đôi sự xuất hiện của các phổ phổ tương tự. Thật vậy, vì giấy teledeltos chỉ có phạm vi thang màu xám là 12dB [13], nên lượng tử hóa khá thô của các giá trị của $|X_n(e^{j2\pi k\text{ / } N})|$ có thể được sử dụng trong màn hình nếu mục tiêu là nhân đôi diện mạo phổ. Tuy nhiên, hầu hết các hệ thống hiển thị hình ảnh kỹ thuật số có dải động lớn hơn nhiều để có thể mô tả nhiều thông tin quang phổ hơn so với hệ thống tương tự.
Một ưu điểm khác của phổ kỹ thuật số là phổ có thể được định hình thuận tiện theo những cách tinh vi để tăng cường tính hữu dụng của màn hình. Một ví dụ là việc sử dụng sự nhấn mạnh tần số cao để chống lại sự rơi tự nhiên của phổ giọng nói.(Điều này cũng được sử dụng trong máy quang phổ tương tự.) Một cách đơn giản để giới thiệu sự nhấn mạnh tần số cao là tính toán phổ của sự khác biệt đầu tiên của tín hiệu đầu vào. (Xem Bài toán 6.11). Một cách khác linh hoạt hơn là trực tiếp định hình phổ trước khi hiển thị. Cách tiếp cận thứ hai này đã được Oppenheim [14] sử dụng trong việc sản xuất các quang phổ tạo ra trên máy tính tương tự như phương pháp hiển thị trong hình. 6,39. Oppenheim cũng chỉ ra rằng người ta có sự linh hoạt cao trong việc hiển thị dữ liệu phổ. Ví dụ: kích thước tần suất và thời gian có thể được mở rộng hoặc ký hợp đồng theo ý muốn. Vẫn còn một cách tiếp cận khác để sản xuất phổ bằng máy tính khi không có khả năng xuất hình ảnh. Nếu một thiết bị in có khả năng tấn công, có thể thu được phạm vi thang màu xám tương đương với phổ của một phổ tương tự bằng cách biểu thị mỗi cấp độ tối bằng một bộ ký tự máy in chồng lên nhau. Một ví dụ về loại đầu ra này được hiển thị trong Hình 6.40. Chi tiết về quy trình sản xuất các lô như vậy được nêu trong [15]



Nhận xét