Browsing by Author "王詣承"

Now showing 1 - 1 of 1

端到端情境化語音辨識技術之研究
(2024) 王詣承; Wang, Yi-Cheng
在智慧家居設備和手機智慧助理的普及，語音互動技術已成為日常生活中不可或缺的一部分。端到端（E2E）神經網路模型的進步顯著提升了自動語音辨識（ASR）模型的表現，這些模型在多項基準測試中均超越了傳統的混合模型。然而，E2E ASR 模型在辨識特定領域的詞彙（例如聯絡人名和地名）時仍面臨挑戰，這種挑戰在下游應用如自然語言理解中顯得尤為重要。本研究旨在通過增強上下文語境的 ASR 模型，來應對這些模型在真實世界場景中效能下降的問題。我們的研究首先深入分析了當前先進的 E2E ASR 模型在辨識錯誤方面的局限性，識別出主要問題，包括先驗知識不足和捕捉上下文資訊的能力不足。為解決這些問題，我們提出了 XPhoneAdapter 模型，這是一種結合了新型自監督音素編碼器 XPhoneBERT 的方法，能提供更豐富的音素感知特徵。此外，我們還針對上下文/非上下文不平衡和長尾分佈問題提出了解決辦法，並引入了 Q-HNW 方法進行硬負樣本訓練，以提升模型的穩定性。研究結果顯示，結合精細的音素感知自監督特徵與增強的硬負樣本訓練，可以在 Librispeech 資料集上實現高達 18% 的相對詞錯誤率（WER）降低和 35% 的罕見詞錯誤率（C-WER）相對改善。此外，在 AISHELL-1 基準資料集上的實驗進一步證明了我們所提出方法的有效性，展示了顯著的效能提升。本論文的主要貢獻包括以下幾點： 1) 對先進 E2E ASR 模型的辨識錯誤進行了詳細分析，找出了訓練和測試環境中詞彙分佈不匹配的關鍵因素。 2) 突出了阻礙 ASR 模型通用化的兩大主要因素：先驗知識不足和捕捉上下文資訊的能力不足。 3) 提出了 XPhoneAdapter 模型，該模型引入了新型自監督音素編碼器 XPhoneBERT，以提供更豐富的音素感知特徵。 4) 針對上下文/非上下文不平衡和長尾分佈問題，提出了上下文平衡適應方法，以改善低頻上下文詞彙的模型表現。 5) 引入了 Q-HNW 方法進行負樣本訓練，以增強模型在挑戰性辨識場景中的穩定性。