學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
19 results
Search Results
Item 多口音英語語音辨識(2024) 鄭皓天; Cheng, Hao-Tien隨著全球化的趨勢,英語作為國際通用語言的角色日益重要。然而,由於母語背景、地區和文化差異的影響,英語口音的多樣性也相應增加。這使得語音辨識系統在識別各種口音的英語時面臨著挑戰。本論文探討針對在有限口音語料的狀況下如何通過增加口音鑑別力來改進Conformer模型對於多口音英語語音的辨識效果。本論文提出了一種方法將口音分類任務加入語音辨識模型中,旨在提高模型對於不同口音的敏感性和鑑別能力。實驗結果顯示,與傳統的語音辨識方法相比,此方法在口音英語語音辨識的詞錯率有下降,並且也將模型編碼器中不同層的口音特徵視覺化來進行分析,探討模型在不同層的特徵所代表的訊息。另外,本論也探討了利用大量資料訓練的Whisper模型在英語版、多語言版本以及不同模型大小的設定下對於多口音英語語音辨識任務的效果,也比較了使用LoRA的方式來訓練模型與全面微調方式的差異,為模型的選擇提供了一個更明確的參考。Item 端到端情境化語音辨識技術之研究(2024) 王詣承; Wang, Yi-Cheng在智慧家居設備和手機智慧助理的普及,語音互動技術已成為日常生活中不可或缺的一部分。端到端(E2E)神經網路模型的進步顯著提升了自動語音辨識(ASR)模型的表現,這些模型在多項基準測試中均超越了傳統的混合模型。然而,E2E ASR 模型在辨識特定領域的詞彙(例如聯絡人名和地名)時仍面臨挑戰,這種挑戰在下游應用如自然語言理解中顯得尤為重要。本研究旨在通過增強上下文語境的 ASR 模型,來應對這些模型在真實世界場景中效能下降的問題。 我們的研究首先深入分析了當前先進的 E2E ASR 模型在辨識錯誤方面的局限性,識別出主要問題,包括先驗知識不足和捕捉上下文資訊的能力不足。為解決這些問題,我們提出了 XPhoneAdapter 模型,這是一種結合了新型自監督音素編碼器 XPhoneBERT 的方法,能提供更豐富的音素感知特徵。此外,我們還針對上下文/非上下文不平衡和長尾分佈問題提出了解決辦法,並引入了 Q-HNW 方法進行硬負樣本訓練,以提升模型的穩定性。 研究結果顯示,結合精細的音素感知自監督特徵與增強的硬負樣本訓練,可以在 Librispeech 資料集上實現高達 18% 的相對詞錯誤率(WER)降低和 35% 的罕見詞錯誤率(C-WER)相對改善。此外,在 AISHELL-1 基準資料集上的實驗進一步證明了我們所提出方法的有效性,展示了顯著的效能提升。本論文的主要貢獻包括以下幾點: 1) 對先進 E2E ASR 模型的辨識錯誤進行了詳細分析,找出了訓練和測試環境中詞彙分佈不匹配的關鍵因素。 2) 突出了阻礙 ASR 模型通用化的兩大主要因素:先驗知識不足和捕捉上下文資訊的能力不足。 3) 提出了 XPhoneAdapter 模型,該模型引入了新型自監督音素編碼器 XPhoneBERT,以提供更豐富的音素感知特徵。 4) 針對上下文/非上下文不平衡和長尾分佈問題,提出了上下文平衡適應方法,以改善低頻上下文詞彙的模型表現。 5) 引入了 Q-HNW 方法進行負樣本訓練,以增強模型在挑戰性辨識場景中的穩定性。Item 結合跨域資訊與時序反轉增強網路於強健性語音辨識(2021) 趙福安; Chao, Fu-An由於在現實生活中的噪音環境不可控制且干擾語音辨識的效能,加上前端發展已相當健全的語音增強(Speech Enhancement)技術,許多學者運用語音增強技術於語音辨識中獲得不錯的成果。近年來因為計算能力的發展,在眾多語音增強技術當中,許多研究開始發現相位(Phase)資訊對語音增強至關重要。在這些使用到相位資訊的語音增強方法,皆比原始單純使用幅度(Magnitude)頻譜的方法有更優越的效果。綜觀現階段最優異的語音增強技術,有學者使用對抗式訓練(Adversarial Training)將客觀度量指標與鑑別器(Discriminator)連結,最大化語音的感知質量(Perceptual Quality)達到了最好的效果,但最大化語音感知質量並不能保證在後端可以獲得更佳的語音辨識(Speech Recognition)結果。基於上述觀點,本論文提出了兩種新穎的語音增強方法:第一種為時序反轉增強網路(Time-reversal Enhancement NETwork, TENET),它是由時序反轉(Time-reversal)與孿生網路(Siamese Network)技術所構成,可以與任何語音增強模型結合,以增加其語音增強的效果。第二種為跨域雙路徑注意力網路(Cross-domain Dual-path Transformer, CD-DPTNet),在考慮到相位資訊的前提下,提出一個雙映射投影(Bi-projection Fusion, BPF)機制,融合頻域以及時域之特徵應用於語音增強。實驗於Voice Bank-DEMAND語音增強實驗之標準語料庫,並額外設置了未知環境噪音的測試集作為測試。本論文提出的方法與現階段最好的語音增強方法相比,在客觀評估指標PESQ、SI-SDR皆可以得到現階段最好的語音增強效果;進一步測試在語音辨識,也較其它方法能更有效的提升語音辨識之準確性。而結合TENET與CD-DPTNet兩種方法,在未知環境噪音的測試集可以使經多情境訓練之聲學模型降低約相對43 % 詞錯誤率(Word Error Rate, WER)。Item 語者確認使用不同語句嵌入函數之比較研究(2021) 李宗勳; Lee, Tsung-Hsun語者語句的嵌入函數利用了神經網路將語句映射到一個空間,在該空間中,距離反映出語者之間的相似度,這種度量學習最早被提出應用在人臉辨識。最近幾年被拿來應用在應用在語者確認,這也推動近幾年語者確認任務的發展。但還是有明顯的正確率差異在語者確認的訓練集辨識和未知語者。在未知語者的狀況下,很評估適合使用小樣本學習。在實際環境中,語者確認系統需要識別短語句的語者,但在訓練時的語者話語都是相對較長的。然而近年的語者確認模型在短語句的語者確認中表現不佳。在這裡我們使用了原型網路損失、三元組損失和最先進的小樣本學習來優化嵌入語者模型。資料集使用了VoxCeleb1和VoxCeleb2,前者資料集的語者數量有1,221,後者資料集的語者數量有5,994。實驗的結果顯示,嵌入語者模型在我們提出的損失函數有較好的表現。Item 探究有效偵測及修正語音辨識錯誤技術之研究(2020) 吳佳樺; Wu, Chia-Hua本論文著重在研究語音辨識錯誤相關的幾個重要面向,尤其是當一般的語音辨識系統應用於特殊領域下所產生的未知詞問題。為此目的,我們提出一個兩階段的方法,包括了語音錯誤偵測和錯誤內容修補。在錯誤偵測階段,我們嘗試比較多種序列標記方法去偵測不同型態的錯誤。更進一步,在錯誤修正階段,藉由上一階段所偵測的結果作為依據,利用音素比對方法以特殊領域的關鍵詞表來修正錯誤。在四種應用領域,包括教育議題、工業技術相關訪談、語音記事及會議錄音,所進行的一系列實驗。由實驗結果顯示,我們提出的方法可以使得一般語音辨識系統在上述應用領域中有某種程度上的提升。Item 探索虛擬關聯回饋技術和鄰近資訊於語音文件檢索與辨識之改進(2013) 陳憶文虛擬文件檢索(Pseudo-Relevance Feedback)為目前最常見的查詢重建(Query Reformulation)典範。它假設預檢索(Initial-round of Retrieval)排名前端的文件都是相關的,所以可全用於查詢擴展(Query Expansion)。然而,預檢索所獲得的文件中,極可能同時包含重複性資訊(Redundant)和非關聯(Non-relevant)資訊,使得重新建立的查詢不能有良好檢索效能。有鑑於此,本論文探討運用不同資訊以在預檢索獲得的語音文件中挑選適當的關聯文件來建立查詢表示,讓語音文件檢索結果可以更準確。另一方面,關聯模型(Relevance Model )雖然可藉由詞袋(Bag-of-words)假設來簡化模型推導和估測,卻可能因此過度簡化問題,特別是用於語音辨識的語言模型。為了調適關聯模型,本論文有兩個貢獻。其一,本論文提出詞鄰近資訊使用於關聯模型以改善詞袋(Bag-of-words)假設於語音辨識的不適。其二,本論文也進一步探討主題鄰近資訊以強化鄰近關聯模型的架構。實驗結果證明本論文所提出之方法,不論在語音文件檢索還是語音辨識方面皆可有效改善現有方法的效能。Item 遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究(2012) 黃邦烜; Bang-Xuan Huang語言模型藉由大量的文字訓練後,可以捕捉自然語言的規律性,並根據歷史詞序列來區辨出下一個詞應該為何,因此在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演著不可或缺的角色。傳統統計式N連(N-gram)語言模型是常見的語言模型,它基於已知的前N-1個詞來預測下一個詞出現的可能性。當N小時,缺乏了長距離的資訊;而N大時,會因訓練語料不足產生資料稀疏之問題。近年來,由於類神經網路(Neural Networks)的興起,許多相關研究應運而生,類神經網路語言模型即是一例。令人感興趣的是,類神經網路語言模型能夠解決資料稀疏的問題,它透過將詞序列映射至連續空間來估測下一個詞出現的機率,因此在訓練語料中不會遇到未曾出現過的詞序列組合。除了傳統前饋式類神經網路語言模型外,近來也有學者使用遞迴式類神經網路來建構語言模型,其希望使用遞迴的方式將歷史資訊儲存起來,進而獲得長距離的資訊。 本論文研究遞迴式類神經網路語言模型於中文大詞彙連續語音辨識之使用,探索額外使用關聯資訊以更有效地捕捉長距離資訊,並根據語句的特性動態地調整語言模型。實驗結果顯示,使用關聯資訊於遞迴式類神經網路語言模型能對於大詞彙連續語音辨識的效能有相當程度的提昇。Item 實證探究多種鑑別式語言模型於語音辨識之研究(2011) 賴敏軒語言模型(Language Model)在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演相當重要的角色,藉由使用大量的訓練文字來估測其相對應的模型參數,以描述自然語言的規律性。N-連(N-gram)語言模型(特別是雙連詞(Bigram)與三連詞(Trigram))常被用來估測每一個詞出現在已知前N-1個歷史詞之後的條件機率。此外,N-連模型大多是以最大化相似度為訓練目標,對於降低語音辨識錯誤率常會有所侷限,並非能達到最小化辨識錯誤率。近年來為了解決此問題,鑑別式語言模型(Discriminative Language Model, DLM)陸續地被提出,目的為從可能的辨識語句中正確地區別最佳的語句作為辨識之結果,而不是去符合其訓練資料,此概念已經被提出並論證有一定程度的成果。本論文首先實證探討多種以提升語音辨識效能為目標的鑑別式語言模型。接著,我們提出基於邊際(Margin-based)鑑別式語言模型訓練方法,對於被錯誤辨識的語句根據其字錯誤率(Word Error Rate, WER)與參考詞序列(字錯誤率最低)字錯誤率之差為比重,給予不同程度的懲罰。相較於其它現有的鑑別式語言模型,我們所提出的方法使用於大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)時有相當程度的幫助。Item 多種鑑別式語言模型應用於語音辨識之研究(2010) 劉家妏N連(N-gram)語言模型在語音辨識器中扮演著關鍵性的角色,因為它可幫助辨識器從其大量輸出的候選詞序列中,區分出正確與非正確的候選詞序列。然而,因N連語言模型的訓練目標為最大化訓練語料的機率,而不是以最佳化語音辨識評估量為目標,導致在語音辨識效能表現上有所侷限。本論文我們首先探討多種基於不同訓練目標的鑑別式語言模型(Discriminative Language Model, DLMs)。鑑別式語言模型的根本精神即為直接提昇語音辨識效能;接著會比較它們在理論與實際上運用在大詞彙語音辨識上的表現。另外,我們也提出語句相關之鑑別式語言模型(Utterance-driven Discriminative Language Model, UDLM),此語言模型可考慮測試語句的特性,並即時估計其模型參數。最後,我們將最大化事後機率法(Maximum a Posterior, MAP)結合語句相關之鑑別式語言模型,期望最大化事後機率法所產生的辨識結果,能幫助語句相關之鑑別式語言模型獲致更顯著的語音辨識率提昇。本論文的實驗皆建立在臺灣中文廣播新聞語料上,實驗結果顯示本論文所提出之作法可獲得一定的語音辨識率提升。Item 使用邊際資訊於鑑別式聲學模型訓練(2010) 羅永典; Yueng-Tien Lo本論文旨在探究近年具代表性的鑑別式聲學模型訓練方法及其背後之一致性,並且延伸發展各種不同以邊際為基礎的資料選取方法來改善鑑別式聲學模型訓練,應用於中文大詞彙連續語音辨識。首先,為了進一步探討近年各種鑑別式訓練方法,我們整理歸納近年所發展鑑別式訓練方法之目標函數其背後一致性。其次,我們討論了各種不同邊際資訊應用於鑑別式訓練的方法,進而在大詞彙連續語音辨識中有效地降低語音辨識錯誤率。再者,我們結合了柔性邊際與增進式方法使得在資料選取的範圍上更為明確且具彈性,以提供更具鑑別資訊的統計量。在實作上,我們觀察了以語句為層次的選取資料為例,以進一步了解各式統計資訊對於鑑別式訓練成效之影響。最後,本論文以公視新聞語料做為實驗平台,實驗結果初步證實了本論文所提出之作法在某種程度上能夠改善過去方法所面臨的過度訓練之問題。