學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912

Browse

Search Results

Now showing 1 - 7 of 7
  • Item
    結合跨域資訊與時序反轉增強網路於強健性語音辨識
    (2021) 趙福安; Chao, Fu-An
    由於在現實生活中的噪音環境不可控制且干擾語音辨識的效能,加上前端發展已相當健全的語音增強(Speech Enhancement)技術,許多學者運用語音增強技術於語音辨識中獲得不錯的成果。近年來因為計算能力的發展,在眾多語音增強技術當中,許多研究開始發現相位(Phase)資訊對語音增強至關重要。在這些使用到相位資訊的語音增強方法,皆比原始單純使用幅度(Magnitude)頻譜的方法有更優越的效果。綜觀現階段最優異的語音增強技術,有學者使用對抗式訓練(Adversarial Training)將客觀度量指標與鑑別器(Discriminator)連結,最大化語音的感知質量(Perceptual Quality)達到了最好的效果,但最大化語音感知質量並不能保證在後端可以獲得更佳的語音辨識(Speech Recognition)結果。基於上述觀點,本論文提出了兩種新穎的語音增強方法:第一種為時序反轉增強網路(Time-reversal Enhancement NETwork, TENET),它是由時序反轉(Time-reversal)與孿生網路(Siamese Network)技術所構成,可以與任何語音增強模型結合,以增加其語音增強的效果。第二種為跨域雙路徑注意力網路(Cross-domain Dual-path Transformer, CD-DPTNet),在考慮到相位資訊的前提下,提出一個雙映射投影(Bi-projection Fusion, BPF)機制,融合頻域以及時域之特徵應用於語音增強。實驗於Voice Bank-DEMAND語音增強實驗之標準語料庫,並額外設置了未知環境噪音的測試集作為測試。本論文提出的方法與現階段最好的語音增強方法相比,在客觀評估指標PESQ、SI-SDR皆可以得到現階段最好的語音增強效果;進一步測試在語音辨識,也較其它方法能更有效的提升語音辨識之準確性。而結合TENET與CD-DPTNet兩種方法,在未知環境噪音的測試集可以使經多情境訓練之聲學模型降低約相對43 % 詞錯誤率(Word Error Rate, WER)。
  • Item
    語者確認使用不同語句嵌入函數之比較研究
    (2021) 李宗勳; Lee, Tsung-Hsun
    語者語句的嵌入函數利用了神經網路將語句映射到一個空間,在該空間中,距離反映出語者之間的相似度,這種度量學習最早被提出應用在人臉辨識。最近幾年被拿來應用在應用在語者確認,這也推動近幾年語者確認任務的發展。但還是有明顯的正確率差異在語者確認的訓練集辨識和未知語者。在未知語者的狀況下,很評估適合使用小樣本學習。在實際環境中,語者確認系統需要識別短語句的語者,但在訓練時的語者話語都是相對較長的。然而近年的語者確認模型在短語句的語者確認中表現不佳。在這裡我們使用了原型網路損失、三元組損失和最先進的小樣本學習來優化嵌入語者模型。資料集使用了VoxCeleb1和VoxCeleb2,前者資料集的語者數量有1,221,後者資料集的語者數量有5,994。實驗的結果顯示,嵌入語者模型在我們提出的損失函數有較好的表現。
  • Item
    實證探究多種鑑別式語言模型於語音辨識之研究
    (2011) 賴敏軒
    語言模型(Language Model)在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演相當重要的角色,藉由使用大量的訓練文字來估測其相對應的模型參數,以描述自然語言的規律性。N-連(N-gram)語言模型(特別是雙連詞(Bigram)與三連詞(Trigram))常被用來估測每一個詞出現在已知前N-1個歷史詞之後的條件機率。此外,N-連模型大多是以最大化相似度為訓練目標,對於降低語音辨識錯誤率常會有所侷限,並非能達到最小化辨識錯誤率。近年來為了解決此問題,鑑別式語言模型(Discriminative Language Model, DLM)陸續地被提出,目的為從可能的辨識語句中正確地區別最佳的語句作為辨識之結果,而不是去符合其訓練資料,此概念已經被提出並論證有一定程度的成果。本論文首先實證探討多種以提升語音辨識效能為目標的鑑別式語言模型。接著,我們提出基於邊際(Margin-based)鑑別式語言模型訓練方法,對於被錯誤辨識的語句根據其字錯誤率(Word Error Rate, WER)與參考詞序列(字錯誤率最低)字錯誤率之差為比重,給予不同程度的懲罰。相較於其它現有的鑑別式語言模型,我們所提出的方法使用於大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)時有相當程度的幫助。
  • Item
    多種鑑別式語言模型應用於語音辨識之研究
    (2010) 劉家妏
    N連(N-gram)語言模型在語音辨識器中扮演著關鍵性的角色,因為它可幫助辨識器從其大量輸出的候選詞序列中,區分出正確與非正確的候選詞序列。然而,因N連語言模型的訓練目標為最大化訓練語料的機率,而不是以最佳化語音辨識評估量為目標,導致在語音辨識效能表現上有所侷限。本論文我們首先探討多種基於不同訓練目標的鑑別式語言模型(Discriminative Language Model, DLMs)。鑑別式語言模型的根本精神即為直接提昇語音辨識效能;接著會比較它們在理論與實際上運用在大詞彙語音辨識上的表現。另外,我們也提出語句相關之鑑別式語言模型(Utterance-driven Discriminative Language Model, UDLM),此語言模型可考慮測試語句的特性,並即時估計其模型參數。最後,我們將最大化事後機率法(Maximum a Posterior, MAP)結合語句相關之鑑別式語言模型,期望最大化事後機率法所產生的辨識結果,能幫助語句相關之鑑別式語言模型獲致更顯著的語音辨識率提昇。本論文的實驗皆建立在臺灣中文廣播新聞語料上,實驗結果顯示本論文所提出之作法可獲得一定的語音辨識率提升。
  • Item
    使用邊際資訊於鑑別式聲學模型訓練
    (2010) 羅永典; Yueng-Tien Lo
    本論文旨在探究近年具代表性的鑑別式聲學模型訓練方法及其背後之一致性,並且延伸發展各種不同以邊際為基礎的資料選取方法來改善鑑別式聲學模型訓練,應用於中文大詞彙連續語音辨識。首先,為了進一步探討近年各種鑑別式訓練方法,我們整理歸納近年所發展鑑別式訓練方法之目標函數其背後一致性。其次,我們討論了各種不同邊際資訊應用於鑑別式訓練的方法,進而在大詞彙連續語音辨識中有效地降低語音辨識錯誤率。再者,我們結合了柔性邊際與增進式方法使得在資料選取的範圍上更為明確且具彈性,以提供更具鑑別資訊的統計量。在實作上,我們觀察了以語句為層次的選取資料為例,以進一步了解各式統計資訊對於鑑別式訓練成效之影響。最後,本論文以公視新聞語料做為實驗平台,實驗結果初步證實了本論文所提出之作法在某種程度上能夠改善過去方法所面臨的過度訓練之問題。
  • Item
    資料選取方法於鑑別式聲學模型訓練之研究
    (2008) 朱芳輝; Fang-Hui, Chu
    本論文旨在研究使用各種訓練資料選取方法來改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練,並應用於中文大詞彙連續語音辨識。首先,我們汲取Boosting演算法中強調被錯誤分類的訓練樣本之精神,修改最小化音素錯誤訓練中每一句訓練語句之統計值權重,以提高易傾向於被辨識錯誤的語句對於聲學模型訓練之貢獻。同時,我們透過多種方式來結合在不同訓練資料選取機制下所訓練出的多個聲學模型,進而降低語音辨識錯誤率。其次,我們亦提出一個基於訓練語句詞圖之期望音素正確率(Expected Phone Accuracy)定義域上的訓練資料選取方法,分別藉由在語句與音素段落兩種不同單位上的訓練資料選取,以提供最小化音素錯誤訓練更具鑑別資訊的訓練樣本。再者,我們嘗試結合本論文所提出的訓練資料選取方法及前人所提出以正規化熵值為基礎之音框層次訓練資料選取方法、以及音框音素正確率函數,冀以提升最小化音素錯誤訓練之成效。最後,本論文以公視新聞語料作為實驗平台,實驗結果初步驗證了本論文所提出方法之可行性。
  • Item
    英文初學者發音自動評分之研究
    (2015) 賴子婷; Lai, Tzu-Ting
    電腦輔助發音訓練(Computer Assisted Pronunciation Training,CAPT)是常用的一種語言學習方式,可以針對初學者的英文發音提供回饋讓初學者可以反覆的練習。本研究利用語音辨識以及字串相似度比對的技術,建置一個適合初學者英文發音的辨識模型用以輔助初學者發音練習。 本研究包含兩部分,第一部分為建置語音辨識模型,使用本研究自行錄製的JTES語料庫建置初始模型,再挑選JTJS中較優初學者的語音進行模型調適,作為整體的語音辨識模型;第二部分為評估是採用字串比對方式藉由本研究所提出的Levenshtein Distance-Like作為相似度計算且藉由cubic polynomial fit找到四個等級(好、尚可、待加強、重錄)的門檻值。 實驗結果呈現,當分成四個等級時人工評分與系統評分的正確率為75%,代表系統有一定的準確率,透過皮爾森係數得知人工評分與系統評分的相關性為0.71,呈現人工評分與系統評分是具有相關的,因此系統給予的回饋對於初學者是有一定的可信度,可以藉由此來提升口說技能。