資訊工程學系

Search Results

Now showing 1 - 4 of 4

多編碼器端到端模型於英語錯誤發音檢測與診斷
(2021) 范姜紹瑋; Fan Jiang, Shao-Wei
隨著全球化的加速，大多數人需要學習第二語言(Second language, L2)，相較之下，語言教師的人數增長卻無法跟上語言學習的需求。因此越來越多研究著重在電腦輔助發音訓練(Computer-assisted pronunciation training, CAPT)，嘗試利用電腦輔助學習者做更方便且有效的學習。在 CAPT 中，最重要的模組為以自動語音辨識(Automatic speech recognition, ASR)為核心技術的錯誤發音和診斷(Mispronunciation detection and diagnosis, MD&D)。然而，現有 MD&D 模型仍面臨兩個問題：一、任務不匹配。純語音辨識任務並未充分利用提示文本(Text prompt)於訓練階段。二、口音多樣性。第二語言學習者具有特殊的發音習慣，該習慣的聲學或語言特性會導致模型效能辨識困難。基於上述兩個問題，本研究提出兩個解決方向於端對端 MD&D 模型 (End-to-end MD&D, E2E MD&D)。首先，我們使用不同細粒度(音素與字元)的文本提示進行輸入增強，使 E2E ASR 更適合 MD&D 任務。其次，我們設計兩種不同面向的口音感知模塊，提示模型口音資訊以及消除口音資訊，嘗試減輕口音多樣性於 E2E MD&D 系統的影響。實驗結果表明，在公開二語語料庫 L2-ARCTIC 上，我們提出 MD&D 模型具有明顯的優勢與有效性。
提供具可解釋並改善評論缺漏問題之推薦系統
(2020) 陳佑翔; Chen, You-Xiang
儘管以評論特徵為基礎的相關研究，證實能克服用戶-商品間評分資料稀疏的問題以提升評分預測效能，然而其並未考慮評論缺漏的問題。本論文參考採用評論之階層式注意力神經網路模型HANN，更改原模型中部分輸入特徵資訊，並調整不同層級注意力機制的權重計算方式；此模型稱為HANN-RPM，用來進行用戶對商品的評分預測。此外，另建立了一個以編碼器-解碼器架構為基礎的評論生成模型HANN-RGM，結合HANN-RPM的商品子網路架構為編碼器，不僅可用於對評分結果生成文字解釋內容，並可用於對用戶未撰寫評論的購買商品補充缺漏的評論後提供給HANN-RPM，進一步提升評分預測的效果。實驗結果顯示，不論有無缺漏評論的情況下，HANN-RPM皆較HANN有更佳評分預測效果。而當用戶具有評論缺漏的情況，透過HANN-RGM生成缺漏部份的評論補足，可令HANN-RPM預測出接近於無評論缺漏情況下的評分預測效果。此外，HANN-RGM模型透過擷取出前k筆評論中的商品語意資訊，比起NRT能生成出更長且更多樣性的評論內容，可作為評分預測之文字解釋。
結合韻律特徵與聲學特徵於錯誤發音檢測與診斷之研究
(2019) 林奕儒; Lin, Yi-Ju
本論文探討韻律特徵應用多任務深層網路模型於錯誤發音檢測及診斷(mispronunciation detection and diagnosis, MDD)之研究。電腦輔助發音訓練(computer assisted pronunciation training, CAPT)之目的在於透過電腦自動地指正外語學習者的發音問題；其在程序上大致可分為錯誤發音檢測(mispronunciation detection)與錯誤發音診斷(mispronunciation diagnosis)等兩個階段。本論文主要探討 1.)韻律特徵與聲學特徵結合後對於錯誤發音檢測與診斷的幫助。 2.)希望利用多任務深層網路模型解決資料正例反例不平衡之問題。 3.)結合基於相似度的評分(likelihood-based scoring,GOP)以及基於分類器評分(classification-based scoring)的方法達到更好的檢測結果以及診斷結果。實驗結果顯示，聲學特徵對於錯誤發音檢測任務較有幫助；而韻律特徵對錯誤發音診斷任務有較好的助益。
改善類神經網路聲學模型經由結合多任務學習與整體學習於會議語音辨識之研究
(2016) 楊明翰; Yang, Ming-Han
本論文旨在研究如何融合多任務學習(multi-task learning, MTL)與整體學習(ensemble learning)技術於聲學模型之參數估測，藉以改善會議語音辨識(meeting speech recognition)之準確性。我們的貢獻主要有三點：1)我們進行了實證研究以充分利用各種輔助任務來加強多任務學習在會議語音辨識的表現。此外，我們還研究多任務與不同聲學模型像是深層類神經網路(deep neural networks, DNN)聲學模型及摺積神經網路(convolutional neural networks, CNN)結合的協同效應，期望增加聲學模型建模之一般化能力(generalization capability)。2)由於訓練多任務聲學模型的過程中，調整不同輔助任務之貢獻(權重)的方式並不是最佳的，因此我們提出了重新調適法，以減輕這個問題。3)我們對整體學習技術進行研究，有系統地整合多任務學習所培訓的各種聲學模型(weak learner)。我們基於歐盟所錄製的擴增多方互動會議語料(augmented multi-party interaction, AMI)及在台灣所收錄的華語會議語料庫(Mandarin meeting recording corpus, MMRC)建立了一系列的實驗。與數種現有的基礎實驗相比，實驗結果揭示了我們所提出的方法之有效性。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results