資訊工程學系

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60

本系前身「資訊教育學系」成立於民國七十四年，首先招收大學部學生，民國九十年成立資訊工程研究所碩士班，而後於民國九十五年進行系、所調整合併為「資訊工程學系」；並於九十六年成立博士班。本系目前每年約招收大學部四十餘人，碩士班六十餘人，博士班約五人，截至民國一百零四年十一月止，總計現有大學部一百九十多人，碩士班一百二十多人，博士班二十三人，合計學生人數約為三百三十多位。

News

系所網址：http://w1.csie.ntnu.edu.tw/

Browse

Search Results

Now showing 1 - 10 of 14

探索虛擬關聯回饋技術和鄰近資訊於語音文件檢索與辨識之改進
(2013) 陳憶文
虛擬文件檢索(Pseudo-Relevance Feedback)為目前最常見的查詢重建(Query Reformulation)典範。它假設預檢索(Initial-round of Retrieval)排名前端的文件都是相關的，所以可全用於查詢擴展(Query Expansion)。然而，預檢索所獲得的文件中，極可能同時包含重複性資訊(Redundant)和非關聯(Non-relevant)資訊，使得重新建立的查詢不能有良好檢索效能。有鑑於此，本論文探討運用不同資訊以在預檢索獲得的語音文件中挑選適當的關聯文件來建立查詢表示，讓語音文件檢索結果可以更準確。另一方面，關聯模型(Relevance Model )雖然可藉由詞袋(Bag-of-words)假設來簡化模型推導和估測，卻可能因此過度簡化問題，特別是用於語音辨識的語言模型。為了調適關聯模型，本論文有兩個貢獻。其一，本論文提出詞鄰近資訊使用於關聯模型以改善詞袋(Bag-of-words)假設於語音辨識的不適。其二，本論文也進一步探討主題鄰近資訊以強化鄰近關聯模型的架構。實驗結果證明本論文所提出之方法，不論在語音文件檢索還是語音辨識方面皆可有效改善現有方法的效能。
遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究
(2012) 黃邦烜; Bang-Xuan Huang
語言模型藉由大量的文字訓練後，可以捕捉自然語言的規律性，並根據歷史詞序列來區辨出下一個詞應該為何，因此在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演著不可或缺的角色。傳統統計式N連(N-gram)語言模型是常見的語言模型，它基於已知的前N-1個詞來預測下一個詞出現的可能性。當N小時，缺乏了長距離的資訊；而N大時，會因訓練語料不足產生資料稀疏之問題。近年來，由於類神經網路(Neural Networks)的興起，許多相關研究應運而生，類神經網路語言模型即是一例。令人感興趣的是，類神經網路語言模型能夠解決資料稀疏的問題，它透過將詞序列映射至連續空間來估測下一個詞出現的機率，因此在訓練語料中不會遇到未曾出現過的詞序列組合。除了傳統前饋式類神經網路語言模型外，近來也有學者使用遞迴式類神經網路來建構語言模型，其希望使用遞迴的方式將歷史資訊儲存起來，進而獲得長距離的資訊。本論文研究遞迴式類神經網路語言模型於中文大詞彙連續語音辨識之使用，探索額外使用關聯資訊以更有效地捕捉長距離資訊，並根據語句的特性動態地調整語言模型。實驗結果顯示，使用關聯資訊於遞迴式類神經網路語言模型能對於大詞彙連續語音辨識的效能有相當程度的提昇。
實證探究多種鑑別式語言模型於語音辨識之研究
(2011) 賴敏軒
語言模型(Language Model)在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演相當重要的角色，藉由使用大量的訓練文字來估測其相對應的模型參數，以描述自然語言的規律性。N-連(N-gram)語言模型(特別是雙連詞(Bigram)與三連詞(Trigram))常被用來估測每一個詞出現在已知前N-1個歷史詞之後的條件機率。此外，N-連模型大多是以最大化相似度為訓練目標，對於降低語音辨識錯誤率常會有所侷限，並非能達到最小化辨識錯誤率。近年來為了解決此問題，鑑別式語言模型(Discriminative Language Model, DLM)陸續地被提出，目的為從可能的辨識語句中正確地區別最佳的語句作為辨識之結果，而不是去符合其訓練資料，此概念已經被提出並論證有一定程度的成果。本論文首先實證探討多種以提升語音辨識效能為目標的鑑別式語言模型。接著，我們提出基於邊際(Margin-based)鑑別式語言模型訓練方法，對於被錯誤辨識的語句根據其字錯誤率(Word Error Rate, WER)與參考詞序列(字錯誤率最低)字錯誤率之差為比重，給予不同程度的懲罰。相較於其它現有的鑑別式語言模型，我們所提出的方法使用於大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)時有相當程度的幫助。
多種鑑別式語言模型應用於語音辨識之研究
(2010) 劉家妏
N連(N-gram)語言模型在語音辨識器中扮演著關鍵性的角色，因為它可幫助辨識器從其大量輸出的候選詞序列中，區分出正確與非正確的候選詞序列。然而，因N連語言模型的訓練目標為最大化訓練語料的機率，而不是以最佳化語音辨識評估量為目標，導致在語音辨識效能表現上有所侷限。本論文我們首先探討多種基於不同訓練目標的鑑別式語言模型(Discriminative Language Model, DLMs)。鑑別式語言模型的根本精神即為直接提昇語音辨識效能；接著會比較它們在理論與實際上運用在大詞彙語音辨識上的表現。另外，我們也提出語句相關之鑑別式語言模型(Utterance-driven Discriminative Language Model, UDLM)，此語言模型可考慮測試語句的特性，並即時估計其模型參數。最後，我們將最大化事後機率法(Maximum a Posterior, MAP)結合語句相關之鑑別式語言模型，期望最大化事後機率法所產生的辨識結果，能幫助語句相關之鑑別式語言模型獲致更顯著的語音辨識率提昇。本論文的實驗皆建立在臺灣中文廣播新聞語料上，實驗結果顯示本論文所提出之作法可獲得一定的語音辨識率提升。
使用邊際資訊於鑑別式聲學模型訓練
(2010) 羅永典; Yueng-Tien Lo
本論文旨在探究近年具代表性的鑑別式聲學模型訓練方法及其背後之一致性，並且延伸發展各種不同以邊際為基礎的資料選取方法來改善鑑別式聲學模型訓練，應用於中文大詞彙連續語音辨識。首先，為了進一步探討近年各種鑑別式訓練方法，我們整理歸納近年所發展鑑別式訓練方法之目標函數其背後一致性。其次，我們討論了各種不同邊際資訊應用於鑑別式訓練的方法，進而在大詞彙連續語音辨識中有效地降低語音辨識錯誤率。再者，我們結合了柔性邊際與增進式方法使得在資料選取的範圍上更為明確且具彈性，以提供更具鑑別資訊的統計量。在實作上，我們觀察了以語句為層次的選取資料為例，以進一步了解各式統計資訊對於鑑別式訓練成效之影響。最後，本論文以公視新聞語料做為實驗平台，實驗結果初步證實了本論文所提出之作法在某種程度上能夠改善過去方法所面臨的過度訓練之問題。
基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識
(2009) 李鴻欣; Hung-Shin Lee
線性鑑別分析(linear discriminant analysis, LDA)的目標在於尋找一個線性轉換，能將原始資料投射到較低維度的特徵空間，同時又能保留類別間的幾何分離度(geometric separability)。然而，LDA並不能總是保證在分類過程中產生較高的分類正確率。其中一個可能的原因在於LDA的目標函式並非直接與分類錯誤率連接，因此它也就未必適合在某特定分類器控制下的分類規則，自動語音辨識(automatic speech recognition, ASR)就是一個很好的例子。在本篇論文中，我們藉著探索每一對容易混淆之音素類別間的經驗分類錯誤率(empirical classification error rate)與馬氏距離(Mahalanobis distance)的關係，擴展了傳統的LDA，並且將原來的類別間散佈矩陣(between-class scatter)，從每一對類別間的歐式距離(Euclidean distance)估算，修改為它們的成對經驗分類正確率。這個新方法不僅保留了原本LDA就具有的輕省可解性，同時無須預設資料是為何種機率分佈。另一方面，我們更進一步提出一種嶄新的線性鑑別式特徵擷取方法，稱之為普遍化相似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA)，其旨在利用相似度比率檢驗(likelihood ratio test)的概念尋求一個較低維度的特徵空間。GLRDA不僅考慮了全體資料的異方差性(heteroscedasticity)，即所有類別之共變異矩陣可被彈性地視為相異；並且在分類上，能藉由最小化類別間最混淆之情況（由虛無假設(null hypothesis)所描述）的發生機率，而求得有助於分類效果提升的較低維度特徵子空間。同時，我們也證明了LDA與異方差性線性鑑別分析(heteroscedastic linear discriminant analysis, HLDA)可被視為GLRDA的兩種特例。再者，為了增進語音特徵的強健性，GLRDA更可進一步地與辨識器所提供的經驗混淆資訊結合。實驗結果顯示，在中文大詞彙連續語音辨識系統中，我們提出的方法都比LDA或其它現有的改進方法，如HLDA等，有較佳的表現。
使用機器學習方法於語音文件檢索之研究
(2009) 游斯涵
本論文初步地討論機器學習之方法在資訊檢索上的應用，即所謂排序學習(Learning to Rank)；並針對近年被使用在資訊檢索上的各種機器學習模型及概念，以及所使用的各種特徵，包含詞彙本身之特徵、相近度特徵、及機率特徵等進行分析與實驗。除此之外，本論文亦將之延伸至語音文件檢索的應用上。本論文初步地使用TDT(Topic Detection and Tracking)中文語料部份作為實驗題材，此語料為過去TREC(文件檢索暨評測會議)上公開評估語音文件檢索系統的標準語料(Benchmark)之一，此語料包含TDT-2及TDT-3兩套語料，提供了大量的新聞語料，及豐富的主題、轉寫等標註，以作為語音文件檢索相關研究使用。為了更有效地開發富含資訊的語音文件特徵，本論文亦使用臺師大大陸口音中文大詞彙連續語音辨識器(Large Vocabulary Speech Recognition, LVCSR)作為語音文件轉寫平台，產生的詞圖(Word Graph)，作為擷取語音文件獨特特徵的主要依據。此外，我們並考慮到資訊檢索中之訓練語料不平衡問題，並提出解決此問題之對策。最後，初步的實驗結果顯示，成對式訓練方法RankNet之訓練模型檢索成效較逐點式訓練方法SVM之訓練模型檢索成效為佳。
資料選取方法於鑑別式聲學模型訓練之研究
(2008) 朱芳輝; Fang-Hui, Chu
本論文旨在研究使用各種訓練資料選取方法來改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練，並應用於中文大詞彙連續語音辨識。首先，我們汲取Boosting演算法中強調被錯誤分類的訓練樣本之精神，修改最小化音素錯誤訓練中每一句訓練語句之統計值權重，以提高易傾向於被辨識錯誤的語句對於聲學模型訓練之貢獻。同時，我們透過多種方式來結合在不同訓練資料選取機制下所訓練出的多個聲學模型，進而降低語音辨識錯誤率。其次，我們亦提出一個基於訓練語句詞圖之期望音素正確率(Expected Phone Accuracy)定義域上的訓練資料選取方法，分別藉由在語句與音素段落兩種不同單位上的訓練資料選取，以提供最小化音素錯誤訓練更具鑑別資訊的訓練樣本。再者，我們嘗試結合本論文所提出的訓練資料選取方法及前人所提出以正規化熵值為基礎之音框層次訓練資料選取方法、以及音框音素正確率函數，冀以提升最小化音素錯誤訓練之成效。最後，本論文以公視新聞語料作為實驗平台，實驗結果初步驗證了本論文所提出方法之可行性。
利用主題與位置相關語言模型於中文連續語音辨識
(2007) 邱炫盛; Hsuan-Sheng Chiu
本論文探討語言模型於中文連續語音辨識。首先，詞主題混合模型(Word Topical Mixture Model, WTMM)被提出，用來探索詞與詞之間的關係，在語言模型調適中，此關係可當作是長距離的潛藏語意資訊。在語音辨識過程中，歷史詞序列可被建立成一個複合式詞主題混合模型，並用來預測新的辨識詞。此外，位置相關語言模型(Position-Dependent Language Model)亦被提出，使用詞在文件或語句的位置資訊輔助估測詞發生的可能性，並與N連詞模型及潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)模型所提供的資訊作整合。最後，針對摘錄式摘要，我們也發展一個機率式句排名架構，其中的語句事前機率透過能夠緊密整合語句資訊的整句最大熵值(Whole Sentence Maximum Entropy, WSME)模型估測。這些資訊從語句中擷取，並可作為語音文件中重要語句的選擇依據。本論文實驗於收集自台灣的中文廣播新聞。語音辨識結果顯示，詞主題混合模型與位置相關語言模型能夠提升大詞彙連續語音辨識系統的效果。此外，語音文件摘要結果也顯示，透過整句最大熵值法整合語句層次資訊能夠提升摘要正確率。
運用鄰近與概念資訊於語言模型調適之研究
(2014) 郝柏翰
本論文研究語言模型調適技術用於中文大詞彙連續語音辨識，其主要貢獻有兩個部分：第一部分探討主題模型(Topic Models)之延伸與改進，除了希望能放寬詞袋假設的限制之外，更藉由融入鄰近資訊(Proximity Information)期望使主題模型有更好的預測效能；第二部分提出概念模型(Concept Language Model, CLM)，其主要目的為近似使用者心中所想之概念，並藉此觀察較為相關之用詞；同時，本論文更嘗試以不同方式來估測概念模型。本論文實驗以字錯誤率(Character Error Rate, CER)與語言複雜度(Perplexity)為評估依據；結果顯示本論文所提出方法對辨識效能之提升有明顯的幫助。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results