Repository logo
Communities & Collections
All of DSpace
  • English
  • العربية
  • বাংলা
  • Català
  • Čeština
  • Deutsch
  • Ελληνικά
  • Español
  • Suomi
  • Français
  • Gàidhlig
  • हिंदी
  • Magyar
  • Italiano
  • Қазақ
  • Latviešu
  • Nederlands
  • Polski
  • Português
  • Português do Brasil
  • Srpski (lat)
  • Српски
  • Svenska
  • Türkçe
  • Yкраї́нська
  • Tiếng Việt
Log In
New user? Click here to register.Have you forgotten your password?
  1. Home
  2. Browse by Author

Browsing by Author "Lee, Pei-Ying"

Filter results by typing the first few letters
Now showing 1 - 1 of 1
  • Results Per Page
  • Sort Options
  • No Thumbnail Available
    Item
    新穎語者自動分段標記技術之研究
    (2024) 李佩穎; Lee, Pei-Ying
    語者自動分段標記(Speaker Diarization)在廣播節目、會議、線上媒體等多個領域中具有豐富的應用潛力,並且可以與自動語音辨識(ASR)或語音情緒辨識(SER)結合,從對話內容中提取有意義的資訊。然而,自動語音辨識在語者數量超過兩人時,其錯誤率顯著提升,這種情況被稱為雞尾酒會問題。為了解決未知語者數量的問題以及提升整體性能,衍生出端到端編碼器-解碼器吸引子(EEND-EDA)模型,並有許多研究針對此問題進行了深入探討。儘管有些研究結合了語者自動分段標記與自動語音辨識(ASR)或大型語言模型(LLM)以增加實用性,但這些方法並未針對編碼器的隱藏狀態進行改進。因此,本研究著重於改進語音特徵訊號的處理,以提升模型效能。為此,我們首先將模型框架從Transformer更改為Branchformer,強化模型對語者辨識的效能。其次,為了引導注意力機制使其更專注於語音活動,我們增加了一個輔助損失函數(Auxiliary Loss Function)。最後,嘗試將Log-Mel特徵進行更改,以提升模型的泛化能力。我們探討了在固定語者數量和未知語者數量情況下,進行語者自動分段標記是否能幫助模型提升效能,並為模型提供了新的選擇。

DSpace software copyright © 2002-2025 LYRASIS

  • Privacy policy
  • End User Agreement
  • Send Feedback