Browsing by Author "Chen, Cheng-Hsien"

Now showing 1 - 9 of 9

中文之容納語意認知: 以量化語料庫方法研究中文空間詞「裡」、「內」、「中」
(2018) 蘇洪寬; Su, Hung-Kuan
認知語義學領域最常討論的話題之一就是人類如何將空間經驗概念化。而在空間概念中，容納(CONTAINMENT)和支撐(SUPPORT)這兩個重要的空間概念，在過去十年中備受關注。雖然語言共享許多共同的空間概念，但不同語言的人們在如何編碼這些空間關係上卻是十分多樣的。本研究旨在探討中文母語使用者如何通過三個接近同義詞的空間詞構式意即[在…NP…裡/內/中]來概念化容納語意關係。過去大都採用質性分析來理解這些空間構式上的語義差異，而本研究意在透過以量化語料庫的角度，檢視容納空間構式與其地標詞(landmark)之間的共現模式。更具體地說，本研究藉由兩個統計分析，即多重鑑別詞彙連接分析(multiple distinctive collexeme analysis)和事後語義分析(post-hoc analysis)，從量化語料庫的角度來研究這些概念上類似的容納語意構式。目的在於探討每個空間構式，鑑別詞彙連接(distinctive collexeme)所形成之語義場(semantic field)，從而識別構式間之語義差異。研究結果發現，三種空間構式對其地標詞選擇具有不同的偏好。這些差異反映了中國人使用容納的意象基模(image schema)來概念化一系列抽象概念，如時間和事件。[在…NP…裡]此空間構式被認為是容納關係的原型和無標記形式(unmarked)。因此，它具有更多樣化的模式，吸引了具體名詞，時間名詞，靜態抽象名詞。另一方面，當使用容納的意象基模來指定時間事件的閾值時，[在…NP…內] 此空間構式則被用於指定預先計劃的目標的截止日期。當容納的意象基模擴展到事件類的概念化時，[在…NP…內] 此空間構式可能在中文較為偏好，且通常會激發對地標的未完成(imperfective)解讀。關鍵詞: 構式搭配分析法, 語料庫分析法, 空間詞
中文網路留言之幽默偵測
(2023) 朱曼綾; Ju, Man-Ling
本研究旨在探討利用深度學習模型(deep learning)對於台灣網路論壇—批踢踢實業坊(簡稱 PTT 論壇)上推文(論壇中對留言的稱呼)的中文幽默文本分類。文中結合了失諧理論(Incongruity Theory)、貶抑理論(Disparagement Theory)及釋放理論(Release Theory)並提出幽默是由違反行為(behavioral violation)及邏輯/溝通(logical/maxim violation)上的原則所形成。本研究於兩種層次的語境中找尋行為及溝通違規以進行幽默分類。第一種語境為推文裡的局部語境(local context)；第二種語境為整個文章及推文互動的全局語境(global context)。研究結果發現，相較於使用詞袋特徵(bag-of-words)的傳統機器學習模型，利用局部語境資訊的 BERT 模型可以提升模型表現。當 BERT 模型使用全局語境時，語境資訊的提取方式則對模型表現有不同影響。當模型提取原始的全局語境資訊時，模型表現沒有進步，而經過注意力機制對文章各部分進行重新賦權後，模型表現則有微幅提升。本研究亦從事後分析獲得幾項發現：一，就幽默推文來說，局部語境常出現某些討論主題。二，推文確實與文章某些部分有較緊密的連結。三、文章與幽默推文的連貫性較低，此發現支持了幽默裡的失諧現象，即透過轉換看待事物的視角來製造幽默。
台灣迷因文化的幽默與冒犯：解碼社群媒體吸睛關鍵
(2025) 洪綺臨; Hung, Chi-Lin
隨著迷因成為網路傳播的重要形式，許多研究陸續揭示幽默與其熱門程度之間的可能關聯。但針對台灣迷因語境，幽默與冒犯如何交織影響其傳播力，迄今仍缺乏實證。特別是冒犯是否有助於或阻礙迷因傳播，目前文獻仍未有共識。本研究旨在 (1) 驗證幽默與冒犯兩種情緒與迷因熱門度（按讚數）的關係；(2) 從社會互動 (Hyland, 2005b)、文本分析、多模態符號學層面挖掘台灣熱門迷因中兩情感的語言學意涵。研究先自Instagram爬取迷因貼文，整理出平衡熱門度和定量冒犯比例的台灣繁中迷因語料庫。幽默和冒犯的評分則來自大眾的問卷填答，作者從語料庫中隨機抽取兩千多筆迷因製成線上問卷，控制每份問卷的熱門、冒犯迷因數量及個別填答人次，最終取得2,179筆有效迷因樣本。分析（一）使用問卷收集來的迷因探討幽默、冒犯和熱門度的關聯。分析（二）進一步篩選出圖文分離且文本類型單一（分為「片語」、「子句」、「句子」、「段落」、「對話」五類）的熱門迷因，共626張，細究迷因的幽默和冒犯語言學特徵。分析（一）結果顯示，僅幽默和熱門度呈現正相關，冒犯則無論是一次還是二次項皆無顯著關聯，兩者呼應了前人研究成果。分析（二）發現，在台灣迷因文本中，某些互動訊號傾向與具有幽默感或冒犯性的熱門迷因同時出現。若迷因創作者希望提升觀眾的共鳴效果，宜優先考量「自我揭露」與「訴諸共同知識」等互動性線索。反之，若傾向避免引發非預期的冒犯，則建議審慎檢視「對話」體裁的迷因，尤其是含有「內梗」的內容呈現。此研究貢獻在於（1）首度以純台灣繁中迷因檢驗幽默、冒犯與熱門度之關係；（2）建立涵蓋情緒評分與語言標記的台灣迷因語料庫，為後續多模態語言學與情感傳播研究提供基礎；（3）為迷因創作者與平台管理者提出互動策略與冒犯風險控管之實務建議。
基於大型語言模型探討YouTube Shorts中的疑美論與宣傳技術分析
(2025) 劉士賢; Liu, Shi-Shian
本研究旨在探討多模態大型語言模型於YouTube短影音中偵測疑美論之效能，以及宣傳手法在大型語言模型表現之角色。在此研究中，疑美論定義為台灣應與美國保持距離之相關論述。研究中所使用的短影音資料來自台灣傳統媒體與政論節目之YouTube頻道。為評估不同輸入模態對大型語言模型偵測表現的影響，我們設計了三種輸入條件：文字模態、影像模態、以及文字與影像結合的多模態。文字模態輸入是由轉錄之影音內容與標題構成；影像模態則為將將短影音以每秒一幀進行抽取；多模態則為上述兩模態的結合。本研究包含兩組實驗，分別為實驗一與實驗二。實驗一為二元分類任務，旨在判斷短影音是否包含疑美論，共有64支短影音，由32個疑美論與32個非疑美論短影音組成。實驗二為多類別分類任務，共有62支短影音，涵蓋12個類別，包括8種前人提出的疑美論類型、3種本研究新增類型，以及1種非疑美論類型。模型除需分類出疑美論類別，亦須輸出其判斷理由。為全面評估模型表現，本研究提出了四項評估架構。第一與第二架構分別針對二元與多元分類，使用四項指標：準確率、精確率、召回率與F1分數進行評估。第三架構則透過將模型輸出的判斷理由與人工標註之疑美論片段向量化，計算餘弦相似度，藉此衡量模型對特定類型之理解程度；並以雙因子變異數分析檢驗餘弦相似度是否受輸入模態與預測正確性之影響。第四架構則以卡方檢定分析宣傳手法使用頻率與模型表現之間的關聯性。實驗結果如下：第一，文字模態在二元分類中表現最佳，準確率與F1分數均超過0.8。第二，模型於多類別分類中的表現因輸入模態不同而有所差異。第三，多數疑美論類型的餘弦相似度高於0.8，且變異數分析顯示輸入模態為顯著影響因素，其中文字模態效果最為顯著。第四，宣傳手法的使用與特定疑美論類型呈現顯著關聯，但與模型分類表現無顯著關聯，此外，最常使用的三種宣傳手法為訴諸恐懼、貼標籤與情緒語言。綜上所述，本研究為國內首篇探討多模態大型語言模型於疑美論偵測之應用，實驗結果顯示，模型在疑美論的二元分類任務中具備可行性與潛力，然而在多類別細緻分類上仍有進步空間。本研究亦指出，未來在疑美論偵測應用中，透過文字輸入即可有效驅動大型語言模型進行分類，有助於加速對疑美論宣傳內容的辨識與應對。
應用構詞語法於中文評論之情感分析
(2021) 吳念恆; Wu, Nien-Heng
情感分析是自然語言處理領域最常討論的主題之一。情感分類經常使用詞袋模型(bag-of-words model)搭配n元語法(n-gram)建立分類模型，過去研究亦顯示，採用語法特徵和篇章特徵等非詞袋特徵，也能為分類效能帶來重要貢獻。本研究旨在分析透過語言學知識集成之構詞語法在中文電影評論中對於情感詞極度之影響，並探討其應用是否能夠有效提升文本情感分類效能。本研究先利用模式文法(pattern grammar)，以質化角度歸納出情感相關句構組合，再利用雙樣本中位數差異檢定(Wilcoxon rank-sum test)，以量化角度檢測句構對於情感詞極度之影響，從而識別句構對於情感詞調節之偏好。研究結果發現，句構組合具有兩種情感調節偏好：增強正向情感詞之情感極度，以及削弱負向情感詞之情感極度。後續的詞彙連接分析(collexeme analysis)也顯示，增強情感極度之句構普遍吸引正向情感詞，而削弱情感極度之句構則吸引負向情感詞較為顯著。這些差異反映中文母語使用者在電影評論中，如何調節個人意見之情感極度，以進一步建立評論可信度。本研究最後採用支持向量機(Support Vector Machines)建立分類模型，並透過兩個文本情感分類實驗，在與傳統詞袋模型比較下，驗證情感相關句構組合之分類效能。在實驗（一）中，我們檢測結合語言學知識集成之情感句構，相較於包涵情感詞之傳統n元語法，是否能夠涵蓋較全面的情感相關語法信息。在實驗（二）中，我們驗證情感句構是否有助於提升傳統詞袋模型之分類效能。實驗（一）結果顯示，與包涵情感詞之傳統n元語法相比，情感句構能夠涵蓋更廣的情感詞語法特性，且能夠更有效率地編碼重要情感相關語法信息。實驗（二）也證實，當n元語法和情感詞納入分類模型時，情感句構的加入，能夠提升傳統詞袋模型之分類效能，分類表現更可達到F1指標87.80%。本研究透過語言學知識集成之構詞語法，可在普遍用於情感分類模型的暴力演算法以外，提供另一個建立分類模型之方法。
華語為二語學習者之搭配詞能力發展：台灣華語文測驗學習者寫作語料分析
(2022) 林雋樺; Lin, Jun-Hua
本研究旨在分析華語為二語學習者在華語文能力測驗(TOCFL)所寫的文章中二字詞(bigram)的詞彙關聯和分佈的發展。作者檢視四個精熟度級別的二語學習者所產出的文本，總計2836篇，並評估該文本中所有連續的兩字詞，將它們與來自中央研究院現代漢語平衡語料庫的華語母語者的雙字搭配詞組進行比較。作者採用中研院現代漢語平衡語料庫之二字詞表作為詞典，取得四種詞彙指標: mutual information(MI)、Delta P、inverse document frequency(IDF)和unseen rate對二語文本中的二字詞(bigram)進行分析，以評估二語學習者之搭配詞組能力。本論文進行了兩項統計分析：二因子變異數分析(two way ANOVA)和事後趨勢分析(post hoc trend analysis)。二因子變異數分析一方面檢驗了學習者精熟度級別和L2文本文體之間的關係，另一方面檢驗了學習者詞彙指標之得分。研究結果發現，在MI、backward Delta P和unseen rate，文體對詞彙指標分數有明顯的交互作用。中級學習者表現出最低的平均MI分數，這可能是導因於中級學習者的詞彙量增加與其實驗心態。此外，Backward Delta P分數沒有隨著級別上升而有明顯的增加趨勢。唯一的上升發生在B1信件，這可能是起因於B1學習者所使用的局部語法結構(local constructions)。另外，在C1中觀察到的unseen bigram大多被認為是分歧的表述(divergent representations)，這表明進階學習者努力想出一些組合來表達他們的想法，即使這些組合可能不為大多數母語者使用。另外，在forward Delta P和IDF中，文體與詞彙指標分數不存在交互作用。Forward Delta P分數隨著級別而增加，這反映人類語言處理的從左到右的方向。高IDF之二字詞在A2和C1學習者中更為普遍被使用，原因是A2與C1學習者使用了相當多與現實生活相關或者特定領域二字詞。本論文對多元層面的二語學習者二字詞能力進行了全面的分析，並強調華語為二語教學中，單字以外的多字詞組能力之重要性。
行為特徵分析: 以量化語料庫方法研究中文口語程度副詞「很」、「太」、「蠻」、「超」
(2021) 黃姵文; Huang, Pei-Wen
對於第二外語學習者來說，能於日常生活中正確地使用中文程度副詞著實為一大挑戰。過去碩果累累的程度副詞研究中，較少透過口語語料庫探討程度副詞，鑑於不同文體與方言造就出語言之多變性，本研究旨在藉由量化語料庫方法中之行為特徵分析(Behavioral Profile Approach)研究中文口語程度副詞個別之使用特色。本研究首先收集政大口語語料庫(the NCCU corpus of spoken Taiwan Mandarin)釋出的部分語料(Taiwan Mandarin Corpus in TalkBank)，找出四個較為常用的程度副詞 – 「很」、「太」、「蠻」、「超」，並利用標記後的資料算出近義詞間的相對語意距離，而後本研究先採用階層式集群分析法(hierarchical cluster analysis)探究相近之群集，再採用事後比較檢定(post-hoc analysis)歸納出能顯著區辨程度副詞結構之重要語意特色。研究結果發現，「超」與「蠻」的語意傾向較為相似，而「太」與「很」亦有相近之語意特色。由於樹狀圖(dendrogram)顯示三組群集，各組則逐一於實驗一至實驗三進行比較：實驗一利用「超」和「蠻」的行為特徵與「太」和「很」進行比較從而分析兩兩近義詞間之相似性；實驗二藉由比較「超」與「蠻」探究相異之處，結果顯示，謂語的情感最能區辨程度副詞「超」與「蠻」，前者較經常修飾負面的謂語而後者則較傾向修飾正面的謂語。最後實驗三比較「太」與「很」之相異性，結果顯示，程度副詞「太」的句構中較常以抽象事物為主題，而程度副詞「很」的句構則較傾向講述關於人的主題。另外，根據行為特徵之百分比顯示，程度副詞主要修飾性質形容詞，然而除了性質形容詞外，其他詞類亦展現不同之傾向，例如：與外型有關之形容詞較常於「太」的句構中出現，而一般動詞則經常於「很」的句構被使用。
解碼情緒：以語料庫為本方法探索華語流行歌詞中的情緒概念
(2025) 陳柏儒; Chen, Po-Ju
本研究旨在分析華語流行音樂歌詞中，與情緒有關之概念，以及這些概念如何以概念隱喻和概念轉喻之方式在歌詞文本中將抽象的情緒概念具體化。我們建立了從2013年至2023年共73,358首歌曲的華語流行歌詞語料庫，並利用語料庫語言學中搭配詞概念、詞向量模型和網絡分析等技術，將和七大基本情緒 (快樂、悲傷、恐懼、驚訝、憤怒、厭惡、以及輕視) 有關的名詞搭配詞取出，建立每個情緒的搭配詞網絡。網絡中的節點(nodes)為各情緒的顯著名詞搭配詞，邊(edges)則為搭配詞之間的語意相似值。我們透過詞向量計算每個搭配詞之間的語意相似值，並以網絡分析中社群偵測 (community detection) 彙整出與情緒相關之語義場，進而匯聚為更廣義的語意類別，分析與情緒相關之概念。最後，我們也隨機挑選出每個語義場中的搭配詞索引，進一步觀察、分析其在歌詞文本中可能出現的概念隱喻、轉喻，以及相關概念。根據社群偵測的結果顯示，每種情緒都和不同的媒介產生關聯。和快樂有關的概念數量最多，其次依序為悲傷、恐懼、驚訝、憤怒、厭惡、以及輕視。其中，我們發現快樂（JOY）和悲傷（SADNESS）在不同具體程度的語義類別中有共同的相關概念：抽象概念傾向於和快樂及悲傷有關，但具體概念則顯現出不同情緒偏好。儘管和恐懼、驚訝、憤怒等情緒相關的概念數量較少，本研究分析的七大情緒皆與「人」（HUMAN）、時間（TIME）相關的概念有關聯，突顯了情緒表達短暫且人本中心的性質。而透過分析隨機選取的搭配詞索引，我們發現華語流行歌詞運用了概念隱喻和概念轉喻來理解情緒，同時，單純相關的概念則反映出歌詞文本中經常出現的主題。透過語料庫為本的方法，我們發現許多過往文獻未提及的隱喻和轉喻。總的來說，本研究結果顯示，華語流行歌詞中七大基礎情緒和不同概念有關，且歌詞文本常以概念隱喻和轉喻的方式將抽象情緒概念具體化以助理解。而利用搭配詞和網絡分析，本研究採用之語料庫為本、資料導向的研究方法能有效幫助我們找出華語流行歌詞背後和情緒相關的語意概念和群體。
韻律特徵於YouTube言語體裁多模態分類中之潛力
(2023) 車信璋; Che, Sin-Jhang
本研究旨在分析YouTube臺灣華語創作內容中，娛樂型和知識型言語體裁之韻律特質，以及不同特徵模組(feature mode)對於自動化言語體裁分類模型之成效。我們建立了一個由5049語句所組成的語料庫。在此研究中，單一語句定義為言語中兩間隔停頓間之單位，每個語句紀錄了其文本、言語體裁、時長特徵［包含：語句時長、停頓時長、語速、時長成對變異指數(duration-based PVI)］、基頻特徵［包含：平均值、全距、基頻成對變異指數(f0-based PVI)］。我們也進一步將每個語句的文本以TF-IDF方法轉換成文字特徵。本研究是以每個單一語句為分析單位。首先，我們運用所提出的七個時長及基頻特徵，建立了羅吉斯迴歸模型，以分析娛樂型及知識型言語體裁分別具有特定哪些韻律特質。再者，我們建立了三種自動化言語體裁分類模型，包含了韻律特徵模型、文字特徵模型、多模態特徵（結合韻律及文字特徵）模型，以研究韻律特徵於言語體裁分類之潛力、多模態特徵是否能進一步提升言語體裁分類之結果。根據羅吉斯回歸模型的結果顯示，在我們所提出的七個韻律特徵中，有六個韻律特徵（排除停頓時長，包含：語句時長、語速、時長成對變異指數、基頻全距、基頻成對變異指數、基頻平均值）於模型中呈現統計顯著性，顯示娛樂型及知識型言語體裁具有不同韻律特質。此統計分析結果也顯示，與娛樂型言語體裁相比，知識型言語體裁通常具有較長的語句時長、較慢的語速、較低的音高、較明顯的語調變化，其節奏也更具等時性。再者，我們也運用提出的七個韻律特徵來訓練韻律特徵分類模型以及多模態特徵分類模型。研究結果顯示，以七個韻律特徵為本的模型分類準確率達0.733，展現了韻律特徵於言語體裁分類之潛力；此外，多模態特徵分類模型表現優於任何其他以單一特徵模組為本之模型，分類結果達到0.846準確率。我們認為在言語體裁分類任務中，韻律特徵能夠彌補文字特徵所缺乏或無法完全呈現的訊息，甚至能夠進一步提升原本就具不錯表現的文字特徵模型。總而言之，言語的多模態現象，使得進行言語體裁分類任務時必須同時考量韻律特徵及文字特徵。