Browsing by Author "謝舒凱"

Now showing 1 - 15 of 15

Formal Description of Lexical Semantic Relations=
(英語學系, 2009-01-??) 謝舒凱
詞彙語意關係在近年來的自然語言處理研究中扮演重要的角色，也同樣地影響著詞彙語意資源的建構。在此脈絡下，本文回顧了詞彙語意關係的研究，並利用擴展的形式概念分析提出一套詞彙語意關係的形式模組。作者認為這個模組能突顯語意與文化差異的問題，同時也能支持詞彙理論上的解釋以及多語化的詞彙網路應用。
中文動詞上下位關係自動標記法
(2009) 羅巧珊; Chiao-Shan, Lo
近年來，詞彙網路(Wordnet)已成為計算語言學相關領域中最為普遍利用的資源之一，對於資訊檢索(Information Retrieval)或是自然語言處理 (Natural Language Processing)的發展有相當大的幫助。詞彙網路是由同義詞集(Synset)以及詞彙語意關係(Lexical Semantic Relation)所建構而成，例如以英語為主的普林斯頓詞網(Princeton WordNet)、以及結合多個歐洲語言的歐語詞網(EuroWordNet)等，建構皆已相當完善。然而，一個詞網的建構並非一時一人之力所能完成，其所需要的人力以及耗費的時間相當可觀。因此，如何有效率並有系統的建構一個詞網是近年來研究致力的目標。而詞彙間的語意關係是構成一個詞網的主要元素，因此，如何自動化的抽取詞彙語義關係是建構詞網的重要步驟之一。中研院語言所已建立一個以中頻詞為主的中文詞彙網路(Chinese WordNet, CWN)，旨在提供完整的中文辭彙之詞義區分。然而，在目前中文詞彙網路系統中，同義詞集間相互的語意關係乃是採用人為判定標記，且這些標記之數量尚未達成可行應用之一定規模。因此，本研究提出一套半自動化的方法來自動標記詞彙間的語意關係，本篇論文針對動詞之間的上下位詞彙語意關係(Hypernymy-troponymy elation)，提出一種自動標記的方法，並抽取具有中文上下位關係之中文動詞組對。本篇論文提出兩種並行之方法，第一，藉由句法上特定的句型(lexical syntactic pattern)，自動抽取出中文詞彙網路中具有上下位關係之動詞組。第二，我們利用bootstrapping的方法，透過中研院建構的中英雙語詞網(Sinica Bow)大量將普林斯頓英語詞網中的語意關係對映至中文。實驗結果顯示，此系統能快速並大量地自動抽取出具有上下位語意關係之中文動詞組，本論文盼能將此方法應用於正在發展中的中文詞網自動語意關係標記，以及知識本體之自動建構，進而能有效率的建構完善的中文詞彙知識資源。
中文文本作者辨識研究: 以社群網站--臉書為例
(2013) 陳美瑜; Mei-Yu Chen
個人寫作風格差異(風格學)一直是熱門研究主題。從語言學角度觀察，研究人員嘗試各種量化方法及建立各種指數希望能將「個人差異」量化（Tweedie& Baayen, 1998; Mosteller & Wallace, 1964; Burrows, 2002, 2003, 2007; Hoover, 2004）。而從資訊科學領域來看，現今社會對「語言鑑識」或「文件作者分類」有漸增的需求，因為在數位化的時代，人們需要這項技術來幫助偵測漸增的網路匿名犯罪，或是幫助數位化文件作者分類。此篇論文首先介紹兩種學科對於個人寫作風格差異的研究方法，並且進行兩項實驗。實驗採用現今流行的社群網站Facebook 上的個人語料來探索中文的字(characters)與詞(words)能對個人寫作差異提供多少解釋力，並且探勘其他的文件風格，諸如:結構、主觀化、情緒特徵等，能對社群短語的作者判斷提供多少幫助。並且此研究坦討於常見的特徵權重 (tf-idf、詞頻、比例分布)計算中，何種權值能提供較佳的準確值。本實驗採用新式向量機套件— LibLinear 做為作者分類器，此分類器套件特殊的設計使其更適應於高維度的特徵訓練，例如「文件分類」這種需包含為數眾多的詞作為特徵值的任務。且不同於一般的分類器，Liblinear 能提供每項特徵對應不同分類別的的貢獻分數，因而能幫助研究者檢視何種特徵最能代表該作者類別。從實驗一的結果得知，tf-idf 特徵權的表現略比比例分布佳，但並未比詞頻的表現好。這個結果顯示在此類社群短語中，不論是在單則文章中或是整個實驗語料庫中，關鍵詞鮮少重複出現。原因有可能來自於在社群網站當張，短語的特性使其所能包含的文字較少，以及人們在此種社交平台上傾向不斷更換主題的特性。因此tf-idf 這種降低功能詞權重並提高文章關鍵詞權重的計算方式，沒能在此類短語文章屬性中見其專長，反而簡單的詞頻計算方式表現更佳。並且，這種結果或許反映了在功能詞與內容詞兩種特徵的比較上，tf-idf預設功能詞特徵對於作者辨識不重要的假設或許並不適當。實驗二展示中文不同階層的詞彙 (例如:字、詞、二字詞、字與詞混合)能提供的作者辨識度。另一個常見於中文作者辨識的議題是關於中文的斷詞問題。不同於字母系統的語言，中文在語言表層結構上並不存在字元間隔以區分單詞。因此先前許多針對中文作者辨識的研究選擇使用不分詞的方法進行分類辨識。本文中的第二項實驗以 CKIP 進行中文分詞，並且同時採用不分詞與分詞後的結果作為特徵值，以探索中文中不同字詞單元分別能提供的作者分類鑑識力（包括以字為本及以詞為本的一字詞單位、以詞為本的二字詞單位，以及混合字與詞）。結果顯示以詞為本的特徵值分類表現優於以字為本的特徵值。同時在第二個實驗中加入了字詞以外的特徵集（包含結構特徵、主觀化特徵、情緒特徵）。結果顯示主觀化特徵與情緒特徵在社群語料文類中的重要性。
以計算語言學方法研究英文的認知基本名詞
(2010) 林淑晏; Shu-Yen Lin
本論文探討認知科學中相當著名的原型理論（Prototype Theory）長久以來一直存在的一個議題，研究認知分類的文獻多是倚賴一些少數經典的例證，像是「扶手椅」、「椅子」、「傢俱」等的例子（Rosch et al. 1976; Taylor 2003; Ungerer& Schmid 1996, 2006）。就本作者所知，至今尚無任何研究試圖分析任一語言中所有詞彙的認知層（superordinate level, basic level, subordinate level），本論文以大型電子資料庫（WordNet, CELEX, BNC, CHILDES, ELP）為底，對英語的所有名詞進行全面性的研究，為羅須等人（Rosch et al. 1976, 1978）所提出的認知分類理論提供了有力的實證。本作者設計了一個找出WordNet裡的英文名詞認知層的計算法，比較每一個名詞在其所處的層級鍊中與其他名詞在形成複合詞能力上的相互關係，自動偵測出每個名詞的認知層級。以上述方法所擷取的英文名詞在詞彙、語意、構詞等各方面都有明顯的數據可呼應我們以三個認知層的認知顯著性差別所做的各種預測，尤其是以多元回歸（multiple regression）分析詞彙判別時間差（lexical decision latency）的實驗結果顯示，利用本論文所提出的計算法找出的認知層與詞彙判斷之間有很高的關聯性，這些數據上的實證對於本論文所提出的計算法的效度以及原型理論的可信度都是強力的佐證。分析母語習得的語料也達到與上述相同的結論，幼兒學習基本層詞彙的速度與詞彙量遠大於其他兩個認知層的詞彙，上層詞對幼兒而言特別具挑戰性，但一旦習得了的上層詞就成為幼兒常用的詞彙。由本論文的研究結果可看出認知科學與計算科學是可緊密聯繫且齊頭並進的。
字詞辨識中個別差異之量度：個人詞彙行為之角色探究
(2012) 林欣霓; Hsin-Ni Lin
本論文旨在以語料庫與計算語言學的研究方法，量測字詞辨識中受試者表現之個別差異。字詞辨識為心理語言學領域關注的議題，過去的研究 (Katz et al., in press; Lewellen, Goldinger, Pisoni,& Greene, 1993; Sears, Siakaluk, Chow, & Buchanan, 2008; Unsworth & Pexman, 2003; Yap, Balota, Sibley, & Ratcliff, 2012) 主要皆藉由測驗或問卷的方式，如詞彙測驗、詞彙熟悉度問卷，探討其中個別差異的來源；然而，這樣的研究方法，往往侷限於測驗可及的範疇，且受限於單一測驗包含的詞彙、分數、量尺等等。為了將研究範圍拓展至語言的實際使用面向上，本文從個人日常生活的詞彙行為 (lexical behaviors) 著手，提出「個人用詞之頻率指數」以及「個人詞頻」兩種變項的計量法；進而探討它們是否能解釋字詞辨識實驗中因受試者個人表現所造成的變異。研究經由四個步驟完成。第一，實施中文詞彙判斷作業 (lexical decision task)，用以收集字詞辨識之實驗數據。第二，自動抽取各受試者的臉書貼文，並加以斷詞。第三，利用斷詞結果，來計算前述兩種詞彙行為變項之數值。「個人用詞之頻率指數」是依據個人所用之詞彙在中研院平衡語料庫中相對應的詞頻而計算。「個人詞頻」意指詞彙判斷的實驗刺激 (stimuli) 於個人臉書貼文中出現的頻率高低。第四，統計分析的部分，採用擅於估計個人差異的混合效果模式 (mixed-effects models)。實驗結果顯示，「個人詞頻」效果顯著，受試者對於自己使用頻率較高的詞彙，反應較快；「個人用詞之頻率指數」較低的受試者，與預期相反地，正確率較低。此外，作為量度個人詞彙行為的先驅研究，本文亦提供計算方法論上的建議，如下所列。與預期相反的頻率指數結果，可能源於計量時所參照的平衡語料庫是由書面資料所組成，建議未來類似的實驗，應參照口語語料庫中的詞頻。另外，經由我們的實驗測試，即使自動斷詞的結果包含許多錯誤，利用該結果所得的個人總詞數來正規化其詞頻數，仍具有可行性。最後，當使用與臉書貼文一樣的自然語料 (naturalistic data) 進行計量時，建議研究個人的詞彙偏好或習性，而非個人使用的每一字詞。
漢語動詞語意特指之量度:語料庫為本的計量研究
(2010) 潘靜芬; Ching-Fen Pan
本研究旨在探討漢語動詞語意特指之量度表現。為了使中文動詞的語意內容量表化，我們首先針對一百五十個個基本動詞做人為判定標記，分為廣泛語意動詞(Generic verb) 和明確語意動詞(Specific verb) 兩種類型。藉由文獻中多種探討語意組成成分的論點，提出三項判斷標準:對施事者、施事工具的隱射，對受事類型的規範，以及語意轉化的表現。為使類型判斷標準化，本文採用語料庫語言學中所著重的量化表現包括字詞頻率、語意數量、以及受詞數量作為動詞類型的變數，再以統計學中的主成份分析(Principle Component Analysis) 判定變數的影響權重，以及多項羅吉特模型(Multinomial Logistic Model, MNLM) 為動詞類型作區別。此外，本文利用中央研究院平衡語料庫(Academia Sinica Balanced Corpus)，建立一個詞彙分佈模型　(Distributional Model)，並且利用潛在語意分析法(Latent Semantic Analysis)，將動詞語意轉化為高維度向量。在以向量構成的模型中，每一個字詞在語料中的分佈，轉化為點在高維空間分佈。透過距離測量(Distance Measure) 的方式以及集群分析法(Cluster Analysis)，探討詞與詞之間的相似性，以及動詞語意和詞彙間潛在的語意關連性。本研究更進一步解釋，不同的動詞類型字間差距，以及中文結果複合動詞(Chinese Resultative Verb Compound) 之語意相關性。
潛在概念分析-利用中文網路資料在向量空間模型中呈現語意關係概念知識
(2012) 張虔榮; Qian-Rong Chang
在自然語言處理領域中，詞彙模式(lexical pattern)經常被使用在許多計算語意關係之間相似度的實驗裡。然而儘管這些詞彙模式的重要性日益增加，對於它們被宣稱所代表的語意關係，卻很少有學者去探討它們反映了哪種層面的訊息。本論文主張這些詞彙模式和它們所代表的語意關係，在語言使用過程中，具備了同樣的概念特性。同時本論文也提出一個稱為潛在概念分析(LCA)的計算模型，這個計算模型能掌握並且運用詞彙模式所具備的概念特性來進行相似度的計算。潛在概念分析是個自動化演算法，該演算法主要利用奇異值分解法(SVD)來處理因為大規模語料庫所產生的高維度問題。在本篇論文中，首先有35組詞彙模式經由半自動方式產生出來，作為LCA的輸入資料來源，接著每組詞彙模式都會產生一組列表，該列表會按照相似度距離由近到遠列出其他的34組詞彙模式。為了檢視LCA的功能，最後產生出來的結果會與另一組由手動標注的結果相互對照，這組由手動分群而成的結果所採取的準則來自詞彙資源網站FrameNet分類所依據的標準，最後結果顯示LCA所完成的相似度距離計算與手動分群的結果相似。本論文所採取的方法近似於Turney (2006)與Bollegala et al. (2009)所使用的方法，但差異在於本論文所提出之方法並不只是依靠頻率的分布情形，另外也將語言使用者對詞彙模式的概念知識納入LCA的計算考量。因為LCA的語料來源是網路內容，因此網路內容所具備的不穩定和易變動的特性也有時會影響LCA的表現。未來相關研究可依長期蒐集資料的方式來降低這個問題的影響。
補助人文及社會科學研究圖書計畫規劃主題---詞彙語意學
(2010/06-2011/05) 畢永峨; 謝舒凱; 林至誠; 陳昭珍; 李臻儀; 陳乃嫻; 吳靜蘭
補助人文及社會科學研究圖書計畫規劃主題---詞彙語意學
(2010/06-2011/05) 畢永峨; 謝舒凱; 林至誠; 陳昭珍; 李臻儀; 陳乃嫻; 吳靜蘭
補助人文及社會科學研究圖書計畫規劃主題---詞彙語意學
(2009/06-2010/05) 畢永峨; 林至誠; 謝舒凱; 陳乃嫻; 吳靜蘭; 陳昭珍; 李臻儀
總體來說，第一年的大目標有三：一是整理詞彙語意學與相關領域的理論與實務相關書籍，尤其是關於lexicology 及lexicography之圖書，以及重要的字辭典，並依照分類架構逐步購買、編目、典藏、外借與推廣；二是補齊目前台灣師大圖書館重要詞彙語意學理論與實務相關叢書及期刊的重要缺漏卷期；三是透過學術人脈與圖書館、出版商網絡，查詢稀有書籍的書源、估價以及購買管道。經由密集的學者討論與高效率的行政支援，我們預計在第一年的時間可以購置到主要的書籍，因為相關領域的書單目前已大致規劃完備，所以重點將以完成書籍的採購為目標。第二年的目標有五：其一在完成罕見、絕版典籍的蒐羅與典藏；其二則是以蒐集詞彙語意學領域有前瞻性、新興研究趨勢與議題的突破性文獻為重點，例如由近幾年出版的博士論文等，做為指引國內詞彙語意學研究的風向球；其三則是蒐集語言學各領域互動介面(interface)與詞彙語意學相關的著作；其四將更廣泛徵詢國內語言學領域的學者們，除了已經列入購置的書單外，是否尚有其他遺珠之憾亟待補齊；其五則是蒐集以非英語撰寫的詞彙語意學的相關著作。計劃中之一般書籍應可在一年期程中完成購置，相關支援之硬體設備，及軟體層面之擴大藏書流通借閱計劃，亦可於一年期程中調整、增設完畢。至於已經絕版的相關書籍、具前瞻性之書籍則需要於第一年彙整，第二年著手購買，希望本計劃能如期預定以兩年的時間完成。
補助人文及社會科學研究圖書計畫規劃主題---詞彙語意學
(2010/06-2011/05) 畢永峨; 謝舒凱; 林至誠; 陳昭珍; 李臻儀; 陳乃嫻; 吳靜蘭
補助人文及社會科學研究圖書計畫規劃主題---詞彙語意學
(2009/06-2010/05) 畢永峨; 林至誠; 謝舒凱; 陳乃嫻; 吳靜蘭; 陳昭珍; 李臻儀
詞彙研究已經成為跨學門的重要研究主題之一，國立台灣師範大學英語系欲建立一個完整典藏詞彙語意學研究的圖書資料庫，以增進該學門的研究及學術訓練。本案就圖書的典藏價值、特色、國內需求情形、所要達成的指標，以及購置圖書後永續經營與推廣服務及促進資源流通共享之規劃皆有詳細說明。我們將以二年期之時程規劃此一購書計畫。第一年的主體目標有三：一是整理詞彙語意學與相關領域的理論與實務相關書籍，尤其是關於lexicology 及 lexicography 之圖書，以及重要的字辭典，並依照分類架構逐步購買、編目、典藏、外借與推廣；二是補齊目前台灣師大圖書館重要詞彙語意學理論與實務相關叢書及期刊的重要缺漏卷期；三是透過學術人脈與圖書館、出版商網絡，查詢稀有書籍的書源、估價以及購買管道。經由密集的學者討論與高效率的行政支援，我們預計在第一年的時間可以購置到主要的書籍。第二年的目標有五：其一在完成罕見、絕版典籍的蒐羅與典藏；其二則是以蒐集詞彙語意學領域有前瞻性、新興研究趨勢與議題的突破性文獻為重點，例如由近幾年出版的博士論文等，做為指引國內詞彙語意學研究的風向球；其三則是蒐集語言學各領域互動介面（interface）與詞彙語意學相關的著作；其四將更廣泛徵詢國內語言學領域的學者們，除了已經列入購置的書單外，是否尚有其他遺珠之憾亟待補齊；其五則是蒐集以非英語撰寫的詞彙語意學的相關著作。計劃中之一般書籍應可在一年期程中完成購置，相關支援之硬體設備，及軟體層面之擴大藏書流通借閱計劃，亦可於一年期程中調整、增設完畢。至於已經絕版的相關書籍、具前瞻性之書籍則需要於第一年彙整，第二年著手購買，故本計劃預定以兩年的時間完成。
補助人文及社會科學研究圖書計畫規劃主題---詞彙語意學
(2010/06-2011/05) 畢永峨; 謝舒凱; 林至誠; 陳昭珍; 李臻儀; 陳乃嫻; 吳靜蘭
補助人文及社會科學研究圖書計畫規劃主題---詞彙語意學
(2009/06-2010/05) 畢永峨; 林至誠; 謝舒凱; 陳乃嫻; 吳靜蘭; 陳昭珍; 李臻儀
詞彙研究已經成為跨學門的重要研究主題之一，國立台灣師範大學英語系欲建立一個完整典藏詞彙語意學研究的圖書資料庫，以增進該學門的研究及學術訓練。本案就圖書的典藏價值、特色、國內需求情形、所要達成的指標，以及購置圖書後永續經營與推廣服務及促進資源流通共享之規劃皆有詳細說明。我們將以二年期之時程規劃此一購書計畫。第一年的主體目標有三：一是整理詞彙語意學與相關領域的理論與實務相關書籍，尤其是關於lexicology 及 lexicography 之圖書，以及重要的字辭典，並依照分類架構逐步購買、編目、典藏、外借與推廣；二是補齊目前台灣師大圖書館重要詞彙語意學理論與實務相關叢書及期刊的重要缺漏卷期；三是透過學術人脈與圖書館、出版商網絡，查詢稀有書籍的書源、估價以及購買管道。經由密集的學者討論與高效率的行政支援，我們預計在第一年的時間可以購置到主要的書籍。第二年的目標有五：其一在完成罕見、絕版典籍的蒐羅與典藏；其二則是以蒐集詞彙語意學領域有前瞻性、新興研究趨勢與議題的突破性文獻為重點，例如由近幾年出版的博士論文等，做為指引國內詞彙語意學研究的風向球；其三則是蒐集語言學各領域互動介面（interface）與詞彙語意學相關的著作；其四將更廣泛徵詢國內語言學領域的學者們，除了已經列入購置的書單外，是否尚有其他遺珠之憾亟待補齊；其五則是蒐集以非英語撰寫的詞彙語意學的相關著作。計劃中之一般書籍應可在一年期程中完成購置，相關支援之硬體設備，及軟體層面之擴大藏書流通借閱計劃，亦可於一年期程中調整、增設完畢。至於已經絕版的相關書籍、具前瞻性之書籍則需要於第一年彙整，第二年著手購買，故本計劃預定以兩年的時間完成。
補助人文及社會科學研究圖書計畫規劃主題---詞彙語意學
(2009/06-2010/05) 畢永峨; 林至誠; 謝舒凱; 陳乃嫻; 吳靜蘭; 陳昭珍; 李臻儀
詞彙研究已經成為跨學門的重要研究主題之一，國立台灣師範大學英語系欲建立一個完整典藏詞彙語意學研究的圖書資料庫，以增進該學門的研究及學術訓練。本案就圖書的典藏價值、特色、國內需求情形、所要達成的指標，以及購置圖書後永續經營與推廣服務及促進資源流通共享之規劃皆有詳細說明。我們將以二年期之時程規劃此一購書計畫。第一年的主體目標有三：一是整理詞彙語意學與相關領域的理論與實務相關書籍，尤其是關於lexicology 及 lexicography 之圖書，以及重要的字辭典，並依照分類架構逐步購買、編目、典藏、外借與推廣；二是補齊目前台灣師大圖書館重要詞彙語意學理論與實務相關叢書及期刊的重要缺漏卷期；三是透過學術人脈與圖書館、出版商網絡，查詢稀有書籍的書源、估價以及購買管道。經由密集的學者討論與高效率的行政支援，我們預計在第一年的時間可以購置到主要的書籍。第二年的目標有五：其一在完成罕見、絕版典籍的蒐羅與典藏；其二則是以蒐集詞彙語意學領域有前瞻性、新興研究趨勢與議題的突破性文獻為重點，例如由近幾年出版的博士論文等，做為指引國內詞彙語意學研究的風向球；其三則是蒐集語言學各領域互動介面（interface）與詞彙語意學相關的著作；其四將更廣泛徵詢國內語言學領域的學者們，除了已經列入購置的書單外，是否尚有其他遺珠之憾亟待補齊；其五則是蒐集以非英語撰寫的詞彙語意學的相關著作。計劃中之一般書籍應可在一年期程中完成購置，相關支援之硬體設備，及軟體層面之擴大藏書流通借閱計劃，亦可於一年期程中調整、增設完畢。至於已經絕版的相關書籍、具前瞻性之書籍則需要於第一年彙整，第二年著手購買，故本計劃預定以兩年的時間完成。