學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73873

Browse

Search Results

Now showing 1 - 6 of 6
  • Item
    以人工智慧輔助中文期刊參考文獻剖析之研究─以人文社會科學領域為例
    (2024) 郭珮涵; Kuo, Pei-Han
    隨著科學論文發表數量的快速增長,引用來源的多樣性和格式差異增加了參考文獻剖析的難度。本研究旨在探討如何自動化擷取科學論文中的參考文獻,並利用人工智慧工具進行剖析,藉以簡化工作流程,降低人力和時間成本,並提升圖書館的知識傳播效能。本文提出了從中文期刊文章檔案中自動化擷取參考文獻的方法,並評估使用人工智慧工具剖析參考文獻的可行性。本研究實驗分為三個部分,第一部分設計程式,擷取期刊文章中的參考文獻章節;第二部分評估不同人工智慧工具在參考文獻剖析任務中的效能;第三部分根據第二部分的實驗結果修正實驗方法,並評估和比較修正後的成果。實驗結果如下:1. 在參考文獻擷取實驗中,基於規則方法的程式能夠自動擷取文章中的參考文獻內容,用於建立資料集作為後續研究基礎。2. 在參考文獻剖析實驗中,本研究比較了spaCy和ChatGPT兩種基於Transformer架構的人工智慧工具的效能。實驗結果顯示,ChatGPT在各欄位的F1-score表現優於spaCy,具有較高的準確性和穩定性。3. 在第三部分實驗中,選擇了第二部分中效能較佳的ChatGPT進行提示修正。實驗結果顯示,經過提示調整後,ChatGPT在各欄位的F1-score表現均有所提升。本研究結果顯示了使用人工智慧工具自動化剖析參考文獻的可行性,並展現了大型語言模型在這一任務中的潛力和優勢。未來研究可以進一步嘗試結合多種人工智慧工具,探討利用不同模型優勢提升參考文獻剖析的準確性,同時探討減低剖析成本的可能性。
  • Item
    文字生成技術應用於學術論文寫作之評估─以人工智慧領域論文摘要為例
    (2022) 張悅倫; Chang, Yueh-Lun
    文字生成技術的應用在近年愈臻成熟,其對學術產出過程的影響更是不容小覷。為初步瞭解此技術對學術研究發表的影響,並探索人類與電腦能否辨別電腦生成或人類撰寫之學術文章,本研究運用既有的開放資源,以人工智慧領域之論文摘要為範圍,進行了「人類評估電腦生成摘要」及「摘要生成模型自動化評估」兩實驗。實驗一依據ACL Anthology和arXiv(cs.AI)語料,以語言模型GPT-2生成論文摘要,再就英文文法檢查工具Grammarly和受試者對其之評估情形進行分析。實驗二則藉由分類器,實測電腦能否辨別出電腦生成之摘要,再與受試者的評估結果進行比較。研究結論如下:1. 電腦能生成仿真度高的摘要,並在Grammarly的評估指標表現較人類撰寫摘要佳。2. 受試者對於電腦生成摘要之平均良窳度給分為3.617,而人類撰寫摘要則為3.622,顯示人類在不知道有電腦參與生成的前提下,無法明顯地辨別出一篇摘要為電腦生成或人類撰寫。3. 以SciBERT預測30篇摘要之Micro和Macro f1皆為0.93,較受試者的0.53及0.44高上許多,顯示電腦具辨別電腦生成摘要之能力。同時,由於在SciBERT預測錯誤的2篇摘要中,有1篇在人類預測中為正確,推論電腦與人類或許能在辨別上相互輔助。
  • Item
    人工智慧如何自動辨識電腦生成新聞之研究
    (2022) 文宣; Wen, Hsuan
    在人工智慧迅速發展的這個時代,開始有了機器自動生成新聞的技術,但機器生成的新聞內容並非全然正確時,檢視資訊的來源及內容就變成非常重要的一環,現今機器也能協助人類進行文章分類判斷,那機器到底為何能夠如此強大?本研究為探討在中文經濟新聞的範疇內,電腦生成的文章特徵是否與其他相關文獻中提及的電腦生成英文文章相同,而BERT對於經由語言學要素中,針對語意、語用及語法所設計的五個實驗進行修改後的中文文章,是否仍然可以準確的判斷出一篇文章為電腦生成或人工撰寫,並找到BERT判斷的關鍵因素為何,實驗結論如下:1. 無論是在英文或中文文章中,只要是電腦生成的文章,特徵基本上是相同的。2. BERT在判斷一篇中文新聞為人類撰寫或電腦生成時,可能判斷的依據主要在於語意及語法兩個部分。3. 一篇中文約300~350字的新聞,若只更動語意的部分,如將語句長度縮短,或是將逗點之間的句子隨機做位置上的調換,可使BERT準確度出現些許下降;若進而更動到語法的部分,例如使用Google翻譯,將一篇文章的詞彙結構打亂,則可以使BERT判斷的準確度大幅下降。
  • Item
    開放領域中文問答系統之建置與評估
    (2021) 楊平; Yang, Ping
    近年來隨著人工智慧技術日新月異,答案抽取式機器閱讀理解模型在 SQuAD 等資料集上已可超出人類的表現。而基於機器閱讀理解模型,加入了文章庫以及文件檢索器的問答系統架構,亦取得良好的成績。然而這樣子的資料集測試成效於實際應用上,可以達到什麼樣的效果是本研究好奇的問題。本研究主要進行了兩個任務,第一個為開發並比較不同的問答系統實作方式,以資料集自動化測試的方式評估何種實作方式的成效最好。第二個為將自動化測試表現最好的問答系統,交由受試者進行測試,並對實驗結果進行分析。最終得到的結果有四個。第一,本研究以中文維基百科做為文章庫;以Elasticsearch作為文件檢索器;以Bert-Base Chinese作為預訓練模型,並以DRCD資料集進行訓練的Sentence Pair Classification模型作為文件重排序器;以MacBERT-large作為預訓練模型,並以DRCD加上CMRC 2018資料集進行訓練的答案抽取式機器閱讀理解模型,作為文件閱讀器。此問答系統架構可以在Top 10取得本研究實驗的所有系統當中最好的成效,以DRCD Test set加上CMRC 2018 Dev set進行測試,得到的分數為F1 = 71.355,EM = 55.17。第二,本研究招募33位受試者,總計對系統進行了289道題目的測試,最終的成果為,在Top 10的時候有70.24%的問題能被系統回答,此分數介於自動化測試的F1與EM之間,代表自動化測試與使用者測試所得到的結果是相似的。第三,針對29.76%無法得到答案的問題進行分析,得到的結論是,大部分無法回答的原因是因為無法從文件庫中檢索正確的文章。第四,Top 1可回答的問題佔所有問題中的26.3%,而Top 2 ~ 10的佔比為43.94%。代表許多問題並非系統無法得出解答,而是排序位置不正確,若能建立更好的答案排序機制,將能大幅提升問答系統的實用性。
  • Item
    利用人工智慧技術偵測中文假新聞
    (2021) 林郁綺; Lin, Yu-Chi
    在資訊快速傳播的時代,假新聞滿天飛的困境肆虐全世界,在資訊爆炸的時代如何使用資訊科技的技術快速過濾虛假的資訊是此研究想要探討的問題。 本研究為探討人類與電腦在中文假新聞偵測上的實際表現,分別以人類與電腦為出發點進行三個實驗,「自然語言模型辨別假新聞」根據臺灣假新聞平台「CoFacts 真的假的」建置中文假新聞語料,並包含知識推論標記,再使用Naïve Bayes、SVM以及BRET進行真假新聞預測;「人類辨別假新聞編寫模型」根據經濟日報語料,使用GPT2-Chinese生成假新聞,並請受試者辨別真假新聞;最後以「假新聞自動編寫模型評估」整合前兩項實驗,以分類器實測電腦是否能辨別出GPT2-Chinese自動生成的假新聞,並比較與受試者的差異,實驗結論如下: 1. BERT預測真假新聞MicroF1為0.8184,MacroF1為0.7686,顯示電腦在一定程度上能夠輔助人工辨別假新聞,但並非真正瞭解語意。 2. 受試者辨別GPT2-Chinese自動生成之假新聞,其真新聞平均可信度為3.68,假新聞為2.54,顯示閱讀者可以辨別真假,但不具有背景知識的受試者較難辨別,而新聞與受試者越相關越會提高轉發意願。 3. BERT預測問卷的30篇新聞,其MicroF1與MacroF1皆為0.93,僅2篇錯誤,而人類判斷錯誤為5篇,且判斷錯誤的新聞完全不重疊,顯示電腦可以辨別電腦所產生的假新聞,並且與人類有互補合作之處。 綜合而言,本研究的貢獻不僅建置了包含知識推論之假新聞語料庫,並進行分類器評測;且從反向思維實作了假新聞編寫模型之訓練,更以人類與電腦進行實測,奠定了未來假新聞研究之基石,期待日後能有更多研究者投入於此。
  • Item
    建立和應用具有幽默風格的生成對話系統
    (2021) 楊德倫; Yang, Te-Lun
    本研究旨在建置與應用一個具有幽默風格之對話系統。藉由2019 年CECG(Chinese Emotional Conversation Generation)評估任務所使用的170萬則對話語料,整合 GPT-2 與 BERT 等工具與技術進行實作,建立與應用一個具備情感對話的系統;而後結合LCCC(Large-scale Cleaned Chinese Conversation)base版本680萬則對話語料,讓對話系統擁有更豐富的對話內容;最後加上 156 句具有幽默風格的少量撩妹語料進行微調(fine-tuning),同時透過前導文句調整(prefix-tuning)來控制文字的生成。 系統成效評估是基於以下準則:(一)建立兩個對話系統,一個經由CECG 和 LCCC-base 語料庫進行訓練,並用撩妹幽默語料進行微調,另一個僅由CECG 和 LCCC-base 語料庫進行訓練。(二)在第一輪當中,使用帶有調情性質的自訂文句作為會話的開始,並測試50次。(三)評估每次對話是否連貫流暢,同時,最後一輪的結束對話是否具有如同調情般的幽默風格。(四)測試最多3輪。 過程由四位人工判斷,沒有使用撩妹語料進行微調的對話系統,其生成回應具有撩妹效果的有29%,而使用撩妹語料進行微調的對話系統,其生成回應具有撩妹效果的有62%。 本研究的主要貢獻如下:(一)將情感融入發文字串,作為條件求機率,以便簡潔地依原方式訓練,並使用 GPT-2。(二)運用 BERT 來預測回應文句的連貫性,以作為排序的依據。(三)透過少量的語料來微調預訓練模型,改變模型的文字生成風格。(四)透過前導文句的調整,來實作出具有幽默風格的多輪對話系統。