學習資訊專業學院—圖書資訊學研究所

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/22

國立臺灣師範大學（本校）於民國四十四年成立社會教育學系圖書資訊學組，為臺灣最早成立之圖書資訊學相關科系。為培育知識經濟社會所需之高階圖書資訊服務人才，本校於民國九十一年成立圖書資訊學之獨立研究所（本所），隸屬本校教育學院，招收一般碩士生。

為提供在職圖書資訊服務人員之進修管道，本所於民國九十四年續接社會教育學系（社教系）之「圖書資訊學碩士學位在職專班（週末班）」及「學校圖書館行政碩士在職專班（暑期班）」，以培育具備資訊科技知能之圖書資訊服務人才。

為進一步推動跨領域合作，本所於民國九十五年與本校美術系、歷史系、國文系及產業界專家等共同籌設「數位內容與創新應用學分學程」，以培育兼具數位內容創作與加值應用之人才。因應圖書資訊學研究之變遷與知識服務產業之發展趨勢，本所於民國九十七年奉教育部核准成立博士班，並於民國九十八年招收第一屆博士生，以培育兼具圖書資訊學學術研究與管理領導能力之人才。

Browse

Search Results

Now showing 1 - 5 of 5

惡意內容文本自動分類之研究
(2025) 楊雪子; Yang, Yukiko
本研究旨在探討如何運用多種人工智慧模型，對網路社群平台上的多標籤惡意文本（Toxic Content）進行分類與分析，並比較不同模型在多標籤分類任務中的成效。隨著社群媒體的普及，惡意評論與網路霸凌等問題日益嚴重，對使用者心理健康與社會互動造成負面影響。為有效偵測並管理有害內容，本研究選取來自Jigsaw釋出的Toxic Comment Classification涵蓋多重標籤的開放資料集，進行文本分析的實驗。研究將模型分為三大組：傳統機器學習模型組（如Logistic Regression、Random Forest、Naive Bayes、XGBoost等）、深度學習模型組（如GRU、BiLSTM、LSTM、CNN等）、以及大型語言模型組（BERT、Grok、GPT、Gemini）來進行分組實驗，訓練後模型的效能則依照 ROC-AUC、準確率（Accuracy）、F1-score、Hamming Loss 等指標來進行效能評估。實驗結果顯示，大型語言模型組的BERT在多標籤資料集的分類的表現最佳（ROC-AUC分數達0.9782），傳統機器學習中的 Logistic Regression搭配TF-IDF特徵次之，這可認為推出多年的傳統機器學習模型面對新推出的大型語言模型，效能表現仍相當亮眼，且無須額外費用，對學術或非商業的需求亦是理想的選擇，本研究結果可作為未來建立高效、精準之惡意評論自動分類系統的參考依據。
健康心理因素文本自動分類之研究
(2024) 曾偉紘; Tseng, Wei-Hung
心理學的研究對象通常非常複雜，需要長期追蹤和研究。傳統的研究方法需要人工標記和評分，這不僅費時費力，還容易出現主觀性和一致性問題。目前大多數研究透過社群平台來找到研究對象。因此本研究希望透過社群平台找到研究資料，並利用機器以自動化的方式更有效的進行心理學研究。本研究要將心理健康方面的文本用人工智慧的技術，將其自動分類到5個面向中的11個指標，每個指標都有5個分數，並且期望在有限的人工標記的訓練資料下（每個類至少60筆資料），機器預測的準確度要能達到0.8以上（人工標記一致性平均分數為0.8011），以Macro F1為主要判斷標準。使用的技術包括機器學習、BERT、SetFit、GPT-3、GPT-4。就本研究的結果而言，機器學習與BERT雖然執行的時間成本低，但成效在各指標都無法達到理想的0.8。GPT-4也許因為是使用prompt的方式進行實驗，要它處理的任務太過於複雜，準確度無法像用訓練的方式來的好，所以也都沒有達到目標。GPT-3與SetFit的成效在多數指標上都有不錯的表現，GPT-3有5個指標達到目標，SetFit更是有7個指標達到目標，兩個指標只差1到2個百分點達到目標。考量到GPT-3的執行時間成本很重（主要是1次request只能預測1筆資料），而SetFit只有訓練時間成本重而已，預測的速度是非常快速的，所以選用SetFit用於心理健康文本的自動分類是一個準確度高、預測時間成本低的方法。
文字生成技術應用於學術論文寫作之評估─以人工智慧領域論文摘要為例
(2022) 張悅倫; Chang, Yueh-Lun
文字生成技術的應用在近年愈臻成熟，其對學術產出過程的影響更是不容小覷。為初步瞭解此技術對學術研究發表的影響，並探索人類與電腦能否辨別電腦生成或人類撰寫之學術文章，本研究運用既有的開放資源，以人工智慧領域之論文摘要為範圍，進行了「人類評估電腦生成摘要」及「摘要生成模型自動化評估」兩實驗。實驗一依據ACL Anthology和arXiv（cs.AI）語料，以語言模型GPT-2生成論文摘要，再就英文文法檢查工具Grammarly和受試者對其之評估情形進行分析。實驗二則藉由分類器，實測電腦能否辨別出電腦生成之摘要，再與受試者的評估結果進行比較。研究結論如下：1. 電腦能生成仿真度高的摘要，並在Grammarly的評估指標表現較人類撰寫摘要佳。2. 受試者對於電腦生成摘要之平均良窳度給分為3.617，而人類撰寫摘要則為3.622，顯示人類在不知道有電腦參與生成的前提下，無法明顯地辨別出一篇摘要為電腦生成或人類撰寫。3. 以SciBERT預測30篇摘要之Micro和Macro f1皆為0.93，較受試者的0.53及0.44高上許多，顯示電腦具辨別電腦生成摘要之能力。同時，由於在SciBERT預測錯誤的2篇摘要中，有1篇在人類預測中為正確，推論電腦與人類或許能在辨別上相互輔助。
開放領域中文問答系統之建置與評估
(2021) 楊平; Yang, Ping
近年來隨著人工智慧技術日新月異，答案抽取式機器閱讀理解模型在 SQuAD 等資料集上已可超出人類的表現。而基於機器閱讀理解模型，加入了文章庫以及文件檢索器的問答系統架構，亦取得良好的成績。然而這樣子的資料集測試成效於實際應用上，可以達到什麼樣的效果是本研究好奇的問題。本研究主要進行了兩個任務，第一個為開發並比較不同的問答系統實作方式，以資料集自動化測試的方式評估何種實作方式的成效最好。第二個為將自動化測試表現最好的問答系統，交由受試者進行測試，並對實驗結果進行分析。最終得到的結果有四個。第一，本研究以中文維基百科做為文章庫；以Elasticsearch作為文件檢索器；以Bert-Base Chinese作為預訓練模型，並以DRCD資料集進行訓練的Sentence Pair Classification模型作為文件重排序器；以MacBERT-large作為預訓練模型，並以DRCD加上CMRC 2018資料集進行訓練的答案抽取式機器閱讀理解模型，作為文件閱讀器。此問答系統架構可以在Top 10取得本研究實驗的所有系統當中最好的成效，以DRCD Test set加上CMRC 2018 Dev set進行測試，得到的分數為F1 = 71.355，EM = 55.17。第二，本研究招募33位受試者，總計對系統進行了289道題目的測試，最終的成果為，在Top 10的時候有70.24%的問題能被系統回答，此分數介於自動化測試的F1與EM之間，代表自動化測試與使用者測試所得到的結果是相似的。第三，針對29.76%無法得到答案的問題進行分析，得到的結論是，大部分無法回答的原因是因為無法從文件庫中檢索正確的文章。第四，Top 1可回答的問題佔所有問題中的26.3%，而Top 2 ~ 10的佔比為43.94%。代表許多問題並非系統無法得出解答，而是排序位置不正確，若能建立更好的答案排序機制，將能大幅提升問答系統的實用性。
深度學習之專利分析研究
(2019) 陳綺萱; Chen, Chi-Hsuan
本研究旨在探討深度學習在各國的發展時間與成長趨勢,以及在相關學科與應用領域上之發展狀況。研究採用專利計量分析法與內容探勘工具 CATAR, 針對美國專利及商標局 1976 至 2018 年之深度學習領域專利進行分析。研究結果分為四個面向:(1)專利成長趨勢與技術生命週期;(2)專利數分析與趨勢分析;(3)專利引用分析;(4)專利主題與專利關聯度分析。研究發現:(1)深度學習領域的技術生命週期正處於成長階段,其專利申請與公告的延遲時間平均約為 1.75 年;(2)高生產力專利權人國別依序為美國、日本、以色列、韓國、中國、德國以及加拿大,這七個國家的專利就佔了整體的 93%,專利高生產力發明人國籍依序為美國、中國、韓國、以色列、日本、印度以及加拿大;(3)在 103 組專利權人與專利發明人國家組合中, 有 78 組與美國有關;(4)主要引用的學科領域為深度學習、神經網絡以及語音識別;(5)應用領域有語音識別、影像分析、圖像識別、醫學圖像、以及車輛控制系統等;(6)臺灣可以參考與學習以色列與韓國的發展模式,在研究領域方面,臺灣可以往醫學圖像與診斷、外科以及鑑定這個方面多加琢磨。研究建議:(1)增加關鍵詞(2)針對不同面向進行更深入與更具主題性的研究(3)針對深度學習領域之研究論文進行研究。

學習資訊專業學院—圖書資訊學研究所

Browse

Filters

Settings

Sort By

Results per page

Search Results