學習資訊專業學院—圖書資訊學研究所

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/22

國立臺灣師範大學(本校)於民國四十四年成立社會教育學系圖書資訊學組,為臺灣最早成立之圖書資訊學相關科系。為培育知識經濟社會所需之高階圖書資訊服務人才,本校於民國九十一年成立圖書資訊學之獨立研究所(本所),隸屬本校教育學院,招收一般碩士生。

為提供在職圖書資訊服務人員之進修管道,本所於民國九十四年續接社會教育學系(社教系)之「圖書資訊學碩士學位在職專班(週末班)」及「學校圖書館行政碩士在職專班(暑期班)」,以培育具備資訊科技知能之圖書資訊服務人才。

為進一步推動跨領域合作,本所於民國九十五年與本校美術系、歷史系、國文系及產業界專家等共同籌設「數位內容與創新應用學分學程」,以培育兼具數位內容創作與加值應用之人才。因應圖書資訊學研究之變遷與知識服務產業之發展趨勢,本所於民國九十七年奉教育部核准成立博士班,並於民國九十八年招收第一屆博士生,以培育兼具圖書資訊學學術研究與管理領導能力之人才。

Browse

Search Results

Now showing 1 - 5 of 5
  • Item
    惡意內容文本自動分類之研究
    (2025) 楊雪子; Yang, Yukiko
    本研究旨在探討如何運用多種人工智慧模型,對網路社群平台上的多標籤惡意文本(Toxic Content)進行分類與分析,並比較不同模型在多標籤分類任務中的成效。隨著社群媒體的普及,惡意評論與網路霸凌等問題日益嚴重,對使用者心理健康與社會互動造成負面影響。為有效偵測並管理有害內容,本研究選取來自Jigsaw釋出的Toxic Comment Classification涵蓋多重標籤的開放資料集,進行文本分析的實驗。研究將模型分為三大組:傳統機器學習模型組(如Logistic Regression、Random Forest、Naive Bayes、XGBoost等)、深度學習模型組(如GRU、BiLSTM、LSTM、CNN等)、以及大型語言模型組(BERT、Grok、GPT、Gemini)來進行分組實驗,訓練後模型的效能則依照 ROC-AUC、準確率(Accuracy)、F1-score、Hamming Loss 等指標來進行效能評估。實驗結果顯示,大型語言模型組的BERT在多標籤資料集的分類的表現最佳(ROC-AUC分數達0.9782),傳統機器學習中的 Logistic Regression搭配TF-IDF特徵次之,這可認為推出多年的傳統機器學習模型面對新推出的大型語言模型,效能表現仍相當亮眼,且無須額外費用,對學術或非商業的需求亦是理想的選擇,本研究結果可作為未來建立高效、精準之惡意評論自動分類系統的參考依據。
  • Item
    健康心理因素文本自動分類之研究
    (2024) 曾偉紘; Tseng, Wei-Hung
    心理學的研究對象通常非常複雜,需要長期追蹤和研究。傳統的研究方法需要人工標記和評分,這不僅費時費力,還容易出現主觀性和一致性問題。目前大多數研究透過社群平台來找到研究對象。因此本研究希望透過社群平台找到研究資料,並利用機器以自動化的方式更有效的進行心理學研究。本研究要將心理健康方面的文本用人工智慧的技術,將其自動分類到5個面向中的11個指標,每個指標都有5個分數,並且期望在有限的人工標記的訓練資料下(每個類至少60筆資料),機器預測的準確度要能達到0.8以上(人工標記一致性平均分數為0.8011),以Macro F1為主要判斷標準。使用的技術包括機器學習、BERT、SetFit、GPT-3、GPT-4。就本研究的結果而言,機器學習與BERT雖然執行的時間成本低,但成效在各指標都無法達到理想的0.8。GPT-4也許因為是使用prompt的方式進行實驗,要它處理的任務太過於複雜,準確度無法像用訓練的方式來的好,所以也都沒有達到目標。GPT-3與SetFit的成效在多數指標上都有不錯的表現,GPT-3有5個指標達到目標,SetFit更是有7個指標達到目標,兩個指標只差1到2個百分點達到目標。 考量到GPT-3的執行時間成本很重(主要是1次request只能預測1筆資料),而SetFit只有訓練時間成本重而已,預測的速度是非常快速的,所以選用SetFit用於心理健康文本的自動分類是一個準確度高、預測時間成本低的方法。
  • Item
    文字生成技術應用於學術論文寫作之評估─以人工智慧領域論文摘要為例
    (2022) 張悅倫; Chang, Yueh-Lun
    文字生成技術的應用在近年愈臻成熟,其對學術產出過程的影響更是不容小覷。為初步瞭解此技術對學術研究發表的影響,並探索人類與電腦能否辨別電腦生成或人類撰寫之學術文章,本研究運用既有的開放資源,以人工智慧領域之論文摘要為範圍,進行了「人類評估電腦生成摘要」及「摘要生成模型自動化評估」兩實驗。實驗一依據ACL Anthology和arXiv(cs.AI)語料,以語言模型GPT-2生成論文摘要,再就英文文法檢查工具Grammarly和受試者對其之評估情形進行分析。實驗二則藉由分類器,實測電腦能否辨別出電腦生成之摘要,再與受試者的評估結果進行比較。研究結論如下:1. 電腦能生成仿真度高的摘要,並在Grammarly的評估指標表現較人類撰寫摘要佳。2. 受試者對於電腦生成摘要之平均良窳度給分為3.617,而人類撰寫摘要則為3.622,顯示人類在不知道有電腦參與生成的前提下,無法明顯地辨別出一篇摘要為電腦生成或人類撰寫。3. 以SciBERT預測30篇摘要之Micro和Macro f1皆為0.93,較受試者的0.53及0.44高上許多,顯示電腦具辨別電腦生成摘要之能力。同時,由於在SciBERT預測錯誤的2篇摘要中,有1篇在人類預測中為正確,推論電腦與人類或許能在辨別上相互輔助。
  • Item
    開放領域中文問答系統之建置與評估
    (2021) 楊平; Yang, Ping
    近年來隨著人工智慧技術日新月異,答案抽取式機器閱讀理解模型在 SQuAD 等資料集上已可超出人類的表現。而基於機器閱讀理解模型,加入了文章庫以及文件檢索器的問答系統架構,亦取得良好的成績。然而這樣子的資料集測試成效於實際應用上,可以達到什麼樣的效果是本研究好奇的問題。本研究主要進行了兩個任務,第一個為開發並比較不同的問答系統實作方式,以資料集自動化測試的方式評估何種實作方式的成效最好。第二個為將自動化測試表現最好的問答系統,交由受試者進行測試,並對實驗結果進行分析。最終得到的結果有四個。第一,本研究以中文維基百科做為文章庫;以Elasticsearch作為文件檢索器;以Bert-Base Chinese作為預訓練模型,並以DRCD資料集進行訓練的Sentence Pair Classification模型作為文件重排序器;以MacBERT-large作為預訓練模型,並以DRCD加上CMRC 2018資料集進行訓練的答案抽取式機器閱讀理解模型,作為文件閱讀器。此問答系統架構可以在Top 10取得本研究實驗的所有系統當中最好的成效,以DRCD Test set加上CMRC 2018 Dev set進行測試,得到的分數為F1 = 71.355,EM = 55.17。第二,本研究招募33位受試者,總計對系統進行了289道題目的測試,最終的成果為,在Top 10的時候有70.24%的問題能被系統回答,此分數介於自動化測試的F1與EM之間,代表自動化測試與使用者測試所得到的結果是相似的。第三,針對29.76%無法得到答案的問題進行分析,得到的結論是,大部分無法回答的原因是因為無法從文件庫中檢索正確的文章。第四,Top 1可回答的問題佔所有問題中的26.3%,而Top 2 ~ 10的佔比為43.94%。代表許多問題並非系統無法得出解答,而是排序位置不正確,若能建立更好的答案排序機制,將能大幅提升問答系統的實用性。
  • Item
    深度學習之專利分析研究
    (2019) 陳綺萱; Chen, Chi-Hsuan
    本研究旨在探討深度學習在各國的發展時間與成長趨勢,以及在相關學科 與應用領域上之發展狀況。研究採用專利計量分析法與內容探勘工具 CATAR, 針對美國專利及商標局 1976 至 2018 年之深度學習領域專利進行分析。研究結 果分為四個面向:(1)專利成長趨勢與技術生命週期;(2)專利數分析與趨 勢分析;(3)專利引用分析;(4)專利主題與專利關聯度分析。 研究發現:(1)深度學習領域的技術生命週期正處於成長階段,其專利 申請與公告的延遲時間平均約為 1.75 年;(2)高生產力專利權人國別依序為 美國、日本、以色列、韓國、中國、德國以及加拿大,這七個國家的專利就佔 了整體的 93%,專利高生產力發明人國籍依序為美國、中國、韓國、以色列、 日本、印度以及加拿大;(3)在 103 組專利權人與專利發明人國家組合中, 有 78 組與美國有關;(4)主要引用的學科領域為深度學習、神經網絡以及語 音識別;(5)應用領域有語音識別、影像分析、圖像識別、醫學圖像、以及 車輛控制系統等;(6)臺灣可以參考與學習以色列與韓國的發展模式,在研 究領域方面,臺灣可以往醫學圖像與診斷、外科以及鑑定這個方面多加琢磨。 研究建議:(1)增加關鍵詞(2)針對不同面向進行更深入與更具主題性的研 究(3)針對深度學習領域之研究論文進行研究。