學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73890

Browse

Search Results

Now showing 1 - 10 of 25
  • Item
    基於混合擴張卷積及卷積注意力模組的即時車道線偵測深度學習網路
    (2025) 林琮祐; Lin, Tsong-You
    準確的車道偵測對於自動駕駛系統的安全運作至關重要。雖然 LaneATT(即時注意力引導車道偵測)等模型已經表現出強大的性能,但仍有改進其多尺度特徵擷取和優先處理關鍵車道資訊的能力。論文提出了透過整合混合擴張卷積(Hybrid Dilated Convolution, HDC)和卷積塊注意模組(Convolutional Block Attention Module, CBAM)對 LaneATT 模型進行改進。 HDC 模組以最小的運算成本實現多尺度特徵提取,而 CBAM 透過強調重要的空間和通道資訊來增強特徵圖。在 TuSimple 和 CULane 資料集上進行的大量實驗凸顯了我們方法的有效性,與原始 LaneATT 模型相比取得了卓越的性能。此外,消融實驗證實了 HDC 和 CBAM 能夠有效地擷取多尺度情境資訊並專注於相關特徵。
  • Item
    應用於行動裝置之基於深度學習的手繪運算放大器電路辨識與教學動畫生成系統開發
    (2025) 李柏翰; Li, Po-Han
    隨著深度學習技術的發展,手繪文本和電路圖的識別取得了顯著進步。然而,針對手繪運算放大器 OPA 電路的研究仍較為有限。本研究提出了一種行動裝置專用的手繪運算放大器電路識別與動畫生成系統,旨在解決現有影像搜尋工具(如 Google Images)無法有效辨識手繪電路的問題。本系統採用最新的 YOLOv9t 目標檢測模型進行電子元件識別,相較於 YOLOv8n,在模型參數量(Parameters, Params)與每秒十億次浮點運算次數(Giga Floating Point Operations Per Second, GFLOPS)方面均有所提升。系統透過分析識別出的電子元件及其相對位置來確定電路類型,並允許使用者輸入元件參數,以 Manim 動畫引擎生成對應的輸出波形動畫,幫助學生直觀理解運算放大器電路特性。本研究構建了一個包含 1,199 張手繪運算放大器電路圖的資料集,並比較了 YOLOv8n 和 YOLOv9t 兩種物件偵測模型的辨識效能。實驗結果顯示, YOLOv9t 與 YOLOv8n 在 Precision 指標上均達到 99%,整體辨識校效能相當。然而 YOLOv9t 的參數量為 2.8M,較 YOLOv8n 的 3.0M 減少約 7%,在模型輕量化方面展現優勢;此外 YOLOv9t 的每秒十億次浮點運算次數為 11.7,遠高於 YOLOv8n 的 8.1,效能提升約 44.4%。顯示 YOLOv9t 更具運算效率,適合應用於本系統所需的即時辨識場景。除此之外,系統整合 LINE Bot 作為互動介面,使學生可直接透過行動裝置拍攝手繪電路圖,並即時獲得識別結果與動畫回饋。整體實驗結果顯示,本系統在電子工程教育領域具有潛在應用價值,未來將進一步透過使用者調查來優化互動設計與學習成效。
  • Item
    基於超聲波的手部動作辨識模型研究
    (2025) 張仲軒; Chang, Michael-Austin
    隨著人工智慧與深度學習技術的快速發展,人體動作辨識在醫療照護、監控系統、人機互動等領域展現出極高的應用潛力。然而,傳統的影像辨識技術多仰賴可見光或紅外線攝影機,不僅容易受到環境光源變化影響,可能還有潛在的隱私疑慮。為解決上述問題,本研究提出一種結合超聲波訊號與深度學習之手部動作辨識模型,利用聲波反射特性來辨識手部動作,從而克服光線限制並提升隱私保護性。本研究使用USB介面的超聲波收音設備,錄製人體動作引發的聲波變化,並透過短時距傅立葉轉換(STFT)將訊號轉換為頻譜圖,以提取含有時頻解析度的特徵,接著使用ResNet-50卷積神經網路(CNN)進行手部動作分類。為驗證本方法之效能,本研究建立了一個包含五種手部動作及一類靜態背景的超聲波資料庫,並透過多位受試者進行測試以評估模型效能。實驗結果顯示,在特定實驗環境下,模型的辨識準確率可達95%;即使在不同受試者的推論測試中,仍能維持92%的表現。
  • Item
    基於雙重注意力機制之視網膜血管分割深度學習網路
    (2024) 胡景閎; Hu, Jing-Hung
    眼底影像之血管分割可以用來協助眼睛病灶的觀察,以提早發現病灶並進行治療,例如黃斑部病變、糖尿病視網膜病變、青光眼等等。由於眼底影像的採集會經過各種不同的程序而導致影像有不同的品質變化,眼底影像血管分割的精確度會影響病灶的判斷,儘管現今已存在許多影像分割方法,但是具有病灶的眼底圖像血管分支變化多端,現存各種分割方法的精確度也依舊無法達到完美,本研究目的為提出改良式眼底影像的血管分割方法,針對各種視網膜圖像,進行精確血管分割,以協助醫師對眼疾病變的診斷,期能對眼疾醫療做出微薄的貢獻。準確的血管分割是一項具有挑戰性的任務,主要是因為眼底影像的對比度低以及血管形態結構的複雜性,傳統卷積會增加乘法的數量,同時執行卷積操作,導致與細長且對比度低的血管相關信息損失。為了解決現有方法在血管提取時低敏感度以及信息損失的問題,本研究提出結合兩種注意力模型EPA以及DLA的並行注意力U-Net以實現準確的血管分割,EPA聚焦於空間以及通道的特徵提取,而DLA則專注於多尺度的局部特徵以及邊緣檢測的特徵,再將並行所得特徵進行深度和淺層特徵融合。本研究在DRIVE數據集上進行實驗,以驗證模型性能,研究結果指出,採用並行運算的U-Net模型分割視網膜血管具有競爭性效能。
  • Item
    基於深度學習之即時異常操作程序監控系統
    (2022) 李作庭; Li, Tso-Ting
    本論文提出一任務監控系統,以確保人員操作程序與標準作業程序一致,避免意外或操作不當的情況發生,包含:影像目標偵測模組、手部動作辨識模組、用於穩定辨識結果之濾波器、以及程序比對演算法。作法係使用 SlowFast 動作辨識演算法,根據影像的取樣頻率,將輸入拆分為slow pathway 以及fast pathway,前者用於取得空間特徵,後者則增強對於時間特徵上之提取,使得模型可以取得更多時空間之資訊,進而實現精細動作的辨識,解決傳統動作辨識演算法只專注在單一取樣頻率進行空間特徵提取,不利於應用在連續動作辨識的限制。為了將該系統有效地實踐在實際應用場景,本論文亦使用YOLOv4偵測目標影像,濾除非目標事件之場景,當目標影像收集足夠的影像數量時,啟用SlowFast進行人員操作目標物之動作辨識,再使用一改良的濾波器用以降低辨識結果不穩定之情形,建立手部與施作工件等目標物件之相依動作行為之動作庫(action base)。隨後,利用一預先建立之標準作業程序動作庫,包含了操作物件以及相對應的動作,利用一比對演算法進行任務行為之檢測,判別人員操作程序流程是否符合規範。為驗證系統之性能,本論文將所提出之任務監控系統以一小型工作坊人機協作進行即時判斷,監督操作員的操作程序是否符合正確規範。
  • Item
    基於非監督式生成對抗網路及對比學習之水下影像品質回復
    (2023) 宋奕泓; Sung, Yi-Hung
    近年來水下環境之相關應用的重要性與日俱增,比如:水下資源探勘及水下環境監控。這些應用往往需要由水下無人載具來擷取水下數位影像資料以供後續之資料分析及其相關應用 (例如:水下物件偵測及水下影像分類等相關應用)。然而水下影像品質受到許多環境因素影響而造成影像退化,包括光線折射、反射等等,如此可能使得基於水下影像之相關應用無法得到良好的效果。近年來,隨著深度學習技術蓬勃發展,研究者提出許多基於深度學習的模型來改善水下影像的品質。目前現有方法中,以具備成對影像資料之監督式深度學習模型為主。成對影像學習雖然能以較輕量模型得到好的影像品質回復效果,但礙於現實難以取得成對的原始水下影像及其還原之陸上影像,因此模型訓練上受到許多限制。為了解決這個限制,許多研究以人工合成之影像來建立成對之訓練影像資料集。然而,人工合成之訓練影像資料集未必能反映真實的水下影像特性。為了解決此問題,最近已有研究提出使用生成對抗網路及非成對影像資料來進行深度學習網路訓練。本論文提出一基於非成對影像資料及生成對抗網路之深度學習模型,來處理水下影像回復的問題。本論文提出基於非成對訓練影像資料集及利用生成對抗網路架構訓練一影像領域轉換生成器將輸入之水下影像轉換為對應之陸上影像 (回復之水下影像),其中我們利用對比學習及多樣損失函數來進行網路訓練。實驗結果已證實我們的方法可得到較佳的回復影像品質且優於 (或近似) 現有基於成對/非成對訓練資料之基於深度學習之水下影像回復網路。
  • Item
    基於改良式時序動作提名生成網路之即時動作偵測
    (2022) 陳怡君; Chen, Yi-Chun
    大多數的動作辨識(Action Recognition)方法在應用於連續動作辨識時,會有不穩定的預測,這是因為該些方法大都利用只有單一動作的短視頻(Short Video Clip)去訓練,如果輸入是連續讀入的即時影像時,由於無法取樣到動作開始與結束的幀,造成輸入模型的影像序列與訓練資訊大相逕庭,造成辨識的錯誤。為解決上述問題,本論文提出一即時動作偵測(Online Action Detection)方法,在串流影像當中找出動作的開始與結束,作法是先以Inflated 3D ConvNet (I3D)提取出RGB及Optical Flow影像的特徵,再利用Boundary Sensitive Network (BSN)中的Temporal Evaluation Module (TEM)模組,來找出動作開始、動作結束的機率。此外,本文改良了傳統BSN,使其從離線運行轉變成可以即時運行來找出開始與結束的機率,以得到目標動作較有可能發生的區間。在動作開始後,本文應用動態取樣方法來獲得有效樣本並送入I3D以進行動作識別。實驗結果顯示,所提出的方法可以更好地處理各種連續時間的目標動作影片,提高串流影片中動作辨識的準確度。
  • Item
    使用人工智慧晶片實作之自動樂譜辨識與打擊樂演奏系統
    (2022) 陳建豪; Chen, Jian-Hao
    近幾年的神經網路研究,針對高解析度光學影像辨識系統已達到成熟階段,然而龐大的卷積神經網路(Convolutional Neural Network, CNN)架構往往有著極大的計算成本,如何維持可接受的正確率並降低計算負擔是一個值得研究的方向。因此本論文使用專精電腦視覺任務的人工智慧晶片替換龐大的目標偵測CNN來偵測音符位置,並以自行設計之輕量CNN辨識音階資訊。將複雜的任務分配給兩個輕量CNN來實現一套光學樂譜辨識系統。本論文亦設計控制程式整合光學樂譜辨識與Delta機械手臂控制。透過鏡頭偵測與辨識拍攝到的紙本樂譜,並且以通用非同步收發傳輸器(Universal Asynchronous Receiver/Transmitter, UART)取得辨識結果。接著以辨識結果確定演奏順序後,驅動Delta機械手臂自動演奏鐵琴。最後以紙本樂譜實際測試本論文提出之光學樂譜辨識系統,驗證此系統的辨識正確率。