學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73890
Browse
11 results
Search Results
Item 基於多動作辨識與手臂模仿學習之全向移動互動型機器人設計(2025) 許哲瑋; Hsu, Che-Wei本文設計並實現一款具備多動作辨識與手臂模仿功能的全向移動互動型機器人。結合全方向移動平台、多自由度機械手臂與深度影像分析模組,實現即時人機互動與模仿操作。動作辨識部分,採用人體骨架關節資訊,並以三層堆疊之長短期記憶網路(LSTM)建構時序動作辨識模型,有效識別使用者之肢體動作與手勢。在機械手臂模仿學習方面,運用深度影像追蹤與骨架分析技術,實時擷取使用者雙手關節位置,並透過逆向運動學迭代學習算出對應的機械手臂控制指令,使機器手臂執行相似的人體手臂姿態,達成模仿效果。除人機互動外,系統亦具備物體追蹤與撿球能力,結合物件偵測與深度相機資訊,定位三維空間目標物,驅動全向輪移動平台與手臂完成自主撿取任務。為驗證系統功能與效能,本文進行了多項實驗,針對動作辨識準確率、姿態擷取精度、模仿控制以及物體定位與撿取進行測試與分析,藉此確認系統在實際應用中的可行性與穩定性。Item 應用於行動裝置之基於深度學習的手繪運算放大器電路辨識與教學動畫生成系統開發(2025) 李柏翰; Li, Po-Han隨著深度學習技術的發展,手繪文本和電路圖的識別取得了顯著進步。然而,針對手繪運算放大器 OPA 電路的研究仍較為有限。本研究提出了一種行動裝置專用的手繪運算放大器電路識別與動畫生成系統,旨在解決現有影像搜尋工具(如 Google Images)無法有效辨識手繪電路的問題。本系統採用最新的 YOLOv9t 目標檢測模型進行電子元件識別,相較於 YOLOv8n,在模型參數量(Parameters, Params)與每秒十億次浮點運算次數(Giga Floating Point Operations Per Second, GFLOPS)方面均有所提升。系統透過分析識別出的電子元件及其相對位置來確定電路類型,並允許使用者輸入元件參數,以 Manim 動畫引擎生成對應的輸出波形動畫,幫助學生直觀理解運算放大器電路特性。本研究構建了一個包含 1,199 張手繪運算放大器電路圖的資料集,並比較了 YOLOv8n 和 YOLOv9t 兩種物件偵測模型的辨識效能。實驗結果顯示, YOLOv9t 與 YOLOv8n 在 Precision 指標上均達到 99%,整體辨識校效能相當。然而 YOLOv9t 的參數量為 2.8M,較 YOLOv8n 的 3.0M 減少約 7%,在模型輕量化方面展現優勢;此外 YOLOv9t 的每秒十億次浮點運算次數為 11.7,遠高於 YOLOv8n 的 8.1,效能提升約 44.4%。顯示 YOLOv9t 更具運算效率,適合應用於本系統所需的即時辨識場景。除此之外,系統整合 LINE Bot 作為互動介面,使學生可直接透過行動裝置拍攝手繪電路圖,並即時獲得識別結果與動畫回饋。整體實驗結果顯示,本系統在電子工程教育領域具有潛在應用價值,未來將進一步透過使用者調查來優化互動設計與學習成效。Item 基於類別級6D姿態估測之機器人夾取(2025) 賴家澤; Lai, Chia-Tse6D物件姿態估測在機器手臂夾取任務中扮演關鍵角色。然而,過去基於深度學習的物件姿態估測方法大多是實例級 (Instance-Level),限制了其在真實場景中機器手臂夾取的普遍應用能力。在本篇論文,我們採用類別級 (Category-Level) 物件姿態估測,此種方法不僅能夠估測物件的姿態還能夠估測物件的大小。另外,該方法在訓練過程中不需要事先準備精確且完整的物件三維模型,並具備對未見過 (Unseen) 的物件進行姿態估測的能力。因此我們提出類別級SegFormer用於6D物件姿態估測 (Category-Level SegFormer for 6D Object Pose Estimation, also known as CLSF-6DPE) 之方法,本方法結合YOLOv8物件偵測模型和嵌入一個共同的分支 (Shared Head) 的SegFormer來預測正規化的物件座標空間圖 (Normalized Object Coordinate Space Map, also known as NOCS map),接著透過相似變換 (Similarity Transformation) 演算法來估測物件的6D姿態和大小。我們還整合CLSF-6DPE至機器人作業系統 (Robot Operating System),並且設計一個直觀的圖形化操作介面,讓使用者可以輕鬆地執行機器手臂夾取任務。實驗結果顯示,所提出的方法在姿態估測任務中優於傳統基於CNN的模型,展現出更高的準確性,證明其在實際應用中的可行性。Item 基於非對稱U-Net實現微小且快速移動之物體檢測網路(2024) 羅郁鈞; Lo, Yu-Chun本論文旨在探討物件偵測在微小、快速且特徵不明顯的物體上的應用。為了改進比賽戰術並提升技能,專業運動員和業餘玩家經常使用手機或相機記錄他們的練習和比賽。隨著這一領域的興起,越來越多的研究人員開始結合深度學習模型與運動分析,以提供更全面的見解。物件偵測是其中的關鍵任務,因為識別物體的位置可以提供有價值的資訊,如戰略分析。然而,針對如羽毛球這樣快速移動且模糊的物體進行追蹤的研究仍然有限。TrackNetv2方法基於VGG-16和U-Net,通過熱力圖檢測羽毛球的位置,但其架構需要大量計算資源,難以在實際應用中保持高效。為了解決這個問題,我們提出了一種名為TinySeeker的非對稱架構,這種新穎的架構不僅能精確的檢測羽毛球的位置,還能提高計算效率,在檢測精度和計算需求之間達到了最佳平衡,使其在現實應用中既實用又高效。實驗結果表明,Tinyseeker可以在保持精度的同時減少多達26%的計算量。這種架構在該領域標誌著一項重大進展,推動了物體檢測任務的可能性,並為未來的類似研究設立了新的基準。Item 針對空拍影像物件偵測之改良型YOLOv7演算法研究(2024) 鍾宜修; Chung, Yi-Hsiu近幾年無人機的技術發展迅速,飛行距離越來越遠、體積也不斷縮小,甚至能自動飛行,因此能應用的範圍也越來越廣泛,例如交通監測、工業或自然環境巡檢等等。另外隨著人工智慧的興起,現在無人機也會結合人工智慧演算法協助其辨識影像。由於無人機所拍攝的影像內物件往往尺寸偏小,且無人機本身的運算支援有限,因此如何提升小物件的辨識效果且同時降低模型運算時所需的資源至關重要。本論文以YOLOv7為基礎模型進行改良,提升它對小物件的偵測效果且同時降低模型參數量及計算量,我們以VisDrone-DET2019資料集來驗證模型改良成效。總共修改五種方式,第一種方式是將ELAN (Efficient Layer Aggregation Network)替換成M-ELAN (Modified Efficient Layer Aggregation Network),第二種方式是在高階特徵層添加M-FLAM (Modified Feature Layer Attention Module),第三種方式是將特徵融合的結構從PANet (Path Aggregation Network)改成ResFF (Residual Feature Fusion),第四種方式是將模型內下採樣的模塊改成I-MP模塊 (Improved MaxPool Module),最後一種方式是將SPPCSPC (Spatial Pyramid Pooling Cross Stage Partial Networks)替換成GSPP(Group Spatial Pyramid Pooling)。綜合以上方法,將mAP (mean Average Precision)提升1%,同時模型參數量卻下降24.5%,模型計算量GFLOPs (Giga Floating Point of Operations)也降低13.7%。Item 基於深度學習之多連接模塊對於物件偵測的影響(2022) 李政霖; Li, Cheng-Lin在本論文中,我們提出與YOLOv5不同的加深網路模型的方法,並設計了三種適用於特定資料集的多連接模塊(Multi-Connection)。多連接模塊的主要目的是重用特徵並保留輸入特徵以供向下傳遞。我們在8個公開的資料集驗證我們的方法。我們改進了YOLOv5中的殘差塊(Residual block)。實驗結果顯示,與YOLOv5s6相比,YOLOv5s6加入多連接模塊型一在Global Wheat Head Dataset 2020上的平均精度(mAP)提高1.6%; YOLOv5s6加入多連接模塊型二在PlantDoc 資料集上的 mAP 提高2.9%;YOLOv5s6加入多連接模塊型三的mAP在PASCAL Visual Object Classes(VOC)資料集上提高了2.9%。另一方面,我們也比較了一般的傳統深化模型的方法。一般來說,加深網絡模型會提高模型的學習能力,但我們認為對於不同的資料集,採用不同的策略可以獲得更高的準確率。此外我們設計多連接模塊型四,應用在交通號誌偵測上,多連接模塊型四之一基於殘差塊做堆疊增加網路深度,來加強網路的學習能力,並加入壓縮和激勵模塊(SE block),來強化特徵圖資訊,另外透過一個額外的跳連接鼓勵特徵重用。多連接模塊型四之二,主要是將多連接模塊型四之一的通道減半,來減少模型計算量跟參數量。多連接模塊型四之三我們基於多連接模塊型四之二多增加一個3乘3的卷積提升模型學習能力。我們選擇TT100K資料集來訓練模型,我們也收集了臺灣交通號誌當作客製化資料集,去驗證我們的方法,目的是要設計出一個高效性能的模塊,所以設計出多連接模塊型四之三。在TT100K資料集中多連接模塊型四之三獲得最好的表現,與YOLOv5s6相比計算量僅增加了11%,mAP提升了3.2%,犧牲一點計算量換來模型準確率有感的提升,此外我們也在其他公開的資料集驗證我們的方法,多連接模塊型四之三的表現也是非常有效益的。Item 基於暗通道先驗之疊代神經網路應用於低光圖像增強(2022) 劉晟岳; LIOU, Cheng-Yue本論文研製一新穎的架構。稱為疊代低光影像增強網路,它使用暗通道先驗來增強低光源影像。我們透過觀察得知負片後之低光影像類色彩分佈似於含霧影像。因此,本論文所提出的架構遵循這個假設來恢復低光圖像。此外,我們還使用灰度世界算法來改善色彩偏移的問題。通過疊代,本架構可以得到亮度足夠的前處理影像。隨後,本論文使用自動編碼器進一步提高最終輸出影像的質量。由實驗結果可以表明,所提出的此方法可以處理各種光照條件,並且輸出效果優於現有方法。由所進行的實驗可以證明,提出之輕量化架構不僅減輕硬體設備之負擔還可以顯著提高物件偵測的性能,以便後續與高階電腦視覺任務的配合。Item 結合雙AI晶片與熱成像溫測模組之自動目標搜索與溫度量測系統(2022) 沈方靖; Shen, Fang-Jing本論文提出一種自動搜索目標系統,使用雙人工智慧邊緣型運算處理器結合紅外線熱成像感測器,並透過步控制進馬達來實現自動搜索目標且掃瞄範圍擴增的人體溫度測量設備。本文首先回顧深度學習及類神經網路對於影像辨識的起源以及其應用性,並探討邊緣型處理器對於人形偵測的可行性,再根據此基礎發想出測量人體溫度之應用。而後介紹本論文主要系統架構及硬體設備,使用Mipy深度學習AI開發板配合多種感測裝置,來達成AI目標辨識及環境訊息的測量。本系統架構建立於模型本身的可靠性,針對模型訓練的部分有加強描述:從目標圖片的選取及拍攝、訓練過程的流程改善及參數調整、及最後模型在實驗環境的誤判修正。接著將訓練好的模型載入雙Mipy深度學習AI開發板,並制定一套演算法,協調各微處理器間的交互關係,達成快速掃描且穩定測溫的功能。最後針對多個實際場景,驗證本論文所描述之目標以及該架構反應速度與正確性。Item 高性能之輕量級卷積神經網路之設計(2021) 周世耀; Jou, Shyh-Yaw因深度學習強大的分析能力,其時常被用做影像辨識與物件偵測的工具。時至今日,已有許多基於深度學習方法的著名模型被提出,例如:SENet、EfficientNet、Densenet、MobileNet、ResNet、ShuffleNet、GhostNet、Yolo等。深度學習模型的性能主要可從4個層面進行探討,分別是參數量,資料分析能力、處理資料的速度以及模型的泛用能力。一般而言,模型能在上述4個層面都表現優秀是很困難的。在本論文中,我們設計出一各性能皆優秀的深度學習模型―ExquisiteNetV2。我們選用了15個具公信力的影像辨識資料集以及1個物件偵測資料集進行實驗,並以上述提到的著名模型做為比較對象。我們分別使用兩種不同的權重更新法做實驗,根據實驗結果,無論使用何種權重更新法,在超過一半以上的資料集中,ExquisiteNetV2的分類正確率都是第一名。ExquisiteNetV2的參數量遠少於其他模型,但資料分析能力以及運算速度卻優於其他模型,因此,ExquisiteNetV2是一種高性能之輕量級卷積神經網路,可通用於影像分類與物件偵測之應用。Item 輕量化車牌辨識模型(2021) 許博翔; Hsu, Po-Hsiang近年來,深度學習的技術被廣泛的應用在智慧交通的發展,車牌辨識系統成為智慧交通中不可或缺的技術。車牌辨識系統能應用於智能城市的車輛管理、竊盜車輛調查、犯罪車輛追蹤和交通監控。舉例來說,以往警察透過人工觀看監視器影像來追蹤犯罪車輛,人工觀看的方式需要耗費大量的時間與人力,而使用車牌辨識系統能快速的搜尋大量監視器影像裡的目標車輛,如此一來能減輕人力的負擔和節省大量的追蹤時間,提高破案的效率。現代車牌辨識系統的技術已經非常成熟得應用於智慧停車場、交通收費系統等場域,但想運用在路口的監視器影像仍會面臨許多問題,其中包括監視器拍攝角度、光源條件、車輛移動造成得模糊、複雜的道路環境和過多得交通號誌與廣告招牌。車牌辨識系統可以分成兩個階段,第一階段是從影像中找到車牌得位置,第二階段則是辨識前一階段找到的車牌影像。本論文僅探討第二階段的車牌字元辨識,車牌字元辨識有兩個主要的目標,第一個是找到車牌字元的位置,第二個是辨識字元的類別。傳統的車牌辨識必須先切割出字元位置才能做後續的字元辨識,所以我們使用物件偵測的概念設計了一個輕量化的車牌辨識模型,使用物件偵測的概念可將字元切割和字元辨識的任務整合在一起,只需要一個網路模型就能找出字元位置並辨識字元的類別。本論文使用的資料集是我們自己製作的台灣車牌資料集,影像都是由我們在台灣街道上拍攝不是在網路上搜尋的照片。我們也特別挑選模糊、反光、昏暗情況的車牌照片豐富我們的資料集。整個資料集總共含有 3753張照片包含訓練用的3131張照片和測試用的622張照片,而測試的照片是偏向模糊和昏暗的情況。最後實驗的結果顯示我們模型的GFLOPs只有4.91,但map0.5能達到89.62。