Browsing by Author "Yu, Po-Cheng"

Now showing 1 - 1 of 1

基於深度學習之攝影指引系統──多面相評論和評分
(2024) 俞柏丞; Yu, Po-Cheng
近年來，自然語言處理和影像處理領域進步迅速，各種應用蓬勃發展帶眾多應用。隨著手機成為日常拍攝的重要工具，本研究提出一套基於深度學習的拍攝指引系統。該系統結合自然語言處理和影像處理技術，幫助使用者在拍攝過程中獲得具有情感和美學價值的建議。本系統通過文字評論與美學分數提供指引，幫助使用者提高攝影技巧，並準確地捕捉畫面中的美感。拍攝指引系統主要可以分成兩個子系統，一個是輸出分數的美學評分子系統，另外一個是輸出文字的美學評論子系統。其中第一個為輸出分數的美學評分子系統，採用多尺度影像品質評估模型，作為本研究客觀評估影像的參考指標。另外一個為美學評論子系統，採用Encoder-Decoder構成的文字生成模型，本研究選擇SwinV2作為Encoder來擷取影像特徵，並使用GPT-2作為Decoder學習文字特徵，同時在其內部使用交互注意力機制(cross attention)做異質性特徵融合，最後生成評論。但交互注意力機制不能有效融合異質性特徵，所以本研究引入Self-Resurrecting Activation Unit (SRAU)來控制異質性特徵學習的內容。而GPT-2 block中的多層感知網路Multi-Layer Perceptron(MLP)無法學習處理複雜的特徵資訊，所以本研究採用前饋網路高斯誤差門控線性單元Feedforward Network Gaussian Error Gated Linear Units (FFN_GEGLU)網路架構，來提升模型學習的效果。為解決資料集過少的問題，本研究採用網路收集的弱標籤資料集，但弱標籤資料內文字評論常有錯誤。為提升資料集品質，本研究採用兩個方法。一是收集並整理弱標籤資料集，通過資料清洗提高品質；二是加入高品質資料進行訓練，並通過資料增強的方式增加高品質資料集的數量。通過這些資料處理方法，本研究將其整合成一個高品質資料集進行訓練及測試。結果顯示35個評估指標中有33個優於基準模型，改良證明模型在五種美學面向中有94%的指標優於基準模型，顯示其有效性。