Search / 搜尋

- 文章分類 -

文章專區

2021-11-16生活中的AI應用：淺談人臉偵測原理及衍伸的倫理議題 479 期

Author 作者吳昆儒／國立陽明交通大學人工智慧普適研究中心計畫資深工程師。曾煜棋／國立陽明交通大學資訊工程學系講座教授。

人工智慧哈爾小波轉換哈爾特徵積分圖皮膚物件偵測技術 YOLOv4 COVID-19 隱私權人臉偵測

＊本篇文章與陽明交通大學人工智慧普適研究中心（PAIR Labs）合作＊

在科技爆發的時代，人工智慧（Artificial Intelligence, AI）技術越來越常出現在我們生活。AI技術表示能夠讓機器具有類似人類的智慧，可用來提升人們的生活品質、工作效率等。以日常生活中常見的攝影機為例，這些攝影機可以組成一套監控系統，守護我們的安全。受惠於消費電子產品的發展與低廉的價格，一般民眾也能在自己的家裡安裝攝影機，目的通常是為了居家監護，觀測是否有人進出畫面、隨時注意家中寶寶的狀態，或者觀看寵物的最新動向。市面上的攝影機產品大多具有人物偵測，甚至是人臉或口鼻偵測等相關功能。這些功能可以自動判斷畫面中的資訊，讓我們得知人物出現的時機，不需要長時間觀看畫面去追尋特定的人物。而當我們談到人物偵測時，最廣為人知的方法就是「人臉偵測」（detection），藉由分析人臉的器官部位特徵，如：眼睛、鼻子、嘴巴等，可以得知畫面中是否有人臉。另一個進階應用為「人臉識別」（recognition），用來辨識人臉的身分為何，此技術需要事先建立資料庫蒐集每個人員的臉部特徵，因此常引來隱私權的爭議。本文將探討人臉偵測的原理，並說明可能遇到的潛在問題。

傳統人臉偵測的原理

傳統的人臉偵測做法，需要分析圖片上每一個像素點（pixel）的RGB色彩值，這種作法會花費大量的運算資源與時間。根據相關的研究論文，研發出分析方法的團隊使用哈爾小波轉換（Haar wavelet）的概念來設計一個分析影像特徵的方法，稱為哈爾特徵（Haar-like feature），藉由蒐集人體的身形輪廓特徵，可以在圖片上偵測是否有人物出現。

圖一（a）即為舉例說明邊緣線條的哈爾特徵。後來團隊擴充此方法，發展為成臉部偵測的系統。因為人臉輪廓具有一定的規律性，特別是在眼睛、鼻子、嘴巴區域，此處的輪廓特徵最為明顯。圖一（a）的左半部則為哈爾特徵，用來分析畫面中的輪廓是否與已有的輪廓特徵方格相近。以圖一（b）的上方為例，就是將特定影像區域的內容與哈爾特徵進行分析，計算兩者的相似度。當影像內容與哈爾特徵完全相同時，所得到的相似率為1。然而，實際影像不可能會與哈爾特徵完全相同，如圖一（b）的下方。此相似率可以協助我們評估畫面上的物件是否符合指定特徵。

圖一：哈爾特徵的樣式與計算範例。（作者提供）

藉由收集相關的特徵資料，能夠建立一個資料庫來描述人臉的特徵，進一步讓電腦判斷是否有人臉出現在畫面上。以鼻子為例，鼻翼四周的輪廓就是一個很明顯的臉部特徵。

然而，當電腦進行分析時，就需要計算指定圖片區域的像素點數值，這個計算量往往相當龐大。以圖一的為例，當我們計算4×4的圖片區域時，裡面一共有16個像素點，若要計算該區域的數值總和時，直覺的做法是將這16個點加在一起。此方法雖然簡單，但圖片尺寸變大、需要分析的特徵變多時，會消耗大量的運算資源與時間。因此，研究人員進一步提出一系列的方法來縮短整體流程，首先是積分圖（integral image），此方法會在起始階段掃描整張圖片並計算每個像素點的累加值。回到先前的例子後，計算圖片區域的數值總和時，只需要計算4個像素點的資訊。以圖二為例，當我們想要計算灰色區域的數字總和時，直覺做法為將6個像素點的數值累加起來。而積分圖的做法是先建立一個像素點的累加值，然後再選取鄰近四個像素點的數值進行運算，如圖二積分圖中被粗框框起來的數值。此作法可以大幅度降低運算成本，不論計算的範圍有多大，只需要4個數值的運算即可得到區域的總和。

圖二：積分圖例子。（作者提供）

後續的研究還有結合自適應增強（adaptive boosting, AdaBoost）與串接（cascade）技術，判斷畫面上是否有特定的臉部器官，若有符合條件（如：發現鼻子）才會進行後續的分析。此流程的執行速度能夠在一秒鐘處理15張圖片（frame per second, FPS），可用於即時的物件偵測。這個技術被廣泛用在現有的人臉偵測系統，網路上也有許多教學供有興趣的人去研究使用。

灰階加速運算，卻產生公平性爭議

值得注意的是，這些人臉偵測的系統都會把彩色圖片轉換成灰階（grayscale）樣式，研究人員也有特別說明這一點，這套快速的偵測系統僅適用於灰階的圖片。在人類眼中，我們能夠看到各式各樣的色彩。對電腦來說，也常使用RGB色彩空間來定義顏色，一張彩色的圖片可以用RGB三個通道來描述內容。以一個像素點來說，它的顏色一共有255×255×255（約1658萬）種組合。如果採用灰階的色彩空間，一個像素點只有255種組合。當電腦在分析圖片的時候，使用灰階圖片可以降低大量的運算資源並縮減時間。此外，灰階的程式碼複雜度也較低，如果一開始使用彩色空間進行輪廓分析，需要考量各種資訊，如：亮度、色差⋯⋯等，將這些資訊納入分析之後，整體執行效率往往比灰階圖片還要慢。基於效率的需求，大多辨識系統的流程都會先將彩色照片轉換為灰階照片，期望能夠快速地獲得結果。

然而，這種做法會遇到一些潛在的問題，膚色淺的人種在此系統中會有較好的辨識效果，膚色深的人種會不易被辨識，由於人權意識的興起，AI技術的公平性也常受到檢視。回顧先前提到的資料處理流程，他們會先將彩色照片轉換為灰階照片，然後再分析灰階照片上的輪廓特徵，檢查是否有特定輪廓的資訊。以圖三為例，有3種不同膚色的人臉示意圖，當轉換成灰階照片後，可以發現膚色深的輪廓較不明顯。根據後續的研究資料顯示，研究人員將蒐集的皮膚顏色資料集大致分為3種類型：淡色皮膚、棕黃皮膚、深色皮膚。圖三的人臉圖片參考所統計的皮膚色碼，然後使用臉部偵測來觀察各自的辨識效果。

圖三：不同膚色的臉部偵測流程。（作者提供）

這3張圖片都屬於人臉，唯一的差別只是膚色不同，理論上應該都能夠被偵測到。當這3張圖片轉換成灰階照片後，我們觀察鼻子附近的輪廓，可以發現深色皮膚的鼻子輪廓較不明顯。這些照片套用先前提到的哈爾特徵計算方式，即黑色區域與白色區域的數值相減，淺色皮膚的照片會得到較高的相似率，而深色皮膚會得到較低的相似率。從上面的例子可以得知，膚色淺的人種在此模型中會有較好的辨識效果，而膚色深的人種會不易被辨識。其背後原因和跟運算流程有關，因為將彩色圖片轉成灰階圖片可以大幅縮減運算時間，但對於不同膚色的人種會有不同的偵測結果。對當初的開發者來說，他們僅是想要提出一套快速的偵測方法，但此方法間接產生公平性的議題，這個影響也是始料未及。

物件偵測技術YOLO的發展與爭議

除了人臉偵測的技術以外，物件偵測（object detection）技術在電腦視覺（computer vision, CV）研究領域也受到許多注目，因為攝影機的畫面通常包含許多資訊，如：寵物、車輛等，物件偵測可以自動分析畫面中的物件種類。以YOLO（You Only Look Once）為例，此方法直接將整張原始（彩色）圖片輸入至卷積神經網路（convolutional neural networks, CNN）進行分析，並且依靠圖像處理器（graphics processing unit, GPU）的運算能力，一秒鐘可以處理45張圖片，表示已能夠進行即時物件偵測。YOLO發表之後受到許多人的關注，累積至2021年10月的論文引用數已高達1萬9千多次。YOLO的作者後來發表YOLOv2與YOLOv3的研究，提供更快速、更精準、可識別更多物件的能力，並且開放原始碼讓有興趣的研究團隊可以研究他們技術。

然而，YOLO的作者雷德蒙（Joseph Redmon）在2020年於個人twitter發表了一段令人震撼的宣言：

I stopped doing CV research because I saw the impact my work was having. I loved the work but the military applications and privacy concerns eventually became impossible to ignore.

雷德蒙表示雖然個人很熱愛電腦視覺的研究，但發現到其研究成果在很多領域產生影響，特別是軍事應用與個人隱私的問題，這些倫理議題是無法忽略的，因此選擇離開電腦視覺的研究，讓其他人繼續接手相關研究。

YOLO官網後來仍發布新版的YOLOv4的資訊，作者就不再出現雷德蒙的名字，取而代之是原本的程式碼維護者，也是俄羅斯開發者博奇科夫斯基（Alexey Bochkovskiy ），以及中央研究院的廖弘源特聘研究員、王建堯博士後研究員。藉由YOLOv4的研究成果，也成功讓全世界看到臺灣的軟體實力。根據中研院的新聞稿，YOLOv4在臺灣已經應用於智慧交通與COVID-19的防疫應用，未來期望有更多人能以此技術創造更多有趣的生活應用。

延伸閱讀

1. Paul Viola & Michael Jones, Rapid object detection using a boosted cascade of simple features, Proceedings of the 2001 IEEE computer society conference on computer vision and pattern recognition, 2001.
2. Joseph Redmon et al., You only look once: Unified, real-time object detection.Proceedings of the IEEE conference on computer vision and pattern recognition, 2016.
3. 中央研究院，〈人工智慧》全球搶用的物件偵測演算法上線最神速精準一眼揪出你有沒有超速！〉，2020年7月2日，https://www. sinica.edu.tw/ch/news/6576。

相關推薦

科學月刊 11月號/2021 第623期：臺灣科普的下一步？-已完售-無庫存

科學月刊 11月號/2021 第623期：臺灣科普的下一步？...

新訂一年方案：《科學月刊》一年12期

新訂一年方案：《科學月刊》一年12期

新訂兩年方案：《科學月刊》二年24期

新訂兩年方案：《科學月刊》二年24期

台北市大安區羅斯福路三段 77 號 7 樓
服務電話：+886-2-2363-4910
電子郵件：scimonth@scimonth.one
服務時間：週一至週五 09:30~17:30，例假日除外。

認識科月

關於科月

各期目錄

投稿須知

合作洽談
讀者服務

購買雜誌

訂閱雜誌

網路會員

訂閱電子報

隱私政策服務條款

© 1970- by Science Monthly 若需轉載、使用科學月刊或科技報導的文字、圖像或影音等，請洽本公司。

網頁設計 : 藝誠網頁設計公司