文章專區

2025-01-21幫聲音加上「浮水印」 臺科大研發防語音詐騙的「護聲符APP」 517 期

Author 作者 整理報導|陳亭瑋

在人工智慧(artificial intelligence, AI)技術迅速發展的今日,深度偽造(deep fake)技術帶來的資訊安全威脅日益嚴重。特別是在語音合成領域,不法分子可以輕易複製並濫用他人的聲音,造成詐騙事件頻傳。針對這項新興的資安威脅,臺灣科技大學資訊管理系的王玟雅、蔡婷玗、陳俞縕及毛世鑫同學在助理教授黃政嘉的指導下,開發「應用音訊浮水印於對抗式攻擊與深度學習之數位護聲符系統」,結合音訊浮水印與深度學習,判斷是否接收到複製或合成的聲音。最終成品「護聲符APP」在第29屆大專院校資訊應用服務創新競賽中脫穎而出,榮獲資安應用組第二名及資訊應用組第三名的傑出成績。

護聲符APP的技術架構主要包含語音真偽辨識系統和數位音訊防護機制兩大核心功能。在語音真偽辨識方面,研究團隊採用了先進的深度學習技術,通過大量真實語音和AI合成語音的訓練數據,建立起高精確度的辨識模型。該系統能夠自動分析輸入語音的特徵,識別出細微的聲音差異,從而判斷語音來源是真人或是由AI合成。實驗結果顯示,在理想的音訊環境下,系統對真人語音的辨識準確率達到99.99%,對AI合成語音的辨識準確率也高達99.94%。

在數位音訊防護方面,研究團隊運用了音訊浮水印技術在原始音訊中嵌入特殊的數位標記。人耳無法聽見這些浮水印標記,但它可以有效防止聲音被AI軟體二次合成與濫用。更重要的是,浮水印還可以作為聲音版權的數位證據,為未來可能出現的法律糾紛提供有力的技術支持。

不過,研究團隊在開發過程中面臨多項技術挑戰。首先是語音樣本的收集和數據庫建立,目前系統的訓練數據主要以英語為主,現階段團隊正在擴充中文語音數據庫,這需要大量的樣本收集和標註工作,以因應臺灣本地的需求。其次是模型的最佳化問題,特別是在複雜的背景噪音環境下,如何保持高準確率的辨識效果是一大挑戰。此外,系統的即時性也是重要的技術課題。目前APP支援音檔上傳與錄製功能,但要實現即時通話中的語音辨識與防護,還需要進一步調整算法效能、降低運算延遲。

護聲符APP的應用前景相當廣闊,除了可以用於防範語音詐騙外,還可以擴展到多個領域。在通訊安全領域,可用於驗證通話真實性;在影視製作領域,可保護聲優和配音演員的聲音版權;在生物特徵驗證領域,可作為聲紋識別的輔助技術。儘管護聲符APP備受期待,但要開發為具公信力的系統仍需面臨包括語音樣本的蒐集與模型建構等諸多挑戰,才能真正提供完整的防護。

新聞來源
國立臺灣科技大學(2024年12月9日)。防堵AI語音詐騙!臺科大學生開發APP辨識真偽守護聲音使用權。國立臺灣科技大學。https://www.ntust.edu.tw/p/406-1000-131874,r167.php?Lang=zh-tw