文章專區

2022-12-13個人隱私在AI時代面臨哪些風險?資料治理的重要性 492 期

Author 作者 甘偵蓉/清華大學人文社會AI應用與發展研究中心博士後研究學者。

隨著機器學習(machine learning)技術的使用與開發,人工智慧(artificial intelligence, AI)逐漸蓬勃發展,相關技術及使用的風險也日益受到關注。其中個人資訊是否能自主管控及隱私侵害的風險格外受到重視,這將涉及政府、AI開發或使用單位是否有良好的資料治理(data governance)政策。

AI要有龐大資料才可能學會人類交辦的事

目前許多AI系統是使用「機器學習」技術來設計,這項技術的主要特點是電腦必須先從大量資料中分析各種特徵之間關聯的規律性(模型),然後 以該規律性(模型)自動預測新的資料。例如要讓AI辨識貓咪的圖片,工程師會在電腦中先輸入一堆有動物的圖片,並寫一組程式告訴電腦它的目 標是辨識圖片中的貓咪,然後由電腦自行摸索、辨識出貓咪的特徵因子,這麼一來電腦就能根據那些特徵因子自動判斷圖片上的動物是否為貓咪; 又或者要讓AI推薦用戶影片,工程師必須先將許多用戶過去觀看影片的紀錄輸入電腦,並寫一組程式告訴電腦它的目標是分析與歸類用戶偏好觀賞 的影片類型,由電腦自行摸索出可歸類所有用戶觀賞影片類型的模式,這麼一來電腦就能根據該模式來歸類目前用戶可能偏好的影片類型,然後自 動予以推薦。簡單來說,使用機器學習所設計的AI系統,就是一個做過許多考古題並且對過答案的學生,根據他在考古題裡學到的東西來回答新的測驗內容。

這麼一來,要開發能預測、決策或最佳化工作流程的AI機器學習系統,首要的目標就是得有足夠多資料讓電腦學習,而開發出來的系統也是透過 資料讀取與分析來達成任務或生產更多資料。這意味著AI系統從開發到應用的每個階段都牽涉資料治理。

所謂的資料治理,就是為確保資料的使用及生產都有良好品質,且符合如尊重個人資訊自主管控及保護個人隱私等法律規範,並維護資訊系統安全,因此需要採取適當的方式及技術來管理相關資料。

AI所使用或生產的資料其實不一定都能直接或間接辨識個人。依據臺灣的《個人資料保護法》規定,能直接或間接辨識個人的資料,包含姓名、出生年月日、國民身分證統一編號、護照號碼、特徵、指紋、婚姻、家庭、教育、職業、病歷、醫療、基因、性生活、健康檢查、 犯罪前科、聯絡方式、財務情況、社會活動等。但即使不能辨識個人,收集到的資料仍會遇到有無著作權且獲得授權、是否洩漏國家安全或核心科技所保護的機密資訊、有無中毒或被駭客攻擊等值得關注的法律與資安問題。這些能辨識個人的資料,若資料當事人未能自主管控或隱私外洩,不但可能造成當事人身心、名譽、財產等傷害,AI系統開發或使用單位也有違法之虞,社會大眾可能會逐漸不信任甚至抵制AI的發展及應用,因此資料治理在AI來臨的時代格外重要!

有關個人的資訊常見蒐集管道

AI系統如果是設計來預測使用者動態或向個人推薦搜尋,有關使用者的資訊可從哪裡蒐集?目前最常見的蒐集管道就是網路,像是搜尋引擎如Google入口搜尋平臺,或是各種資訊及影音網站如新聞網站、購物網站、YouTube、Netflix等,以及社群網站如Facebook、 Instagram、YouTube、Pinterest、抖音等。手機上的各種應用程式(app)如Line、WhatsApp、WeChat等,或是智慧型手錶等各種智慧穿戴裝置,也是有關個人的資訊蒐集來源。

此外,像是各大樓、辦公室、街頭巷弄無所不在的攝影機也可能用以蒐集個人影像的來源。而日常生活中的各種資料,如個人在校成績與檔案、就醫檢查影像或用藥資訊、國稅局的個人所得或社會局的社福金發放等,也都有可能成為有關個人資訊的蒐集來源。

當然AI系統並不是都使用與個人相關的資料,但如果系統任務是要預測個人行為甚至模擬個人,那麼就必須使用可直接識別資料當事人的數據,或使用透過串連或交叉比對能夠間接識別當事人數據。暫且不論那些惡意洩露個人隱私或蓄意監控的資訊軟體,依據法規,凡是要取得有關個人的資料都需經過資料當事人同意,所以當我們下載軟體或使用新的資訊平臺時,平臺或軟體都會提供「使用者服務條款」(terms of use / service)徵求資料當事人的同意才能夠合法蒐集。

使用者服務條款
為何無法保障個人資訊管控權?

即使都要提供「使用者服務條款」經使用者同意,AI 系統或者各種軟體仍有可能侵害資料當事人對於個人資訊的自主管控權利。

1. 額外蒐集未經個人同意的資訊首先數位軟體或平臺有可能違反「使用者服務條款」,蒐集未經個人同意的隱私資訊。例如手機上的健康紀錄app除了蒐集使用者同意的資料如行走步數外,還在使用者不知情的情況下,額外蒐集使用者的電話通訊錄、所在地理位置、對話內容等,就屬於此類侵權的狀況。

2. 徒具形式的個人同意其次,就算數位軟體與平臺所蒐集的個人資訊都有經過使用者的同意,但同意方式也可能徒具形式。例如,人們若不同意全部的使用與服務條款,結果就是不能下載軟體或使用該服務,等於半強迫使用者同意所有的資料蒐集;又或者將使用與服務條款寫得密密麻麻、非常複雜,且用詞模糊不清。不少常見的「使用者服務條款」細節並不明確,如許多軟體會提及將與第三方應用程式和服務共享使用者資訊,但所謂第三方的對象並不明確,對於所分享的使用者資訊範圍也都交待不清。以至於使用者僅僅只是開始使用服務就必須同意將自己所有的資訊都分享給毫無限制的個人、企業或團體,用於毫無任何內容限制的資訊或廣告行銷。此類「使用者服務條款」僅是徒具形式,無法保障使用者隱私。

3. 使用目的與原始的資料蒐集目的不符最後還有一種常見的情況,就是經當事人原始同意蒐集的資料未經知情同意被挪做其他用途使用。例如在社群軟體上玩心理測驗,結果個人資訊被拿去投放選舉廣告。最嚴重的案例便是2018年的劍橋分析事件 (Cambridge Analytica)。又或者平臺片面更改隱私條款,擴大蒐集資料範圍或擴大與第三方分享資料範圍,卻未通知當事人、或是以相當不明顯、容易被忽略、甚至完全無法拒絕的方式進行通知。例如通訊軟體 WhatsApp在去(2021)年初更新隱私條款,擅自將使用者的數據與Facebook分享,還直接取消隱私條款上的選項,讓使用者無法拒絕分享給Facebook,便引起許多使用者的不滿。

AI演算法可能如何侵害個人隱私?

現今的AI演算法有許多功能,以下三個演算法的應用與個人資料息息相關,也較可能侵害個人隱私。

1. 個人資訊側寫
演算法可用來蒐集個人資訊、進行分析、對於個人做資訊側寫(profiling),因而可能會侵害個人隱私。所謂的資訊側寫是一組以代碼標示特定個人的數位檔案,裡面的資料可能包含個人資訊如姓名、生日、地址、聯絡電話等,還有數位足跡像是歷年的網頁搜尋、填寫表單的資料、休閒嗜好、購物習慣等。

這種包含個人資訊側寫的資料庫,有可能是軟體或平臺自行建置。例如社群軟體會紀錄個人不論是否公開分享的貼文、照片、與哪些人互動像是按讚或留言等,分析他可能會喜歡看到哪類型的貼文與新聞資訊,後續就可以客製化提供給使用者的介面,包含收到朋友推文的優先順序、推播的新聞與影音類型,還可以應用於協助廣告客戶精準投放廣告,甚至針對性格不同的平臺使用者客製化廣告內容等。

2. 含個人資料的資料庫販售
前面介紹的資料庫還可以進一步串連延伸運用,像是國內外各種數據仲介公司會透過從不同管道取得或購買的數據,依照喜好、地區、人種、年齡等各式主題建立個人數位資訊側寫的資料庫。這些整合後的資料庫可以販賣給有需求的客戶,或針對客戶需求進行分析及預測,也可以媒合不同客戶手上所擁有的數據,然後再從中抽取仲介費等。例如,旅遊公司將客戶的資料交給數據仲介公司,數據公司再根據顧客的喜好如喜歡的國家、日常休閒娛樂、偏好的交通工具或度假方式等分門別類,日後旅遊公司就可向客戶直接推播符合他偏好的旅遊廣告。又或者數據仲介公司還可以媒合旅遊公司與防曬乳產品公司,讓運動用品公司可以投放廣告給旅遊公司中喜歡到戶外活動的客戶,這麼一來旅遊公司與數據仲介公司就能同時都賺取廣告費。


3. 重新識別化個人資訊
雖然多數演算法所蒐集及使用的資料,都採取匿名化處理或已經去識別個人資訊,仍有可能透過與某些具有個人姓名資料的檔案頁面例如LinkedIn或Twitter 進行比對,而讓特定個人解除匿名,重新識別(reidentification)個人身分。

換言之,數位資料本身就是可以無限複製,也可同時儲存在許多地方。當人們在許多地方留下各種有關個人資訊的數位麵包屑時,這些數位麵包屑即使無法直接或間接識別個人,仍有可能透過資料之間的合併、 串連、比對等方式,而讓個人身分被揭露。拜現代AI 演算法的預測功能之賜,許多數位平臺或軟體還能利用AI來預測個人行為模式,以利推薦產品或投放廣告,提高個人隱私受到侵害的風險。

AI時代來臨,該如何治理有關個人的資料?

統上針對個人資訊蒐集與分享範圍的一次性知情同意機制,在網路時代對於降低個人隱私洩漏的風險,以及維護個人自主管控有關自身資訊傳播的管道,顯 然規範效果有限。

目前在醫學研究與醫療資料應用上頗為流行的「動態同意」機制,對於確保個人自主控制自身資訊流傳的範 圍,效果也有些限制。動態同意是指不只在利用個人資料前需取得當事人同意,後續也藉由向當事人回饋資料的利用情形、且當事人得拒絕資料再利用等機制以確保個人知情同意的有效性。但是,這種動態同意機制只能針對那些事前有明確取得個人同意蒐集及儲存項目、後續也有明確利用目標及結果的資料庫,像是醫療院所儲存的醫療影像應用資料庫等,若要廣泛使用在各種網路蒐集個人相關資訊的行為規範上,有它的困難。

目前有關保護個人數位資料和隱私的治理規範,首推的是歐盟在2018年5月上路的《一般資料保護規則》 (General Data Protection Regulation, GDPR),該法規的宗旨在於強化個人有關自身數據的自主控制權。例如,規定任何公司、平臺或軟體都不能在未經個人同意下,無明確目標地蒐集與儲存個人可能產生的任何數位資料。無論是可直接辨識個人的資料,如電話號碼、電子信箱、地址等;生物特徵資料,如個人指紋、臉部辨識特徵、相片、視網膜掃描檔案等;或是數位活動紀錄,如網頁瀏覽歷程紀錄Cookie、電腦IP位置、行動裝置ID、社群平臺活動紀錄等,都屬 GDPR規範的範圍。不僅如此,法規中也授與個人可以要求資料控制者刪除有關個人數位資料的權利,且不論個人先前是否已同意被蒐集與儲存;甚至個人也可要求蒐集資料者提供有關個人資料的利用目的、處理方式、利用結果的複本作參考。

然而GDPR保護的對象畢竟僅有歐洲地區人民,且GDPR對於個人資料共享的限制規定,只針對個人與 蒐集企業之外的第三方,並不針對企業內部。這麼一來,有可能導致產品市占率高、產品較多的跨國公司如Google、Meta、Amazon等數位科技巨頭,不但有足夠的人力與財力來因應為符合GDPR各項嚴格規定所衍生的成本,且能將他們的不同產品所蒐集的數據合併在一起成為綜合資料的大型數據庫,導致該公司數位產品的市場地位更加鞏固,意外地排擠了其他擁有類似數位產品的中小企業競爭力。

再者,儘管GDPR上路後陸續帶動美國某些州、澳洲、 韓國、日本、巴西、中國、南非等國家制定針對國人的數位資料保護與隱私相關法規。但這麼一來,其他數位化發展較慢、或者在個人數位資料保護機制上較弱的國家,人民的資料有可能就成為了各種使用AI技術的企業或數據仲介商的掠奪目標,而有數位資料殖民的隱憂。不僅如此,因此而研發出來的AI產品,在購買力等經濟市場的考量下,還是很有可能會回頭應用在數位科技先進國的人民身上。

上述情況提醒了我們,在AI科技時代下要適當保護資料當事人對於個人資訊的自主管控及隱私權,很難只掃自家門前雪,僅仰賴各國自行訂定個人資料保障法規是不夠的。事實上,政府有時候就是個人隱私的主要侵害者!在數位科技有跨國影響力的情況下,很需要各國通力合作聯合制定相關保護規範。如此,也才有可能因應AI時代,個人隱私權益所面臨的重大威脅與風險。

本文感謝工業技術研究院產業科技國際策略發展所支持