文章專區

2022-05-15人類為AI制定的倫理架構,究竟哪裡出了錯?《人工智慧最後的祕密》 485 期

Author 作者 凱特.克勞馥(Kate Crawford)

從Internet到ImageNet

網際網路在許多方面改變了一切;在人工智慧研究領域,網際網路被視為某種類似自然資源的東西,供人取用。隨著越來越多人開始把他們的圖像上傳到網站、照片分享服務,最後傳到社群媒體平臺,掠奪行為也更頻繁發生。突然間,訓練集的大小可以達到一九八○年代科學家永遠無法想像的規模。拍攝照片時要運用多種打光條件、控制參數和定位臉部的裝置,都成了過往雲煙。現在有數不盡的自拍,光線條件、位置和景深五花八門。人們開始分享他們的嬰兒照、家庭快照,以及十年前模樣的照片,悉數成了追蹤遺傳相似度和臉部老化的理想資源。每天都有數兆行文本發布,正式和非正式的言語形式都有。這一切都有利於機器學習,而且數量龐大。舉例來說,二○一九年,平均每天有大約三億五千萬張照片上傳到臉書,還有五億條推文發送。臉書和推特只不過是位於美國的兩個平台,而線上的任何東西和所有一切都準備好成為人工智慧的訓練集。

科技業巨擘這時處於力量強大的位置:他們的生產線上有更新不完的圖像和文字,而有越多人分享內容,科技業的力量就越大。大家樂於免費標記照片的人物姓名和地點,而這種無償勞動為機器視覺和語言模型帶來更準確的標記資料。在業界,這些收集來的資料非常有價值,是鮮少與他人分享的專有寶庫,原因在於隱私問題及它們所代表的競爭優勢。但在業界之外也有人想要相同的優勢,例如學術界頂尖的計算機科學實驗室。他們怎麼負擔得起收集人們的資料,並由自願的人類參與者手動標記這些資料呢?這時,新想法開始出現:將從網際網路上提取的圖像和文字,與低薪的群眾外包工作者勞力結合起來。

ImageNet就是最重要的人工智慧訓練集之一。它的概念在二○○六年首度出現,當時李飛飛教授決定建立一個龐大的物件辨識資料集。「我們決定要做破天荒的事,」李飛飛說:「我們將繪製出整個世界的物件。」二○○九年一場電腦視覺會議上,ImageNet團隊發表了這項突破性研究的海報。它的開頭是這樣寫的:

數位時代帶來了數據大爆炸。最新的估計顯示,Flickr上有超過三十億張照片,YouTube的視頻片段數量相去無幾,而Google Image Search資料庫中的圖像甚至更多。利用這些圖像,可以開發出更成熟穩健的模型和演算法,為使用者提供更好的應用程式,讓他們索引、檢索、組織這些資料,並與之互動。

從一開始,資料就具有龐大、雜亂無章、非個人、隨時可被利用的特性。根據這些作者的說法,「究竟如何利用和組織這些資料,是有待解決的難題」。該團隊主要透過搜尋引擎的找圖選項,從網路上提取數百萬張圖像,生成一個「大規模的圖像本體」,用以作為資源,為物件辨識和圖像辨識演算法「提供關鍵的訓練和基準資料」。ImageNet就是透過這種方式大幅成長。團隊從網際網路上大量收集了超過一千四百萬張圖像,可組成超過兩萬個類別。團隊的各項研究報告隻字未提取用他人資料的倫理問題,即使有大量圖像是非常私人的,具有不宜洩漏的性質。

一旦這些圖像從網路上被抓取來之後,就出現了一項重要的問題:誰會標記所有這些圖像,並歸入可理解的類別?正如李飛飛所描述的,團隊最初的計畫是以時薪十美元雇用大學生,手動尋找圖像,加入資料集。但她明白,以他們的預算來看,需要九十多年才能完成計畫。不過,解決之道出現了。有個學生告訴李飛飛一項新服務—「亞馬遜土耳其機器人」。正如我們在第二章所見,這個分散式平台意味著突然間就可能取得分散式勞動力來從事線上任務,例如標記和分類圖像,且規模龐大、成本低廉。「他讓我看這個網站。跟你打包票,那天我就知道ImageNet計畫做得成。」李飛飛說:「突然間,我們找到一種可擴大規模的工具。光靠雇用普林斯頓的大學生,根本不敢夢想能做得到。」不令人意外,大學生沒拿到這份工作。

相反地,ImageNet一度成為「亞馬遜土耳其機器人」全球最大的學術界用戶,這項計畫配置了一批零工,平均每分鐘把五十張圖像分類到數千個類別。有蘋果和飛機的類別,也有水肺潛水者和相撲選手的類別。不過,也有殘忍、冒犯、種族主義的標記:人們的照片被分為「酒鬼」、「猿人」、「瘋子」、「妓女」和「吊眼仔」等類別。所有這些詞彙皆是從WordNet的語料庫導入的,提供給群眾外包者進行圖像配對。十年間,ImageNet成長為機器學習的物件辨識巨擘,也是這個領域強而有力的重要基準。未經同意並由低薪群眾外包者標記大量的提取資料將成為標準作法,數以百計的新訓練資料集會效法ImageNet。我們會在下一章看到,這些作法及其所生成的標記資料,最終會和這項計畫形影不離。

資料的迷思與隱喻

人工智慧教授尼爾斯.尼爾森(Nils Nilsson)撰寫的人工智慧史經常被引用,其中概述了幾則機器學習中關於資料的基本迷思。他簡潔說明技術學門對資料的典型描述:「大量的原始資料需要有效率的『資料探勘』技術,才能分類、量化和提取有用的資訊。機器學習法在資料分析中扮演越漸重要的角色,因為它們可以處理大量資料。事實上,資料越多越好。」

呼應幾十年前默瑟的想法,尼爾森意識到資料隨處可取,更適合用機器學習演算法來大量分類。這種普遍的信念成為公理:資料是讓人取得、精煉並創造價值。

但長期下來,既得利益者精心製造這項信念,並予以支持。正如社會學家富凱德(Marion Fourcade)和希利(Kieran Healy)所寫的,要不斷收集資料的強制令不僅來自資料相關行業,也來自他們的體制和其部署的科技:

來自科技的體制命令是最強而有力的:我們做這些事情是因為我們可以……專業人士的建議、制度環境的要求和科技能力,讓組織能拿走盡可能多的個人資料,即使收集量可能遠超過公司想像所及或分析理解也無妨。其假設是,它遲早會有用,也就是有價值的。……當代組織不僅在文化上受到資料必要性的驅動,也配備新工具來強力執行。


這產生了一種收集資料的道德命令(moral imperative),收集資料是為了讓系統更完好,無論資料收集在未來的某個時間點可能造成的負面影響為何。在「越多越好」這種令人質疑的信念背後,是認為一旦收集到足夠多的不同資料片段,就能完全了解個人。不過,究竟什麼才算資料?歷史學家吉特爾曼(Lisa Gitelman)指出,每一種學科和機構「都有自己的規範和標準來想像資料」。在二十一世紀,資料成為任何能擷取的東西。

諸如「資料探勘」的術語,或者「資料是新石油」的措詞都屬於修辭行動,把資料的概念從私人、私密或隸屬於個人所有和控制之物,轉變成更惰性、更不屬於人的事物。資料開始被描述為要消耗的資源、要控制的流程,或是要利用的投資。「資料即石油」的表述方式變得司空見慣,儘管它讓人聯想到資料作為供採掘的原料,卻鮮少強調石油和採礦業的成本:契約勞工、地緣政治衝突、資源枯竭,以及延伸超越人類時間尺度的後果。

最後,「資料」成為蒼白的文字,隱藏了實體的起源和其目的。而如果把資料視為抽象、非物質的,更容易脫離傳統上對需小心處理、同意或風險的理解和責任。正如研究者史塔克(Luke Stark)和霍芙曼(Anna Lauren Hoffman)指出的,把資料比喻成只等待發現的「自然資源」,是殖民強權幾個世紀以來根深柢固的修辭技巧。只要是來自原始「未精煉」的來源,採掘就是合理之舉。如果把資料表述為石油,只是等待被採掘,那麼機器學習就會漸漸變成其必要的精煉過程。

資料也開始被視為資本,符合新自由派對於市場更廣大的想像,成為組織價值的主要形式。一旦透過數位足跡來表達人類活動,然後在評分指標中統計和排名,它們就能作為提取價值的方式。正如富凱德和希利所指出的,那些有正確資料訊號的人能取得優勢,例如保險金較低、市場地位較高。主流經濟中的高成就者通常在資料評分經濟中也表現出色,而最低分的則成為最有害的資料監控和提取形式的目標。若把資料視為一種資本形式,那麼收集更多資料,一切都被視為合理的。社會學家薩多斯基(Jathan Sadowski)提出類似主張,認為如今資料是一種資本的形式。他指出,一旦一切以資料來理解,就合理化了一種循環,在這循環中,不斷增加對資料的提取:「因此,驅動資料收集的,是資本累積持續不斷的循環,這反過來又驅動資本,打造出一切皆由資料構成的世界,並仰賴這個世界。資料應是普世共通的這項觀念重新定義一切,把所有東西納入資料資本主義的範疇。所有空間都必須資料化。如果把宇宙想成可能蘊藏著無限的資料,那麼這意味著資料的累積和循環可以永遠持續下去。」

驅動累積和循環,就是蘊藏在資料底下的強大意識形態。提取大量的資料是「〔資料〕累積的新邊境,也是資本主義的下一步」,薩多斯基指出,而這是讓人工智慧發揮作用的基礎層。因此,整體產業、機構和個人不希望這個邊境—資料是在那裡供人取用的—受到質疑或者不穩定。

機器學習模型需要資料的持續流動,才能更準確。但機器像是漸近線,永遠不會達到完全精確,這合理化了從盡可能多的人身上提取更多資料,讓人工智慧的精煉廠有燃料可用。這導致從「人類主體」—二十世紀的倫理爭論中出現的概念—之類的觀念,轉向「資料主體」的創造;而所謂的資料主體就是數據點的凝集,沒有主體性、脈絡或明確定義的權利。

不必再取得同意

二十一世紀最初幾年,資料收集已不再注重是否得到同意。除了不再需要編導式照片,負責收集資料集的人也假定自己有取用網際網路的同意權,不需要同意書、簽訂協議和倫理審查。這下子,開始出現更多有問題的作法。舉例來說,在科羅拉多大學科羅拉多泉分校(Colorado Springs),一名教授在校園的主要步道裝設一台攝影機,悄悄拍攝一千七百多名師生的照片,全是為了訓練他自己的臉部辨識系統。杜克大學有一項類似的計畫,收集了兩千多名學生的畫面,這項成果後來在網際網路上發表,而學生在課堂間行走時根本不知道這件事。這個資料集稱為DukeMTMC(意指多目標﹝multitarget﹞、多鏡頭﹝multicamera﹞臉部辨識),由美國陸軍研究辦公室和國家科學基金會贊助。

DukeMTMC計畫遭到嚴厲抨擊,因為藝術家暨研究者亞當.哈維(Adam Harvey)和拉普萊斯(Jules LaPlace)進行調查發現,中國政府正在使用這些圖像來訓練系統,監視少數民族。這促使杜克大學研究倫理審查委員會展開調查,該委員會判定此舉「明顯偏離」可接受的作法。該資料集已從網路上移除。

但科羅拉多大學和杜克大學的事件絕非偶發案例。在史丹佛大學,研究者調用舊金山一間受歡迎咖啡館的網路攝影機,提取近一萬兩千張圖像。這些「鬧區繁忙咖啡館的日常生活」圖像未經任何人同意就提取。這些提取的資料一再在沒有人允許或同意的情況下,上傳給機器學習的研究人員,當成自動成像系統的基礎設施。

另一個例子是微軟訓練集的里程碑—MS-Celeb,它在二○一六年從網路上抓取約一千萬張照片,涵蓋十萬個名人。在當時,MS-Celeb是世界上最大的公共臉部辨識資料集,不僅包含知名演員和政治人物,還有記者、社運人士、政策制定者、學者和藝術家。諷刺的是,幾個未經同意就被納入資料集裡的人,正是致力批評監視和臉部辨識的大將,包括紀錄片製作人柏翠絲(Laura Poitras)、數位權利倡議者吉莉安.約克(Jillian York)、評論家莫羅佐夫(Evgeny Morozov),以及《監視資本主義時代》(The Age of Surveillance Capitalism)作者祖博夫(Shoshana Zuboff)。

即使資料集抹去個人資訊,釋出時高度謹慎,但人已經被再度識別,或高度敏感的資訊細節仍遭披露。舉例來說,二○一三年,紐約市計程車暨禮車管理局(Taxi and Limousine Commission)釋出資料集,裡頭有一億七千三百萬筆個人搭乘計程車的資料,包括上下車時間、地點、車資和小費。計程車駕駛的牌照號碼已經匿名化,但很快又被恢復原樣,讓研究者能推論敏感資訊,例如年收入和住家地址。一旦與來自名人部落格之類的公共資訊結合後,就能識別出一些演員和政治人物,還可能推論出曾造訪脫衣舞夜總會的人居住地址。但除了對個人造成傷害之外,這樣的資料集還會對整個群體或社區產生「可預測的隱私傷害」。比如從同樣的紐約市計程車資料集中,可藉由觀察哪些計程車司機會在祈禱時間停車,推測這些司機是虔誠的穆斯林。

從任何看似無害的匿名資料集中,都可能出現許多意料之外且高度私人的資訊形式,但事實上,這並未阻礙圖像和文字的收集。機器學習的成功靠的是越來越大的資料集,因此越來越多人尋求取得資料集。但為什麼更廣大的人工智慧領域接受這種作法,即使會帶來倫理、政治和知識論方面的問題,且有潛在傷害?哪些信念、將事情合理化的理由和經濟誘因,把這種大量提取資料、將資料一視同仁變成常態?


書 名|《人工智慧最後的祕密:權力、政治、人類的代價,科技產業和國家機器如何聯手打造AI神話?》
作 者|凱特.克勞馥(Kate Crawford)
譯 者|呂奕欣
出版社|臉譜出版社
出版日期| 2022 年05 月05 日

幽靈代價,我們為AI付出了什麼?

• 人工智慧既非人工的,也不是智慧的,那些看似萬能的智慧是如何「製造」出來的?
• 從內華達沙漠到內蒙古巨大的人工湖、從亞馬遜倉庫到太空殖民,直擊人工智慧帝國全景地圖!
• 人工智慧充滿隱藏成本,從自然資源和勞力到隱私和自由都是代價,深入了解我們為人工智慧付出了什麼?
• 人類為人工智慧制定的倫理架構非常失敗,程式碼和演算法並非致命毒藥,那麼到底哪裡出了錯?

從神話到魔化,從地球、雲端到太空,破解AI背後的6個祕密,探索人工智慧的另一種可能!當代AI研究先驅、微軟研究院資深首席研究員第一手揭露人工智慧豐功偉業背後的陰暗面!