文章專區

2020-12-01實現未來科技生活的樞紐 大數據 612 期

Author 作者 曾耀寰/中央研究院天文與天文物理研究所研究副技師,本刊理事長。
最近幾年全世界最熱門的科技就屬人工智慧(AI),但人工智慧並不是這幾年才出現。早在1956年,一場在美國達特茅斯學院(Dartmouth College)舉辦的會議中,美國計算機科學家麥卡錫(John McCarthy)提出人工智慧的說法,並給予明確的概念:「如果程式能夠根據已知數據和指令,自主推斷出可能導致的各種直接結果,我們就說這程式具有常識(common sense)。」

這樣的程式與一般程式的不同之處在於它能自主推斷,以往程式是根據程式設計師的要求,照著指令一步一步準確地執行,就像汽車工廠內的自動化製造,每隻機械手臂的動作都是依照程式設計,精準無誤地完成應有的動作,沒有意外之舉;但一個具有人工智慧的程式能像人類一樣學習,機械手臂就能根據現場影像判讀,將上個流程沒有做好的汽車零件從生產線上移除,就像以前的現場工人一般,挑出瑕疵並進行補強。麥卡錫也在當時提出人工智慧的最終目標,是讓程式能像人類一樣有效地學習經驗。

類神經網路打造人工智慧

人工智慧的發展經過數個階段的大起大落,主要都與核心技術的演變有關,由於發展當下能夠配合的軟硬體還跟不上腳步,人工智慧從1956年以來,始終跌跌撞撞,終於在2017年由Google開發的AlphaGo深度學習技術,擊敗了世界圍棋第一高手柯潔而聲名大噪後,人工智慧成了家喻戶曉的大熱門。深度學習的底層核心技術是類神經網路,這是模仿人類大腦的神經運作系統,當接收外部資料後,經過一連串複雜的神經元處理,得到一個可以進一步處理未來外部變化的模式,這個方法對於人來說,就成了知識。

在深入追究類神經網路到底是如何學習人類,我們只能說人工智慧的深度學習方式和人類並不太相同,或是科學家對於人類的意識仍處在迷團當中,即便是猶抱琵琶半遮面的長安倡女,看過一眼仍有辦法辨識,這是多麼地奇妙。在不清楚人類的認知模式之下,又遑論深度學習和人類認知之間的差別,但我們知道若要成就人工智慧,大量的數據絕對是關鍵。

大數據是人工智慧的發展關鍵

大數據是指數據量很大很多,又稱巨量資料。由於資料本身很難定義,舉例來說,一早起床,我們眼睛張開就會看到各式各樣的數據,光是進浴室的清潔動作,使用的牙刷牙膏的過程都可以是數據。一個都市有多少人使用傳統牙刷?多少人使用電動牙刷?而牙刷數量的統計可以成為一種數據,什麼時候進行刷牙的動作也可以是數據,哪類型人的刷牙時間更是數據。只要想得到,任何事物都可以變成數據。

但近年來對於各種數據的擷取和儲存有了跳躍式的進步,電腦速度的進展藉由摩爾定律(Moore's law),大約每隔18個月,速度就會增加一倍,這是根據經驗所算出的數值,主要是在積體電路的製造上,所含的電晶體數量增加一倍,計算速度自然也增加一倍。在數據儲存量,從1980年代開始,大約每40個月就變成兩倍。2012年,每天大約有2.5艾位元組(EB,1018位元組)產生,預測到了2025年,每天則會有163皆位元組(ZB,1021位元組)。也就是說在2025年,現在市面上可以買到10 TB(1013位元組)的硬碟,每天最少需要生產100億顆來儲存資料。


雖然資料本身難以定義,但大數據有四個特性,包括資料量龐大(volume)、資料型態多樣(variety)、資料處理速度快(velocity)和資料具真實性(veracity)。也就是說,現在的科學家面對的是又多又雜的數據,並要能迅速從中取出正確的數據,並進一步找出數據間的模式,作為預測未來的根據。20世紀末,網際網路將全球各地的資訊資料和服務連接起來,數據始終存在,但由於人工智慧的強烈需求,一時之間,大數據變成了當紅炸子雞。……【更多內容請閱讀科學月刊第612期】