文章專區

2019-11-01「數大」便是美—大數據與現代生活的連結 599 期

Author 作者 鄭江宇/國立中央大學資訊管理博士,現任東吳大學巨量資料管理學院助理教授,專長為大數據與人工智慧研發

什麼是大數據?

在談論大數據之前,首先必須理解數據(data)的定義及其來源。一般來說,數據又可稱作資料,是指未經過處理的原始紀錄,人類即為重要的資料生產者,時時刻刻從生活中產出新的資料,而這些資料會經過一連串的演進,最終成為富有價值的智慧(圖一)。
 

圖一:資料轉為資訊、知識與智慧流程示意圖。


舉一個簡單的例子,假設讀者早上到早餐店點了一份30元的原味蛋餅搭配一杯30元的美式咖啡,此紀錄就是一筆未經處理的飲食資料。但當想要進一步了解自己在早餐上的花費,此時就需要將這筆資料做進一步處理,計算出自己在早餐的總花費為60元,而此經過處理後的資料即稱為「資訊(information)」。
 
有了總花費資訊後,自己開始有所認知,原來今天在早餐上的花費吃得如此節省,此基於過去經歷所做出的比較及歸納,則是資訊轉化成為「知識(knowledge)」的過程。於是可以開始思考,既然早餐吃得那麼簡單,那麼下課後的晚餐應該要犒賞一下自己,吃得更豐盛、更健康,於是決定打算晚上去吃火鍋,這項經由判斷及分析所做出的決策即是「智慧(wisdom)」。
 
上述的例子只不過是記錄一個人在早餐上的飲食資料,但若要記錄全臺灣2300多萬人的飲食資料呢?對此,大數據(BigData)便躍上檯面,不過各位讀者可千萬別誤會,難道是因為資料量瞬間放大2300萬倍才被稱作是大數據嗎?
 
其實不然,資料量龐大只不過是大數據的必要條件之一,重點在如何從大量資料或數據中挖掘出過去未曾被發現的知識,進而從中得到智慧成為人們下決策的依據。早在1959年,與大數據類似的名詞與概念就已被學者們提出,但受限於當時硬體設備不足,例如資料儲存空間不足或資料處理速度不夠快等,使得大數據分析在當時並未成功地被實現。直至2012年,受惠於連網速度與資料儲存量的提升,過去那些無法被收集與利用的寶貴資料,現今已經可以順利地被捕捉,也正式宣告大數據時代來臨。
 

大數據的4V特性
資料必須具備哪些特性才有資格被稱作是大數據呢?關於大數據的特性眾說紛紜,其中又以拜雅(Mark Beyer)以及蘭尼(Douglas Laney)論文中所提出的4V觀念最為被大眾接受(圖二),包括資料量龐大(volume)、資料型態多樣(variety)、資料處理速度快(velocity)及資料具真實性(veracity)。
 
圖二:需包含夠大的資料量、各種不同型態的資料、快速的處理及杜絕各種假資料。

資料量龐大
試想人手一支的手機在一天內能夠累積多少數據呢?舉凡Line的聊天數據、YouTube影片的觀看次數、網路購物上的選擇路徑及玩遊戲的操作數據等,實在難以估算。不過資料量到底該多大,容量要達到TB還是PB單位才夠資格呢?其實目前並沒有一個確切的參考標準,重點在於是否能夠從數據中挖掘出有價值的發現並幫助人們下達正確決策。
 
資料型態多元
在過去沒有電腦的時代,只能依靠紙筆以文字型態記錄資料。而現今有了相機、攝影機與錄音機等硬體設備,資料能夠以圖像、影像及聲音的型態進行儲存,代表大數據時代必須處理多元資料型態的事實。
 
資料處理速度快為提升行車安全及品質,無人駕駛汽車嵌入多種感測裝置,分分秒秒對周邊環境進行資料收集,但是讀者能夠想像當電腦無法針對路況即時反應所造成的嚴重後果嗎?因此資料處理快速是大數據的必要條件之一,也是硬體設備升級的成果。
 
資料具真實性
假新聞會導致閱聽大眾的錯誤認知,甚至影響社會正常運作。同理,錯誤資料來源也會造成分析結果誤差,甚至影響人們下達的重大決策,因此確保資料來源的可信程度也是大數據的重點之一。

大數據的運作機制

大數據的運作大致可分為資料收集、資料儲存、資料處理及資料分析等四大環節(圖三),面對需即時處理及數量龐大的數據,資料科學家也有相對應的解決方案與技術。
 

圖三:大數據的運作機制,從資料收集、儲存、處理到分析的過程圖。


首先在資料收集上,受惠於物聯網(Internet of Things, IoT)技術,資料得以被有效地採集與傳送,這些資料可略分為結構化資料(structured data)與非結構化資料(unstructured data)。前者是已經整理好的資料,具備固定的格式與順序,可以直接被放進資料庫正確的欄位中儲存;後者則是指亂成一團的資料,例如一段影片或者一張圖片等,必須經過處理才得以再利用。但很不幸地,天底下沒有白吃的午餐,在大數據時代中多數資料皆屬於非結構化資料,因此資料處理目的就是要整理這些雜亂無章的資料。......【更多內容請閱讀科學月刊第599期】