文章專區

2018-05-01Google、縱橫字謎與大數據 581 期

Author 作者 游森棚/任教於臺灣師範大 學數學系及空軍官校。
前陣子與韓國學者聊天,他們說現在在數學界找工作不易,因為什麼都要跟「大數據(big data)」扯上關係。的確,大數據儼然是現在很夯的詞,臺灣的數學系所一共就這麼多,而我知道的就有6、7間打算要成立大數據中心,想要延聘的新人都需要有大數據的背景。
 

大數據時代

什麼是大數據?顧名思義就是處理極大量資料的一門學問。電腦與網路出現與普及後,大量資料的處理變成新的挑戰。但這不是什麼新鮮的東西,幾十年來,歐洲核子研究組織(European Organization for Nuclear Research, CERN)的高能實驗物理學家早已習慣每秒要處理超過1千兆位元組(terabyte, TB)的巨量資料。

然而,現今網路的普及,使Google、 Facebook、Line 和 Tweet 等社交網路與廣告滲透到每一個人的生活,網路上宏觀的大量數據變得非常有趣。 2012 年 12 月 11 日紐約時報有一篇專欄文章,標題是「The Age of Big Data(大數據時代的來臨)」。

TED 的一個演講簡明地介紹了大數 據的概念, 相當值得一看。現在普遍接受的定義是,大數據處理的資料有4個特點,又稱4V,分別是多(volumn)、 快(velocity)、 雜 (variety)與真偽難辨(veracity)。 面對一堆資料,如何處理、如何擷取出有用的部分、 如何分析相關性、找到模式並預測趨勢等,這些大概就是大數據要做的事。

以上的解釋都是概念性的,說實在還是很模糊。關於細節我不是專家,也無法深談。不過最關鍵的是,這些和數學有什麼關係呢?底下舉2個我覺 得有趣的例子。第一個例子講要發展大數據背後真的需要高深的數學,第二個例子是用大數據分析後最近得到的意外結果。


搜尋引擎系統

第一個是Google的搜尋引擎的運作。 網路上有上千億個網頁,Google 搜尋 的強項就是它能很快找到有用的網頁,而關鍵就是把網頁排序。以下的例子 擷取自布基亞尼科(Bucchianico)的演講稿,假設只有4個網頁,互相連結的樣子如圖一。


 
網頁1會超連結到 網頁2、3、4(不妨各給權重1/3), 網頁2超連結到網頁3、4(各給權重 1/2), 以此類推。……【更多內容請閱讀科學月刊第581期】