文章專區

2018-09-01全民玩轉 LHC 公開實驗數據- 探索希格斯粒子之美! 585 期

Author 作者 趙元/從事高能物理研究,也是自由軟體與開放原始 碼的愛好者。曾參與Belle與CMS實驗,目前是臺大 物理系的助理研究員。

存取 CMS 實驗數據

在開始分析數據之前,要先介紹大型強子對撞機(Large Hadron Collider, LHC)實驗資料的格式。讀者如果 接觸過粒子物理分析,應該會聽過一套稱叫「ROOT」 的物件導向分析工具。ROOT 是由其前身PAW 在歐洲 核子研究組織(Organisation Européenne pour la Recherche Nucléaire, CERN)的開發團隊,發展出 來的一套結合統計與專業製圖的軟體,對數據分析略知 一二的朋友,可以把它視為是結合R 與 GNUplot 的工 具軟體,可以使用圖形界面與互動式指令處理各種數據。

緊湊緲子線圈(compact muon solenoid, CMS)實驗 團隊先前所釋出的2010 年數據,是以CSV 純文字儲存 整理過的資料,並且用逗號隔開不同的欄位,再用GZip 壓縮格式。這種格式無論使用Python、C/C++甚至試 算表軟體都可以直接讀取。但是這次(2011∕2012年) 的數據實在過於龐大,同時為了保留其他研究者的應用彈 性,便直接以ROOT 的原生資料格式釋出。

ROOT 的資料結構是以事例(event)為單位,對於每 一個對撞的事例,會有多個資料集(tree)的分支記錄 (branch),像是事例參數、光子集合(collections)、 電子集合和渺子集合等。分支的末端是葉(leaf),也就是各種量測的物理量。而這些集合又分成模擬生成子(GEN)階段、偵測器模擬(SIM)階段、偵測器記錄(DIGI) 階段與事例重建的(RECO)階段。對分析者而言,GEN 與RECO 才是主要使用的;而這次CMS 提供的數據層級,稱為分析物件資料(analysis object data, AOD)的合集,當中則包含了GEN 與 RECO 階段的必要部分,方便分析者專注在有興趣的物理上。……【更多內容請閱讀科學月刊第585期】