HareDB系統應用

高科技產業在製程上的創新往往需要大量的資料分析來輔助,隨著設備資訊化提昇與產量的增加, 擷取到的資料量也日漸增加,往往造成現有資料庫系統的負擔, 例如遇到大量資料比對、機器記錄檔分析、隱藏訊息探索等應用時, 甚至只能採用客製化的檔案處理來進行分析。 這些資料不僅可以做為製程調整的分析依據,也是產品問題追朔與改善的重要憑證, HareDB 團隊除了研發混合式資料分析解決方案,整合了 Hadoop / HBase 分散式平台及企業原有的關聯式資料庫, 也在這一年來協助了數家高科技產業相關應用的導入, 例如半導體製程設備 Recipe 參數比對效能的提升、大量設備記錄檔log的查詢、產品問題追朔的歷史資料分析等, 這些例子在原有的資訊架構下耗費過多的時間與技術資源,透過HareDB的大量儲存及計算能力, 大幅縮減這些問題帶來的成本,也讓企業在資料分析架構的規劃上,有更完整及簡便的方式。

(一)實際案例 – 半導體製造 Recipe 參數比對
半導體製造需要下達製造 Recipe 參數,系統需要進行 Recipe 版本的判定, 亦即進行大量的資料讀取與比對,這些參數記錄在資料庫的某一 Table 之中, 大小約為 10,000,000 Records,事實上這樣的數量並不大,但是比對次數須超過 1,000,000 次, 包括 500 次以上的查詢且每次查詢 2000 records,約需時 20 分鐘。 我們運用 HareDB 的 Data Model Manager 及 RDB Converter 將此資料轉移到 HBase 之中, 並透過 MapReduce 運算,將比對所需的時間縮短到 3 分鐘之內。 此案例的架構是整合 RDB 與 HareDB 的 Hybrid 架構,如下圖所示:

在此架構中,原有 Recipe Management 相關功能是保留與RDB連結,並不用重新開發, 我們指將造成瓶頸的資料及計算移轉到 HBase 之中,以提升效率且維持原有系統的運作。

(二)實際案例 – 巨量 ASCII 檔案查詢
此案例的客戶每天產生 1000 個以上 100M 的文字檔案,原本儲存於檔案系統, 並透過客製化的 Loader 及 Parser 進行查詢與解析以製作報表, 整個從需求分析到功能開發的時程太久。我們彙整這些 ASCII 檔案並存入 HareDB 解決方案之中, 建置完成後,系統查詢及產生報表的時間從原有的 25 分鐘縮短到 12 分鐘。