HareDB系统应用

高科技产业在制程上的创新往往需要大量的数据分析来辅助,随着设备信息化提升与产量的增加, 撷取到的数据量也日渐增加,往往造成现有数据库系统的负担, 例如遇到大量数据比对、机器记录文件分析、隐藏讯息探索等应用时, 甚至只能采用客制化的档案处理来进行分析。 这些数据不仅可以做为制程调整的分析依据,也是产品问题追朔与改善的重要凭证, HareDB 团队除了研发混合式数据分析解决方案,整合了 Hadoop / HBase 分布式平台及企业原有的关系数据库, 也在这一年来协助了数家高科技产业相关应用的导入, 例如半导体制程设备 Recipe 参数比对效能的提升、大量设备记录文件 log 的查询、产品问题追朔的历史数据分析等, 这些例子在原有的信息架构下耗费过多的时间与技术资源,透过 HareDB 的大量储存及计算能力, 大幅缩减这些问题带来的成本,也让企业在资料分析架构的规划上,有更完整及简便的方式。

(一)实际案例 – 半导体制造 Recipe 参数比对
半导体制造需要下达制造 Recipe 参数,系统需要进行 Recipe 版本的判定, 亦即进行大量的数据读取与比对,这些参数记录在数据库的某一 Table 之中, 大小约为 10,000,000 Records,事实上这样的数量并不大,但是比对次数须超过 1,000,000 次, 包括 500 次以上的查询且每次查询 2000 records,约需时 20 分钟。 我们运用 HareDB 的 Data Model Manager 及 RDB Converter 将此数据转移到 HBase 之中, 并透过 MapReduce 运算,将比对所需的时间缩短到 3 分钟之内。 此案例的架构是整合 RDB 与 HareDB 的 Hybrid 架构,如下图所示:

在此架构中,原有 Recipe Management 相关功能是保留与 RDB 链接,并不用重新开发, 我们指将造成瓶颈的数据及计算移转到 HBase 之中,以提升效率且维持原有系统的运作。

(二)实际案例 – 海量 ASCII 档案查询
此案例的客户每天产生 1000 个以上 100M 的文本文件,原本储存于文件系统, 并透过客制化的 Loader 及 Parser 进行查询与解析以制作报表, 整个从需求分析到功能开发的时程太久。我们汇整这些 ASCII 档案并存入 HareDB 解决方案之中, 建置完成后,系统查询及产生报表的时间从原有的 25 分钟缩短到 12 分钟。