HareDB系统应用
高科技产业在制程上的创新往往需要大量的数据分析来辅助,随着设备信息化提升与产量的增加,
撷取到的数据量也日渐增加,往往造成现有数据库系统的负担,
例如遇到大量数据比对、机器记录文件分析、隐藏讯息探索等应用时,
甚至只能采用客制化的档案处理来进行分析。
这些数据不仅可以做为制程调整的分析依据,也是产品问题追朔与改善的重要凭证,
HareDB 团队除了研发混合式数据分析解决方案,整合了 Hadoop / HBase 分布式平台及企业原有的关系数据库,
也在这一年来协助了数家高科技产业相关应用的导入,
例如半导体制程设备 Recipe 参数比对效能的提升、大量设备记录文件 log 的查询、产品问题追朔的历史数据分析等,
这些例子在原有的信息架构下耗费过多的时间与技术资源,透过 HareDB 的大量储存及计算能力,
大幅缩减这些问题带来的成本,也让企业在资料分析架构的规划上,有更完整及简便的方式。
(一)实际案例 – 半导体制造 Recipe 参数比对
半导体制造需要下达制造 Recipe 参数,系统需要进行 Recipe 版本的判定,
亦即进行大量的数据读取与比对,这些参数记录在数据库的某一 Table 之中,
大小约为 10,000,000 Records,事实上这样的数量并不大,但是比对次数须超过 1,000,000 次,
包括 500 次以上的查询且每次查询 2000 records,约需时 20 分钟。
我们运用 HareDB 的 Data Model Manager 及 RDB Converter 将此数据转移到 HBase 之中,
并透过 MapReduce 运算,将比对所需的时间缩短到 3 分钟之内。
此案例的架构是整合 RDB 与 HareDB 的 Hybrid 架构,如下图所示:
在此架构中,原有 Recipe Management 相关功能是保留与 RDB 链接,并不用重新开发,
我们指将造成瓶颈的数据及计算移转到 HBase 之中,以提升效率且维持原有系统的运作。
(二)实际案例 – 海量 ASCII 档案查询
此案例的客户每天产生 1000 个以上 100M 的文本文件,原本储存于文件系统,
并透过客制化的 Loader 及 Parser 进行查询与解析以制作报表,
整个从需求分析到功能开发的时程太久。我们汇整这些 ASCII 档案并存入 HareDB 解决方案之中,
建置完成后,系统查询及产生报表的时间从原有的 25 分钟缩短到 12 分钟。

|