Aplicación de HareDB
La inovación de proceso de fabricación en la industria de alta tecnología require grandes cantidades de análisis de datos. Con la creciente instalación informática, la frecuencia de la captura de datos está aumentando cada vez más rápido. En consecuencia, los datos acumulados se convierten en sobrecargas para las bases de datos actuales, por ejemplo, cuando se encuentra la situación en que se tiene que comparar grandes cantidades de datos, analizar los datos registrados o consultar los datos ocultados. Si podemos almacenar todos estos archivos, estos datos pueden servir como referentes para la ajuste de proceso de fabricación. Además, cuando los productos tienen problemas, es más fácil encontrarlos y solucionarlos a través de los datos historiales. El equipo de HareDB se dedica a la investigación y el desarrollo de las soluciones para los análisis de datos híbridos. El equipo también trabaja en integrar las bases de archivos distribuidas de Hadoop/HBase y las bases de datos relacionales. Recientemente, el equipo ha ofrecido asistencia a varias empresas de alta tecnología para la aplicación de la solución. Por ejemplo, cuando uno tiene que comparar los parámetros de la receta en la máquina de fabricación de los semiconductores, consultar grandes cantidades de log o analizar datos historiales para encontrar dónde están los problemas de productos, etc.
1. Caso Práctico - Comparación entre los parámetros de la receta en las máquinas de procesamientos de semiconductores
A lo largo de la fabricación de semiconductores, uno tiene que decidir con que parámetros se usan y el sistema va a determinar cúal es la mejor versión para la receta, es decir, el sistema va leer y comparar los datos. Los datos de parámetros usados se registrarán en algún Table de base. La cantidad de los datos normalmente es 10,000,000 records y esta no es una cantidad grande. Sin embargo, el sistema va a comparar los datos más de 1,000,000 veces, incluso más de 500 veces de consultas y cada vez el sistema consulta 2000 records. Esto resulta que el proceso va tomar aproximadamente 20 minutos. No obstante, utilizamos Data Model Manager y convertidor RDB de HareDB para transferir estos datos a HBase. A través de la calculación de MapReduce, el tiempo que cuesta en la comparación de datos va reducirse a menos de 3 minutos. En este caso, la base se convertirá en una arquitectura híbrida que integra RDB y HareDB. Su estructura se muestra como la siguiente figura:
En esta arquitectura, se conservan las funciones originales relacionadas con la gestión de recetas y estas funciones siguen estando vinculadas con RDB. Por lo tanto , no es necesario que desarrollemos la nueva arquitectura. Sólo transferimos los datos y las calculaciónes a HBase. Esto puede mejorar la eficiencia y mantener el funcionamiento del sistema original.
2. Caso Práctico – Consulta de archivos masivos de ASCII
En este caso, los clientes producen archivos de texto de 100M. Además, ellos producen más que 1000 archivos a diario. Estos archivos originalmente se almacenan en la base de datos. Leugo, los Loader y Pasrser personalizados van a consultar y analizar los datos para hacer un reporte. Este proceso va costar 20 minutos. Por otro lado, lo que hace HareDB es archivar los datos y almacenarlos en la solución de HareDB. Después de la transferencia, el tiempo desde consultar los datos hasta completar el reporte va a reducirse a 12 minutos.
|