Almacenamiento y procesamiento de grandes volúmenes de datos en una arquitectura Big Data: aplicaciones en la investigación e industria eléctrica

JAVIER ALBERTO PEREZ GARZA

El término Big Data es utilizado para definir datos que, por su complejidad, es inadecuado o imposible el uso de sistemas tradicionales para su almacenamiento, procesamiento y analisis. En particular, en Big Data los datos se caracterizan por aparecer en grandes volúmenes, ser generados con gran velocidad, requerir cortos tiempos de procesamiento, provenir de diversas fuentes y presentarse en una gran variedad de formatos. Los avances tecnológicos y la aparición de nuevos dispositivos capaces de generar datos, ha empezado a generar problemas Big Data en múltiples áreas en empresas, industrias y de investigación. La importancia de generar valor de los datos ha llevado a utilizar soluciones computacionales basadas en sistemas distribuidos que permiten escalar las arquitecturas de hardware de acuerdo con las necesidades del problema. En este trabajo, se introducen los fundamentos teóricos y metodológicos de una arquitectura Big Data basada en el ecosistema de Hadoop para el almacenamiento y procesamiento de grandes volúmenes de datos. Además, se presenta el desarrollo de dos soluciones Big Data en áreas donde el crecimiento en el volumen de datos está impulsando la búsqueda de métodos computacionalmente eficientes para el análisis de datos. La primera, en el área de investigación en genómica, utiliza una metodología escalable para procesar bases de datos de ADN de referencia y crear nuevas bases de datos de tamaño reducido mediante el uso de la información filogenética de las secuencias. La segunda, en la industria eléctrica, se utilizan datos de consumo eléctrico generados por medidores inteligentes, sociales y climatológicos para generar un pipeline de algoritmos de aprendizaje de máquina con el objetivo de crear modelos escalables para el pronóstico del consumo eléctrico de usuarios de la red eléctrica inteligente.

Tipo de documento: Tesis de maestría

Formato: Adobe PDF

Audiencia: Investigadores

Idioma: Español

Área de conocimiento: CIENCIAS SOCIALES

Campo disciplinar: SOCIOLOGÍA

Nivel de acceso: Acceso Abierto