Herramientas de Big Data
Como el Big Data es algo que no deja de crecer, las que se usan para gestionarlo evolucionan con el y se perfeccionan permanentemente. se emplean las herramientas como Hadoop, Pig, Hive, Cassandra, Spark, Kafka, etc., dependiendo de los requisitos de cada organización. Hay muchísimas soluciones, y buena parte de ellas son de código abierto. También hay una fundación Apache Software Foundation (ASF)— que apoya muchos de estos proyectos sobre Big Data.
Como esas herramientas son muy importantes para el Big Data, vamos a explicar un poco en que consisten. Quizá una de las mas afianzadas para analizar Big Data sea Apache Hadoop un marco de trabajo de código abierto para almacenar y procesar grandes conjuntos de datos. Otra que cada vez esta recibiendo mas atención es Apache Spark. Una de las ventajas de Spark es que puede almacenar gran parte de los datos de procesamiento en la memoria y en el disco, así que pude ser mucho mas rápido. Spark puede funcionar con el sistema de archivos distribuidos de Hadoop (HDFS), Apache Cassandra u OpenStack Swift y muchas otras soluciones de almacenamiento de datos. Pero una de sus mejores funciones es que Spark puede funcionar en una sola maquina local y eso facilita enormemente el trabajo.
Otra solución es Apache Kafka que permite a los usuarios publicar y suscribirse a fuentes de datos en tiempo real. La principal tarea de Kafka es trasladar la fiabilidad de otros sistemas de mensajería a los datos es streaming.
Estas son otras grandes herramientas de Big Data:
- Apache Lucene: Puede usarse para cualquier motor de recomendación porque utiliza bibliotecas de software de indexación y búsqueda de textos completos.
- Apache Zeppelin: Es un nuevo proyecto que permite el análisis de datos interactivos con SQL y otros lenguajes de programación.
- Elasticssearch: Es mas bien un motor de búsqueda empresarial. Lo mejor de esta solución es que puede aportar conocimientos a partir de datos estructurales y no estructurados.
- TensorFlowers: Una biblioteca de software en auge porque se utiliza para el aprendizaje automático.

Comentarios
Publicar un comentario