INFRAESTRUCTURA BIG DATA

Compártelo

La infraestructura en Big Data es uno de los aspectos más importantes a tener en cuenta a la hora de querer implementar nuestros proyectos, tener definida una infraestructura estable que sea capaz de suplir todas las necesidades y a su vez permita crecer conforme sea necesario y avance el proyecto es primordial, ya que de esto dependerá nuestra capacidad futura de análisis y acción de los sistemas que soportará.

1. Big Data es más que Hadoop

Actualmente se encuentra directamente relacionado Hadoop con el mundo Big Data, pero hay que tener presente que no siempre lo necesitamos y en efecto es necesario realizar una análisis de nuestras necesidades con antelación. Hadoop es un sistema de archivos diseñado para distribuir datos entre cientos o miles de nodos de procesamiento y entre otras cosas nos permite el tratamiento de datos no estructurado pero No es una base de datos, ésto debe estar sumamente claro.

2. Hive e Impala llevan las bases de datos relacionales a Hadoop

Si decidiste implementar Hadoop, es posible que algunos de tus datos sean parte estructurados. Si quieres darle un poco de orden a tu plataforma Hadoop entonces Hive es lo que necesitas. Hive es una herramienta la cual te permite realizar consultas muy parecidas al SQL, facilita la creación, consulta y administración de grandes volúmenes de datos almacenados en Hadoop.

3. Spark es procesamiento en Big Data

Hasta ahora, hemos estado hablando de almacenar y organizar datos. Pero ¿qué pasa cuando quieres hacer algo con los datos? Aquí es cuando se necesita un motor analítico y de procesamiento como Spark. Spark es otro proyecto de Apache, y se encuentra en un montón de productos de código abierto y comercial que llevará los datos a otro nivel, combinando datos de tu DW con almacenamiento distribuido, bases de datos relacionales y muchos más.

4. Puedes hacer SQL en Big Data

Mucha gente sabe cómo construir bases de datos SQL y escribir consultas SQL. Esa experiencia no tiene que perderse cuando el campo de juego es Big Data. Presto es un motor de consulta SQL de código abierto que permite a los científicos de datos utilizar consultas SQL para interrogar bases de datos que viven en todo, desde Hive hasta sistemas de gestión de bases de datos comerciales.

5. Almacenamiento Online

Hay algunas tareas dentro en Big Data que implican el cambio rápido de datos. A veces, se trata de datos que se agregan a una base de datos regular y a veces son datos que se cambian a través del análisis. En cualquier caso, si los datos se escriben con tanta frecuencia como se están leyendo, entonces es necesario disponer de los datos localmente yonline. Si es posible, también podrías considerar el almacenamiento en estado sólido, porque eso acelerará considerablemente las cosas.

6. Almacenamiento Cloud

Cuando el análisis se lleva a cabo en bases de datos muy grandes y agregadas para las que están construyendo grandes rutinas orientadas por lotes, la nube puede ser perfecta. Ésta nos permite fácilmente agregar y transferir los datos a la nube, ejecutar análisis y a continuación destruir la instancia. Es exactamente el tipo de respuesta a demanda elástica que la nube nos brinda.

Conoce nuestro Magister Data Science (ceupe.cl)

https://ceupe.cl/master-propios/magister-data-science-online.html