Big Data

Amazon EMR: qué es y cómo realiza el procesamiento de datos

Get started with Amazon EMR

A continuación se explica en qué consiste Amazon Elastic MapReduce.

Actualizado el 24 Ene 2024

Anteriormente conocida como Amazon Elastic MapReduce, la plataforma, dedicada a la fácil ejecución de cargas de trabajo de big data, permite procesar y analizar grandes volúmenes de datos. A continuación se explica en qué consiste y cómo realiza el procesamiento de datos.

Qué es Amazon EMR

Amazon EMR es una plataforma de clúster administrado que facilita la ejecución de marcos de big data, como Apache Hadoop y Apache Spark, AWS. Ejecuta Apache Spark, Hive, Presto, así como otras cargas de trabajo de big data.

Gracias a estos marcos e iniciativas de código abierto relacionadas, permite el procesamiento de datos para analizar y realizar cargas de trabajo de inteligencia empresarial. Amazon EMR también permite transformar y mover grandes volúmenes de datos hacia y desde otros almacenes de datos y bases de datos de AWS, incluidos Amazon Simple Storage Service (Amazon S3) y Amazon DynamoDB.

Cómo funciona funciona Amazon EMR

El clúster es el elemento central de Amazon EMR. Se trata de una colección de instancias de Amazon Elastic Compute Cloud (Amazon EC2), donde cada instancia del clúster representa un nodo. El nodo desempeña una función dentro del clúster, conocida como tipo de nodo.

Get started with Amazon EMR

Get started with Amazon EMR

Watch this video on YouTube

Amazon EMR también instala diferentes componentes de software en cada tipo de nodo, invirtiendo cada nodo con una función en una aplicación distribuida como Apache Hadoop. Los tipos de nodo en Amazon EMR son: nodo primario; nodo de tareas. Veámoslos en detalle.

El nodo primario administra el clúster mediante la ejecución de componentes de software. Su finalidad es coordinar la distribución de datos y tareas entre los demás nodos para su procesamiento. También realiza un seguimiento del estado de las actividades y supervisa la integridad del clúster. Cada clúster tiene un nodo primario, para crear un clúster de un solo nodo con solo el nodo primario.

En cambio, el nodo primario cuenta con componentes de software para la ejecución de tareas y el almacenamiento de datos en Hadoop Distributed File System (HDFS) en el clúster. Los clústeres multinodo tienen al menos un nodo primario. El nodo de tareas tiene componentes de software que sólo ejecutan tareas sin almacenamiento de datos en HDFS. Los nodos de tareas son opcionales.

Envío de trabajos al clúster

Al ejecutar un clúster en Amazon EMR, las opciones sobre cómo especificar el trabajo a realizar varían. Es necesario ofrecer la definición total y completa de la carga de trabajo en funciones específicas como pasos durante la creación de un clúster. Esto es para clústeres que procesan una cantidad determinada de datos y luego concluyen al final del procesamiento.

Un clúster de larga duración debe crearse, utilizando la consola de Amazon EMR, la API de Amazon EMR o la CLI de AWS para enviar pasos que contengan uno o varios procesos. Una vez creado un clúster, es posible conectarlo al nodo primario y a otros nodos mediante SSH y aprovechar las interfaces que ofrecen las aplicaciones instaladas, para realizar tareas y enviar consultas, mediante scripts o de forma interactiva.

Análisis de big data

Amazon EMR es un servicio administrado que puede ejecutar Apache Hadoop y Spark de forma rápida, económica y sencilla. El objetivo es procesar grandes cantidades de datos. Amazon EMR también es compatible con herramientas Hadoop potentes y probadas, como Presto, Hive, Pig, HBase, etc. En este proyecto, se puede desarrollar un clúster Hadoop totalmente funcional, listo para analizar datos de logs en cuestión de minutos.

Amazon EMR, procesamiento de datos, big data
Amazon EMR es una plataforma de clúster administrado que facilita la ejecución de marcos de big data, como Apache Hadoop y Apache Spark, AWS.

Basta con lanzar el clúster de Amazon EMR y utilizar el script HiveQL para procesar los datos de registro de muestra almacenados en un bucket de Amazon S3. HiveQL es un lenguaje de scripting similar a SQL para el almacenamiento y análisis de datos. A continuación, se puede utilizar una configuración similar para analizar los archivos de registro.

Procesamiento de flujos de datos

Amazon EMR facilita la realización y el funcionamiento de entornos y aplicaciones de big data. Se caracteriza por el aprovisionamiento simplificado, el escalado administrado y la reconfiguración de clústeres. En cambio, EMR Studio para el desarrollo colaborativo.

Permite la puesta en marcha de un clúster de EMR en cuestión de minutos, sin tener que asignar infraestructura ni establecer, configurar o realizar la optimización del clúster. Por lo tanto, permite a sus equipos centrarse en el desarrollo de aplicaciones de big data diferenciadas.

Permite escalar fácilmente los recursos, como la política de escalado gestionado de EMR, para satisfacer las necesidades del negocio. Permite que el clúster EMR gestione automáticamente los recursos informáticos para satisfacer las necesidades de uso y rendimiento. Permite optimizar la utilización del clúster, reduciendo los costos.

EMR Studio es un entorno de desarrollo integrado (IDE) que facilita el desarrollo, la visualización y la depuración de aplicaciones de ingeniería y ciencia de datos escritas en R, Python, Scala y PySpark para científicos e ingenieros de datos.

Amazon EMR, procesamiento de datos, big data
Amazon EMR es un servicio administrado que puede ejecutar Apache Hadoop y Spark de forma rápida, económica y sencilla.

Con alta disponibilidad con un solo clic, permite configurar la alta disponibilidad para aplicaciones multimaestro como YARN, HDFS, Apache Spark, Apache HBase y Apache Hive.

Al activar el soporte multimaestro, EMR configurará las aplicaciones para alta disponibilidad. En caso de errores, iniciará automáticamente el proceso de conmutación por error en un maestro para que la actividad del clúster no se interrumpa y los nodos maestros se coloquen en bastidores separados, lo que reduce el riesgo de errores simultáneos. La monitorización de hosts permite detectar errores y, cuando se detectan problemas, se asignan nuevos hosts y se añaden automáticamente al clúster.

Escalado administrado de EMR

El escalado administrado de EMR escala automáticamente el clúster para mejorar el rendimiento y ahorrar costos. Además, se pueden especificar límites de procesamiento mínimos y máximos para los clústeres. Amazon EMR los redimensionará automáticamente para conseguir el mejor rendimiento y utilización de los recursos. Además, el escalado muestrea continuamente parámetros clave relacionados con las cargas de trabajo que se ejecutan en los clústeres.

Reconfiguración de clústeres en ejecución

La reconfiguración de clústeres en ejecución permite cambiar la configuración de las aplicaciones que se ejecutan en los clústeres de EMR, incluidos Apache Hadoop, Apache Spark, Apache Hive y Hue, sin reiniciar el clúster. Permite cambiar las aplicaciones sin necesidad de detener o volver a crear el clúster. Amazon EMR también aplicará las nuevas configuraciones, reiniciando fácilmente la aplicación reconfigurada. La consola, el SDK o la interfaz de línea de comandos permiten aplicar las configuraciones.

Artículo publicado originalmente en 24 Jul 2023

Prohibida su reproducción total o parcial.

¿Qué te ha parecido este artículo?

¡Su opinión es importante para nosotros!

C
Mirella Castigli

Artículos relacionados

Artículo 1 de 3