#100DíasdeAWS | Día 39 | Amazon EMR

#100DíasdeAWS | Día 39 | Amazon EMR

¡Buenos días a todos!

Mientras lees esto, podría ser un viernes, así que si lo es, ¡Feliz viernes!

Antes de que llegue el fin de semana, me gustaría explicarles a todos sobre otro servicio de AWS como parte de la serie #100DaysOfAWS.

Este servicio se puede resumir en dos palabras: Big Data. ¡Esto es Amazon EMR!

Entonces, ¿qué es Big Data?

Big data se puede describir como una combinación de datos estructurados, semiestructurados y no estructurados. Las organizaciones pueden recopilar estos datos y luego extraerlos, ya que pueden ser una mina de oro de información útil para el crecimiento y desarrollo de su empresa. También se usa ampliamente en proyectos de aprendizaje automático, modelado predictivo y otras aplicaciones de análisis avanzado, por lo que, como puede ver, puede desempeñar un papel importante en el mundo empresarial/TI en el futuro.

¿Por qué es importante?

Una frase que puede escuchar cuando habla de Big Data es "Análisis de grandes datos". Esta frase resume por qué la gente se preocupa por Big Data y lo que puede proporcionar a las empresas y organizaciones del futuro.

Big Data Analytics es el tipo de información que puede obtener y derivar del análisis de cantidades masivas de datos, lo que puede brindarle información valiosa sobre cómo pivotar y cambiar sus procesos para hacer el mejor uso de sus recursos.

Sin embargo, el problema con 'Big Data' es que es, ¡bueno, GRANDE!

Las escalas de petabytes de datos no son una broma. ¡La gran cantidad de procesamiento de big data que se realiza todos los días es alucinante!

Esta es la razón por la que AWS ha implementado una solución que no solo funciona en escalas de análisis de petabyte, sino que puede ser hasta un 50 % más económica que las soluciones locales tradicionales, ¡y además procesa datos hasta 3 veces más rápido! Veamos qué hace que EMR sea tan especial.

Amazon EMR explicado

Amazon EMR, también conocido como Elastic Map Reduce, es una de las formas más convenientes de procesar grandes cantidades de datos y es una versión administrada de herramientas populares de código abierto como Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi y Presto.

Al igual que con otros servicios administrados por AWS, toma el "trabajo pesado no diferenciado", como capacidad de aprovisionamiento y ajuste de clústeres, administración de parches, etc., y le permite ejecutar análisis a escala de petabytes a menos de la mitad del costo de las soluciones locales tradicionales y más de 3 veces más rápido que Apache Spark estándar.

Puede ejecutar sus cargas de trabajo de EMR en instancias EC2, clústeres de EKS o en las instalaciones utilizando EMR en AWS Outposts. Exploraremos más estas opciones a medida que avancemos con la publicación de hoy.

¿Por qué utilizar EMR?

Es posible que aún no esté convencido del poder de EMR. ¡Déjame tratar de convencerte!

En primer lugar, es muy fácil de usar, como ocurre con otros servicios administrados por AWS.

¡Puedes usar EMR Studio (más información aquí)! Es un IDE diseñado para escribir y depurar fácilmente su ciencia de datos en los siguientes idiomas:

  • R

  • Python

  • Scala

  • PySpark

Proporciona notebooks Jupyter totalmente administrados y permite una colaboración fluida con los miembros del equipo que utilizan GitHub/BitBucket.

En segundo lugar, como dije antes, en comparación con sus primos no administrados / locales, es realmente barato y también muy predecible.

Paga una tarifa por instancia, por segundo, con el cargo mínimo de 1 minuto.

¿Pensando en cómo hacerlo aún más barato?

Las mismas medidas de ahorro de costos de EC2 aún se aplican aquí, por lo que puede usar instancias puntuales, instancias reservadas y planes de ahorro para ahorrar entre un 50% y un 80%.

En tercer lugar, otra razón por la que los servicios administrados por AWS son extremadamente funcionales es que son elásticos por naturaleza. EMR no es diferente!

En la tierra anterior a la nube, la computación y el almacenamiento eran inseparables. Ahora se pueden escalar fácilmente de forma independiente, lo que le brinda la posibilidad de aprovisionar una, cientos o miles de instancias informáticas o contenedores para procesar datos a cualquier escala. La cantidad de instancias se puede aumentar o disminuir automáticamente con Auto Scaling y puede pagar solo por lo que usa exactamente.

Opciones de implementación

Hay tres formas principales en las que puede implementar Amazon EMR - según su caso de uso y cómo se ejecutan actualmente sus aplicaciones.

Son los siguientes:

Despliegue en EC2

Esta es la forma clásica de implementar EMR y ha sido la forma principal de lanzar un clúster de EMR desde el inicio de EMR. Como está alojado en EC2, puede aprovechar todas las diferentes opciones de facturación para diferentes instancias de EC2, es decir, instancias bajo demanda, al contado y reservadas. Como también es un servicio administrado, AWS le quita la administración de estos servidores, lo que le permite tener más tiempo para concentrarse en el caso comercial.

Implementación en EKS

EKS admite de forma nativa la administración y ejecución de Apache Spark Jobs a través del servicio, sin necesidad de aprovisionar clústeres de EMR.

EKS significa Elastic Kubernetes Service y le permite ejecutar aplicaciones de Kubernetes de manera flexible y eficiente, ya sea en la nube o en un entorno local.

Con EMR en EKS, puede compartir recursos informáticos y de memoria en todas sus aplicaciones y usar un único conjunto de herramientas de Kubernetes para monitorear y administrar su infraestructura de manera centralizada. ¡Que cool!

Despliegue en Outpost

Si no conoce AWS Outposts, es básicamente un mecanismo para llevar AWS a su centro de datos, lo que le permite ejecutar la infraestructura y los servicios de AWS en las instalaciones. Si quieres saber más que ese breve resumen, echa un vistazo a este enlace.

Con EMR en Outposts, puede ofrecer de manera consistente un poderoso clúster de Big Data en su propio entorno local, lo que le permite aprovechar el poder de EMR, sin tener que reubicar todas sus infraestructuras existentes en la nube.

Casos de uso

A pesar de todo lo que hemos dicho aquí, ¿por qué exactamente usaría EMR? Aquí hay algunas ideas rápidas sobre cómo puede implementar exactamente EMR como parte de su infraestructura local o de AWS:

  • Aplicaciones de la genómica.

  • Información inmensa sobre la transmisión en tiempo real.

  • Resultados analíticos interactivos y potentes.

  • Se pueden analizar grandes cantidades de datos de Clickstream.

  • Aplicaciones de aprendizaje automático.

  • Grandes trabajos de ETL.

Precios

Como la mayoría de los servicios de AWS, los precios de EMR son simples, predecibles y económicos.

Paga una tarifa por segundo por cada segundo que utiliza EMR, con un tiempo mínimo de facturación de un minuto.

El precio depende de cómo ejecute exactamente sus aplicaciones y de si está alojando EMR en las instalaciones o como parte de EKS/EC2, pero puede tener una buena idea de cuánto le costará consultando la página de facturación de AWS. aquí, y utilizando la calculadora de costo total de propiedad de AWS, ¡encuentre más aquí!

Un video para firmar

Este video bellamente ilustrado de AWS le brinda una descripción general fantástica de todo lo relacionado con EMR.

¡Gracias por leer chicos, y que tengan una semana maravillosa!

La próxima semana estarémos cubriendo….

API Gateway!

Gracias

Post Original Jack Lavelle