Diferenzas

Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.

Enlazar a esta vista de comparación

Both sides previous revision Previous revision
Next revision
Previous revision
inv:desenvolvemento:amazon_elastic_mapreduce [2015/11/12 19:07]
ismael.rodriguez [Java 8 en EMR]
inv:desenvolvemento:amazon_elastic_mapreduce [2018/10/03 09:40] (actual)
diego.cougil [Configuración del cluster]
Liña 1: Liña 1:
 ====== Amazon Elastic MapReduce ====== ====== Amazon Elastic MapReduce ======
-Amazon Elastic MapReduce ([[http://​aws.amazon.com/​elasticmapreduce/​|Amazon EMR]]) es un servicio web para la configuración y depliegue ​de un cluster basado en instancias de máquinas en el servicio Amazon Elastic Compute Cloud ([[http://​aws.amazon.com/​ec2/​|Amazon EC2]]) y que es gestionado mediante [[https://​hadoop.apache.org/​|Hadoop]]. También se puede ejecutar en Amazon EMR otros marcos de trabajo ​distribuídos ​como [[https://​spark.apache.org/​|Spark]],​ e interactuar con los datos en otros almacenes de datos como [[http://​aws.amazon.com/​s3/​|Amazon S3]].+Amazon Elastic MapReduce ([[http://​aws.amazon.com/​elasticmapreduce/​|Amazon EMR]]) es un servicio web para la configuración y despliegue ​de un cluster basado en instancias de máquinas en el servicio Amazon Elastic Compute Cloud ([[http://​aws.amazon.com/​ec2/​|Amazon EC2]]) y que es gestionado mediante [[https://​hadoop.apache.org/​|Hadoop]]. También se puede ejecutar en Amazon EMR otros marcos de trabajo ​distribuidos ​como [[https://​spark.apache.org/​|Spark]],​ e interactuar con los datos en otros almacenes de datos como [[http://​aws.amazon.com/​s3/​|Amazon S3]].
  
 ===== Creación de un cluster con EMR ===== ===== Creación de un cluster con EMR =====
 Un cluster EMR suele tener un ciclo de vida totalmente automatizado y que se establece en el momento de su creación. El proceso general sería: Un cluster EMR suele tener un ciclo de vida totalmente automatizado y que se establece en el momento de su creación. El proceso general sería:
   * Lanzamiento de las instancias EC2 de las que se compone el cluster   * Lanzamiento de las instancias EC2 de las que se compone el cluster
-  * Ejecución de los scripts de instalación,​ tanto automáticos de amazon (como las imagenes ​preconfiguradas [[http://​aws.amazon.com/​es/​amazon-linux-ami/​|AMI]]) como los añadidos por el usuario en las acciones de inicialización (Bootstrap actions).+  * Ejecución de los scripts de instalación,​ tanto automáticos de amazon (como las imágenes ​preconfiguradas [[http://​aws.amazon.com/​es/​amazon-linux-ami/​|AMI]]) como los añadidos por el usuario en las acciones de inicialización (Bootstrap actions).
   * Trabajos a realizar (Steps) normalmente consistentes en carga de datos de entrada, procesamiento de los mismos, y almacenado de los resultados.   * Trabajos a realizar (Steps) normalmente consistentes en carga de datos de entrada, procesamiento de los mismos, y almacenado de los resultados.
   * Apagado automático del cluster una vez se han terminado todos los steps.   * Apagado automático del cluster una vez se han terminado todos los steps.
  
-En las siguientes subsecciones se explican todos lo básico para poder lanzar un cluster EMR y analizar los resultados de las ejecuciones.+En las siguientes subsecciones se explica todo lo básico para poder lanzar un cluster EMR y analizar los resultados de las ejecuciones.
  
 ==== Almacenamiento con S3 ==== ==== Almacenamiento con S3 ====
Liña 36: Liña 36:
 </​code>​ </​code>​
  
-Una vez configurado el software, se continua ​con la configuración del hardware. La configuración más típica se compone por un nodo ''​Master''​ donde se lanzarán los trabajos y 1 o más instancias ''​Core''​ que harán de workers dentro del cluster hadoop (para realizar, por ejemplo, las tareas de mapper). Dependiendo del tipo de necesidad, amazon pone a disposición varios tipos de [[http://​aws.amazon.com/​ec2/​instance-types/#​instance-details|instancias EC2]].+Una vez configurado el software, se continúa ​con la configuración del hardware. La configuración más típica se compone por un nodo ''​Master''​ donde se lanzarán los trabajos y 1 o más instancias ''​Core''​ que harán de workers dentro del cluster hadoop (para realizar, por ejemplo, las tareas de mapper). Dependiendo del tipo de necesidad, amazon pone a disposición varios tipos de [[http://​aws.amazon.com/​ec2/​instance-types/#​instance-details|instancias EC2]].
 {{ :​inv:​desenvolvemento:​emr_hw.png?​nolink&​700 |}} {{ :​inv:​desenvolvemento:​emr_hw.png?​nolink&​700 |}}
  
  • inv/desenvolvemento/amazon_elastic_mapreduce.1447351639.txt.gz
  • Última modificación: 2015/11/12 19:07
  • por ismael.rodriguez