Desarrollador Big Data Spark - Cloudera

PUE Impartición

Curso subvencionado para desempleados en Barcelona y 1 sede más

El curso ofrece los conceptos clave y la experiencia que los participantes necesitan para introducir y procesar datos en un clúster Hadoop utilizando las herramientas y técnicas más actuales tales como Spark (incluyendo Spark Streaming y Spark SQL), Flume, Kafka y Sqoop. Este curso proporciona la mejor preparación para los desafíos del mundo real que enfrentan los desarrolladores de Hadoop. Con Spark, los desarrolladores pueden escribir sofisticadas aplicaciones en paralelo para tomar mejores decisiones, más rápidas y acciones interactivas, aplicadas a una amplia variedad de casos de uso, arquitecturas e industrias. Asimismo, se adquirirán conocimientos de SQL, Python y Scala, lenguajes necesarios para trabajar con el Framework de Spark. PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera. PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales. El curso se imparte en modalidad mixta, combinando sesiones presenciales (175h) con formación online (55h) para facilitar un aprendizaje flexible y adaptado a los ritmos y disponibilidad de cada alumno.

Duración

6 Semanas

Objetivos

Al finalizar la formación, el participante sabrá: Cómo distribuir, almacenar y procesar datos en un clúster Hadoop Cómo escribir, configurar e implementar aplicaciones Apache Spark en un clúster Hadoop Cómo utilizar el shell Spark para el análisis interactivo de datos Cómo procesar y consultar datos estructurados utilizando Spark SQL Cómo utilizar Spark Streaming para procesar un flujo de datos en vivo Cómo utilizar Flume y Kafka para ingerir datos para Spark Streaming

A quién va dirigido

El curso está especialmente ideado para desarrolladores e ingenieros con experiencia en programación. Los ejemplos y ejercicios se presentan en Python y Scala, por ello se requiere el conocimiento de uno de estos lenguajes de programación. También es necesario tener conocimientos básicos de Linux y conocimientos de SQL serán de utilidad. No se requiere conocimiento previo de Hadoop.

Sedes

Barcelona
2019-01-01
Madrid
2019-01-01

Temario completo de este curso

MÓDULO 1: INTRODUCCIÓN A SQL

  • Introducción
  • Base de datos básica
  • Estructura de base de datos
  • El uso de SQL
  • Creación de una base de datos
  • Las consultas básicas
  • Mantenimiento de la Base de datos
  • Copia de tablas y modificaciones de columnas
  • Índices y restricciones
  • Eliminar o modificar filas de la tabla de datos
  • Funciones: uso y tipos
  • Funciones específicas
  • Joins
  • Exportación de datos, consultas y utilidades
  • Importación de datos y de archivos de datos
  • Importación con sentencias y utilidades
  • Subconsultas generales y básicas
  • Subconsulta no correlacionada y correlacionada
  • Tipos de subconsultas
  • Modificación de la tabla con subconsultas
  • Motores de almacenamiento
  • Creación de Vistas
  • Transacciones
  • Recuperación de Metadatos
  • Conclusiones

MÓDULO 2: PROGRAMACIÓN PYTHON

  • Introducción
  • Introducción to Python
  • Variables en Python
  • Colecciones en Python
  • Flujo de control en Python
  • Estructura de Programación en Python
  • Trabajo con librerías en Python
  • Conclusión

MÓDULO 3: PROGRAMACIÓN SCALA

  • Introducción
  • Scala Overview
  • Introducción a Scala
  • Procesamiento de Datos
  • La motivación de Scala
  • Básicos Scala
  • Trabajo con tipos de datos
  • Agrupación de datos
  • Flujo de control en Scala
  • Uso y creación de librerías
  • Conclusión

MÓDULO 4: CLOUDERA DESARROLLADOR PARA SPARK & HADOOP

  • Introducción
  • Introducción a Apache Hadoop y el ecosistema Hadoop
  • Archivos de almacenamiento de Apache Hadoop
  • Proceso de datos en un cluster de Apache Hadoop
  • Relación de datos importados con Apache Sqoop
  • Fundamentos de Apache Spark
  • Trabajar con RDDs
  • Agregación de datos en pares RDDs
  • Escritura y ejecución de aplicaciones de Apache Spark
  • Configuración de aplicaciones de Apache Spark
  • Procesos pararlelos en Apache Spark
  • Persistencia de RDD
  • Patrones comunes de proceso de datos en Apache Spark
  • DataFrames y Spark SQL
  • Procesamiento de mensajes con Apache Kafka
  • Captura de datos con Apache Flume
  • Integración de Apache Flume y Apache Kafka
  • Apache Spark Streaming: Introducción a DStreams
  • Apache Spark Streaming: Procesado de múltiples Batches
  • Apache Spark Streaming: Data Sources
  • Conclusión

MÓDULO 5: PRÁCTICAS NO LABORALES (superada satisfactoriamente la formación)

Ver más

Más cursos relacionados de Programación

formate.es

Programación de aplicaciones iphone

formate.es - Curso online
. - Ciclos de ejecución (Run Loop). - Ejecución en background y multitarea. - Gestión de datos - Persistence. - Sqlite y Core Data. - Core Location. - Mapas. 9

Gratis
Escuela Superior de Formación

Desarrollo con Visual Studio

Escuela Superior de Formación - Curso subvencionado para desempleados en Barcelona y 1 sede más
Desarrollo de Soluciones Data Access con Microsoft Visual Studio 2010 · Tecnologías de acceso a datos · Escenarios de acceso a datos · Introducción

Gratis
BT – Cursos Gratuitos

PROGRAMACION HTML 5

BT – Cursos Gratuitos - Curso subvencionado para trabajadores online
, class y contenteditable. 2. Atributos globales - data, dir y draggable. 3. Atributos globales - hidden, id y lang. 4. Atributos globales - spellcheck

Gratis
Prospera

Programación con HTML 5

Prospera - Curso subvencionado online
globales - data, dir y draggable. 4.3. Atributos globales - hidden, id y lang. 4.4. Atributos globales - spellcheck, style y tabindex. 4.5. Atributos

Gratis
Euroconsulting Plataforma de Formacion

Programación de aplicaciones Iphone

Euroconsulting Plataforma de Formacion - Curso subvencionado para trabajadores online
). Ejecución en background y multitarea. Gestión de datos Persistence. SQLite y Core Data. Core Location. Mapas. 9. Usabilidad e interacción de usuarios Alertas

Gratis
Ver más