¿Qué quieres aprender?

Big data Developer con Cloudera apache Hadoop (175h)

Big data Developer con Cloudera apache Hadoop (175h)

PUE

Curso subvencionado online


Gratis

Duración : 3 Meses

¿Quieres hablar con un asesor sobre este curso?

Objetivos

A la finalización de la formación, el participante adquirirá los siguientes conocimientos: Cómo se ajusta el ecosistema de Apache Hadoop con el ciclo de vida del procesamiento de datos. Cómo se distribuyen, almacenan y procesan los datos en un Clúster de Hadoop. Escribir, configurar y desplegar aplicaciones Apache Spark en un Clúster de Hadoop. Utilizar la Spark shell y aplicaciones Spark para explorar, procesar y analizar datos distribuidos. Realizar consultas de datos con Spark SQL, Dataframes y Datasets. Uso de Spark Streaming para procesar datos en tiempo real.

A quién va dirigido

Este curso está diseñado para desarrolladores e ingenieros que tienen experiencia en programación, pero no se requieren conocimientos previos de Hadoop y / o Spark. Los ejemplos y ejercicios se presentan en Python y Scala, por ello se requiere el conocimiento de uno de estos lenguajes de programación. También es necesario tener conocimientos básicos de Linux y conocimientos de SQL serán de utilidad.

Requisitos

Una vez hayas realizado la preinscripción al curso y para que podamos comprobar que cumples los requisitos de la convocatoria, tendrás que facilitarnos por correo electrónico la siguiente documentación: Currículum actualizado. Fotocopia del DNI. Cabecera de la última nómina o recibo de autónomos e informe de actividades económicas-IAE -para trabajadores en activo-. Fotocopia de la demanda de empleo DARDE/DARDO actualizada -para trabajadores en situación de desempleo-. Una vez validada tu candidatura al curso, se te convocará a una prueba de nivel.

Temario completo de este curso

Módulo 1: Introducción a SQL

  • Introducción

  • Base de datos básica

  • Estructura de base de datos

  • El uso de SQL

  • Creación de una base de datos

  • Las consultas básicas

  • Mantenimiento de la Base de datos

  • Copia de tablas y modificaciones de columnas

  • Índices y restricciones

  • Eliminar o modificar filas de la tabla de datos

  • Funciones: uso y tipos

  • Funciones específicas

  • Joins

  • Exportación de datos, consultas y utilidades

  • Importación de datos y de archivos de datos

  • Importación con sentencias y utilidades

  • Subconsultas generales y básicas

  • Subconsulta no correlacionada y correlacionada

  • Tipos de subconsultas

  • Modificación de la tabla con subconsultas

  • Motores de almacenamiento

  • Creación de Vistas

  • Transacciones

  • Recuperación de Metadatos

  • Conclusiones

Módulo 2: Introducción a Linux

  • Evolución de Linux y de los sistemas operativos más populares

  • Principales aplicaciones de código abierto

  • Entender el software de código abierto y la política de licencias

  • Habilidades ICT y el trabajo con Linux

  • Aspectos básicos de la línea de comandos

  • Utilizar la línea de comandos para obtener ayuda

  • Utilizar directorios y listar los archivos

  • Crear, mover y eliminar archivos

  • Guardar archivos en la línea de comandos

  • Buscar y extraer datos de archivos

  • Convertir los comandos en scripts

  • Seleccionar un sistema operativo

  • Entender el hardware del ordenador

  • Saber dónde se guardan los datos

  • Conectar nuestro ordenador a una red

  • Seguridad básica e identificación de los tipos de usuarios

  • Creación de usuarios y grupos

  • Administración de la propiedad y los permisos de los archivos

  • Directorios y archivos especiales

Módulo 3: Introducción a la programación orientada a objetos en Java

  • ¿Cómo es un programa Java?

  • Crear una clase principal en Java

  • Tipos de datos en Java

  • Uso de arrays y matrices

  • Uso de objetos y clases

  • Manipular y formatear los datos en su programa

  • Uso de métodos

  • Uso de encapsulación

  • Condicionales o estructuras de decisión

  • Bucles o estructuras de iteración

  • Uso de herencia

  • Uso de interfaces

  • Gestión de excepciones

Módulo 4: Programación Python

  • Introducción

  • Introducción a Python

  • Variables

  • Colecciones

  • Control de flujo

  • Estructura del programa

  • Trabajar con librerías

  • Conclusión

Módulo 5: Programación Scala

  • Introducción

  • Vista general

  • Básicos de Scala

  • Trabajar con tipos de datos

  • Agrupación de datos

  • Control de flujo en Scala

  • Uso y creación de librerías

  • Conclusión

Módulo 6: Cloudera Desarrollador Spark & Hadoop.

  • Introducción

  • Introducción a Apache Hadoop y el ecosistema Hadoop

  • Archivos de almacenamiento de Apache Hadoop

  • Proceso de datos en un clúster de Apache Hadoop

  • Fundamentos de Apache Spark

  • Trabajar con Dataframes y Schemas

  • Análisis de datos con consultas de DataFrame

  • RDDs: Sumario

  • Transformación de datos con RDDs

  • Agregación de datos con Pair RDDs

  • Consulta y vistas de tablas con Spark SQL

  • Creación, configuración y ejecución de aplicaciones Spark

  • Procesamiento distribuido Spark

  • Persistencia de datos distribuidos

  • Patrones comunes al procesar datos con Spark

  • Introducción a las Estructuras Streaming

  • Estructuras Streaming con Apache Kafka

  • Agregación y unión de Streaming Dataframes

  • Conclusión

  • Procesamiento de mensajes con Apache Kafka

Ver más