¿Qué quieres aprender?

Máster de Big Data

Máster de Big Data

Asociación Española de Programadores Informáticos

Máster online


595
IVA exento

Duración : 2 Meses

En la era contemporánea, los expertos en diversas disciplinas toman decisiones estratégicas respaldadas por el análisis de datos. A medida que la tecnología avanza, se abren vastas oportunidades para la captura de datos, y es en este contexto que cobra vital importancia la capacidad de convertir esos datos en conocimientos accionables. En el ámbito de Big Data, donde la magnitud y complejidad de los datos desafían las metodologías tradicionales, es esencial contar con habilidades y herramientas especializadas.

En este curso de Big Data con Python y Scala, nos sumergimos en el universo de la gestión y análisis de grandes volúmenes de datos. La necesidad de interpretar, procesar y extraer perspicacia de conjuntos de datos masivos requiere una comprensión profunda de técnicas de modelaje y el dominio de tecnologías específicas. Este máster proporciona a los participantes la base sólida necesaria para tomar decisiones informadas y estratégicas mediante el enfoque «data-driven», capacitándonos para aprovechar al máximo el potencial de Python y Scala en el contexto del análisis de Big Data.

¿Cuales son los objetivos del curso?

Al completar el curso, nuestros alumnos tendrán la capacidad de:

Proporcionar una introducción a los conceptos de Big Data y el procesamiento de datos a gran escala.

Enseñar a los estudiantes a usar PySpark, Scala y Databricks para procesar datos a gran escala.

Familiarizar a los estudiantes con las técnicas de escalado para aplicaciones de Big Data.

¿Quieres hablar con un asesor sobre este curso?

Objetivos

¿Cuales son los objetivos del curso? Al completar el curso, nuestros alumnos tendrán la capacidad de: Proporcionar una introducción a los conceptos de Big Data y el procesamiento de datos a gran escala. Enseñar a los estudiantes a usar PySpark, Scala y Databricks para procesar datos a gran escala. Familiarizar a los estudiantes con las técnicas de escalado para aplicaciones de Big Data.

Requisitos

Para realizar este Máster son necesarios sólidos conocimientos de programación en Python.

Temario completo de este curso

MODULO I – INICIO DEL MASTER

· Introducción al curso.

· Introducción al Big Data.

· Apache Spark y su integración con Scala.

MODULO II – PLATAFORMA DATABRICKS

· Databricks Community Edition.

· Creación de una cuenta en Databricks Community Edition.

· Entorno de trabajo en Databricks.

· Creación de un clúster en Databricks.

· Creación de un notebook en Databricks.

· Importación de datos a Databricks.

MODULO III – INTRODUCCIÓN A LOS RDD EN SPARK UTILIZANDO SCALA

· Spark Sessión.

· ¿Qué es un RDD?

· Diferentes formas de crear un RDD en Scala.

· Ejercicios prácticos.

· Resolución de los ejercicios.

MODULO IV – TRANSFORMACIONES EN SPARK RDD CON SCALA

· Transformaciones en un RDD.

· Función map.

· Función flatMap.

· Función filter.

· Función coalesce.

· Función repartition.

· Función reduceByKey.

· Ejercicios prácticos.

· Resolución de los ejercicios.

MODULO V – ACCIONES EN SPARK RDD CON SCALA

· Acciones en un RDD.

· Función reduce.

· Función count.

· Función collect.

· Funciones take, max y saveAsTextFile.

· Ejercicios prácticos.

· Resolución de los ejercicios.

MODULO VI – CARACTERISTICAS AVANZADAS DE RDD EN SCALA

· Almacenamiento en caché.

· Particionado.

· Mezcla de datos (shuffling).

· Broadcast variable.

· Accumulators.

· Ejercicios prácticos.

· Resolución de los ejercicios.

MODULO VII – INTRODUCCIÓN A SPARK SQL CON SCALA

· Creación de un DataFrame a partir de un RDD en Scala.

· Creación de un DataFrame a partir de fuentes de datos en Scala.

· Trabajo con columnas.

· Funciones select y selectExpr.

· Funciones filter y where.

· Funciones distinct y dropDuplicates.

· Funciones withColumn y withColumnRenamed.

· Funciones drop, sample y randomSplit.

· Trabajo con datos incorrectos o faltantes.

· Acciones sobre un DataFrame en Spark SQL.

· Escritura de DataFrames.

· Persistencia de DataFrames.

· Ejercicios prácticos.

· Resolución de los ejercicios.

MODULO VIII – SPARK SQL AVANZADO CON SCALA

· Agregaciones.

· Funciones count, countDistinct y approx_count_distinct.

· Funciones min y max.

· Funciones sum, sum_distinct y avg.

· Agregación con agrupación.

· Varias agregaciones por grupo.

· Agregación con pivote.

· Joins.

· Expresión join y tipos de join.

· Inner Join, Left Outer Join, Right Outer Join, Full Outer Join, Left Anti Join, Left Semi Join, Cross Join.

· Manejo de nombres de columna duplicados.

· Shuffle Hash Join y Broadcast Hash Join.

· Ejercicios prácticos.

· Resolución de los ejercicios.

MODULO IX – FUNCIONES EN SPARK SQL CON SCALA

· Funciones de fecha y hora.

· Funciones para trabajo con strings.

· Funciones para trabajo con colecciones.

· Funciones when, coalesce y lit.

· Funciones definidas por el usuario (UDF).

· Funciones de ventana.

· Catalyst Optimizer.

· Ejercicios prácticos.

· Resolución de los ejercicios.

MODULO X – PROYECTO FIN DE MÁSTER

Ver más