¿Qué quieres aprender?

Big Analytics: de la información al conocimiento (7ª edición)

Big Analytics: de la información al conocimiento (7ª edición)

Fundación Universidad Carlos III

Curso presencial

Madrid


2.900
IVA exento

Duración : 3 Meses

¿Quieres hablar con un asesor sobre este curso?

Sedes

Localización

Fecha inicio

Madrid
Febrero 2023

Objetivos

Pensamos en tu futuro- Al finalizar el curso los alumnos contarán con el potencial suficiente para cubrir perfiles especializados, siendo capaces de extraer conocimientos valiosos a partir de grandes volúmenes de datos, guiando las decisiones de negocio de diferentes “Data Driven Companies”. Todo ello dominando el End to End del proyecto, partiendo de los datos en crudo (raw data), transformándolos en información explotable creando el Smart Data, y realizando analítica avanzada para crear valor a la compañía.

A quién va dirigido

El curso está dirigido preferentemente a estudiantes de último curso o recién graduados de las siguientes titulaciones: -Ingeniería Informática, software, computadores o similar -Ingeniería Telecomunicaciones, telemática o similar -Matemáticas -Física -Estadística -Doble grado en Ingeniería Informática y ADE Los estudiantes que soliciten el curso tendrán que acreditar haber superado al menos 180 créditos en sus estudios de grado.

Requisitos

Los estudiantes que soliciten la admisión en el curso tendrán que acreditar haber superado al menos 180 créditos en sus estudios de grado.

Temario completo de este curso

Programa Big Analytics: de la información al conocimiento

Introducción

Introducción general al Big data y la necesidad del Analytics

Arquitectura/Bases de datos relacionados /Infraestructuras (AMAZON)

On premise vs Cloud. Soluciones Big Data en el Cloud. Diseño de sistemas inteligentes. Tipos de problemas que nos encontramos en data science y como abordarlos. Intro al aprendizaje automático. Caso práctico 1

Bases de datos. Introducción. Tratamiento, transformación y limpieza de datos. Caso práctico 2 y 3.

Bases de datos II. Obtención de datos, inferencia de datos y modelado de datos. Diseño de las necesidades del sistema. Casos prácticos 4 y 5.

R

1. Introducción a R.

2. Introducción a los paquetes de R que se utilizarán en otras sesiones.

3. Ejemplos prácticos.

Introducción al análisis masivo de datos: descriptivos y visualización de Big Data

En la primera clase, el objetivo es entender los datos que nos de Deloitte y enseñar que muchas veces la parte más tediosa y la que, en ocasiones, lleva más tiempo es preparar y entender los datos. Para ello, empezaré presentando las técnicas más básicas: histogramas, scatter plots, … y mostraré varios ejemplos que he trabajado en el pasado con los que estas técnicas tan rudimentarias fueron capaces de mejorar el detector facial de Viola-Jones o segmentar imágenes dermatológicas.

Hackathon + Series Temporales

  • Presentación del hackathon en el que van a poder aplicar las distintas técnicas que se vayan presentando a lo largo del curso
  • Introducción a las series temporales con ejercicios teóricos/prácticos: definición de series temporales, descomposición de series temporales, series estacionarias y técnicas de modelización
  • Primera prueba del Hackathon y subida de resultados a la plataforma. Formación de equipos
  • En series temporales seguimos con una colección de ejercicios teóricos/prácticos: modelización de series temporales y visualización. Ejercicio final.

Aprendizaje supervisado de datos

Introducción al machine learning y tipos de problemas: supervisado vs no supervisado vs semi-supervisado, regresión vs clasificación… Algoritmos supervisados sencillos: métodos lineales (discriminante lineal), cuadráticos y no paramétricos (vecinos próximos). Aspectos importantes en el proceso de clasificación: Selección de características y reducción de la dimensión.elección del clasificador, problema de sobreajuste, validación.

Máquinas de vectores soportes (SVM) y algoritmos genéticos

Breve introducción a la optimización. Introducción a las máquinas de vectores soporte (SVM): motivación, optimización, kernel trick, ajuste de parámetros. Introducción a los algoritmos genéticos: cómo buscar en el espacio de soluciones, heurísticas, motivación de los algoritmos genéticos, metodología, tipos.

En todas las sesiones se motivarán los contenidos con ejemplos ilustrativos y reales en la medida de lo posible. Se harán prácticas de los distintos temas con R y se usará como hilo conductor el problema general de todo el curso.

Técnicas de regresión

Introducción de las principales técnicas de regresión: Lineal, Splines, Quantiles, Lasso y regressión logística.

Técnicas avanzadas de regresión, diseño de experimentos para mitigar problemas de causalidad: Diferencias en diferencias, Variables instrumentales y regresion por discontinuidad.

Técnicas no supervisadas de análisis de datos

Cluster Analysis: k-means (color quantization, pattern recognition examples ), k-medoids ( face recognition examples ). Association Rules: The apriori algorithm (examples on Association rules sequences. The cspade algorithm (examples on tag recommendation, market basket, etc) market basket analysis), Association rules sequences. The cspade algorithm (examples on tag recommendation, market basket, etc)

Cluster Analysis/ Hierarchical clustering : Agnes - Diana, Types of linkages . Examples on movie suggestion engines, cell phone towers placement, etc.

Introducción a Python

Conceptos básicos e introducción a la programación en Python, cubriendo las librerías más empleadas en el tratamiento de datos y en el desarrollo de modelos de machine learning (numpy, pandas, scikit-learn, etc.). En las prácticas se utilizarán Jupyter Notebooks para documentar el código y facilitar la ejecución interactiva durante la sesión

Spark Core +(parte 1)

Introducción a las funcionalidades básicas de Spark. Partiendo de la definición y manejo de RDDs hasta la manipulación de DataFrames y DataSets, pasando por las transformaciones y acciones más comunes en el procesamiento de datos distribuidos sobre Spark. Para ello se pueden utilizar distintas APIs y durante el curso se utilizará PySpark (de ahí la introducción de la sesión anterior), empleando además distintos formatos y fuentes de datos en el origen. Siguiendo un enfoque práctico, se aplicarán estos conceptos a ejemplos con datos reales de manera interactiva.

Spark​ ​Core​ ​+​ ​SparkSQL​ ​(parte2)​ ​+​ ​Introducción​ ​a​ ​Spark​ ​MLlib

Continuación de la sesión anterior, incorporando la librería de modelado MLlib de Spark. Se explicará cómo construir los algoritmos descritos en la primera sesión, esta vez en formato distribuido. A su vez se hará un repaso de todo aquello necesario en la construcción de features y de un pipeline completo de machine learning con PySpark.

SparkStreaming

En esta sesión se incorporará una componente de real time al sistema desarrollado durante las sesiones anteriores, haciendo uso de los modelos generados en “batch” para completar una arquitectura lambda. Para ello se hará una introducción al manejo de streams de datos y sus bloques de procesamiento mediante colas de Kafka. Utilizando como unidad básica los DStreams y modelos entrenados en batch veremos cómo utilizar SparkStreaming para hacer predicciones en real time.

Deep learning

Introducción a las redes neuronales básicas y a las redes profundas (deep learning) utilizando "Tensor Flow".

Técnicas de clasificación 2: Combinación de clasificadores

Técnicas de clasificación 2: Combinación de clasificadores

Modelos probabilísticos y gráficos

Introducción a los modelos gráficos probabilísticos. Caracterización. Redes Bayesianas. Tablas de probabilidad condicionada. Inferencia

Ejemplos Aprendiendo modelos gráficos probabilísticos e inferencia con ellos

Hackathon + Presentación Final

Trabajo por equipos & presentación de resultados

Ver más