Temario completo de este curso
PARTE 1. INGENIERÍA DE LA DECISIÓN
PARTE 2. MODELIZACIÓN Y TRATAMIENTO DE LA INCERTIDUMBRE
PARTE 3. SIMULACIÓN Y METAHEURÍSTICAS
PARTE 4. GESTIÓN DE BASES DE DATOS
UNIDAD DIDÁCTICA 1. INTRODUCCIÓN A LAS BASES DE DATOS
Ventajas e inconvenientes de las baes de datos
Conceptos generales
El modelo entidad-relación
El modelo entidad-relación extendido
Restricciones de integridad
UNIDAD DIDÁCTICA 2. EL MODELO DE BASES DE DATOS RELACIONAL
Estructura del modelo relacional
Claves en el modelo relacional
Restricciones de integridad
Teoría de la normalización
Diseño de una base de datos relacional
Tipos de lenguajes relacionales
UNIDAD DIDÁCTICA 3. LENGUAJE DE CONSULTA SQL
Caracterísiticas de SQL
Sistemas de Gestión de Bases de Datos con soporte SQL
Sintaxis en SQL
Especificación de restricciones de integridad
UNIDAD DIDÁCTICA 4. MYSQL COMO SISTEMA GESTOR DE BASES DE DATOS RELACIONALES
Caracterísiticas de MySQL
Tipos de datos
Sisntaxis SQL para MySQL
UNIDAD DIDÁCTICA 5. SALVAGUARDA Y RECUPERACIÓN DE DATOS
Posibles fallos en una base de datos
Elementos de recuperación
Tipos de soporte
RAID
Servidores remotos de salvaguarda de datos
Diseño de un plan de salvaguarda y protocolo de recuperación de datos
Tipos de salvaguardas de datos
RTO (Recovery Time Objective) y RPO (Recovery Point Objective)
Mecanismos de verificación de la integridad de las copias de seguridad
UNIDAD DIDÁCTICA 6. BASES DE DATOS DISTRIBUIDAS
Definición de SGBD distribuido. Principales ventajas y desventajas
Características esperadas en un SGBD distribuido
Clasificación de los SGBD distribuidos
Enumeración y explicación de las reglas de DATE para SGBD distribuidos
Replicación de la información en bases de datos distribuidas
Procesamiento de consultas
Descomposición de consultas y localización de datos
UNIDAD DIDÁCTICA 7. SEGURIDAD DE LOS DATOS
Conceptos de seguridad de los datos: confidencialidad, integridad y disponibilidad
Normativa legal vigente sobre datos
Supuestos prácticos
UNIDAD DIDÁCTICA 8. TRANSFERENCIA DE DATOS
Herramientas para importar y exportar datos
Clasificación de las herramientas
Ejemplo de ejecución de una exportación e importación de datos
Migración de datos entre diferentes SGBD
Inconvenientes al traspasar datos entre distintos SGBD
PARTE 5. MINERÍA DE DATOS
UNIDAD DIDÁCTICA 1. MINERÍA DE DATOS.
Conceptos básicos, técnicas y sistemas
Implantación en la empresa
Definición de la necesidad
Objetivos
Costes
Áreas de aplicación
UNIDAD DIDÁCTICA 2. FASE DE SELECCIÓN EN MINERÍA DE DATOS.
UNIDAD DIDÁCTICA 3. FASE DE EXPLORACIÓN EN MINERÍA DE DATOS.
UNIDAD DIDÁCTICA 4. FASE DE LIMPIEZA Y TRANSFORMACIÓN EN MINERÍA DE DATOS.
UNIDAD DIDÁCTICA 5. FASE DE ANÁLISIS DE DATOS.
UNIDAD DIDÁCTICA 6. TÉCNICAS DE APLICACIÓN.
Redes neuronales de modelización predictiva
Algoritmos matemáticos
Árboles de decisión
Técnicas de visualización de datos
Elección de la técnica
Explotación de datos según las necesidades de las diferentes áreas del negocio
Ventajas
UNIDAD DIDÁCTICA 7. TÉCNICAS PREDICTIVAS DE MODELIZACIÓN.
UNIDAD DIDÁCTICA 8. TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN.
UNIDAD DIDÁCTICA 9. TÉCNICAS DE EVALUACIÓN.
UNIDAD DIDÁCTICA 10. TÉCNICAS.
Segmentación
Clasificación y segmentación de clientes
Ofertas
Fidelizar clientes
Operaciones básicas para descubrir la información oculta
Estructurar la información
UNIDAD DIDÁCTICA 11. CAMPAÑAS: OFERTAS JUST-IN-TIME.
Herramientas para la fidelización
Entornos transaccionales
Acciones promocionales puntuales
Utilidad del conocimiento
Reportes estándares, simulaciones ad-hoc y procesamiento de la información LOPD
PARTE 6. BIG DATA PARA INGENIERÍAS
UNIDAD DIDÁCTICA 1. INTRODUCCIÓN
¿Qué es Big Data?
Paradigmas de procesamiento en Big Data
Las 8 V de Big Data (Volumen, Volatilidad, Variedad, Valor, Velocidad, Variabilidad, Veracidad, Validez).
UNIDAD DIDÁCTICA 2. BATCH PROCESSING
MapReduce
- Entorno MapReduce
- Función Map y función Reduce
- Flujo de datos
- Características de MapReduce
- Uso de MarpReduce
- Ventajas e inconvenientes de Map Reduce
- Ejercicios y ejemplos con MapReduce
Hadoop
- Entorno Hadoop
- Almacenamiento: HDFS
- Características de HDFS
Apache Hadoop YARN
- Funciones de Framework computacionales
- YARN: El gestor de recursos del cluster
- Conceptos de Apache Spark
- Ejecución de Computational Frameworks en YARN
- Exploración de las aplicaciones de YARN Applications a través de la Web UIs y de Shell
Agregación de los logs de YARN
- Configuración de Hadoop y registros de Daemon
- Localizar configuraciones y aplicar cambios de configuración
- Gestión de instancias de Role y añadir servicios
- Configuración del servicio HDFS
- Configuración de los logs de Hadoop Daemon
- Configuración del servicio YARN
Obtención de datos en HDFS
- Ingestión de datos desde fuentes de recursos externos con Flume
- Ingestión de datos desde bases de datos relacionales con Sqoop
- REST Interfaces
- Buenas prácticas para la importación de datos
Planificación de un cluster Hadoop
- Consideraciones generales de planificación
- Elección correcta de Hardware
- Opciones de Virtualización
- Consideraciones de red
- Configuración de nodos
Instalación y configuración de Hive, Pig e Impala
Clientes Hadoop incluidos en Hue
- ¿Qué es un cliente de Hadoop?
- Instalación y configuración de clientes Hadoop
- Instalación y configuración de Hue
- Autorizaciones y autenticación Hue
Configuración avanzada de un cluster
- Parámetros avanzados de configuración
- Configuración de puertos Hadoop
- Configuración de HDFS para la organización en rack
- Configuración de HDFS para obtención de alta disponibilidad
Seguridad Hadoop
- ¿Por qué es importante la seguridad en Hadoop?
- Conceptos del sistema de seguridad de Hadoop
- Qué es Kerberos y cómo funciona
- Securización de un clúster Hadoop Cluster con Kerberos
- Otros conceptos de seguridad
Gestión de recursos
- Configuración de cgroups con Static Service Pools
- El Fair Scheduler
- Configuración de Dynamic Resource Pools
- Configuraciones de CPU y memoria YARN
- Impala Query Scheduling
Mantenimiento de un cluster
- Chequeo del estado de HDFS
- Copia de datos entre clústers
- Añadir y eliminar de nodos en el clúster
- Rebalanceo del Cluster
- Directorio de Snapshots
- Actualización del clúster
Solución de problemas y monitorización de un cluster
- Sistema general de monitorización
- Monitorización de clústers Hadoop
- Solución de problemas habituales en el clúster de Hadoop
- Errores habituales en la configuración
UNIDAD DIDÁCTICA 3. CIENCIA DE DATOS
Data Science
- Que hacen los data scientists, herramientas y procesos que utilizan
- Aplicación de lo aprendido en módulo 2: Uso de Hue
Apache Spark
- Cómo trabaja Apache Spark y que capacidades nos ofrece
- Que formatos de ficheros populares puede usar Spark para almacenar datos
- Que lenguajes de programación puedes utilizar para trabajar con Spark
- Cómo empezar a utilizar PySpark y Sparklyr
- Cómo comparar PySpark y Sparklyr
Machine Learning
- ¿Qué es machine learning?
- Algunos conceptos y términos importantes
- Diferentes tipos de algoritmos
- Librerías que se utilizan
Apache Spark MLlib
- Que capacidades de machine learning nos proporciona MLlib
- Cómo crear, validar y utilizar modelos de machine learning con MLlib
- Ejecución de trabajos Apache Spark
- Cómo un trabajo de Spark se compone de una secuencia de transformaciones seguida de una acción
- Cómo Spark utiliza la ejecución lenta
- Cómo Spark divide los datos entre las particiones
- Cómo ejecuta Spark operaciones limitadas y grandes
- Cómo Spark ejecuta un trabajo en tareas y fases
UNIDAD DIDÁCTICA 4. DESARROLLO PARA SPARK Y HADOOP
Datasets y Dataframes
Operaciones en Dataframe
Trabajar con Dataframes y Schemas
Crear Dataframes a partir de Data Sources
Guardar DataFrames en Data Sources
DataFrame Schemas
Rapidez y lentitud de ejecución
Análisis de datos con consultas de DataFrame
- Consultar DataFrames con el empleo de expresiones de columna
- Agrupación y agregación de consultas
- Unión de DataFrames
RDD
- Introducción RDD
- RDD Data Sources
- Creando y guardando RDDs
- Operaciones con RDDs
Transformación de datos con RDDs
- Escritura y paso de funciones de transformación
- Ejecuciones de transformación
- Conversión entre RDDs y DataFrames
Agregación de datos con Pair RDDs
- Key-Valué Pair RDDs
- Mal-Reduce
- Otras operaciones Pair RDD
Consulta y vistas de tablas con Spark SQL
- Datasets y DataFrames
- Creación de Datasets
- Ejecución y guardado de Datasets
- Operaciones de Dataset
Creación, configuración y ejecución de aplicaciones Spark
- Creación de una aplicación Spark
- Compilar y ejecutar la aplicación
- Application Deployment Mode
- La interfaz Spark Application Web UI
- Configuración de las propiedades de la aplicación
Procesamiento distribuido
- Apache Spark en un Clúster
- Particiones RDD
- Ejemplo: Particionamiento en consultas
- Etapas y Tareas
- Planificación de tareas de ejecución
Persistencia de datos distribuidos
- Persistencia en Datasets y DataFrames
- Persistencia en niveles de almacenamiento
- Visualización de RDDs persistentes
Patrones comunes al procesar datos con Spark
- Casos comunes de uso de Spark
- Algoritmos de iteración en Apache Spark
- Machine Learning
Spark Streaming: Introducción a DStreams
- Vista general de Spark Streaming
- DStreams
- Desarrollo de aplicaciones en Streaming
Spark Streaming: procesamiento de múltiples lotes
- Operaciones Multi-Batch
- Time Slicing
- Operaciones de estado
- Operaciones Sliding Window
- Vista previa: Streaming estructurado
Apache Spark Streaming: Data Sources
- Vista general de Streaming Data Source
- Apache Flume y Apache Kafka Data Sources
- Ejemplo: uso de un Kafka Direct Data Source
UNIDAD DIDÁCTICA 5. ANÁLISIS DE DATOS
Introducción a Pig
- ¿Qué es Pig?
- Características de Pig
- Casos de empleo de Pig
- Interacción con Pig
Análisis de datos básico con Pig
- Sintaxis Pig Latin
- Carga de datos
- Tipos simples de datos
- Definición de campos
- Datos de salida
- Vistas y esquemas
- Filtrado y ordenación de datos
- Funciones habituales
Procesado de datos complejos con Pig
- Formatos de almacenamiento
- Tipos de datos complejos y anidados
- Agrupaciones
- Funciones predefinidas para datos complejos
- Iteración de datos agrupados
Operaciones con multiconjuntos de datos con Pig
- Técnicas para combinar conjuntos de datos
- Unión de conjuntos de datos con Pig
- Conjunto de operaciones
- División de conjuntos de datos
Troubleshooting y optimización de Pig
- Troubleshooting en Pig
- Inicio de sesión
- Empleo de UI web Hadoop
- Muestreo de datos y depuración
- Visión general del rendimiento
- Comprensión del plan de ejecución
- Consejos para mejorar el rendimiento de Jobs en Pig
Introducción a Hive e Impala
- ¿Qué es Hive?
- ¿Qué es Impala?
- ¿Por qué utilizar Hive e Impala?
- Schema y almacenamiento de datos
- Comparación entre Hive y bases de datos tradicionales
- Casos de uso
Consultas con Hive e Impala
- Tablas y bases de datos
- Sintaxis básica en consultas Hive e Impala
- Tipos de datos
- Empleo de Hue para ejecutar consultas
- Empleo de Beeline (la Shell de Hive)
- Empleo de la Shell de Impala
Administración de datos
- Almacenamiento de datos
- Creación de bases de datos y tablas
- Carga de datos
- Alteración de bases de datos y tablas
- Simplificación de consultas con vistas
- Almacenamiento de resultados de consultas
Almacenamiento y datos de rendimiento
- Partición de tablas
- Carga de datos en tablas particionadas
- Cuándo utilizar el particionamiento
- Elección de formato de almacenamiento
- Gestión de metadatos
- Control de acceso a datos
Análisis de datos relacional con Hive e Impala
- Unión de conjuntos de datos
- Funciones predefinidas habituales
- Agregaciones y Windowing
Datos complejos con Hive e Impala
- Datos complejos con Hive
- Datos complejos con Impala
Análisis de texto con Hive e Impala
- Empleo de expresiones regulares
- Procesamiento de texto con SerDes en Hive
- Análisis de los sentimientos y N•Grams
Optimización Hive
- Rendimiento de las consultas
- Bucketing
- Indexación de datos
- Hive en Spark
Optimización de Impala
- Ejecución de consultas
- Mejorar el rendimiento de Impala
Extendiendo Hive e Impala
- Customizar SerDes y formatos de fichero en Hive
- Transformación de datos con Scripts personalizados en Hive
- Funciones definidas por el usuario
- Consultas parametrizadas
- Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales. ¿Cuál elegir?
PARTE 7. ALGORITMOS DE BIGDATA PARA INGENIERÍAS
UNIDAD DIDÁCTICA 1. MINERÍA DE DATOS O DATA MINING Y EL APRENDIZAJE AUTOMÁTICO
Introducción a la minería de datos y el aprendizaje automático
- Proceso KDD
- Modelos y Técnicas de Data Mining
- Áreas de aplicación
- Minería de textos y Web Mining
- Data mining y marketing
UNIDAD DIDÁCTICA 2. R COMO HERRAMIENTA PARA BIG DATA
Instalación de R y RStudio
- Introducción al lenguaje
- Historia e Introducción a R
- Operaciones Básicas y Números
- Atributos, Entrada y Coerción
- Matrices
- Precedencia Operaciones Vectoriales
- Manejo de fechas y tiempo
- Listas, Factores, Valores Faltantes y Dataframes
- Subconjuntos de Datos
- Leer y Escribir Datos
Uso del lenguaje
- Estructuras de Control
- Funciones
- Reglas de Alcance
Sistema de gráficos
- Funciones *apply: apply
- Funciones *apply: lapply / sappy
- Funciones *apply: mapply / rep
- Graficación con el Sistema de Base de Gráficos
- Algunas Funciones Gráficas de Alto Nivel
- Parámetros en el Sistema de Gráficos
- Colores en el Sistema de Gráficos
- Graficación con Notación Matemática
- Graficación con texto y notación matemática
- Creación de Gráficas en 3D
Expresiones regulares. Gráficas con ggplot2 y Simulación
- Expresiones Regulares
- Paquete de gráficos ggplot2
- Simulación
R en el mundo real
- Estadística Descriptiva y Predictiva con R
- Integración de R en Hadoop
UNIDAD DIDÁCTICA 3. PRE-PROCESAMIENTO &, PROCESAMIENTO DE DATOS
Obtención y limpieza de los datos (ETL)
Inferencia estadística
Pruebas de hipótesis
Modelos de regresión
Árboles de Decisión
Algoritmos de Clasificación / Regresión (J48/C5.0, M5P)
Normalización, Tipos de distancia, Correlación
Machine Learning
Comparar Artículos (k-NN)
Modelo predictivo de profit (k-NN, M5P...)
Modelo predictivo de clasificación (J48, k-NN)
UNIDAD DIDÁCTICA 4. ANÁLISIS DE LOS DATOS
Inteligencia Analítica de negocios
La teoría de grafos y el análisis de redes sociales
Presentación de resultados
UNIDAD DIDÁCTICA 5. PROCESAMIENTO DISTRIBUIDO DE DATOS CON HADOOP
¿Qué es Hadoop?
El sistema de archivos HDFS
Algunos comandos de referencia
Procesamiento MapReduce con Hadoop
El concepto de los clusters en Hadoop
UNIDAD DIDÁCTICA 6. WEKA Y DATA MINING
¿Qué es Weka?
Técnicas de Data Mining en Weka
Interfaces de Weka
Selección de atributos
PARTE 8. CALIDAD: SEIS SIGMA
UNIDAD DIDÁCTICA 1. INTRODUCCIÓN AL SIX SIGMA
¿Qué es el Six Sigma?
Historia y Aplicación del Six Sigma
Otros Métodos de Mejora de los Procesos de Calidad
Conceptos de Lean
Conceptos Básicos de Six Sigma
Definición de los Problemas
UNIDAD DIDÁCTICA 2. PROYECTOS Y PROCESOS
¿Qué es un proceso?
La Gestión de la Calidad
Seleccionar los Proyectos Adecuados
Principios de Gestión Básica del Equipo Six Sigma
Introducción a los métodos DMAIC y DMADV
UNIDAD DIDÁCTICA 3. EL MÉTODO DMAIC
Definir
Medir
Analizar
Mejorar
Controlar
UNIDAD DIDÁCTICA 4. MÉTODOS DE ESTADÍSTICA BÁSICA APLICADA AL SIX SIGMA
Análisis Gráfico
Distribución Normal de la Probabilidad
Correlación y Regresión
UNIDAD DIDÁCTICA 5. MÉTODOS DE ESTADÍSTICA AVANZADA APLICADOS AL SIX SIGMA
Distribución No-Normal de la Probabilidad
Evaluación de la Hipótesis
El Tamaño de la Muestra
Gráficos de Control Avanzados
Estadística en Aplicaciones de Negocios a Través del Six Sigma
UNIDAD DIDÁCTICA 6. CONTROL AVANZADO
Introducción a Minitab
Gráficos y Herramientas de Calidad de Minitab
El Menú Estadísticas en Minitab
UNIDAD DIDÁCTICA 7. EXPERIMENTOS
Análisis de Varianza (ANOVA)
Diseño de Experimentos
Interacciones, Factores Multinivel y Creación de Experimentos
UNIDAD DIDÁCTICA 8. MINITAB
Tormenta de Ideas y otras Herramientas de Mejora de Procesos
Mapas de Procesos
Monitoreo de la Cadena de Valo
Ver más