¿Qué quieres aprender?

Especialista en Big Data

Especialista en Big Data

Grupo Colon-IECM

Curso subvencionado para trabajadores presencial

Madrid


Gratis

Duración : 46 Días

¿Te gustaría desarrollar tareas relacionadas con el Big Data?

En este curso aprenderás sobre el tratamiento y la gestión de grandes volúmenes de datos por medio del manejo de software específico.

¿Quieres hablar con un asesor sobre este curso?

Sedes

Localización

Fecha inicio

Madrid

Objetivos

- Identificar los conceptos básicos sobre entornos distribuidos a partir del estudio básico de infraestructuras, redes, virtualización, contenedores, cloud y orquestadores de procesos. - Monitorizar las plataformas distribuidas utilizando técnicas de autenticación, autorización, permisos, usuarios, roles. - Analizar los sistemas de almacenamiento de información distribuido: sistemas de ficheros distribuidos, colas distribuidas y bases de datos distribuidas tanto SQL como NoSQL. Profundizar en tecnologías; HDFS, Kafka, Zookeeper, MongoDB, Neo4J. - Interpretar el procesamiento de la información en lenguajes distribuidos mediante el framework de Spark y utilizando el lenguaje de programación Scala. - Desarrollar dashboard mediante la herramienta PowerBI de Bussiness Intelligent, que permitan al usuario visualizar y analizar sus datos de forma rápida, eficiente y entendible explotando al máximo todo el conocimiento extraído de los datos. - Utilizar la plataforma en la nube de Microsoft Azure. - Poner en práctica el uso de las metodologías ágiles y entender el valor de las habilidades “soft” en la era digital con las que podrán adaptarse en un entorno en constante cambio, así como enfrentarse a los nuevos retos tecnológicos alcanzando óptimos resultados.

A quién va dirigido

A trabajadores y autónomos que residan en la Comunidad de Madrid.

Requisitos

1. Asignación de plaza sujeta a previa comprobación del sector empresarial. 2. Se debe disponer como mínimo de alguna de las siguientes acreditaciones o titulaciones: - Título de Técnico Superior (FP Grado Superior) o equivalente - Haber superado la prueba de acceso a Ciclos Formativos de Grado Superior - Haber superado cualquier prueba oficial de acceso a la universidad - Certificado de profesionalidad de nivel 3 - Título de Grado o equivalente - Título de Postgrado (Máster) o equivalente

Temario completo de este curso

MÓDULO 1: INFRAESTRUCTURA DE SISTEMAS

  • Configuración de máquinas virtuales.

  • Modelos y tipología de redes y principales comandos de utilidad para la gestión de red.

  • VPN. Establecimiento de una red privada segura sobre una red pública no segura.

  • Principales comandos y herramientas para trabajar con redes: ping, netstat, telnet, nslookup.

MÓDULO 2: SEGURIDAD Y MONITORIZACIÓN

  • Identificación de los diferentes conceptos en criptografía.

  • Identificación de las infraestructuras de clave pública (pki).

  • Inmersión en los conceptos clave de la seguridad de la información.

  • Distinción y aplicación de los diferentes métodos de autenticación.

  • Distinción y aplicación de los distintos métodos de autorización.

  • Identificación, aplicación y creación de log distribuido.

  • Identificación y aplicación de las opciones de trazabilidad distribuida.

  • Monitorización de los datos.

MÓDULO 3: BASES DE DATOS DISTRIBUIDAS

  • Formatos de ficheros soportados por Hadoop: text, sequencefiles, avro y columnar.

  • Flujo de los datos desde el momento en el que son captados hasta su almacenamiento e identificación de las acciones a realizar en cada momento.

  • Ejemplo de análisis detallado del ciclo de vida de dato.

  • Introducción al gobierno del dato (data governance) o cómo encontrar respuesta a las preguntas que nos interesa responder sobre un dato.

  • Introducción a big data, la necesidad de procesamiento distribuido.

  • Almacenamiento local. Los ficheros y su almacenamiento en disco.

  • Almacenamiento distribuido. El almacenamiento de ficheros en el dispositivo, en la red (NAS, SAN) y en la nube.

  • Otros tipos de almacenamiento: object storage y block storage.

  • HDFS—Hadoop distributed file system.

  • Introducción a las colas.

  • Bases de datos relacionales vs. BBDD NoSQL (tipos: clave-valor, orientadas a columnas, de grafos, orientadas a documentos).

  • MongoDB. Características, arquitectura. (Colecciones, documentos y tipos de datos. Operaciones básicas y escalado. MongoDB en la nube con Atlas).

  • Práctica del uso de BBDD de grafos con Neo4j. Pros y contras de esta tipología, comprender los componentes del modelo de grafos y principales casos de uso. Práctica.

  • Indexadores. Entender la tecnología que sustenta los buscadores como Google. Tipos de búsquedas y tecnologías adecuadas para cada tipología: full text search – índice invertido, enterprise search – Solr, Lucene – API para recuperación de información, Elastic Search – indexador de contenidos y Azure search.

MÓDULO 4: PROCESAMIENTO DISTRIBUIDO

  • Uso de Spark como framework de procesamiento de la información en sistemas distribuidos.

  • Inmersión en la estructura de datos principal de Spark: RDD – resilient distributed data set.

  • Iniciación a Spark en cluster.

  • Conceptos de programación paralela en spark.

  • Optimización de rendimiento en spark.

  • Iniciación al procesamiento de datos en Spark mediante el uso del módulo SparkSQL

  • Introducción a la programación en scala.

MÓDULO 5: VISUALIZACIÓN

  • Asimilación del concepto y sentido del business intelligence en la visualización de datos.

  • Instalación de Power BI en la propia máquina.

  • Carga de datos.

  • Aplicación práctica. Creación y diseño de un dashboard propio.

MÓDULO 6: CASO PRÁCTICO CON MICROSOFT AZURE

  • Infraestructura.

  • Procesamiento.

  • Visualización: Kibana, Grafana, notebooks.

  • Almacenamiento.

  • Realtime.

  • Gobierno del dato.

MÓDULO 7: SOFTSKILLS – PÍLDORAS FORMATIVAS

  • Iniciación en el desarrollo ágil de proyectos mediante el uso de la metodología scrum.

  • Introducción a design thinking como herramienta para encontrar soluciones innovadoras a través de la creatividad e innovación.

  • El arte de contar historias (storytelling) como medio para transmitir un mensaje con éxito

Ver más