Sistemas de Big Data

Sistemas de Big Data

El concepto de Big Data no solo hace referencia a grandes colecciones de datos, caracterizadas tanto por su volumen como por la variedad de formatos, sino que incluye también los sistemas y las tecnologías encargadas de almacenar, procesar y dar valor a toda esa información. La motivación para gestionar y analizar estos datos surge de la evidencia de que el estudio de estos grandes volúmenes permite adquirir un conocimiento que no es posible abordando solo conjuntos pequeños. De forma clara y didáctica, el presente libro proporciona una idea panorámica y completa de los diferentes sistemas involucrados en el tratamiento del dato. Esta visión general facilita al lector la comprensión sencilla de los temas tratados, y proporciona el posicionamiento y la asimilación de los distintos elementos que componen el ecosistema de tecnologías, servicios y soluciones de Big Data. Comenzando por las arquitecturas para la organización de la información, el libro se adentra en los sistemas para el almacenamiento y procesado del dato, llegando después a las distintas formas de explotación analítica: descriptiva, predictiva, prescriptiva y cognitiva. El gobierno del dato y la gestión de las distintas operaciones involucradas cierran este amplio e interesante recorrido. Los contenidos adaptados al Curso de Especialización en Inteligencia Artificial y Big Data.
  • PRESENTACIÓN
  • ACERCA DEL AUTOR
  • CAPÍTULO 1. BIG DATA: DEL DATO A LA INFORMACIÓN
    • Datos, información y conocimiento
    • Caracterización del dato
      • Datos en cuanto al tipo
      • Datos en cuanto al formato
      • Datos en cuanto al generador
      • Datos en cuanto al tamaño
      • Datos en cuanto a su rol
      • Datos en cuanto a su latencia
      • Datos en cuanto a su sensibilidad
    • Big Data en contexto
      • El modelo de las cinco uves
      • Empresas orientadas por los datos
      • Computación en la nube
      • Gestión y gobierno del dato
    • Etapas de análisis en la explotación de la información
      • Analítica descriptiva
      • Analítica prescriptiva
      • Analítica predictiva
      • Analítica cognitiva
    • Escenarios de aplicación del Big Data
    • Resumen del capítulo
  • CAPÍTULO 2. ARQUITECTURAS Y PATRONES PARA BIG DATA
    • Patrones arquitecturales
      • Tipologías de patrones
    • Arquitecturas de datos centralizadas
      • Generación 0 (1970): sistemas transaccionales
      • Generación 1 (1980): data warehouse
      • Generación 2 (1990): almacenes operacionales
      • Generación 3 (2000): gestión de datos maestros
      • Generación 4 (2010): data lake
      • Generación 5 (2020): data lakehouse
    • Arquitecturas de datos orientada por dominios
      • El concepto de data mesh
      • Organización distribuida de datos según dominios
      • El dato como producto
      • Plataforma compartida y gobierno federado
    • Resumen del capítulo
  • CAPÍTULO 3. SISTEMAS DE ALMACENAMIENTO
    • Bases de datos relacionales
      • Gestión de cargas analíticas
      • Escenarios e inconvenientes
      • Software y soluciones para data warehouse
    • Sistemas de archivos distribuidos
      • Apache Hadoop–HDFS
      • Formatos de archivos
      • Escenarios e inconvenientes
      • Software y soluciones para Apache Hadoop
    • Almacenes de objetos
      • Catálogos de tablas
      • Escenarios e inconvenientes
      • Servicios para el almacenamiento de objetos
    • Bases de datos NoSQL
      • El modelo BASE y el teorema CAP
      • Gestores NoSQL según el modelo de datos
      • Software y servicios de bases de datos NoSQL
    • Resumen del capítulo
  • CAPÍTULO 4. PROCESAMIENTO DE DATOS POR LOTES
    • Extracción, transformación y carga
      • Extracción
      • Transformación
      • Carga
    • Modelado de datos y gestión de cambios
      • Modelos multidimensionales
      • Cambios en los datos y gestión de la historia
    • Tecnologías para el tratamiento de datos
      • Apache Hadoop
      • Aplicaciones MapReduce
      • Apache Spark
      • Tecnologías para flujos ETL
    • Motores de consulta distribuidos
      • Apache Hive
      • Otros motores especializados
      • Apache Arrow
    • Resumen del capítulo
  • CAPÍTULO 5. GESTIÓN DE EVENTOS EN TIEMPO REAL
    • Transmisión de eventos
      • Transmisión de eventos y colas de mensajes
      • Apache Kafka
    • Procesamiento de eventos
      • Consideraciones sobre el análisis de datos en tiempo real
      • Soluciones para el procesamiento de eventos
    • Unificación de procesos
      • El modelo Lambda
      • El modelo Kappa
      • Revisitando los catálogos de tablas
    • Resumen del capítulo
  • CAPÍTULO 6. ANÁLISIS DESCRIPTIVO: EXPLORACIÓN DE LOS DATOS
    • Motivación y objetivos
    • Caracterización de los datos
      • Observaciones y atributos
      • Relaciones entre atributos
    • Análisis exploratorio
      • Análisis univariante
      • Análisis multivariante
    • Análisis multidimensional
      • Cuadros de mando y KPI
    • Sistemas para análisis descriptivo
      • Flujo de construcción de un cuadro de mando
      • Herramientas y soluciones
    • Resumen del capítulo
  • CAPÍTULO 7. ANÁLISIS PREDICTIVO: MINERÍA DE DATOS
    • Motivación y objetivos
    • Preprocesado de los datos
    • Modelización de los datos
      • Aprendizaje supervisado
      • Aprendizaje no supervisado
    • Puesta en producción e inferencia de modelos
      • Escenarios de inferencia de modelos
    • Herramientas y soluciones para minería de datos
    • Resumen del capítulo
  • CAPÍTULO 8. ANÁLISIS PRESCRIPTIVO: MODELOS DE OPTIMIZACIÓN
    • Motivación y objetivos
    • Optimización matemática
      • Programación lineal
      • Otros métodos de optimización matemática
    • Algoritmos genéticos
    • Modelización probabilística
      • Cadenas de Markov
    • Herramientas y soluciones para análisis prescriptivo
    • Resumen del capítulo
  • CAPÍTULO 9. ANÁLISIS COGNITIVO: INTELIGENCIA ARTIFICIAL
    • Motivación y objetivos
    • Mecanismos de aprendizaje
      • Aprendizaje por refuerzo
      • Aprendizaje profundo
    • Aplicaciones en el ámbito analítico
      • Análisis de conversaciones
      • Análisis de imágenes
    • Problemas de sesgo y falta de equidad en los modelos
      • Mitigación del sesgo
    • Herramientas y soluciones para análisis cognitivo
      • Aceleración de la inferencia de modelos por hardware
      • Servicios cognitivos en la nube
      • Soluciones para la detección y mitigación de sesgo
    • Resumen del capítulo
  • CAPÍTULO 10. GESTIÓN Y GOBIERNO DEL DATO Y SUS ACTIVOS
    • Gestión del ciclo de vida de los datos
      • El marco DAMA-DMBOK2
      • Operaciones sobre los datos y observancia
    • Gestión del aprendizaje automático
      • Metodologías para minería de datos
      • Automatización de modelos: MLOps
    • Soluciones para la gestión y gobierno del dato
    • Resumen del capítulo
  • BIBLIOGRAFÍA RECOMENDADA

Subjects

SUBSCRIBE TO OUR NEWSLETTER

By subscribing, you accept our Privacy Policy