Big data, machine learning y data science en python

Big data, machine learning y data science en python

  • Author: Ortega Candel, José Manuel
  • Publisher: Rama Editorial
  • ISBN: 9788419444585
  • eISBN Pdf: 9788419444592
  • Place of publication:  Madrid , Spain
  • Year of publication: 2023
  • Pages: 408

El libro está dirigido aquellos lectores que estén trabajando en proyecto relacionados con big data y busquen identificar las características de una solución de Big Data, los datos asociados a estas soluciones, la infraestructura requerida, y las técnicas de procesamiento de esos datos. Entre los principales objetivos podemos destacar: • Introducir los conceptos de ciencias de datos y machine learning. • Introducir las principales librerías que podemos encontrar en Python para aplicar técnicas de machine learning a los datos. • Dar a conocer los pasos para construir un modelo de machine learning, desde la adquisición de datos, pasando por la generación de funciones, hasta la selección de modelos. • Dar a conocer los principales algoritmos para resolver problemas de machine learning. • Introducir scikitlearn como herramienta para resolver problemas de machine learning. • Introducir pyspark como herramienta para aplicar técnicas de big data y mapreduce. • Introducir los sistemas de recomendación basados en contenidos. El libro trata de seguir un enfoque teóricopráctico con el objetivo de afianzar los conocimientos mediante la creación y ejecución de scripts desde la consola de Python. Además, complementa los contenidos con un repositorio alojado en el Material Adicional donde se pueden encontrar los ejemplos que se analizan a lo largo del libro para facilitar al lector las pruebas y asimilación de los contenidos teóricos. Desde la web del libro podrá descargar los ejemplos y ejercicios que se desarrollan en el libro lo que facilitara al lector a asimilar lo aprendido.

  • OBJETIVOS
  • CAPÍTULO 1. INTRODUCCIÓN A BIG DATA
    • INTRODUCCIÓN
    • DEFINICIÓN DE BIG DATA
    • TIPOS DE DATOS
    • CARACTERÍSTICAS DE BIG DATA
    • DESAFÍOS DE BIG DATA
    • TECNOLOGÍAS PARA BIG DATA
    • PERFILES BIG DATA
      • DIRECCIÓN DE DATOS(CHIEF DATA OFFICER-CDO)
      • CIENTÍFICO DE DATOS(DATA SCIENTIST)
      • ANALISTA DE DATOS(DATA ANALYST)
      • INGENIERIO DE DATOS(DATA ENGINEER)
      • ARQUITECTO DE DATOS(DATA ARCHITECT)
      • GESTOR DE DATOS(DATA MANAGER)
      • CIUDADANO CIENTÍFICO DE DATOS(CITIZEN DATA SCIENTIST)
      • ADMINISTRADOR DE DATOS( DATA STEWARD)
      • TABLA COMPARATIVA
    • BIG DATA ANALYTICS
  • CAPÍTULO 2. ARQUITECTURAS BIG DATA
    • INTRODUCCIÓN
    • ACTORES PRINCIPALES EN UNA ARQUITECTURA BIG DATA
      • SISTEMA DE ORQUESTACIÓN
      • PROVEEDOR DE DATOS
      • PROVEEDOR DE APLICACIONES BIG DATA
      • PROVEEDOR DE INFRAESTRUCTURA BIG DATA
      • CONSUMIDOR DE DATOS
      • CAPA DE SEGURIDAD Y PRIVACIDAD
      • CAPA DE GESTIÓN
    • TIPOS DE ARQUITECTURAS
      • PROCESAMIENTO BATCH
      • PROCESAMIENTO STREAMING
      • PROCESAMIENTO MAPREDUCE
    • ARQUITECTURA LAMBDA
    • ARQUITECTURA KAPPA
    • APACHE KAFKA
    • ARQUITECTURA POR CAPAS
    • CASOS DE USO DE ARQUITECTURAS BIG DATA
      • AUTOMÓVILES EN UN MUNDO DE STREAMING
      • CONSTRUYENDO UN SISTEMA DE LINAJE DE DATOS
      • WOLFRAM LANGUAGE
    • BIG DATA LANDSCAPE
    • HERRAMIENTA PARA EL ANÁLISIS DE DATOS MASIVOS
    • CONCLUSIONES
  • CAPÍTULO 3. BASES DE DATOS PARA BIG DATA
    • INTRODUCCIÓN
    • COMPARACIÓN SQL vs NOSQL
    • BASES DE DATOS NOSQL
    • VENTAJAS DE LAS BASES DE DATOS NOSQL
    • TIPOS DE BASES DE DATOS NOSQL
    • IMPLANTANDO NOSQL
    • BASES DE DATOS DOCUMENTALES
      • CASOS DE USO BASES DE DATOS DOCUMENTALES
      • MONGODB
      • INDEXACIÓN EN MONGODB
      • REPLICACIÓN EN MONGODB
      • USO DE MONGODB DESDE PYTHON
      • COUCHDB
      • ARQUITECTURA DE COUCHDB
    • BASES DE DATOS ORIENTADAS A COLUMNAS
      • APACHE CASSANDRA
      • CONSISTENCIA EN APACHE CASSANDRA
      • CASOS DE USO
    • BASES DE DATOS CLAVE-VALOR(KEY-VALUE)
      • REDIS
    • BASES DE DATOS ORIENTADAS A GRAFOS
      • CASOS DE USO BASES DATOS DE GRAFOS
      • NEO4J
    • TEOREMA CAP
    • CONCLUSIONES NOSQL
  • CAPÍTULO 4 INTRODUCCIÓN A LA CIENCIA DE DATOS Y MACHINE LEARNING
    • DEFINICIÓN DE CIENCIA DE DATOS
    • DEFINICIONES DE APRENDIZAJE Y MACHINE LEARNING
    • SISTEMAS EXPERTOS
    • MINERÍA DE DATOS ( DATA MINING)
      • INTEGRACIÓN Y RECOPILACIÓN DE INFORMACIÓN
      • SELECCIÓN, LIMPIEZA Y TRANSFORMACIÓN DE DATOS
      • TÉCNICAS DE MINERÍA DE DATOS
    • INTRODUCCIÓN AL APRENDIZAJE AUTOMÁTICO
    • TIPOS DE APRENDIZAJE AUTOMÁTICO
    • APRENDIZAJE SUPERVISADO VS NO SUPERVISADO
      • APRENDIZAJE SUPERVISADO:CLASIFICACIÓN Y REGRESIÓN
      • ÁRBOLES DE DECISIÓN
      • ALGORITMO K-NEAREST NEIGHBOR
      • APRENDIZAJE NO SUPERVISADO
    • TÉCNICAS DE MACHINE LEARNING
    • PROBLEMA DEL SOBREENTRENAMIENTO
      • CÓMO EVITAR EL SOBREENTRENAMIENTO
    • FASES PARA ABORDAR UN PROBLEMA DE ML
      • PASOS PARA CONSTRUIR UN MODELO DE ML
      • EVALUACIÓN DE MODELOS
  • CAPÍTULO 5. TRATAMIENTO DE DATOS CON PYTHON
    • JUPYTER NOTEBOOK
    • MERCURY
    • NUMPY
    • SCIPY
    • PANDAS
      • ESTRUCTURAS DE DATOS EN PANDAS
      • SERIES
      • DATAFRAMES
      • LECTURA DE UN FICHERO CSV CON PANDAS
      • ALTERNATIVAS A PANDAS
    • LECTURA DE UN FICHERO JSON
    • LECTURA Y ESCRITURA EN FORMATO PICKLE
  • CAPÍTULO 6. SCIKIT-LEARN COMO LIBRERÍA DE MACHINE LEARNING
    • INTRODUCCIÓN A SCIKIT-LEARN
    • DATASETS EN SCIKIT-LEARN
    • CARGANDO CONJUNTOS DE DATOS EN SCIKIT-LEARN
      • CONJUNTOS DE DATOS GENERADOS DE FORMA ALEATORIA
    • DIVIDIR DATOS DE ENTRENAMIENTO Y TEST
    • APRENDIZAJE AUTOMÁTICO CON SCIKIT-LEARN
      • ESTABLECER UNA METODOLOGÍA DE EVALUACIÓN
    • REGRESIÓN LINEAL
      • IMPLEMENTACIÓN DE REGRESIÓN LINEAL
      • PREDECIR EL VALOR DEL ALQUILER DE LAS VIVIENDAS
    • ALGORITMO DE REGRESIÓN LOGÍSTICA
      • VALIDACIÓN CRUZADA EN SCIKIT-LEARN
      • OBTENER LA MATRIZ DE CONFUSIÓN
    • INTRODUCCIÓN A LOS ÁRBOLES DE DECISIÓN
      • ALGORITMO DE ÁRBOLES DE DECISIÓN EN SCIKIT-LEARN
    • SVM COMO ALGORITMO DE MÁQUINAS DE VECTORES DE SOPORTE
      • ALGORITMO DE SUPPORT VECTOR MACHINE EN SCIKIT-LEARN
      • OPTIMIZANDO PARÁMETROS CON GRIDSEARCHCV
    • KNN COMO ALGORITMO DE CLASIFICACIÓN SUPERVISADA
      • IMPLEMENTACIÓN DE KNEIGHBORSCLASSIFIER
      • RADIUSNEIGHBORSCLASSIFIER
    • CLUSTERING Y APRENDIZAJE NO SUPERVISADO
      • APRENDIZAJE NO SUPERVISADO
      • TIPOS DE CLUSTERING Y APLICACIONES
      • K-MEANS COMO ALGORITMO DE CLUSTERING
      • IMPLEMENTACIÓN DE K-MEANS EN SCIKIT-LEARN
      • LIMITACIONES DE K-MEANS
      • MINIBATCHKMEANS
      • AFFINITY PROPAGATION
      • EVALUACIÓN DEL RENDIMIENTO DE KMEANS
      • CONCLUSIONES KMEANS CLUSTERING
    • EXTRACCIÓN DE CARACTERÍSTICAS
      • PCA (PRINCIPAL COMPONENT ANALYSIS)
  • CAPÍTULO 7. REDES NEURONALES ARTIFICIALES
    • INTRODUCCIÓN
    • PERCEPTRÓN SIMPLE
    • PERCEPTRÓN MULTICAPA
    • RED NEURONAL RECURRENTE
    • RED NEURONAL CONVOLUCIONAL(CNN)
    • REDES NEURONALES CON TENSOR FLOW
      • ALGORITMO DE BACKPROPAGATION
      • PLAYGROUND TENSOR FLOW
      • INTRODUCCIÓN A TENSOR FLOW
      • FUNCIONAMIENTO DE TENSOR FLOW
    • USO DE LA LIBRERÍA KERAS EN DEEP LEARNING
    • USO DE GOOGLE COLAB
    • REDES NEURONALES CON SKLEARN
    • TABLA COMPARATIVA
  • CAPÍTULO 8. PLATAFORMA HADOOP
    • INTRODUCCIÓN
    • HERRAMIENTAS
    • SERVICIOS Y HERRAMIENTAS DEL ECOSISTEMA HADOOP
      • HERRAMIENTAS DE ORQUESTACIÓN
      • HERRAMIENTAS DE PROVEEDORES DE DATOS
      • HERRAMIENTAS DE PROVEEDORES DE APLICACIONES
      • HERRAMIENTAS DE CONSUMO DE DATOS
      • HERRAMIENTAS DE SEGURIDAD Y PRIVACIDAD
    • HADOOP DISTRIBUTED FILE SYSTEM (HDFS)
      • INTRODUCCIÓN
      • ACCESO A HDFS
      • ARQUITECTURAS DE HDFS
      • CLUSTER HADOOP
    • HADOOP MAPREDUCE
    • INTRODUCCIÓN A MAPREDUCE
    • DISTRIBUCIONES HADOOP
      • CLOUDERA
      • MAPR
      • DATASTAX
      • HORTONWORKS
    • CONCLUSIONES
  • CAPÍTULO 9. PROCESAMIENTO DISTRIBUÍDO CON APACHE SPARK
    • INTRODUCCIÓN
    • INTRODUCCIÓN AL PROCESAMIENTO DISTRIBUÍDO
    • INTRODUCCIÓN A APACHE SPARK
      • CARACTERÍSTICAS DE SPARK
      • LENGUAJES SOPORTADOS
    • ECOSISTEMA DE APACHE SPARK
    • VENTAJAS DE APACHE SPARK
    • ARQUITECTURA DE APACHE SPARK
      • CLUSTER DE APACHE SPARK
    • RDD (RESILIENT DISTRIBUTED DATASETS)
      • TRANSFORMACIONES DE UN RDD
      • ACCIONES DE UN RDD
      • PERSISTENCIA DE UN RDD
    • SPARK CON SCALA
    • SPARK PARA CIENTÍFICO DE DATOS
  • CAPÍTULO 10. PYSPARK COMO LIBRERÍA DE PROCESAMIENTO DISTRIBUÍDO
    • INSTALACIÓN DE APACHE SPARK
    • INTRODUCCIÓN A DOCKER
      • COMANDOS ÚTILES DE DOCKER
    • INSTALAR Y EJECUTAR PYSPARK CON DOCKER
    • API DE SPARK EN PYTHON
    • INTRODUCCIÓN A PYSPARK
      • DATASETS Y RDD CON PYSPARK
      • CREANDO UN RDD CON PYSPARK
      • OPERACIONES SOBRE UN RDD
      • ACCIONES SOBRE UN RDD
      • TRANSFORMACIONES SOBRE UN RDD
      • OTROS ELEMENTOS DE SPARK CORE
    • MAPREDUCE A PYSPARK
      • MODELO DE PROGRAMACIÓN
      • CONTADOR DE PALABRAS CON PYSPARK
      • PALABRAS MÁS FRECUENTES DE UN TEXTO
    • TRABAJANDO CON SPARK SQL Y DATAFRAMES
      • LECTURA DE FICHEROS CSV CON PYSPARK
    • SPARK STREAMING
  • CAPÍTULO 11. ENTORNOS DE EJECUCIÓN SPARK
    • INTRODUCCIÓN
    • FINDSPARK
    • DATABRICKS:INTRODUCCIÓN A SPARK EN LA NUBE
      • CARACTERÍSTICAS DE DATABRICKS
      • DATABRICKS COMMUNITY
    • APACHE ZEPPELIN
  • CAPÍTULO 12. MLLIB COMO MÓDULO DE MACHINE LEARNING
    • INTRODUCCIÓN
    • REGRESIÓN LINEAL CON PYSPARK
    • CLUSTERING CON PYSPARK
    • CLASIFICACIÓN MENSAJES SPAM CON PYSPARK
  • CAPÍTULO 13. SISTEMAS DE RECOMENDACIÓN
    • INTRODUCCIÓN
    • TIPOS DE SISTEMAS DE RECOMENDACIÓN
      • MODELOS HÍBRIDOS
    • FILTRADO BASADO EN CONTENIDO
      • EXTRACCIÓN DE ATRIBUTOS DE UN DOCUMENTO
    • FILTRADO COLABORATIVO
      • CONCEPTO DE SIMILITUD EN SISTEMAS DE RECOMENDACIÓN
    • SISTEMA DE RECOMENDACIÓN DE PELÍCULAS
  • MATERIAL ADICIONAL

SUBSCRIBE TO OUR NEWSLETTER

By subscribing, you accept our Privacy Policy