Big data, machine learning y data science en python

Author: Ortega Candel, José Manuel
Publisher: Rama Editorial
ISBN: 9788419444585
eISBN Pdf: 9788419444592
Place of publication: Madrid , Spain
Year of publication: 2023
Pages: 408

Caption

El libro está dirigido aquellos lectores que estén trabajando en proyecto relacionados con big data y busquen identificar las características de una solución de Big Data, los datos asociados a estas soluciones, la infraestructura requerida, y las técnicas de procesamiento de esos datos. Entre los principales objetivos podemos destacar: • Introducir los conceptos de ciencias de datos y machine learning. • Introducir las principales librerías que podemos encontrar en Python para aplicar técnicas de machine learning a los datos. • Dar a conocer los pasos para construir un modelo de machine learning, desde la adquisición de datos, pasando por la generación de funciones, hasta la selección de modelos. • Dar a conocer los principales algoritmos para resolver problemas de machine learning. • Introducir scikitlearn como herramienta para resolver problemas de machine learning. • Introducir pyspark como herramienta para aplicar técnicas de big data y mapreduce. • Introducir los sistemas de recomendación basados en contenidos. El libro trata de seguir un enfoque teóricopráctico con el objetivo de afianzar los conocimientos mediante la creación y ejecución de scripts desde la consola de Python. Además, complementa los contenidos con un repositorio alojado en el Material Adicional donde se pueden encontrar los ejemplos que se analizan a lo largo del libro para facilitar al lector las pruebas y asimilación de los contenidos teóricos. Desde la web del libro podrá descargar los ejemplos y ejercicios que se desarrollan en el libro lo que facilitara al lector a asimilar lo aprendido.

OBJETIVOS
CAPÍTULO 1. INTRODUCCIÓN A BIG DATA
- INTRODUCCIÓN
- DEFINICIÓN DE BIG DATA
- TIPOS DE DATOS
- CARACTERÍSTICAS DE BIG DATA
- DESAFÍOS DE BIG DATA
- TECNOLOGÍAS PARA BIG DATA
- PERFILES BIG DATA
  - DIRECCIÓN DE DATOS(CHIEF DATA OFFICER-CDO)
  - CIENTÍFICO DE DATOS(DATA SCIENTIST)
  - ANALISTA DE DATOS(DATA ANALYST)
  - INGENIERIO DE DATOS(DATA ENGINEER)
  - ARQUITECTO DE DATOS(DATA ARCHITECT)
  - GESTOR DE DATOS(DATA MANAGER)
  - CIUDADANO CIENTÍFICO DE DATOS(CITIZEN DATA SCIENTIST)
  - ADMINISTRADOR DE DATOS( DATA STEWARD)
  - TABLA COMPARATIVA
- BIG DATA ANALYTICS
CAPÍTULO 2. ARQUITECTURAS BIG DATA
- INTRODUCCIÓN
- ACTORES PRINCIPALES EN UNA ARQUITECTURA BIG DATA
  - SISTEMA DE ORQUESTACIÓN
  - PROVEEDOR DE DATOS
  - PROVEEDOR DE APLICACIONES BIG DATA
  - PROVEEDOR DE INFRAESTRUCTURA BIG DATA
  - CONSUMIDOR DE DATOS
  - CAPA DE SEGURIDAD Y PRIVACIDAD
  - CAPA DE GESTIÓN
- TIPOS DE ARQUITECTURAS
  - PROCESAMIENTO BATCH
  - PROCESAMIENTO STREAMING
  - PROCESAMIENTO MAPREDUCE
- ARQUITECTURA LAMBDA
- ARQUITECTURA KAPPA
- APACHE KAFKA
- ARQUITECTURA POR CAPAS
- CASOS DE USO DE ARQUITECTURAS BIG DATA
  - AUTOMÓVILES EN UN MUNDO DE STREAMING
  - CONSTRUYENDO UN SISTEMA DE LINAJE DE DATOS
  - WOLFRAM LANGUAGE
- BIG DATA LANDSCAPE
- HERRAMIENTA PARA EL ANÁLISIS DE DATOS MASIVOS
- CONCLUSIONES
CAPÍTULO 3. BASES DE DATOS PARA BIG DATA
- INTRODUCCIÓN
- COMPARACIÓN SQL vs NOSQL
- BASES DE DATOS NOSQL
- VENTAJAS DE LAS BASES DE DATOS NOSQL
- TIPOS DE BASES DE DATOS NOSQL
- IMPLANTANDO NOSQL
- BASES DE DATOS DOCUMENTALES
  - CASOS DE USO BASES DE DATOS DOCUMENTALES
  - MONGODB
  - INDEXACIÓN EN MONGODB
  - REPLICACIÓN EN MONGODB
  - USO DE MONGODB DESDE PYTHON
  - COUCHDB
  - ARQUITECTURA DE COUCHDB
- BASES DE DATOS ORIENTADAS A COLUMNAS
  - APACHE CASSANDRA
  - CONSISTENCIA EN APACHE CASSANDRA
  - CASOS DE USO
- BASES DE DATOS CLAVE-VALOR(KEY-VALUE)
  - REDIS
- BASES DE DATOS ORIENTADAS A GRAFOS
  - CASOS DE USO BASES DATOS DE GRAFOS
  - NEO4J
- TEOREMA CAP
- CONCLUSIONES NOSQL
CAPÍTULO 4 INTRODUCCIÓN A LA CIENCIA DE DATOS Y MACHINE LEARNING
- DEFINICIÓN DE CIENCIA DE DATOS
- DEFINICIONES DE APRENDIZAJE Y MACHINE LEARNING
- SISTEMAS EXPERTOS
- MINERÍA DE DATOS ( DATA MINING)
  - INTEGRACIÓN Y RECOPILACIÓN DE INFORMACIÓN
  - SELECCIÓN, LIMPIEZA Y TRANSFORMACIÓN DE DATOS
  - TÉCNICAS DE MINERÍA DE DATOS
- INTRODUCCIÓN AL APRENDIZAJE AUTOMÁTICO
- TIPOS DE APRENDIZAJE AUTOMÁTICO
- APRENDIZAJE SUPERVISADO VS NO SUPERVISADO
  - APRENDIZAJE SUPERVISADO:CLASIFICACIÓN Y REGRESIÓN
  - ÁRBOLES DE DECISIÓN
  - ALGORITMO K-NEAREST NEIGHBOR
  - APRENDIZAJE NO SUPERVISADO
- TÉCNICAS DE MACHINE LEARNING
- PROBLEMA DEL SOBREENTRENAMIENTO
  - CÓMO EVITAR EL SOBREENTRENAMIENTO
- FASES PARA ABORDAR UN PROBLEMA DE ML
  - PASOS PARA CONSTRUIR UN MODELO DE ML
  - EVALUACIÓN DE MODELOS
CAPÍTULO 5. TRATAMIENTO DE DATOS CON PYTHON
- JUPYTER NOTEBOOK
- MERCURY
- NUMPY
- SCIPY
- PANDAS
  - ESTRUCTURAS DE DATOS EN PANDAS
  - SERIES
  - DATAFRAMES
  - LECTURA DE UN FICHERO CSV CON PANDAS
  - ALTERNATIVAS A PANDAS
- LECTURA DE UN FICHERO JSON
- LECTURA Y ESCRITURA EN FORMATO PICKLE
CAPÍTULO 6. SCIKIT-LEARN COMO LIBRERÍA DE MACHINE LEARNING
- INTRODUCCIÓN A SCIKIT-LEARN
- DATASETS EN SCIKIT-LEARN
- CARGANDO CONJUNTOS DE DATOS EN SCIKIT-LEARN
  - CONJUNTOS DE DATOS GENERADOS DE FORMA ALEATORIA
- DIVIDIR DATOS DE ENTRENAMIENTO Y TEST
- APRENDIZAJE AUTOMÁTICO CON SCIKIT-LEARN
  - ESTABLECER UNA METODOLOGÍA DE EVALUACIÓN
- REGRESIÓN LINEAL
  - IMPLEMENTACIÓN DE REGRESIÓN LINEAL
  - PREDECIR EL VALOR DEL ALQUILER DE LAS VIVIENDAS
- ALGORITMO DE REGRESIÓN LOGÍSTICA
  - VALIDACIÓN CRUZADA EN SCIKIT-LEARN
  - OBTENER LA MATRIZ DE CONFUSIÓN
- INTRODUCCIÓN A LOS ÁRBOLES DE DECISIÓN
  - ALGORITMO DE ÁRBOLES DE DECISIÓN EN SCIKIT-LEARN
- SVM COMO ALGORITMO DE MÁQUINAS DE VECTORES DE SOPORTE
  - ALGORITMO DE SUPPORT VECTOR MACHINE EN SCIKIT-LEARN
  - OPTIMIZANDO PARÁMETROS CON GRIDSEARCHCV
- KNN COMO ALGORITMO DE CLASIFICACIÓN SUPERVISADA
  - IMPLEMENTACIÓN DE KNEIGHBORSCLASSIFIER
  - RADIUSNEIGHBORSCLASSIFIER
- CLUSTERING Y APRENDIZAJE NO SUPERVISADO
  - APRENDIZAJE NO SUPERVISADO
  - TIPOS DE CLUSTERING Y APLICACIONES
  - K-MEANS COMO ALGORITMO DE CLUSTERING
  - IMPLEMENTACIÓN DE K-MEANS EN SCIKIT-LEARN
  - LIMITACIONES DE K-MEANS
  - MINIBATCHKMEANS
  - AFFINITY PROPAGATION
  - EVALUACIÓN DEL RENDIMIENTO DE KMEANS
  - CONCLUSIONES KMEANS CLUSTERING
- EXTRACCIÓN DE CARACTERÍSTICAS
  - PCA (PRINCIPAL COMPONENT ANALYSIS)
CAPÍTULO 7. REDES NEURONALES ARTIFICIALES
- INTRODUCCIÓN
- PERCEPTRÓN SIMPLE
- PERCEPTRÓN MULTICAPA
- RED NEURONAL RECURRENTE
- RED NEURONAL CONVOLUCIONAL(CNN)
- REDES NEURONALES CON TENSOR FLOW
  - ALGORITMO DE BACKPROPAGATION
  - PLAYGROUND TENSOR FLOW
  - INTRODUCCIÓN A TENSOR FLOW
  - FUNCIONAMIENTO DE TENSOR FLOW
- USO DE LA LIBRERÍA KERAS EN DEEP LEARNING
- USO DE GOOGLE COLAB
- REDES NEURONALES CON SKLEARN
- TABLA COMPARATIVA
CAPÍTULO 8. PLATAFORMA HADOOP
- INTRODUCCIÓN
- HERRAMIENTAS
- SERVICIOS Y HERRAMIENTAS DEL ECOSISTEMA HADOOP
  - HERRAMIENTAS DE ORQUESTACIÓN
  - HERRAMIENTAS DE PROVEEDORES DE DATOS
  - HERRAMIENTAS DE PROVEEDORES DE APLICACIONES
  - HERRAMIENTAS DE CONSUMO DE DATOS
  - HERRAMIENTAS DE SEGURIDAD Y PRIVACIDAD
- HADOOP DISTRIBUTED FILE SYSTEM (HDFS)
  - INTRODUCCIÓN
  - ACCESO A HDFS
  - ARQUITECTURAS DE HDFS
  - CLUSTER HADOOP
- HADOOP MAPREDUCE
- INTRODUCCIÓN A MAPREDUCE
- DISTRIBUCIONES HADOOP
  - CLOUDERA
  - MAPR
  - DATASTAX
  - HORTONWORKS
- CONCLUSIONES
CAPÍTULO 9. PROCESAMIENTO DISTRIBUÍDO CON APACHE SPARK
- INTRODUCCIÓN
- INTRODUCCIÓN AL PROCESAMIENTO DISTRIBUÍDO
- INTRODUCCIÓN A APACHE SPARK
  - CARACTERÍSTICAS DE SPARK
  - LENGUAJES SOPORTADOS
- ECOSISTEMA DE APACHE SPARK
- VENTAJAS DE APACHE SPARK
- ARQUITECTURA DE APACHE SPARK
  - CLUSTER DE APACHE SPARK
- RDD (RESILIENT DISTRIBUTED DATASETS)
  - TRANSFORMACIONES DE UN RDD
  - ACCIONES DE UN RDD
  - PERSISTENCIA DE UN RDD
- SPARK CON SCALA
- SPARK PARA CIENTÍFICO DE DATOS
CAPÍTULO 10. PYSPARK COMO LIBRERÍA DE PROCESAMIENTO DISTRIBUÍDO
- INSTALACIÓN DE APACHE SPARK
- INTRODUCCIÓN A DOCKER
  - COMANDOS ÚTILES DE DOCKER
- INSTALAR Y EJECUTAR PYSPARK CON DOCKER
- API DE SPARK EN PYTHON
- INTRODUCCIÓN A PYSPARK
  - DATASETS Y RDD CON PYSPARK
  - CREANDO UN RDD CON PYSPARK
  - OPERACIONES SOBRE UN RDD
  - ACCIONES SOBRE UN RDD
  - TRANSFORMACIONES SOBRE UN RDD
  - OTROS ELEMENTOS DE SPARK CORE
- MAPREDUCE A PYSPARK
  - MODELO DE PROGRAMACIÓN
  - CONTADOR DE PALABRAS CON PYSPARK
  - PALABRAS MÁS FRECUENTES DE UN TEXTO
- TRABAJANDO CON SPARK SQL Y DATAFRAMES
  - LECTURA DE FICHEROS CSV CON PYSPARK
- SPARK STREAMING
CAPÍTULO 11. ENTORNOS DE EJECUCIÓN SPARK
- INTRODUCCIÓN
- FINDSPARK
- DATABRICKS:INTRODUCCIÓN A SPARK EN LA NUBE
  - CARACTERÍSTICAS DE DATABRICKS
  - DATABRICKS COMMUNITY
- APACHE ZEPPELIN
CAPÍTULO 12. MLLIB COMO MÓDULO DE MACHINE LEARNING
- INTRODUCCIÓN
- REGRESIÓN LINEAL CON PYSPARK
- CLUSTERING CON PYSPARK
- CLASIFICACIÓN MENSAJES SPAM CON PYSPARK
CAPÍTULO 13. SISTEMAS DE RECOMENDACIÓN
- INTRODUCCIÓN
- TIPOS DE SISTEMAS DE RECOMENDACIÓN
  - MODELOS HÍBRIDOS
- FILTRADO BASADO EN CONTENIDO
  - EXTRACCIÓN DE ATRIBUTOS DE UN DOCUMENTO
- FILTRADO COLABORATIVO
  - CONCEPTO DE SIMILITUD EN SISTEMAS DE RECOMENDACIÓN
- SISTEMA DE RECOMENDACIÓN DE PELÍCULAS
MATERIAL ADICIONAL

Subjects

Back

Viewers online

Text
Audio

Download options

Adobe DRM
Loan duration: 21 days
Format: EPUB / PDF

Existing customer

Email

Password

NEW USER

Big data, machine learning y data science en python

Subjects

Viewers online

Download options