Temario
El curso de ciencia de datos se divide en 4 temas:
1. Introducción
Presentación del curso y de la forma de trabajo.
Presentación de conceptos básicos (ciencia de datos, machine learning, inteligencia artificial, diferentes roles en la industria y sus diferencias, data scientist, data engineer, otros).
2. Conceptos de Probabilidad y Estadística
Este módulo incluye los siguientes temas en matemáticas y estadísticas para ciencia de datos:
Definición de Vector y Matriz, incluyendo matrices identidad, matrices diagonal, multiplicación de vectores y matrices, inversa, transpuesta, traza, determinante, rango y norma.
Axiomas de probabilidad, probabilidades condicionales, regla de multiplicación, teorema de probabilidad total y regla de Bayes.
Variables aleatorias, incluyendo discretas, continuas y diferentes tipos de VA. También se incluye el cálculo de la esperanza, varianza, desviación estándar y covarianza.
Funciones de distribución, incluyendo la media, mediana, moda y cálculo en Python con un dataset.
Distribuciones de probabilidad, incluyendo distribución uniforme y distribución normal.
Definición de hipótesis, hipótesis nula y p-value.
3. Ciencia de Datos
Este módulo abarca los siguientes temas principales:
Extracción de datos: Fuentes de datos, como archivos CSV, JSON, XML, bases de datos relacionales, no relacionales, web scraping y datos abiertos. También se incluyen las consideraciones de privacidad y anonimización de los datos.
Procesamiento de datos: Análisis de la calidad de los datos y tratamiento de datos faltantes.
Big Data: Definición, características, arquitectura y tecnologías relacionadas como Apache Hadoop y Apache Spark.
Visualización de Datos: Características y buenas prácticas para crear visualizaciones efectivas, con ejemplos de buenas y malas visualizaciones.
Además, se profundiza en la utilización de herramientas de visualización de datos, como matplotlib, seaborn, entre otras. Se enseñará también la importancia de utilizar gráficos adecuados para representar los datos y la forma de elegir la representación más adecuada para cada tipo de datos y para cada objetivo.
Al final del módulo, los estudiantes tendrán una comprensión sólida de los conceptos y herramientas de ciencia de datos y serán capaces de aplicarlos en la resolución de problemas reales. Además, se desarrollarán habilidades para la exploración y el análisis de datos, la creación de modelos predictivos, y la toma de decisiones basadas en datos.
4. Machine Learning
Modelado de Datos: En este módulo se aprende a aplicar algoritmos de modelado de datos, como regresión lineal, árboles de decisión, random forest, k-neighbors, entre otros. Se enseñará también cómo elegir el algoritmo adecuado para cada problema y cómo evaluar su rendimiento.
Machine Learning: Este módulo se centra en el aprendizaje automático, con una introducción a los conceptos básicos, como el aprendizaje supervisado, no supervisado y el aprendizaje por refuerzo. También se incluyen técnicas como la validación cruzada y la selección de características.
Aprendizaje profundo: En este módulo se introduce el aprendizaje profundo y las redes neuronales. Se abordarán temas como la arquitectura de las redes neuronales, la backpropagation, y la creación de modelos de aprendizaje profundo utilizando herramientas como TensorFlow y PyTorch.