Este proyecto corresponde al Módulo 4 del Bootcamp de Ciencia de Datos.
El objetivo fue analizar patrones de rendimiento deportivo, identificar factores que influyen en el éxito de los atletas y realizar predicciones simples a partir de sus características.


🌐 Repositorio


🛠️ Tecnologías usadas

  • Python (Pandas, NumPy, SciPy, Scikit-learn)
  • Seaborn y Matplotlib para visualización
  • Jupyter Notebook / Google Colab

📋 Requerimientos implementados

🔍 Análisis Exploratorio de Datos

  • Carga y revisión de dataset (.head(), .info(), .describe()).
  • Histograma del número de entrenamientos semanales.

📊 Estadística Descriptiva

  • Identificación de tipo de variable en cada columna.
  • Media, mediana y moda de medallas obtenidas.
  • Desviación estándar de altura de atletas.
  • Detección de valores atípicos en el peso con IQR y boxplot.

📈 Análisis de Correlación

  • Correlación de Pearson entre entrenamientos semanales y medallas totales.
  • Gráfico de dispersión: Peso vs Medallas.
  • Interpretación de significancia estadística.

📉 Regresión Lineal

  • Modelo para predecir medallas en función de entrenamientos semanales.
  • Obtención de coeficientes (pendiente e intercepto).
  • Cálculo del R² y análisis del ajuste del modelo.
  • Gráfico de regresión con seaborn.regplot().

📊 Visualizaciones

Algunas de las visualizaciones generadas en este módulo:

  • Figura 1: Histograma de entrenamientos semanales
    Figura 1

  • Figura 2: Boxplot de peso
    Figura 2

  • Figura 3: Gráfico de dispersión (Peso vs Medallas)
    Figura 2

  • Figura 4: Regresión lineal (Entrenamientos vs Medallas)
    Figura 2

  • Figura 5: Matriz de correlación
    Figura 2

  • Figura 6: Boxplot de medallas totales por disciplina deportiva
    Figura 2


🎯 Resultados principales

  • Se observaron distribuciones realistas en entrenamientos, altura y peso de atletas.
  • La relación entre entrenamientos semanales y medallas fue positiva, pero estadísticamente no significativa (Pearson = 0.57, p = 0.18).
  • El modelo de regresión lineal explicó un 32% de la varianza (R² = 0.32), lo que indica que existen otros factores importantes además del entrenamiento.
  • No se detectaron outliers relevantes en la variable peso.
  • Se identificaron patrones de medallas en distintas disciplinas deportivas.