Skill: Data Science (Standard)
Propósito
Este skill proporciona directrices para transformar datos crudos en conocimiento accionable, asegurando la integridad, reproducibilidad y claridad del análisis.
Cuándo usar este skill
- •Al realizar un Análisis Exploratorio de Datos (EDA).
- •Al limpiar o preprocesar datasets para modelos o reportes.
- •Al generar visualizaciones estadísticas.
Guía Operativa
1. Validación de Entrada (Sanity Check)
Antes de cualquier análisis, ejecuta el script de validación:
bash
uv run python skills/data-science/scripts/validate_dataset.py --input path/to/dataset.csv
2. Flujo de Limpieza (Cleaning Pipeline)
- •Valores Nulos: Decidir estrategia (imputación, eliminación o marcado) basada en el contexto del negocio.
- •Duplicados: Identificar duplicados lógicos (no solo por hash de fila).
- •Tipado: Asegurar que las columnas numéricas sean
float/inty las fechas seandatetime.
3. Análisis Exploratorio (EDA)
Sigue el template eda_template.py para:
- •Distribuciones de frecuencia.
- •Correlaciones (Pearson/Spearman).
- •Identificación de outliers (Z-score o IQR).
Checklist de Calidad
- • ¿Se han documentado las transformaciones realizadas a los datos?
- • ¿Hay un reporte de calidad inicial (nulos, outliers)?
- • ¿Las visualizaciones tienen títulos, etiquetas de ejes y leyendas claras?
- • ¿El código es reproducible (seed fija para aleatoriedad)?