Команда: analyze [файл.csv] или run eda [файл.csv]
Назначение: Запустить автоматический EDA для датасета
Шаги:
- •Загрузить датасет (sampling, если > 10MB)
- •Выполнить базовую статистику:
- •df.info(), df.describe()
- •Проверка на пропуски, дубликаты
- •Распределение целевой переменной
- •Сгенерировать отчёт в docs/data_analysis/[файл]eda[дата].md
- •Если необходимы графики — создать plots/[файл]/
- •Показать краткие выводы
Пример:
analyze Nero_train_labeled.csv Загружаю sample (1000 строк из 50000)... ✅ Нет пропущенных значений ✅ Нет дубликатов ⚠️ Дисбаланс классов: 65% класс 0, 35% класс 1 Отчёт сохранён: docs/data_analysis/Nero_train_labeled_eda_2026-02-10.md