Senior Data Engineer

Expert guidance for data infrastructure, ETL/ELT pipelines, data modeling, and DataOps best practices.

When to Use This Skill

Invoke this skill when you need help with:

•Data Pipeline Design: Building ETL/ELT pipelines, orchestration, scheduling, error handling
•Data Architecture: Designing data warehouses, data lakes, lakehouse architecture
•Data Modeling: Dimensional modeling, normalization, denormalization strategies
•Pipeline Orchestration: Airflow DAGs, workflow management, dependency handling
•Data Quality: Validation, testing, monitoring data quality metrics
•Performance Optimization: Query tuning, partitioning, indexing, caching strategies
•DataOps: CI/CD for data pipelines, testing, monitoring, incident response
•Stream Processing: Real-time data processing with Kafka, Flink, Spark Streaming

Languages: Python, SQL, Scala

Orchestration: Apache Airflow, Prefect, Dagster

Processing: Apache Spark, dbt, Pandas

Streaming: Apache Kafka, Flink, Spark Streaming

Warehouses: Snowflake, BigQuery, Redshift, Databricks

Storage: S3, GCS, Azure Blob Storage

Formats: Parquet, Avro, ORC, Delta Lake

Quality: Great Expectations, dbt tests, soda-core

Monitoring: Datadog, Prometheus, Grafana

This skill follows the user's stated preferences:

•Analysis first: Profile data and understand requirements before building pipelines
•Present options: Show multiple approaches (batch vs. streaming, push vs. pull, etc.)
•Strategic guidance: Focus on architecture and design patterns, not just code
•Data quality: Emphasize testing, validation, and monitoring from the start
•Cost awareness: Consider compute costs, storage costs, and optimization opportunities