typescript

// ❌ Bad: Unstructured
console.log(`User ${userId} clicked button ${buttonId}`);

// ✅ Good: Structured
logger.info('Button clicked', {
  userId,
  buttonId,
  timestamp: Date.now(),
  sessionId: ctx.sessionId
});

Log Levels

Level	Usage	Example
ERROR	Something failed, needs attention	Payment failed
WARN	Unexpected but handled	Retry succeeded
INFO	Business events	User logged in
DEBUG	Developer details	Cache hit/miss
TRACE	Verbose internals	Function entry/exit

Correlation IDs

typescript

// Middleware to propagate trace ID
app.use((req, res, next) => {
  req.traceId = req.headers['x-trace-id'] || uuid();
  res.setHeader('x-trace-id', req.traceId);
  next();
});

// Include in all logs
logger.info('Processing request', { traceId: req.traceId, ...data });

Metrics Patterns

The RED Method (Request-focused)

The USE Method (Resource-focused)

Key Metric Types

Golden Signals (SRE)

Distributed Tracing

Span Structure

code

Trace: user-checkout-abc123
├── Span: api-gateway (50ms)
│   ├── Span: auth-service (10ms)
│   └── Span: order-service (35ms)
│       ├── Span: inventory-check (8ms)
│       └── Span: payment-service (20ms)
│           └── Span: database-write (5ms)

Context Propagation

typescript

// OpenTelemetry automatic propagation
import { trace, context, propagation } from '@opentelemetry/api';

// Extract context from incoming request
const ctx = propagation.extract(context.active(), req.headers);

// Create span with parent context
const span = tracer.startSpan('process-order', undefined, ctx);

// Propagate to outgoing request
propagation.inject(context.active(), headers);

OpenTelemetry Setup

Node.js Quick Start

typescript

// tracing.ts - Load FIRST
import { NodeSDK } from '@opentelemetry/sdk-node';
import { getNodeAutoInstrumentations } from '@opentelemetry/auto-instrumentations-node';
import { OTLPTraceExporter } from '@opentelemetry/exporter-trace-otlp-http';

const sdk = new NodeSDK({
  traceExporter: new OTLPTraceExporter({
    url: 'http://localhost:4318/v1/traces',
  }),
  instrumentations: [getNodeAutoInstrumentations()],
});

sdk.start();

.NET Quick Start

csharp

// Program.cs
builder.Services.AddOpenTelemetry()
    .WithTracing(tracing => tracing
        .AddAspNetCoreInstrumentation()
        .AddHttpClientInstrumentation()
        .AddOtlpExporter());

Alerting Strategy

Alert Hierarchy

Alert Anti-Patterns

❌ Alert fatigue — Too many non-actionable alerts ❌ Missing runbook — Alert with no remediation steps ❌ Threshold-only — Alert on static value, not trend ❌ No owner — Alert goes to void

Good Alert Template

yaml

alert: HighErrorRate
expr: sum(rate(http_errors_total[5m])) / sum(rate(http_requests_total[5m])) > 0.05
for: 5m
labels:
  severity: high
  team: backend
annotations:
  summary: "Error rate above 5%"
  runbook: "https://runbooks.example.com/high-error-rate"
  dashboard: "https://grafana.example.com/d/errors"

Dashboard Design

Layout Principles

code

┌─────────────────────────────────────────────────────────┐
│                   SERVICE HEALTH                         │
│  [Status] [Error Rate] [Latency P50] [Latency P99]      │
├─────────────────────────────────────────────────────────┤
│                   TRAFFIC                                │
│  [Requests/sec graph over time]                         │
├─────────────────────────────────────────────────────────┤
│           ERRORS             │        LATENCY           │
│  [Error breakdown by type]   │  [Latency histogram]     │
├─────────────────────────────────────────────────────────┤
│                   RESOURCES                              │
│  [CPU] [Memory] [Disk] [Network]                        │
└─────────────────────────────────────────────────────────┘

Dashboard Hierarchy

Cloud Provider Tools

Azure Application Insights

typescript

// Node.js
import { useAzureMonitor } from '@azure/monitor-opentelemetry';

useAzureMonitor({
  azureMonitorExporterOptions: {
    connectionString: process.env.APPLICATIONINSIGHTS_CONNECTION_STRING
  }
});

VS Code Extension Observability

What to Monitor

Telemetry Implementation

typescript

import * as vscode from 'vscode';

const telemetry = vscode.env.createTelemetryLogger({
  sendEventData(eventName, data) {
    // Send to your telemetry backend
  },
  sendErrorData(error, data) {
    // Send errors with context
  }
});

// Usage
telemetry.logUsage('command.executed', {
  commandId: 'alex.meditate',
  durationMs: 1500
});

Pillar	What	When	Tools
Logs	Discrete events	Debugging, auditing	Winston, Pino, Serilog
Metrics	Aggregated measurements	Alerting, dashboards	Prometheus, CloudWatch
Traces	Request flow across services	Distributed debugging	Jaeger, Zipkin

Type	Use Case	Example
Counter	Cumulative totals	requests_total
Gauge	Current value	temperature, queue_size
Histogram	Value distribution	request_duration_seconds
Summary	Quantiles	response_time_p99

Severity	Response	Example
P1/Critical	Wake someone up	Service down
P2/High	Fix within hours	Error rate > 5%
P3/Medium	Fix within days	Disk 80%
P4/Low	Fix when convenient	Deprecation warning

Cloud	Metrics	Logs	Traces
Azure	Azure Monitor	Log Analytics	App Insights
AWS	CloudWatch	CloudWatch Logs	X-Ray
GCP	Cloud Monitoring	Cloud Logging	Cloud Trace

Metric	Why
Command execution time	User experience
Activation time	Startup performance
Error rates by command	Reliability
Memory usage	Resource efficiency
API call latency	External dependencies

Observability & Monitoring

Observability & Monitoring Skill

The Three Pillars

Logging Best Practices

Structured Logging

Log Levels

Correlation IDs

Metrics Patterns

The RED Method (Request-focused)

The USE Method (Resource-focused)

Key Metric Types

Golden Signals (SRE)

Distributed Tracing

Span Structure

Context Propagation

OpenTelemetry Setup

Node.js Quick Start

.NET Quick Start

Alerting Strategy

Alert Hierarchy

Alert Anti-Patterns

Good Alert Template

Dashboard Design

Layout Principles

Dashboard Hierarchy

Cloud Provider Tools

Azure Application Insights

VS Code Extension Observability

What to Monitor

Telemetry Implementation

Debugging Patterns

Log-Driven Debugging

Trace-Driven Debugging

Metric-Driven Debugging

Implementation Checklist

New Service

Production Readiness

Related Skills