Calibration vs. Discrimination Trade-Offs

Overview

In forecasting and prediction, two dimensions of accuracy often trade off against each other: calibration (how well predicted probabilities match actual frequencies) and discrimination (how well predictions distinguish between different outcomes). A well-calibrated forecaster who says "70% chance" should be right 70% of the time. A discriminating forecaster can tell the difference between 30% and 70% events. Optimal performance requires balancing both, but improving one can hurt the other.

Core Concepts

Calibration

Do your probabilities match reality?

•If you say "80% confident" 100 times, are you right ~80 times?
•Measures whether predicted probabilities = actual frequencies
•Overconfidence: Saying 90% when only right 70%
•Underconfidence: Saying 60% when right 80%

Perfect calibration: For all predictions at X%, exactly X% come true.

Discrimination (Resolution)

Can you tell the difference between likely and unlikely events?

•Can you distinguish 90% probability events from 10% events?
•Measures variance in predictions
•High discrimination: Confidently predicts extremes (10%, 90%)
•Low discrimination: Everything clustered around 50% (uninformative)

Perfect discrimination: Always predict 100% for events that happen, 0% for those that don't.

The Trade-Off

Why you can't always have both:

•High discrimination with poor calibration: Overconfident extremes (90% predictions right only 60% of time)
•High calibration with poor discrimination: Safe but uninformative (everything is 50%)
•Sweet spot: Maximally discriminating while maintaining calibration

Execution Steps (Improving Both Dimensions)

1. Measure Current Performance

Calibration:

•Plot predicted probabilities vs. actual outcomes
•Calibration curve should hug the diagonal (45° line)
•Brier score captures both calibration and discrimination

Discrimination:

•Compare variance in predictions
•Area under ROC curve (AUC)
•How often did high-confidence predictions beat low-confidence?

Example: Track predictions over 100 forecasts, plot calibration curve.

2. Identify Bias Direction

•Overconfident: Calibration curve above diagonal (predicted 80%, actual 60%)
•Underconfident: Calibration curve below diagonal (predicted 60%, actual 80%)
•Overly hedged: All predictions near 50% (poor discrimination)

3. Adjust for Calibration

If overconfident:

•Regress toward 50% (moderate extreme predictions)
•Ask "What would make me wrong?"
•Track base rates more carefully

If underconfident:

•Push toward extremes when evidence is strong
•Trust pattern recognition
•Acknowledge uncertainty costs (hedging isn't free)

4. Improve Discrimination

•Seek better information: Distinguish strong vs. weak signals
•Identify drivers: What factors predict different outcomes?
•Decompose questions: Break complex forecasts into sub-components
•Track leading indicators: Early signals that differentiate

Example: Instead of "Will product succeed?" ask "Will it hit X downloads AND Y retention?"

5. Balance the Trade-Off

Extremizing: When aggregating forecasts, push crowd average toward extremes (improves discrimination while maintaining calibration)

Granular confidence: Use 1-99% scale, not just 25/50/75

Context-dependent: High-stakes decisions need calibration; exploratory decisions can tolerate discrimination focus

Anti-Patterns

False Precision: Claiming 73% when you mean "probably" (discrimination theater without calibration)

Perpetual Hedging: Always saying 50-60% to avoid being wrong (good calibration, useless discrimination)

Uncalibrated Extremes: Bold predictions (10%, 90%) without tracking accuracy (discrimination without calibration)

Ignoring Base Rates: Overweighting anecdotes vs. statistical priors (poor calibration)

Quality Indicators

High Signal (Good Balance):

•Brier score < 0.20 (combines calibration + discrimination)
•Calibration curve near diagonal across full probability range
•Predictions vary meaningfully (not clustered at 50%)
•Confidence correlates with accuracy
•Regular scoring and feedback

Low Signal:

•Never track actual outcomes vs. predictions
•All predictions in narrow range (40-60%)
•Wildly overconfident (90% predictions right 50% of time)
•No improvement over time despite feedback

Cross-Domain Applications

Superforecasting

Philip Tetlock's research: Best forecasters balance both dimensions

•Track predictions in prediction markets or tournaments
•Use granular probabilities (not just high/medium/low)
•Update incrementally as new information arrives

Machine Learning

Model evaluation trade-offs:

•Precision vs. recall (similar to calibration vs. discrimination)
•Confidence scores should match actual accuracy
•Platt scaling: Post-hoc calibration of model outputs

Medical Diagnosis

•Discrimination: Can test distinguish sick from healthy?
•Calibration: Does "70% risk" mean 70 out of 100 similar patients?
•Both matter: Wrong treatment OR unnecessary anxiety

Business Forecasting

•Revenue predictions need calibration (for budgeting)
•Opportunity prioritization needs discrimination (which bets to make?)

Related Frameworks

•Brier Score: Combines calibration and discrimination in single metric
•Superforecasting: Tetlock's research on prediction accuracy
•Bayesian Updating: Incremental belief revision improves calibration
•Base Rate Neglect: Ignoring priors hurts calibration
•Extremizing: Aggregation technique that improves discrimination

Scoring (35/50)

•Practitioner Weight (7/10): Core to Tetlock's forecasting research, used in prediction markets
•Clarity (7/10): Concepts clear but measuring them requires statistical knowledge
•Proven ROI (8/10): Superforecasters demonstrably outperform by balancing both
•Novelty (6/10): Statistical concepts applied to forecasting (moderately non-obvious)
•Applicability (7/10): Relevant to forecasting, ML, risk assessment, decision-making

Sources

•Philip Tetlock: Superforecasting (calibration-discrimination trade-offs in expert predictions)
•Philip Tetlock: Expert Political Judgment (foxes vs. hedgehogs, accuracy dimensions)
•Glenn Brier: Verification of forecasts (Brier score)
•Good Judgment Project: Practical forecasting tournament findings
•Nate Silver: The Signal and the Noise (calibration in prediction)