Wharton HS Data Science Competition 2026

Team: School:

Project Structure

data/raw/ -> original competition datasets
outputs/tables/ -> generated CSV results
outputs/figures/ -> generated plots
src/ -> analysis scripts

Analysis Pipeline

`run_all.py` Execution Order

part0_dataset_validation.py - Validate schema, ranges, and season structure
part2_game_level.py - Aggregate line data to game-level statistics
part3_league_table.py - Build league standings and team metrics
part4_matchup_model.py - Train playoff matchup prediction model
part5_line_disparity.py - Identify top 10 teams by line disparity
part6_visualization.py - Create line disparity vs strength plot
part8_probability_calibration.py - Evaluate model calibration
part9_line_disparity_robustness.py - Test ranking stability across metrics
part10_model_diagnostics.py - Compare model against baseline
part14_model_stability_uncertainty.py - Extended model comparison + matchup uncertainty
part15_disparity_defadj_error_analysis.py - Defensive adjustment + error pattern analysis
part17_power_rank_improved.py - Final submission-quality power rankings
part16_round1_calibration.py (optional) - Runs only when actual_winner exists in round1_matchup_probs.csv

Additional Utilities

part11_reproducibility_run.py - Clear outputs and regenerate from scratch
part12_final_audit_packager.py - Model audit and form-ready output packaging
part13_interpretability_insights.py - Optional interpretability report
part19_spearman_rank_evaluation.py - Spearman ranking alignment checks

How to Run

Quick Start (All Scripts)

python src/run_all.py

Final Pre-Submission Check

# Clear all outputs and regenerate from scratch
python src/part11_reproducibility_run.py

# Run model audit and generate form-ready files
python src/part12_final_audit_packager.py

Individual Scripts

python src/part0_dataset_validation.py
python src/part2_game_level.py
python src/part3_league_table.py
python src/part4_matchup_model.py
python src/part5_line_disparity.py
python src/part6_visualization.py
python src/part8_probability_calibration.py
python src/part9_line_disparity_robustness.py
python src/part10_model_diagnostics.py
python src/part14_model_stability_uncertainty.py
python src/part15_disparity_defadj_error_analysis.py
python src/part17_power_rank_improved.py
python src/part16_round1_calibration.py
python src/part19_spearman_rank_evaluation.py

Key Outputs

Phase 1 Submission Files

outputs/tables/power_rankings_final.csv - Team power rankings (1-32)
outputs/tables/round1_matchup_probs.csv - Playoff matchup win probabilities
outputs/tables/top10_line_disparity.csv - Top 10 teams by line disparity
outputs/figures/line_disparity_vs_strength.png - Visualization

Form-Ready Files (Part 12)

outputs/tables/power_rank_form_entry.txt - Numbered team list for form entry
outputs/tables/line_disparity_form_entry.txt - Numbered disparity list for form entry
outputs/tables/matchup_probs_form_entry.csv - Matchup predictions with slots

Analysis & Diagnostics

outputs/tables/calibration_table.csv - Model calibration statistics
outputs/tables/line_disparity_robustness.csv - Robustness analysis
outputs/tables/model_vs_baseline_metrics.csv - Model comparison
outputs/tables/cv_model_audit.csv - 5-fold CV model audit
outputs/tables/model_comparison_extended.csv - Extended model comparison (Part 14)
outputs/tables/matchup_uncertainty_extended.csv - Extended matchup uncertainty labels
outputs/tables/line_disparity_def_adj.csv - Defensive-adjusted disparity for all teams
outputs/tables/error_pattern_analysis.csv - Error pattern summary
outputs/tables/matchup_uncertainty_analysis.csv - Playoff matchup uncertainty scores
outputs/tables/confident_error_summary.csv - Confident prediction error patterns
outputs/tables/playoff_team_archetypes.csv - Team classifications by strength/depth
outputs/figures/probability_calibration.png - Calibration plot
outputs/figures/probability_distribution.png - Prediction distribution
outputs/figures/probability_residuals.png - Residual analysis

Reports

outputs/reports/final_audit_report.md - Comprehensive final audit and status
outputs/reports/interpretability_summary.md - Interpretability insights and team archetypes

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
data		data
notebooks		notebooks
src		src
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Wharton HS Data Science Competition 2026

Project Structure

Analysis Pipeline

`run_all.py` Execution Order

Additional Utilities

How to Run

Quick Start (All Scripts)

Final Pre-Submission Check

Individual Scripts

Key Outputs

Phase 1 Submission Files

Form-Ready Files (Part 12)

Analysis & Diagnostics

Reports

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Wharton HS Data Science Competition 2026

Project Structure

Analysis Pipeline

run_all.py Execution Order

Additional Utilities

How to Run

Quick Start (All Scripts)

Final Pre-Submission Check

Individual Scripts

Key Outputs

Phase 1 Submission Files

Form-Ready Files (Part 12)

Analysis & Diagnostics

Reports

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

`run_all.py` Execution Order

Packages