Random Acts of Pizza Classification

A machine learning project to predict which Reddit requests for free pizza result in a positive or negative response.

📋 Project Overview

This project uses natural language processing and machine learning to analyze and classify pizza requests from the Reddit community r/RandomActsOfPizza. The goal is to predict whether a request will receive a pizza based on various features including text content, user history, and temporal patterns.

🆕 Modern Updates (2025)

This codebase has been modernized with:

Updated Dependencies: All libraries upgraded to Python 3.11+ compatible versions
Modern Python Practices: Type hints, pathlib, f-strings, and PEP 8 compliance
Refactored Code: Object-oriented design with reusable components
Enhanced Models: Added gradient boosting and modern ensemble methods
Improved Feature Engineering: Automated feature extraction pipelines
Better Documentation: Comprehensive docstrings and usage examples

Key Improvements

1. Deprecated Import Updates

✅ pandas.io.json.json_normalize → pd.json_normalize
✅ sklearn.grid_search → sklearn.model_selection
✅ sklearn.cross_validation → sklearn.model_selection

2. Modern ML Methods

Added Gradient Boosting classifiers
Improved feature engineering pipeline
Better cross-validation strategies
Modern sentiment analysis with VADER

3. Code Quality

Removed hardcoded paths - now uses pathlib
Added comprehensive type hints
Refactored repetitive code into reusable classes
Improved variable naming and code organization

🚀 Quick Start

Installation

# Clone the repository
git clone https://github.com/yourusername/Classification-Pizza.git
cd Classification-Pizza

# Create virtual environment
python3 -m venv venv
source venv/bin/activate  # On Windows: venv\Scripts\activate

# Install dependencies
pip install -r requirements.txt

# Download NLTK data (required for text processing)
python -c "import nltk; nltk.download('wordnet'); nltk.download('omw-1.4')"

Basic Usage

Using the Modern Python Module

from pizza_classifier import (
    PizzaDataLoader,
    FeatureEngineering,
    TextPreprocessor,
    PizzaClassifier
)

# Load data
loader = PizzaDataLoader()
train_df, dev_df, test_df = loader.load_data()

# Feature engineering
fe = FeatureEngineering()
train_df = fe.extract_temporal_features(train_df)
train_df = fe.extract_sentiment_features(train_df)
train_df = fe.extract_user_features(train_df)

# Create text corpus
preprocessor = TextPreprocessor()
train_corpus = preprocessor.create_text_corpus(train_df)

# Train classifier
classifier = PizzaClassifier(model_type='random_forest')
classifier.fit(
    train_corpus,
    fe.create_feature_matrix(train_df),
    train_df['requester_received_pizza'].values
)

# Make predictions
predictions = classifier.predict(dev_corpus, dev_features)

Using Legacy Notebooks

The original Jupyter notebooks are preserved in the repository:

Clean_Notebook_Compiled.ipynb - Main analysis notebook
W207_Final_Project_Baseline_v4.ipynb - Baseline models
Learning_Notebook_Compiled.ipynb - Experimental approaches

📊 Results

Our best models achieve:

Random Forest: 83% accuracy, F1-score 0.81, AUC 0.71
Logistic Regression: 74% accuracy, AUC 0.73
Gradient Boosting: 80%+ accuracy with proper tuning

Key findings:

Temporal features (hour, day) are strong predictors
Text features with bigrams perform well
Sentiment analysis provides marginal improvement
Simple models (Logistic Regression) are competitive with complex ensembles

🔍 Code Review Findings

Issues in Original Code

Deprecated Libraries (Fixed ✅)
- Old sklearn imports
- Outdated pandas JSON normalization
- Legacy string formatting
Code Duplication (Fixed ✅)
- Repetitive data preprocessing
- Duplicate model evaluation code
- Multiple similar notebooks
Hardcoded Values (Fixed ✅)
- File paths
- Magic numbers
- Configuration scattered throughout
Missing Best Practices (Fixed ✅)
- No type hints
- Limited error handling
- No virtual environment specification
- Inconsistent naming conventions

📁 Project Structure

Classification-Pizza/
├── data/
│   ├── train.json          # Training data
│   └── test.json           # Test data
├── pizza_classifier.py     # ✨ NEW: Modern implementation
├── requirements.txt        # ✨ NEW: Dependency management
├── README.md              # ✨ UPDATED: This file
├── Clean_Notebook_Compiled.ipynb
├── W207_Final_Project_Baseline_v4.ipynb
└── [Other legacy notebooks...]

🛠️ Technology Stack

Python: 3.11+
ML Frameworks: scikit-learn, XGBoost, LightGBM
NLP: NLTK, VADER Sentiment
Data: pandas, numpy
Visualization: matplotlib, seaborn

📝 Features

Text Features

TF-IDF / Count vectorization
N-gram analysis (unigrams, bigrams, trigrams)
Sentiment scores (VADER)
Text preprocessing and cleaning

Temporal Features

Hour of day
Day of week
Month/seasonality
Weekend indicator

User Features

Account age
Reddit karma (upvotes/downvotes)
Comment/post ratios
Subreddit activity
Previous pizza requests

🎯 Models Implemented

Logistic Regression (L1/L2 regularization)
Random Forest
Naive Bayes
Support Vector Machines
Gradient Boosting
AdaBoost
Ensemble methods

📚 Data

Data is from the Kaggle competition: Random Acts of Pizza

The dataset contains:

4,040 training samples
1,630 test samples
32 features per sample
Binary classification target

Data is located in the /data directory.

🤝 Contributing

This is an educational project. Feel free to fork and experiment!

📄 License

MIT License - see LICENSE file for details

👥 Original Authors

W207 Final Project Team:

Erika Lawrence
Leslie Teo
Jen Jen Chen
Geoff Stirling

🔄 Modernization

Code modernization and updates: 2025

Name		Name	Last commit message	Last commit date
Latest commit History 55 Commits
.ipynb_checkpoints		.ipynb_checkpoints
data		data
.gitignore		.gitignore
Baseline_Jen2.ipynb		Baseline_Jen2.ipynb
Clean_Notebook_Compiled trigrams.ipynb		Clean_Notebook_Compiled trigrams.ipynb
Clean_Notebook_Compiled.ipynb		Clean_Notebook_Compiled.ipynb
LICENSE		LICENSE
Learning_Notebook_Compiled.ipynb		Learning_Notebook_Compiled.ipynb
Modern_Example.ipynb		Modern_Example.ipynb
README.md		README.md
Status_DateTime.ipynb		Status_DateTime.ipynb
W207 Basic Programs LT v2.ipynb		W207 Basic Programs LT v2.ipynb
W207 Final Project_ Random Acts of Pizza.pdf		W207 Final Project_ Random Acts of Pizza.pdf
W207 Module For Basic Tests v1.ipynb		W207 Module For Basic Tests v1.ipynb
W207+FInal+Project(1).ipynb		W207+FInal+Project(1).ipynb
W207_FInal_Project_v3.ipynb		W207_FInal_Project_v3.ipynb
W207_FInal_Project_v4.ipynb		W207_FInal_Project_v4.ipynb
W207_FInal_Project_v5.ipynb		W207_FInal_Project_v5.ipynb
W207_Final_Project_Baseline_v1.ipynb		W207_Final_Project_Baseline_v1.ipynb
W207_Final_Project_Baseline_v2.ipynb		W207_Final_Project_Baseline_v2.ipynb
W207_Final_Project_Baseline_v3.ipynb		W207_Final_Project_Baseline_v3.ipynb
W207_Final_Project_Baseline_v4.ipynb		W207_Final_Project_Baseline_v4.ipynb
W207_Final_Project_Baseline_v4Vader.ipynb		W207_Final_Project_Baseline_v4Vader.ipynb
W207_Final_Project_Erikas_Clean.ipynb		W207_Final_Project_Erikas_Clean.ipynb
pizza_classifier.py		pizza_classifier.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Random Acts of Pizza Classification

📋 Project Overview

🆕 Modern Updates (2025)

Key Improvements

1. Deprecated Import Updates

2. Modern ML Methods

3. Code Quality

🚀 Quick Start

Installation

Basic Usage

Using the Modern Python Module

Using Legacy Notebooks

📊 Results

🔍 Code Review Findings

Issues in Original Code

📁 Project Structure

🛠️ Technology Stack

📝 Features

Text Features

Temporal Features

User Features

🎯 Models Implemented

📚 Data

🤝 Contributing

📄 License

👥 Original Authors

🔄 Modernization

About

Uh oh!

Releases

Packages

Contributors 5

Uh oh!

Languages

License

maynard242/Classification-Pizza

Folders and files

Latest commit

History

Repository files navigation

Random Acts of Pizza Classification

📋 Project Overview

🆕 Modern Updates (2025)

Key Improvements

1. Deprecated Import Updates

2. Modern ML Methods

3. Code Quality

🚀 Quick Start

Installation

Basic Usage

Using the Modern Python Module

Using Legacy Notebooks

📊 Results

🔍 Code Review Findings

Issues in Original Code

📁 Project Structure

🛠️ Technology Stack

📝 Features

Text Features

Temporal Features

User Features

🎯 Models Implemented

📚 Data

🤝 Contributing

📄 License

👥 Original Authors

🔄 Modernization

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 5

Uh oh!

Languages

Packages