# !pip install scikit-learn pandas matplotlib numpy

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import classification_report, roc_auc_score
from sklearn.datasets import fetch_openml
import time

adult = fetch_openml('adult', version=2, as_frame=True)
X = adult.data
y = (adult.target == '>50K').astype(int)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42, stratify=y)
print('train/test:', X_train.shape, X_test.shape)

# YOUR TURN
# Build a preprocessing pipeline (one-hot for categoricals, scale for numerics).
# Fit logistic regression. Report accuracy and AUC.

# YOUR TURN
# For each kernel in {linear, poly, rbf}, grid-search over C and gamma.
# Train on a 20k random subsample of the train set (SVM scales poorly).

# YOUR TURN
# Print: model, training time, AUC. Discuss the trade-off in 200 words.

Lab 2 — SVM with a kernel sweep¶

Setup¶

Adult Census Income (UCI, public)¶

Exercise 1 — Logistic regression baseline¶

Exercise 2 — SVM with three kernels¶

Exercise 3 — Compare time and accuracy¶

Done?¶