# !pip install scikit-learn pandas matplotlib numpy

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.calibration import CalibratedClassifierCV, calibration_curve
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, roc_auc_score, brier_score_loss
from sklearn.datasets import fetch_openml

np.random.seed(42)

X, y = fetch_openml('diabetes', version=1, as_frame=True, return_X_y=True)
y = (y == 'tested_positive').astype(int)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
print('train/test:', X_train.shape, X_test.shape)

# YOUR TURN — fit logistic, k-NN, and Naive Bayes. Report accuracy and AUC.

# YOUR TURN — compute Brier scores. Plot reliability diagrams for each.

# YOUR TURN — Wrap the best uncalibrated model in CalibratedClassifierCV.
# Recompute Brier score and AUC.

Lab 1 — Classification on a clinical dataset¶

Setup¶

A diabetes-readmission dataset¶

Exercise 1 — Three baselines¶

Exercise 2 — Calibration¶

Exercise 3 — Calibrated variant¶

Done?¶