Spaces:

WissMah
/

Stroke-predictor-ZAKAAI-project

Sleeping

App Files Files Community

WissMah commited on Aug 22

Commit

fe34a8b

verified ·

1 Parent(s): 8b3f65a

Upload 5 files

Browse files

Files changed (5) hide show

app.py +94 -0
model/stroke_pipeline.joblib +3 -0
model/train_and_save.py +119 -0
static/style.css +11 -0
templates/index.html +128 -0

app.py ADDED Viewed

	@@ -0,0 +1,94 @@

+from flask import Flask, render_template, request, jsonify
+import joblib
+import numpy as np
+import os
+APP_PORT = int(os.getenv("PORT", "8080"))
+app = Flask(__name__)
+MODEL_PATH = os.getenv("MODEL_PATH", "model/stroke_pipeline.joblib")
+# Load model pipeline at startup
+try:
+    pipeline = joblib.load(MODEL_PATH)
+except Exception as e:
+    raise RuntimeError(f"Failed to load model at {MODEL_PATH}: {e}")
+FEATURE_ORDER = [
+    "gender",
+    "age",
+    "hypertension",
+    "heart_disease",
+    "ever_married",
+    "work_type",
+    "Residence_type",
+    "avg_glucose_level",
+    "bmi",
+    "smoking_status",
+]
+# Simple healthcheck
+@app.route("/health", methods=["GET"])
+def health():
+    return jsonify({"status": "ok"}), 200
+@app.route("/", methods=["GET"])
+def index():
+    # Provide default values to make testing easy
+    defaults = {
+        "gender": "Female",
+        "age": 45,
+        "hypertension": 0,
+        "heart_disease": 0,
+        "ever_married": "Yes",
+        "work_type": "Private",
+        "Residence_type": "Urban",
+        "avg_glucose_level": 95.0,
+        "bmi": 28.0,
+        "smoking_status": "never smoked",
+    }
+    return render_template("index.html", defaults=defaults)
+@app.route("/predict", methods=["POST"])
+def predict():
+    try:
+        # Read input either from JSON (API) or form (UI)
+        if request.is_json:
+            payload = request.get_json()
+        else:
+            payload = request.form.to_dict()
+        # Ensure types
+        # Map numeric fields
+        numeric_fields = ["age", "avg_glucose_level", "bmi"]
+        int_fields = ["hypertension", "heart_disease"]
+        for k in numeric_fields:
+            if k in payload:
+                payload[k] = float(payload[k])
+        for k in int_fields:
+            if k in payload:
+                payload[k] = int(payload[k])
+        # Build row in fixed feature order
+        row = [[payload.get(f, None) for f in FEATURE_ORDER]]
+        # Predict proba (stroke = 1)
+        prob = float(pipeline.predict_proba(row)[0][1])
+        pred = int(prob >= 0.5)
+        result = {"stroke_probability": prob, "predicted_label": pred}
+        if request.is_json:
+            return jsonify(result)
+        else:
+            return render_template("index.html", result=result, defaults=payload)
+    except Exception as e:
+        msg = {"error": str(e)}
+        if request.is_json:
+            return jsonify(msg), 400
+        else:
+            return render_template("index.html", error=str(e), defaults=request.form), 400
+if __name__ == "__main__":
+    app.run(host="0.0.0.0", port=APP_PORT, debug=False)

model/stroke_pipeline.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:187a196587db135daceeb725e5ac58d9cc64403e6a88627a19dda8d1b998b857
+size 6903

model/train_and_save.py ADDED Viewed

	@@ -0,0 +1,119 @@

+"""
+Train & save a full sklearn Pipeline for stroke prediction.
+- If ./data/healthcare-dataset-stroke-data.csv exists, trains on it (matching the notebook structure).
+- Otherwise, trains on a synthetic dataset with the same schema.
+Saves: model/stroke_pipeline.joblib
+"""
+from pathlib import Path
+import pandas as pd
+import numpy as np
+import joblib
+from sklearn.compose import ColumnTransformer
+from sklearn.preprocessing import OneHotEncoder, StandardScaler
+from sklearn.impute import SimpleImputer
+from sklearn.linear_model import LogisticRegression
+from sklearn.pipeline import Pipeline
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import classification_report, roc_auc_score
+DATA_PATH = Path("C:\Users\wissa\Downloads\data\stroke-flask-docker\data\healthcare-dataset-stroke-data.csv")
+OUT_PATH = Path("C:\Users\wissa\Downloads\data\stroke-flask-docker\model/stroke_pipeline.joblib")
+OUT_PATH.parent.mkdir(parents=True, exist_ok=True)
+CATEGORICAL = ["gender","ever_married","work_type","Residence_type","smoking_status"]
+NUMERIC = ["age","avg_glucose_level","bmi"]
+BINARY_INT = ["hypertension","heart_disease"]  # keep as numeric ints
+def load_real_or_synthetic():
+    if DATA_PATH.exists():
+        df = pd.read_csv(DATA_PATH)
+        # expected columns from the Kaggle stroke dataset
+        must_have = ["gender","age","hypertension","heart_disease","ever_married",
+                     "work_type","Residence_type","avg_glucose_level","bmi",
+                     "smoking_status","stroke"]
+        missing = set(must_have) - set(df.columns)
+        if missing:
+            raise ValueError(f"Dataset is missing columns: {missing}")
+        # drop id if present
+        df = df[[c for c in df.columns if c in must_have]]
+        return df
+    else:
+        # Synthetic data with the right columns
+        rng = np.random.RandomState(42)
+        N = 2000
+        df = pd.DataFrame({
+            "gender": rng.choice(["Male","Female","Other"], size=N, p=[0.49,0.50,0.01]),
+            "age": rng.randint(1, 90, size=N),
+            "hypertension": rng.binomial(1, 0.15, size=N),
+            "heart_disease": rng.binomial(1, 0.08, size=N),
+            "ever_married": rng.choice(["Yes","No"], size=N, p=[0.7,0.3]),
+            "work_type": rng.choice(["Private","Self-employed","Govt_job","children","Never_worked"], size=N, p=[0.6,0.2,0.18,0.01,0.01]),
+            "Residence_type": rng.choice(["Urban","Rural"], size=N, p=[0.55,0.45]),
+            "avg_glucose_level": rng.normal(100, 30, size=N).clip(50, 300),
+            "bmi": rng.normal(28, 6, size=N).clip(10, 60),
+            "smoking_status": rng.choice(["formerly smoked","never smoked","smokes","Unknown"], size=N, p=[0.2,0.6,0.15,0.05]),
+        })
+        # Fabricate a signal for stroke
+        logit = (
+            0.03*df["age"] +
+            0.02*(df["avg_glucose_level"]-100) +
+            0.05*(df["bmi"]-28) +
+            0.8*df["hypertension"] +
+            0.9*df["heart_disease"] +
+            0.3*(df["ever_married"]=="Yes").astype(int)
+        )
+        prob = 1/(1+np.exp(- (logit-4.0)))  # bias to keep prevalence low
+        df["stroke"] = (rng.rand(len(df)) < prob).astype(int)
+        return df
+def build_pipeline():
+    cat_proc = Pipeline(steps=[
+        ("impute", SimpleImputer(strategy="most_frequent")),
+        ("ohe", OneHotEncoder(handle_unknown="ignore"))
+    ])
+    num_proc = Pipeline(steps=[
+        ("impute", SimpleImputer(strategy="median")),
+        ("scale", StandardScaler())
+    ])
+    # Binary int -> treat as numeric (no scaling needed, but fine to scale)
+    bin_proc = Pipeline(steps=[
+        ("impute", SimpleImputer(strategy="most_frequent")),
+        ("scale", StandardScaler(with_mean=False))  # keep sparse-friendly path
+    ])
+    pre = ColumnTransformer(transformers=[
+        ("cat", cat_proc, CATEGORICAL),
+        ("num", num_proc, NUMERIC),
+        ("bin", bin_proc, BINARY_INT),
+    ])
+    clf = LogisticRegression(max_iter=1000, n_jobs=None)
+    pipeline = Pipeline([("pre", pre), ("clf", clf)])
+    return pipeline
+def main():
+    df = load_real_or_synthetic()
+    X = df.drop(columns=["stroke"])
+    y = df["stroke"].astype(int)
+    X_train, X_test, y_train, y_test = train_test_split(
+        X, y, test_size=0.2, random_state=42, stratify=y
+    )
+    pipeline = build_pipeline()
+    pipeline.fit(X_train, y_train)
+    y_prob = pipeline.predict_proba(X_test)[:,1]
+    y_pred = (y_prob >= 0.5).astype(int)
+    print("AUC:", roc_auc_score(y_test, y_prob))
+    print("Report:\n", classification_report(y_test, y_pred))
+    joblib.dump(pipeline, OUT_PATH)
+    print(f"Saved pipeline to {OUT_PATH.resolve()}")
+if __name__ == "__main__":
+    main()

static/style.css ADDED Viewed

	@@ -0,0 +1,11 @@

+*{box-sizing:border-box}body{font-family:system-ui,-apple-system,Segoe UI,Roboto,Helvetica,Arial,sans-serif;background:#0b1220;color:#e8eef9;margin:0;padding:2rem}
+.container{max-width:760px;margin:0 auto}
+h1{margin-top:0}
+.card{background:#111a2b;border:1px solid #1e2a44;border-radius:14px;padding:1rem;margin:1rem 0}
+.row{display:flex;gap:1rem;margin:.6rem 0;align-items:center}
+.row label{width:200px}
+input,select,button{padding:.5rem;border-radius:8px;border:1px solid #2a3a5e;background:#0e1626;color:#e8eef9}
+button{cursor:pointer}
+.error{background:#3b0d0d;border:1px solid #7c1919;color:#ffd6d6;border-radius:10px;padding:.75rem;margin-bottom:1rem}
+.result p{margin:.3rem 0}
+.api code, .api pre{display:block;background:#0e1626;border:1px solid #2a3a5e;padding:8px;border-radius:10px;overflow-x:auto}

templates/index.html ADDED Viewed

	@@ -0,0 +1,128 @@

+<!DOCTYPE html>
+<html lang="en">
+<head>
+  <meta charset="UTF-8"/>
+  <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
+  <title>Stroke Risk Predictor</title>
+  <link rel="stylesheet" href="/static/style.css"/>
+</head>
+<body>
+  <div class="container">
+    <h1>💓 Stroke Risk Predictor</h1>
+    <p>Enter patient details and get a predicted stroke probability.</p>
+    {% if error %}
+      <div class="error">{{ error }}</div>
+    {% endif %}
+    <form method="POST" action="/predict" class="card">
+      <div class="row">
+        <label>Gender</label>
+        <select name="gender">
+          {% for g in ["Male","Female","Other"] %}
+            <option value="{{g}}" {% if defaults.gender==g %}selected{% endif %}>{{g}}</option>
+          {% endfor %}
+        </select>
+      </div>
+      <div class="row">
+        <label>Age</label>
+        <input type="number" name="age" step="1" min="0" max="120" value="{{defaults.age}}"/>
+      </div>
+      <div class="row">
+        <label>Hypertension</label>
+        <select name="hypertension">
+          {% for v in [0,1] %}
+            <option value="{{v}}" {% if defaults.hypertension==v %}selected{% endif %}>{{v}}</option>
+          {% endfor %}
+        </select>
+      </div>
+      <div class="row">
+        <label>Heart Disease</label>
+        <select name="heart_disease">
+          {% for v in [0,1] %}
+            <option value="{{v}}" {% if defaults.heart_disease==v %}selected{% endif %}>{{v}}</option>
+          {% endfor %}
+        </select>
+      </div>
+      <div class="row">
+        <label>Ever Married</label>
+        <select name="ever_married">
+          {% for v in ["Yes","No"] %}
+            <option value="{{v}}" {% if defaults.ever_married==v %}selected{% endif %}>{{v}}</option>
+          {% endfor %}
+        </select>
+      </div>
+      <div class="row">
+        <label>Work Type</label>
+        <select name="work_type">
+          {% for v in ["Private","Self-employed","Govt_job","children","Never_worked"] %}
+            <option value="{{v}}" {% if defaults.work_type==v %}selected{% endif %}>{{v}}</option>
+          {% endfor %}
+        </select>
+      </div>
+      <div class="row">
+        <label>Residence Type</label>
+        <select name="Residence_type">
+          {% for v in ["Urban","Rural"] %}
+            <option value="{{v}}" {% if defaults.Residence_type==v %}selected{% endif %}>{{v}}</option>
+          {% endfor %}
+        </select>
+      </div>
+      <div class="row">
+        <label>Avg. Glucose Level</label>
+        <input type="number" name="avg_glucose_level" step="0.01" value="{{defaults.avg_glucose_level}}"/>
+      </div>
+      <div class="row">
+        <label>BMI</label>
+        <input type="number" name="bmi" step="0.1" value="{{defaults.bmi}}"/>
+      </div>
+      <div class="row">
+        <label>Smoking Status</label>
+        <select name="smoking_status">
+          {% for v in ["formerly smoked","never smoked","smokes","Unknown"] %}
+            <option value="{{v}}" {% if defaults.smoking_status==v %}selected{% endif %}>{{v}}</option>
+          {% endfor %}
+        </select>
+      </div>
+      <button type="submit">Predict</button>
+    </form>
+    {% if result %}
+      <div class="result card">
+        <h2>Result</h2>
+        <p><strong>Predicted Stroke Probability:</strong> {{ '%.3f'|format(result.stroke_probability) }}</p>
+        <p><strong>Predicted Label (1 = Stroke):</strong> {{ result.predicted_label }}</p>
+      </div>
+    {% endif %}
+    <div class="api card">
+      <h3>API</h3>
+      <code>POST /predict</code> with JSON:
+      <pre>
+{
+  "gender":"Female",
+  "age":45,
+  "hypertension":0,
+  "heart_disease":0,
+  "ever_married":"Yes",
+  "work_type":"Private",
+  "Residence_type":"Urban",
+  "avg_glucose_level":95.0,
+  "bmi":28.0,
+  "smoking_status":"never smoked"
+}
+      </pre>
+    </div>
+  </div>
+</body>
+</html>