Spaces:

matsammut
/

ICS5110-Applied_ML

Sleeping

App Files Files Community

matsammut commited on 16 days ago

Commit

a963fb1

verified ·

1 Parent(s): 800145c

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -40

app.py CHANGED Viewed

@@ -42,11 +42,6 @@ def predict_rf(age, workclass, education,  occupation,  race, gender, capital_ga
     return "Income >50K" if prediction == 1 else "Income <=50K"
 def predict_hb(age, workclass, education,  occupation,  race, gender, capital_gain, capital_loss, hours_per_week, native_country):
-    # columns = {
-    # "age": [age], "workclass":[workclass], "educational-num":[education], "marital-status":[marital_status], "occupation":[occupation],
-    # "relationship":[relationship], "race":[race], "gender":[gender], "capital-gain":[capital_gain], "capital-loss":[capital_loss],
-    # "hours-per-week":[hours_per_week], "native-country":[native_country]}
     columns = {
     "age": [age], "workclass":[workclass], "educational-num":[education], "occupation":[occupation],
@@ -55,23 +50,23 @@ def predict_hb(age, workclass, education,  occupation,  race, gender, capital_ga
     df = pd.DataFrame(data=columns)
     fixed_features = cleaning_features(df,race,True)
     print(fixed_features)
-    hdb_model = pickle.load(open('hdbscan_model.pkl', 'rb'))
-    prediction = hdb_model.approximate_predict(fixed_features)
-    # scaler = StandardScaler()
-    # X = scaler.fit_transform(fixed_features)
-    # clusterer = hdbscan.HDBSCAN(
-    # min_cluster_size=220,
-    # min_samples=117,
-    # metric='euclidean',
-    # cluster_selection_method='eom',
-    # prediction_data=True,
-    # cluster_selection_epsilon=0.28479667859306007
-    # )
-    # prediction = clusterer.fit_predict(X)
-    # filename = 'hdbscan_model.pkl'
-    # pickle.dump(clusterer, open(filename, 'wb'))
     return f"Predicted Cluster (HDBSCAN): {prediction[-1]}"
@@ -127,19 +122,14 @@ def cleaning_features(data,race,hdbscan):
             data[f'race_{races}'] = 1
         else:
             data[f'race_{races}'] = 0
-    # for N in columns_to_encode:
-    #     race_encoded = encoder.transform(data[[N]])
-    #     race_encoded_cols = encoder.get_feature_names_out([N])
-    #     race_encoded_df = pd.DataFrame(race_encoded, columns=race_encoded_cols, index=data.index)
-    #     # Combine the encoded data with original dataframe
-    #     data = pd.concat([data.drop(N, axis=1), race_encoded_df], axis=1)
     data = data.drop(columns=['race'])
     data = pca(data)
     if(hdbscan):
-        # df_transformed = pd.read_csv('dataset.csv')
-        # X = df_transformed.drop('income', axis=1)
-        # data = pd.concat([X, data], ignore_index=True)
         data['capital-gain'] = np.log1p(data['capital-gain'])
         data['capital-loss'] = np.log1p(data['capital-loss'])
         scaler = joblib.load("robust_scaler.pkl")
@@ -148,17 +138,6 @@ def cleaning_features(data,race,hdbscan):
     return data
-# def pca(data):
-#     encoder = OneHotEncoder(sparse_output=False)
-#     one_hot_encoded = encoder.fit_transform(data[['workclass', 'occupation']])
-#     encoded_columns_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out())
-#     pca_net = PCA(n_components=10)
-#     pca_result_net = pca_net.fit_transform(encoded_columns_df)
-#     pca_columns = [f'pca_component_{i+1}' for i in range(10)]
-#     pca_df = pd.DataFrame(pca_result_net, columns=pca_columns)
-#     data = data.drop(columns=['workclass', 'occupation'], axis=1) #remove the original columns
-#     data = pd.concat([data, pca_df], axis=1)
-#     return data
 def pca(data):

     return "Income >50K" if prediction == 1 else "Income <=50K"
 def predict_hb(age, workclass, education,  occupation,  race, gender, capital_gain, capital_loss, hours_per_week, native_country):
     columns = {
     "age": [age], "workclass":[workclass], "educational-num":[education], "occupation":[occupation],
     df = pd.DataFrame(data=columns)
     fixed_features = cleaning_features(df,race,True)
     print(fixed_features)
+    # hdb_model = pickle.load(open('hdbscan_model.pkl', 'rb'))
+    # prediction = hdb_model.approximate_predict(fixed_features)
+    scaler = StandardScaler()
+    X = scaler.fit_transform(fixed_features)
+    clusterer = hdbscan.HDBSCAN(
+    min_cluster_size=220,
+    min_samples=117,
+    metric='euclidean',
+    cluster_selection_method='eom',
+    prediction_data=True,
+    cluster_selection_epsilon=0.28479667859306007
+    )
+    prediction = clusterer.fit_predict(X)
+    filename = 'hdbscan_model.pkl'
+    pickle.dump(clusterer, open(filename, 'wb'))
     return f"Predicted Cluster (HDBSCAN): {prediction[-1]}"
             data[f'race_{races}'] = 1
         else:
             data[f'race_{races}'] = 0
     data = data.drop(columns=['race'])
     data = pca(data)
     if(hdbscan):
+        df_transformed = pd.read_csv('dataset.csv')
+        X = df_transformed.drop('income', axis=1)
+        data = pd.concat([X, data], ignore_index=True)
         data['capital-gain'] = np.log1p(data['capital-gain'])
         data['capital-loss'] = np.log1p(data['capital-loss'])
         scaler = joblib.load("robust_scaler.pkl")
     return data
 def pca(data):