Upload 4 files

Browse files

Files changed (4) hide show

test.py +56 -0
test2.py +74 -0
test3.py +87 -0
test4.py +72 -0

test.py ADDED Viewed

	@@ -0,0 +1,56 @@

+import pandas as pd
+from ucimlrepo import fetch_ucirepo
+from sklearn.model_selection import train_test_split
+from sklearn.ensemble import RandomForestRegressor
+import joblib
+import matplotlib.pyplot as plt
+# 获取数据集
+student_performance = fetch_ucirepo(id=320)
+# 获取特征和目标
+X = student_performance.data.features
+y = student_performance.data.targets
+# 查看特征和目标的前几行
+print(X.head())
+print(y.head())
+# 编码分类变量
+X = pd.get_dummies(X, drop_first=True)
+# 划分训练集和测试集
+X_train, X_test, y_train, y_test = train_test_split(X, y['G3'], test_size=0.2, random_state=42)
+# 创建并训练模型
+model = RandomForestRegressor(n_estimators=100, random_state=42)
+model.fit(X_train, y_train)
+# 保存模型
+model_path = "C:/Users/baby7/Desktop/推理/model_checkpoints/random_forest_model.pkl"
+joblib.dump(model, model_path)
+print(f"模型已保存到 {model_path}")
+# 加载模型
+loaded_model = joblib.load(model_path)
+print("模型已加载")
+# 使用加载的模型进行预测
+y_pred = loaded_model.predict(X_test)  # X_test 是您的测试数据
+print("预测结果:", y_pred)
+# 评估模型性能
+from sklearn.metrics import mean_squared_error
+mse = mean_squared_error(y_test, y_pred)
+print(f'均方误差: {mse:.2f}')
+import matplotlib.pyplot as plt
+plt.scatter(y_test, y_pred)
+plt.xlabel('真实值')
+plt.ylabel('预测值')
+plt.title('真实值与预测值对比')
+plt.plot([0, 20], [0, 20], color='red', linestyle='--')  # 参考线
+plt.show()

test2.py ADDED Viewed

	@@ -0,0 +1,74 @@

+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.metrics import classification_report
+import matplotlib.pyplot as plt
+import seaborn as sns
+# 数据集 URL
+data_url = 'https://archive.ics.uci.edu/static/public/17/data.csv'
+# 加载数据集
+df = pd.read_csv(data_url)
+# 查看数据集的前几行
+print("数据集的前几行：")
+print(df.head())
+# 数据预处理
+# 编码目标变量（将 M 和 B 转换为 1 和 0）
+df['Diagnosis'] = df['Diagnosis'].map({'M': 1, 'B': 0})
+# 特征和目标
+X = df.drop(columns=['ID', 'Diagnosis'])  # 特征
+y = df['Diagnosis']  # 目标
+# 划分训练集和测试集
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
+# 训练模型
+model = RandomForestClassifier(random_state=42)
+model.fit(X_train, y_train)
+# 预测
+y_pred = model.predict(X_test)
+# 输出分类报告
+print("\n分类报告：")
+print(classification_report(y_test, y_pred))
+# 可视化特征重要性
+feature_importances = model.feature_importances_
+features = X.columns
+indices = range(len(features))
+# 创建条形图
+plt.figure(figsize=(12, 6))
+sns.barplot(x=feature_importances, y=features)
+plt.title('特征重要性')
+plt.xlabel('重要性')
+plt.ylabel('特征')
+plt.show()
+####################################################################
+from ucimlrepo import fetch_ucirepo
+# fetch dataset
+breast_cancer_wisconsin_diagnostic = fetch_ucirepo(id=17)
+# data (as pandas dataframes)
+X = breast_cancer_wisconsin_diagnostic.data.features
+y = breast_cancer_wisconsin_diagnostic.data.targets
+# metadata
+print(breast_cancer_wisconsin_diagnostic.metadata)
+# variable information
+print(breast_cancer_wisconsin_diagnostic.variables)
+##################################################################
+#       0       0.96      0.99      0.97        71
+#       1       0.98      0.93      0.95        43
+#accuracy                           0.96       114

test3.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.metrics import classification_report, confusion_matrix
+import matplotlib.pyplot as plt
+import seaborn as sns
+# 数据集 URL
+data_url = 'https://archive.ics.uci.edu/static/public/15/data.csv'
+# 加载数据集
+df = pd.read_csv(data_url)
+# 查看数据集的前几行
+print("数据集的前几行：")
+print(df.head())
+# 数据预处理
+# 处理缺失值（将 '?' 替换为 NaN）
+df['Bare_nuclei'] = df['Bare_nuclei'].replace('?', None).astype(float)  # 将 '?' 替换为 None
+df = df.dropna()  # 删除含有缺失值的行
+# 编码目标变量（将 2 和 4 转换为 0 和 1）
+df['Class'] = df['Class'].map({2: 0, 4: 1})
+# 特征和目标
+X = df.drop(columns=['Sample_code_number', 'Class'])  # 特征
+y = df['Class']  # 目标
+# 划分训练集和测试集
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
+# 训练模型
+model = RandomForestClassifier(random_state=42)
+model.fit(X_train, y_train)
+# 预测
+y_pred = model.predict(X_test)
+# 输出分类报告
+print("\n分类报告：")
+print(classification_report(y_test, y_pred))
+# 可视化混淆矩阵
+cm = confusion_matrix(y_test, y_pred)
+plt.figure(figsize=(8, 6))
+sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Benign', 'Malignant'], yticklabels=['Benign', 'Malignant'])
+plt.ylabel('Actual')
+plt.xlabel('Predicted')
+plt.title('Confusion Matrix')
+plt.show()
+# 可视化特征重要性
+feature_importances = model.feature_importances_
+features = X.columns
+indices = range(len(features))
+# 创建条形图
+plt.figure(figsize=(12, 6))
+sns.barplot(x=feature_importances, y=features)
+plt.title('Feature Importance')
+plt.xlabel('Importance')
+plt.ylabel('Feature')
+plt.show()
+###############################################
+from ucimlrepo import fetch_ucirepo
+# fetch dataset
+breast_cancer_wisconsin_original = fetch_ucirepo(id=15)
+# data (as pandas dataframes)
+X = breast_cancer_wisconsin_original.data.features
+y = breast_cancer_wisconsin_original.data.targets
+# metadata
+print(breast_cancer_wisconsin_original.metadata)
+# variable information
+print(breast_cancer_wisconsin_original.variables)
+##########################################################
+#       0       0.93      0.99      0.96        79
+#       1       0.98      0.90      0.94        58
+#accuracy                           0.95       137

test4.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.metrics import classification_report, confusion_matrix
+from sklearn.feature_extraction.text import TfidfVectorizer
+import matplotlib.pyplot as plt
+import seaborn as sns
+# 数据集 URL
+data_url = 'https://archive.ics.uci.edu/static/public/591/data.csv'
+# 加载数据集
+df = pd.read_csv(data_url)
+# 查看数据集的前几行
+print("数据集的前几行：")
+print(df.head())
+# 数据预处理
+# 将 Gender 列中的 M 和 F 转换为 1 和 0
+df['Gender'] = df['Gender'].map({'M': 1, 'F': 0})
+# 特征和目标
+X = df[['Name', 'Count', 'Probability']]  # 特征
+y = df['Gender']  # 目标
+# 使用 TfidfVectorizer 对 Name 特征进行处理
+vectorizer = TfidfVectorizer()
+X_name = vectorizer.fit_transform(X['Name'])
+# 将 Count 和 Probability 特征与 Name 特征合并
+import scipy
+X_combined = scipy.sparse.hstack((X_name, X[['Count', 'Probability']].values))
+# 划分训练集和测试集
+X_train, X_test, y_train, y_test = train_test_split(X_combined, y, test_size=0.2, random_state=42)
+# 训练模型
+model = RandomForestClassifier(random_state=42)
+model.fit(X_train, y_train)
+# 预测
+y_pred = model.predict(X_test)
+# 输出分类报告
+print("\n分类报告：")
+print(classification_report(y_test, y_pred))
+# 可视化混淆矩阵
+cm = confusion_matrix(y_test, y_pred)
+plt.figure(figsize=(8, 6))
+sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Female', 'Male'], yticklabels=['Female', 'Male'])
+plt.ylabel('Actual')
+plt.xlabel('Predicted')
+plt.title('Confusion Matrix')
+plt.show()
+#############################################
+from ucimlrepo import fetch_ucirepo
+# fetch dataset
+gender_by_name = fetch_ucirepo(id=591)
+# data (as pandas dataframes)
+X = gender_by_name.data.features
+y = gender_by_name.data.targets
+# metadata
+print(gender_by_name.metadata)
+# variable information
+print(gender_by_name.variables)