Spaces:

Short-Answer-Feedback
/

Leaderboard

Running

App Files Files Community

MCK-02 commited on Jan 26, 2023

Commit

0c47c63

•

1 Parent(s): eb2e963

fix indentations

Browse files

Files changed (1) hide show

app.py +25 -26

app.py CHANGED Viewed

@@ -191,43 +191,42 @@ def get_predictions_labels(model, dataloader):
 def load_data():
-	df = pd.DataFrame(columns=['Model', 'Dataset', 'SacreBLEU', 'ROUGE-2', 'METEOR', 'BERTScore', 'Accuracy', 'Weighted F1', 'Macro F1'])
-	for ds in all_datasets:
-		split = get_split(ds)
-		model = AutoModelForSeq2SeqLM.from_pretrained(get_model(ds))
-		tokenizer = AutoTokenizer.from_pretrained(get_tokenizer(ds))
-		processed_dataset = split.map(
-			preprocess_function,
-			batched=True,
-			remove_columns=split.column_names
-		)
-		processed_dataset.set_format('torch')
-		dataloader = DataLoader(processed_dataset, batch_size=4)
-		predictions, labels = get_predictions_labels(model, dataloader)
-		predicted_feedback = extract_feedback(predictions)
         predicted_labels = extract_labels(predictions)
         reference_feedback = [x.split('Feedback:', 1)[1].strip() for x in labels]
-    	reference_labels = [x.split('Feedback:', 1)[0].strip() for x in labels]
-		rouge_score = rouge.compute(predictions=predicted_feedback, references=reference_feedback)['rouge2']
-		bleu_score = sacrebleu.compute(predictions=predicted_feedback, references=[[x] for x in reference_feedback])['score']
-		meteor_score = meteor.compute(predictions=predicted_feedback, references=reference_feedback)['meteor']
-		bert_score = bertscore.compute(predictions=predicted_feedback, references=reference_feedback, lang='de', model_type='bert-base-multilingual-cased', rescale_with_baseline=True)
-		reference_labels_np = np.array(reference_labels)
-		accuracy_value = accuracy_score(reference_labels_np, predicted_labels)
-		f1_weighted_value = f1_score(reference_labels_np, predicted_labels, average='weighted')
-		f1_macro_value = f1_score(reference_labels_np, predicted_labels, average='macro', labels=['Incorrect', 'Partially correct', 'Correct'])
-		new_row = pd.Dataframe("Model" : get_model(ds), "Dataset" : ds, "SacreBLEU" : bleu_score, "ROUGE-2" : rouge_score, "METEOR" : meteor_score, "BERTScore" : bert_score, "Accuracy" : accuracy_value, "Weighted F1" : f1_weighted_value, "Macro F1": f1_macro_value)
-		df = pd.concat([df, new_row])
     return df
 dataframe = load_data()

 def load_data():
+    df = pd.DataFrame(columns=['Model', 'Dataset', 'SacreBLEU', 'ROUGE-2', 'METEOR', 'BERTScore', 'Accuracy', 'Weighted F1', 'Macro F1'])
+    for ds in all_datasets:
+        split = get_split(ds)
+        model = AutoModelForSeq2SeqLM.from_pretrained(get_model(ds))
+        tokenizer = AutoTokenizer.from_pretrained(get_tokenizer(ds))
+        processed_dataset = split.map(
+            preprocess_function,
+            batched=True,
+            remove_columns=split.column_names
+        )
+        processed_dataset.set_format('torch')
+        dataloader = DataLoader(processed_dataset, batch_size=4)
+        predictions, labels = get_predictions_labels(model, dataloader)
+        predicted_feedback = extract_feedback(predictions)
         predicted_labels = extract_labels(predictions)
         reference_feedback = [x.split('Feedback:', 1)[1].strip() for x in labels]
+        reference_labels = [x.split('Feedback:', 1)[0].strip() for x in labels]
+        rouge_score = rouge.compute(predictions=predicted_feedback, references=reference_feedback)['rouge2']
+        bleu_score = sacrebleu.compute(predictions=predicted_feedback, references=[[x] for x in reference_feedback])['score']
+        meteor_score = meteor.compute(predictions=predicted_feedback, references=reference_feedback)['meteor']
+        bert_score = bertscore.compute(predictions=predicted_feedback, references=reference_feedback, lang='de', model_type='bert-base-multilingual-cased', rescale_with_baseline=True)
+        reference_labels_np = np.array(reference_labels)
+        accuracy_value = accuracy_score(reference_labels_np, predicted_labels)
+        f1_weighted_value = f1_score(reference_labels_np, predicted_labels, average='weighted')
+        f1_macro_value = f1_score(reference_labels_np, predicted_labels, average='macro', labels=['Incorrect', 'Partially correct', 'Correct'])
+        new_row = pd.Dataframe("Model" : get_model(ds), "Dataset" : ds, "SacreBLEU" : bleu_score, "ROUGE-2" : rouge_score, "METEOR" : meteor_score, "BERTScore" : bert_score, "Accuracy" : accuracy_value, "Weighted F1" : f1_weighted_value, "Macro F1": f1_macro_value)
+        df = pd.concat([df, new_row])
     return df
 dataframe = load_data()