LIFineTuned

Paused

App Files Files Community

alexkueck commited on Jun 23, 2023

Commit

ae63b0f

1 Parent(s): 115c7e5

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -0

app.py CHANGED Viewed

@@ -9,6 +9,8 @@ import torch
 from utils import *
 from presets import *
 from transformers import Trainer, TrainingArguments
 #####################################################
 #Hilfsfunktionen für das training
@@ -34,6 +36,15 @@ def group_texts(examples):
     result["labels"] = result["input_ids"].copy()
     return result
 ###################################################################################
@@ -62,8 +73,13 @@ dataset_neu = daten_laden("alexkueck/tis")
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
 print (tokenized_datasets["train"][4])
 #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
 #das macht die map-Funktion und das Attribut batched = True
 #man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
@@ -104,6 +120,8 @@ def trainieren_neu(name):
         model=model,
         args=training_args,
         train_dataset=lm_datasets["train"],
     )
     #trainer ausführen

 from utils import *
 from presets import *
 from transformers import Trainer, TrainingArguments
+import numpy as np
+import evaluate
 #####################################################
 #Hilfsfunktionen für das training
     result["labels"] = result["input_ids"].copy()
     return result
+#Funktion, die der trainer braucht, um das Training zu evaluieren - mit einer Metrik
+def compute_metrics(eval_pred):
+    #Metrik berechnen, um das training messen zu können - wird es besser???
+    metric = evaluate.load("accuracy")
+    logits, labels = eval_pred
+    predictions = np.argmax(logits, axis=-1)
+    #Call compute on metric to calculate the accuracy of your predictions.
+    #Before passing your predictions to compute, you need to convert the predictions to logits (remember all Transformers models return logits):
+    return metric.compute(predictions=predictions, references=labels)
 ###################################################################################
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
+#wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
+#small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
+#small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
 print (tokenized_datasets["train"][4])
 #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
 #das macht die map-Funktion und das Attribut batched = True
 #man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
         model=model,
         args=training_args,
         train_dataset=lm_datasets["train"],
+        eval_dataset=lm_datasets["train"],
+        compute_metrics=compute_metrics,
     )
     #trainer ausführen