Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -98,7 +98,8 @@ dataset_neu = daten_laden("alexkueck/tis")
|
|
98 |
#############################################
|
99 |
#Vorbereiten für das Training der neuen Daten
|
100 |
#############################################
|
101 |
-
|
|
|
102 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
103 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
104 |
|
@@ -138,6 +139,7 @@ metric = evaluate.load("accuracy") # 3 Arten von gegebener Metrik: f1 oder ro
|
|
138 |
####################################################
|
139 |
#Training
|
140 |
####################################################
|
|
|
141 |
print ("training args")
|
142 |
#Training Args
|
143 |
batch_size = 2
|
@@ -173,6 +175,7 @@ training_args = TrainingArguments(
|
|
173 |
############################################
|
174 |
#def trainieren_neu(name):
|
175 |
#Trainer zusammenstellen
|
|
|
176 |
print ("trainer")
|
177 |
trainer = Trainer(
|
178 |
model=model,
|
@@ -204,11 +207,13 @@ trainer = QuestionAnsweringTrainer(
|
|
204 |
#trainer ausführen
|
205 |
trainer.train()
|
206 |
#Wenn man vom letzten checkpoint aus weiter trainieren möchte: trainer.train(resume_from_checkpoint=True)
|
|
|
207 |
print("trained!!!!!")
|
208 |
|
209 |
|
210 |
##################
|
211 |
#Evaluate the new Model auf evual dataset
|
|
|
212 |
print("Evaluate:")
|
213 |
trainer.evaluate(eval_dataset=lm_datasets["test"])
|
214 |
print("Done Eval")
|
@@ -222,6 +227,7 @@ print("Done Eval")
|
|
222 |
|
223 |
#####################################
|
224 |
#Push to Hub
|
|
|
225 |
print("push to hub")
|
226 |
login(token=os.environ["HF_WRITE_TOKEN"])
|
227 |
trainer.push_to_hub("alexkueck/li-tis-tuned-2")
|
|
|
98 |
#############################################
|
99 |
#Vorbereiten für das Training der neuen Daten
|
100 |
#############################################
|
101 |
+
print ("################################")
|
102 |
+
print("Datenset vorbereiten")
|
103 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
104 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
105 |
|
|
|
139 |
####################################################
|
140 |
#Training
|
141 |
####################################################
|
142 |
+
print ("################################")
|
143 |
print ("training args")
|
144 |
#Training Args
|
145 |
batch_size = 2
|
|
|
175 |
############################################
|
176 |
#def trainieren_neu(name):
|
177 |
#Trainer zusammenstellen
|
178 |
+
print ("################################")
|
179 |
print ("trainer")
|
180 |
trainer = Trainer(
|
181 |
model=model,
|
|
|
207 |
#trainer ausführen
|
208 |
trainer.train()
|
209 |
#Wenn man vom letzten checkpoint aus weiter trainieren möchte: trainer.train(resume_from_checkpoint=True)
|
210 |
+
print ("################################")
|
211 |
print("trained!!!!!")
|
212 |
|
213 |
|
214 |
##################
|
215 |
#Evaluate the new Model auf evual dataset
|
216 |
+
print ("################################")
|
217 |
print("Evaluate:")
|
218 |
trainer.evaluate(eval_dataset=lm_datasets["test"])
|
219 |
print("Done Eval")
|
|
|
227 |
|
228 |
#####################################
|
229 |
#Push to Hub
|
230 |
+
print ("################################")
|
231 |
print("push to hub")
|
232 |
login(token=os.environ["HF_WRITE_TOKEN"])
|
233 |
trainer.push_to_hub("alexkueck/li-tis-tuned-2")
|