LIFineTuned

Paused

App Files Files Community

alexkueck commited on Aug 12, 2023

Commit

d663d84

1 Parent(s): b775bb9

Update app.py

Browse files

Files changed (1) hide show

app.py +60 -2

app.py CHANGED Viewed

@@ -80,7 +80,7 @@ login(token=os.environ["HF_ACCESS_TOKEN"])   #for read access!!!!
 #Modelle und Tokenizer
 #Alternativ mit beliebigen Modellen:
-base_model = "project-baize/baize-v2-7b"  #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "TheBloke/airoboros-13B-HF"  #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "EleutherAI/gpt-neo-1.3B"    #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "TheBloke/airoboros-13B-HF"   #load_8bit = True
@@ -91,7 +91,7 @@ base_model = "project-baize/baize-v2-7b"  #load_8bit = False (in load_tokenizer_
 # Load model directly
 #Tokenizer und Model laden
-tokenizer,model,device = load_tokenizer_and_model(base_model,  False)
 #tokenizer.add_special_tokens({'pad_token': '[PAD]'}) #not necessary with fast Toekenizers like GPT2
 #Datensets für Finetuning laden
@@ -147,6 +147,8 @@ print ("training args")
 #Training Args
 batch_size = 2
 training_args = TrainingArguments(
     output_dir="alexkueck/li-tis-tuned-2",
     overwrite_output_dir = 'True',
@@ -174,12 +176,14 @@ training_args = TrainingArguments(
     #load_best_model_at_end=True
     #push_to_hub=True,
 )
 ############################################
 #def trainieren_neu(name):
 #Trainer zusammenstellen
 print ("################################")
 print ("trainer")
 trainer = Trainer(
         model=model,
         args=training_args,
@@ -188,6 +192,7 @@ trainer = Trainer(
         #tokenizer=tokenizer,
         compute_metrics=compute_metrics,
 )
 ###############################################
 #Special QA Trainer...#
@@ -206,6 +211,59 @@ trainer = QuestionAnsweringTrainer(
 '''
 #################################################
 #trainer ausführen
 trainer.train()

 #Modelle und Tokenizer
 #Alternativ mit beliebigen Modellen:
+base_model = "project-baize/baize-v2-7b"  #load_8bit = True (in load_tokenizer_and_model)
 #base_model = "TheBloke/airoboros-13B-HF"  #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "EleutherAI/gpt-neo-1.3B"    #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "TheBloke/airoboros-13B-HF"   #load_8bit = True
 # Load model directly
 #Tokenizer und Model laden
+tokenizer,model,device = load_tokenizer_and_model(base_model,  True)
 #tokenizer.add_special_tokens({'pad_token': '[PAD]'}) #not necessary with fast Toekenizers like GPT2
 #Datensets für Finetuning laden
 #Training Args
 batch_size = 2
+'''
+# Training Argumente setzen (kleinere LLMs)
 training_args = TrainingArguments(
     output_dir="alexkueck/li-tis-tuned-2",
     overwrite_output_dir = 'True',
     #load_best_model_at_end=True
     #push_to_hub=True,
 )
+'''
 ############################################
 #def trainieren_neu(name):
 #Trainer zusammenstellen
 print ("################################")
 print ("trainer")
+'''
 trainer = Trainer(
         model=model,
         args=training_args,
         #tokenizer=tokenizer,
         compute_metrics=compute_metrics,
 )
+'''
 ###############################################
 #Special QA Trainer...#
 '''
 #################################################
+#################################################
+# special Trainer Baize Model
+# Parameters
+MICRO_BATCH_SIZE = int(sys.argv[2])
+BATCH_SIZE = 64
+size = sys.argv[1]
+GRADIENT_ACCUMULATION_STEPS = BATCH_SIZE // MICRO_BATCH_SIZE
+EPOCHS = 1
+LEARNING_RATE = float(sys.argv[3])
+CUTOFF_LEN = 512
+LORA_R = 8
+LORA_ALPHA = 16
+LORA_DROPOUT = 0.05
+VAL_SET_SIZE = 2000
+TARGET_MODULES = [
+    "q_proj",
+    "k_proj",
+    "v_proj",
+    "down_proj",
+    "gate_proj",
+    "up_proj",
+]
+#DATA_PATH = "data/data_tmp.json"
+OUTPUT_DIR = "alexkueck/li-tis-tuned-2"
+trainer = transformers.Trainer(
+    model=model,
+    train_dataset=lm_datasets["train"],
+    eval_dataset=lm_datasets["test"],
+    args=transformers.TrainingArguments(
+        output_dir="alexkueck/li-tis-tuned-2",
+        overwrite_output_dir = 'True',
+        per_device_train_batch_size=MICRO_BATCH_SIZE,
+        per_device_eval_batch_size=MICRO_BATCH_SIZE,
+        gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
+        warmup_steps=100,
+        num_train_epochs=EPOCHS,
+        learning_rate=LEARNING_RATE,
+        fp16=True,
+        logging_steps=20,
+        evaluation_strategy="steps" if VAL_SET_SIZE > 0 else "no",
+        save_strategy="steps",
+        eval_steps=200 if VAL_SET_SIZE > 0 else None,
+        save_steps=200,
+        save_total_limit=100,
+        load_best_model_at_end=True if VAL_SET_SIZE > 0 else False,
+        ddp_find_unused_parameters=False if ddp else None,
+    ),
+    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
+)
+model.config.use_cache = False
 #trainer ausführen
 trainer.train()