Spaces:

yigiao
/

CGS

Sleeping

yigiao commited on 17 days ago

Commit

3f4db92

verified ·

1 Parent(s): f7da1e1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -80,3 +80,36 @@ def show_data():
 # 使用 Gradio 界面显示测试数据
 demo = gr.Interface(fn=show_data, inputs=None, outputs="text", title="数据集测试")
 demo.launch()

 # 使用 Gradio 界面显示测试数据
 demo = gr.Interface(fn=show_data, inputs=None, outputs="text", title="数据集测试")
 demo.launch()
+from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments
+# 加载预训练模型和分词器
+model_name = "gpt2"
+tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")
+model = AutoModelForCausalLM.from_pretrained(model_name)
+# 数据集预处理
+def tokenize_function(examples):
+    return tokenizer(examples["text"], padding="max_length", truncation=True)
+tokenized_datasets = dataset.map(tokenize_function, batched=True)
+# 微调训练参数
+training_args = TrainingArguments(
+    output_dir="./results",
+    evaluation_strategy="epoch",
+    learning_rate=5e-5,
+    per_device_train_batch_size=4,
+    num_train_epochs=3,
+    weight_decay=0.01,
+)
+# 微调
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_datasets["train"],
+    eval_dataset=tokenized_datasets["test"],
+)
+trainer.train()