Spaces:

omar0scarf
/

arabic-analyzer

Sleeping

App Files Files Community

omar0scarf commited on Jan 18

Commit

6a92f1f

1 Parent(s): 97c4c9c

إضافة ملف التدريب ومكتباته

Browse files

Files changed (2) hide show

requirements.txt +3 -2
train.py +105 -0

requirements.txt CHANGED Viewed

@@ -1,7 +1,8 @@
 transformers==4.35.2
 torch==2.1.1
-gradio==4.7.1
 datasets==2.15.0
-scikit-learn==1.2.2
 numpy==1.26.2
 regex==2023.10.3

 transformers==4.35.2
 torch==2.1.1
+gradio==4.13.0
 datasets==2.15.0
 numpy==1.26.2
 regex==2023.10.3
+scikit-learn==1.3.2
+tensorboard==2.15.1

train.py ADDED Viewed

	@@ -0,0 +1,105 @@

+import torch
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
+from datasets import load_dataset, Dataset
+import numpy as np
+from sklearn.metrics import accuracy_score, precision_recall_fscore_support
+def compute_metrics(pred):
+    labels = pred.label_ids
+    preds = pred.predictions.argmax(-1)
+    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='weighted')
+    acc = accuracy_score(labels, preds)
+    return {
+        'accuracy': acc,
+        'f1': f1,
+        'precision': precision,
+        'recall': recall
+    }
+class ArabicTextTrainer:
+    def __init__(self, model_name="CAMeL-Lab/bert-base-arabic-camelbert-msa", num_labels=3):
+        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
+        self.model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=num_labels)
+        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        self.model.to(self.device)
+    def tokenize_data(self, examples):
+        return self.tokenizer(
+            examples['text'],
+            padding='max_length',
+            truncation=True,
+            max_length=128
+        )
+    def prepare_dataset(self, dataset):
+        tokenized_dataset = dataset.map(self.tokenize_data, batched=True)
+        tokenized_dataset = tokenized_dataset.remove_columns(['text'])
+        tokenized_dataset = tokenized_dataset.rename_column('label', 'labels')
+        tokenized_dataset.set_format('torch')
+        return tokenized_dataset
+    def train(self, train_dataset, eval_dataset=None, output_dir="./results", num_train_epochs=3):
+        training_args = TrainingArguments(
+            output_dir=output_dir,
+            num_train_epochs=num_train_epochs,
+            per_device_train_batch_size=16,
+            per_device_eval_batch_size=16,
+            warmup_steps=500,
+            weight_decay=0.01,
+            logging_dir='./logs',
+            logging_steps=10,
+            evaluation_strategy="epoch" if eval_dataset else "no",
+            save_strategy="epoch",
+            load_best_model_at_end=True if eval_dataset else False,
+        )
+        trainer = Trainer(
+            model=self.model,
+            args=training_args,
+            train_dataset=train_dataset,
+            eval_dataset=eval_dataset,
+            compute_metrics=compute_metrics,
+        )
+        print("بدء التدريب...")
+        trainer.train()
+        if eval_dataset:
+            print("تقييم النموذج...")
+            results = trainer.evaluate()
+            print(f"نتائج التقييم: {results}")
+        print("حفظ النموذج...")
+        self.model.save_pretrained(output_dir)
+        self.tokenizer.save_pretrained(output_dir)
+        print("تم حفظ النموذج بنجاح!")
+def main():
+    # مثال على كيفية استخدام المدرب
+    # يمكنك تغيير مجموعة البيانات حسب احتياجاتك
+    print("تحميل مجموعة البيانات...")
+    # مثال على تحميل مجموعة بيانات من Hugging Face
+    # dataset = load_dataset("arabic_dataset_name")
+    # أو إنشاء مجموعة بيانات من قائمة
+    example_data = {
+        'text': ["نص إيجابي", "نص محايد", "نص سلبي"],
+        'label': [2, 1, 0]  # 2: إيجابي، 1: محايد، 0: سلبي
+    }
+    dataset = Dataset.from_dict(example_data)
+    # تقسيم البيانات إلى مجموعتي تدريب واختبار
+    dataset = dataset.train_test_split(test_size=0.2)
+    trainer = ArabicTextTrainer()
+    # تجهيز البيانات
+    train_dataset = trainer.prepare_dataset(dataset['train'])
+    eval_dataset = trainer.prepare_dataset(dataset['test'])
+    # بدء التدريب
+    trainer.train(train_dataset, eval_dataset)
+if __name__ == "__main__":
+    main()