Spaces:

omar0scarf
/

arabic-analyzer

Sleeping

App Files Files Community

omar0scarf commited on Jan 18

Commit

e391945

1 Parent(s): 6a92f1f

تحديث نظام التدريب لاستخدام مجموعة بيانات اللهجات العربية

Browse files

Files changed (1) hide show

train.py +39 -28

train.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import torch
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
-from datasets import load_dataset, Dataset
 import numpy as np
 from sklearn.metrics import accuracy_score, precision_recall_fscore_support
@@ -16,12 +16,35 @@ def compute_metrics(pred):
         'recall': recall
     }
-class ArabicTextTrainer:
-    def __init__(self, model_name="CAMeL-Lab/bert-base-arabic-camelbert-msa", num_labels=3):
         self.tokenizer = AutoTokenizer.from_pretrained(model_name)
-        self.model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=num_labels)
         self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         self.model.to(self.device)
     def tokenize_data(self, examples):
         return self.tokenizer(
@@ -33,24 +56,26 @@ class ArabicTextTrainer:
     def prepare_dataset(self, dataset):
         tokenized_dataset = dataset.map(self.tokenize_data, batched=True)
-        tokenized_dataset = tokenized_dataset.remove_columns(['text'])
         tokenized_dataset = tokenized_dataset.rename_column('label', 'labels')
         tokenized_dataset.set_format('torch')
         return tokenized_dataset
-    def train(self, train_dataset, eval_dataset=None, output_dir="./results", num_train_epochs=3):
         training_args = TrainingArguments(
             output_dir=output_dir,
             num_train_epochs=num_train_epochs,
-            per_device_train_batch_size=16,
-            per_device_eval_batch_size=16,
             warmup_steps=500,
             weight_decay=0.01,
             logging_dir='./logs',
-            logging_steps=10,
             evaluation_strategy="epoch" if eval_dataset else "no",
             save_strategy="epoch",
             load_best_model_at_end=True if eval_dataset else False,
         )
         trainer = Trainer(
@@ -75,30 +100,16 @@ class ArabicTextTrainer:
         print("تم حفظ النموذج بنجاح!")
 def main():
-    # مثال على كيفية استخدام المدرب
-    # يمكنك تغيير مجموعة البيانات حسب احتياجاتك
     print("تحميل مجموعة البيانات...")
-    # مثال على تحميل مجموعة بيانات من Hugging Face
-    # dataset = load_dataset("arabic_dataset_name")
-    # أو إنشاء مجموعة بيانات من قائمة
-    example_data = {
-        'text': ["نص إيجابي", "نص محايد", "نص سلبي"],
-        'label': [2, 1, 0]  # 2: إيجابي، 1: محايد، 0: سلبي
-    }
-    dataset = Dataset.from_dict(example_data)
-    # تقسيم البيانات إلى مجموعتي تدريب واختبار
-    dataset = dataset.train_test_split(test_size=0.2)
-    trainer = ArabicTextTrainer()
-    # تجهيز البيانات
     train_dataset = trainer.prepare_dataset(dataset['train'])
-    eval_dataset = trainer.prepare_dataset(dataset['test'])
-    # بدء التدريب
     trainer.train(train_dataset, eval_dataset)
 if __name__ == "__main__":

 import torch
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
+from datasets import load_dataset
 import numpy as np
 from sklearn.metrics import accuracy_score, precision_recall_fscore_support
         'recall': recall
     }
+class ArabicDialectTrainer:
+    def __init__(self, model_name="CAMeL-Lab/bert-base-arabic-camelbert-msa"):
         self.tokenizer = AutoTokenizer.from_pretrained(model_name)
+        # 18 فئة للهجات العربية المختلفة
+        self.model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=18)
         self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         self.model.to(self.device)
+        # تعريف تصنيف اللهجات
+        self.dialect_mapping = {
+            0: 'OM',  # عُمان
+            1: 'SD',  # السودان
+            2: 'SA',  # السعودية
+            3: 'KW',  # الكويت
+            4: 'QA',  # قطر
+            5: 'LB',  # لبنان
+            6: 'JO',  # الأردن
+            7: 'SY',  # سوريا
+            8: 'IQ',  # العراق
+            9: 'MA',  # المغرب
+            10: 'EG', # مصر
+            11: 'PL', # فلسطين
+            12: 'YE', # اليمن
+            13: 'BH', # البحرين
+            14: 'DZ', # الجزائر
+            15: 'AE', # الإمارات
+            16: 'TN', # تونس
+            17: 'LY'  # ليبيا
+        }
     def tokenize_data(self, examples):
         return self.tokenizer(
     def prepare_dataset(self, dataset):
         tokenized_dataset = dataset.map(self.tokenize_data, batched=True)
+        tokenized_dataset = tokenized_dataset.remove_columns(['text', 'id'])
         tokenized_dataset = tokenized_dataset.rename_column('label', 'labels')
         tokenized_dataset.set_format('torch')
         return tokenized_dataset
+    def train(self, train_dataset, eval_dataset=None, output_dir="./trained_model", num_train_epochs=3):
+        print("تهيئة معلمات التدريب...")
         training_args = TrainingArguments(
             output_dir=output_dir,
             num_train_epochs=num_train_epochs,
+            per_device_train_batch_size=32,
+            per_device_eval_batch_size=32,
             warmup_steps=500,
             weight_decay=0.01,
             logging_dir='./logs',
+            logging_steps=100,
             evaluation_strategy="epoch" if eval_dataset else "no",
             save_strategy="epoch",
             load_best_model_at_end=True if eval_dataset else False,
+            metric_for_best_model="f1" if eval_dataset else None,
         )
         trainer = Trainer(
         print("تم حفظ النموذج بنجاح!")
 def main():
     print("تحميل مجموعة البيانات...")
+    dataset = load_dataset("Abdelrahman-Rezk/Arabic_Dialect_Identification")
+    trainer = ArabicDialectTrainer()
+    print("تجهيز البيانات للتدريب...")
     train_dataset = trainer.prepare_dataset(dataset['train'])
+    eval_dataset = trainer.prepare_dataset(dataset['validation'])
+    print("بدء عملية التدريب...")
     trainer.train(train_dataset, eval_dataset)
 if __name__ == "__main__":