JanSt
/

gbert-base-finetuned-twitter

+import math
+from datasets import Dataset
+from huggingface_hub import login
+from transformers import (
+    TrainingArguments,
+    DataCollatorForLanguageModeling,
+    AutoTokenizer,
+    AutoModelForMaskedLM,
+    Trainer,
+    default_data_collator
+)
+import torch
+import collections
+import numpy as np
+def tokenize_function(examples):
+    result = tokenizer(examples["text"], padding=True, truncation=True)
+    if tokenizer.is_fast:
+        result["word_ids"] = [result.word_ids(i) for i in range(len(result["input_ids"]))]
+    print(f"tokenize function result: {result}")
+    return result
+def group_texts(examples):
+    # Concatenate all texts
+    concatenated_examples = {k: sum(examples[k], []) for k in examples.keys()}
+    # Compute length of concatenated texts
+    total_length = len(concatenated_examples[list(examples.keys())[0]])
+    # We drop the last chunk if it's smaller than chunk_size
+    total_length = (total_length // chunk_size) * chunk_size
+    # Split by chunks of max_len
+    result = {
+        k: [t[i : i + chunk_size] for i in range(0, total_length, chunk_size)]
+        for k, t in concatenated_examples.items()
+    }
+    # Create a new labels column
+    result["topic"] = result["input_ids"].copy()
+    print(f"group texts result: {result}")
+    return result
+def whole_word_masking_data_collator(features):
+    # This means that if you’re using the whole word masking collator,
+    # you’ll also need to set remove_unused_columns=False to ensure
+    # we don’t lose the word_ids column during training.
+    for feature in features:
+        word_ids = feature.pop("word_ids")
+        # Create a map between words and corresponding token indices
+        mapping = collections.defaultdict(list)
+        current_word_index = -1
+        current_word = None
+        for idx, word_id in enumerate(word_ids):
+            if word_id is not None:
+                if word_id != current_word:
+                    current_word = word_id
+                    current_word_index += 1
+                mapping[current_word_index].append(idx)
+        # Randomly mask words
+        mask = np.random.binomial(1, wwm_probability, (len(mapping),))
+        input_ids = feature["input_ids"]
+        labels = feature["labels"]
+        new_labels = [-100] * len(labels)
+        for word_id in np.where(mask)[0]:
+            word_id = word_id.item()
+            for idx in mapping[word_id]:
+                new_labels[idx] = labels[idx]
+                input_ids[idx] = tokenizer.mask_token_id
+        feature["labels"] = new_labels
+    return default_data_collator(features)
+def train_model():
+    batch_size = 64
+    # Show the training loss with every epoch
+    logging_steps = len(tw_dataset["train"]) // batch_size
+    model_name = model_checkpoint.split("/")[-1]
+    training_args = TrainingArguments(
+        output_dir=f"{model_name}-finetuned-twitter",
+        save_total_limit=3,
+        overwrite_output_dir=True,
+        evaluation_strategy="epoch",
+        learning_rate=2e-5,
+        weight_decay=0.01,
+        per_device_train_batch_size=batch_size,
+        per_device_eval_batch_size=batch_size,
+        push_to_hub=True,
+        fp16=False, #True if gpu and 16bit
+        logging_steps=logging_steps,
+        #remove_unused_columns=False,
+    )
+    tw_dataset["train"].set_format("torch", device="cuda")
+    tw_dataset["test"].set_format("torch", device="cuda")
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=tw_dataset["train"],
+        eval_dataset=tw_dataset["test"],
+        data_collator=data_collator,
+        tokenizer=tokenizer,
+    )
+    eval_results = trainer.evaluate()
+    print(f">>> Perplexity: {math.exp(eval_results['eval_loss']):.2f}")
+    trainer.train()
+    eval_results = trainer.evaluate()
+    print(f">>> Perplexity: {math.exp(eval_results['eval_loss']):.2f}")
+    trainer.push_to_hub()
+if __name__ == "__main__":
+    token = "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"
+    login(token=token)
+    model_checkpoint = "deepset/gbert-base"
+    model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)
+    tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
+    tw_dataset = Dataset.from_file('../data/complete_sosec_dataset/data.arrow')
+    tw_dataset = tw_dataset.rename_column('topic', 'labels')
+    #sample dataset
+    #tw_dataset = tw_dataset.train_test_split(
+    #    train_size=1000, test_size=10, seed=42
+    #)
+    print(f"tw_dataset sample: {tw_dataset}")
+    tokenized_datasets = tw_dataset.map(
+        tokenize_function, batched=True,
+        remove_columns=["text", "labels", 'id', 'sentiment', 'annotator', 'comment', 'topic_alt', 'lang',
+                        'conversation_id', 'created_at', 'author_id', 'query', 'public_metrics.like_count',
+                        'public_metrics.quote_count', 'public_metrics.reply_count', 'public_metrics.retweet_count',
+                        'public_metrics.impression_count', '__index_level_0__']
+    )
+    print(f"tokenized_datsets: {tokenized_datasets}")
+    chunk_size = 128
+    lm_datasets = tokenized_datasets.map(group_texts, batched=True)
+    print(f"lm_datasets: {lm_datasets}")
+    tw_dataset = lm_datasets.train_test_split(
+        train_size=0.9, test_size=0.1, seed=42
+    )
+    data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm_probability=0.15)
+    print(f"data collator: {data_collator}")
+    wwm_probability = 0.2
+    train_model()