Training in progress, step 500

Browse files

Files changed (13) hide show

README.md +79 -0
config.json +70 -0
eval_results.json +26 -0
merges.txt +0 -0
model.safetensors +3 -0
predict_results.json +7 -0
special_tokens_map.json +15 -0
tokenizer.json +0 -0
tokenizer_config.json +57 -0
train_results.json +8 -0
trainer_state.json +514 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,79 @@

+---
+license: mit
+base_model: sjlee311/bart-large-cnn-finetuned
+tags:
+- generated_from_trainer
+metrics:
+- rouge
+- precision
+- recall
+- f1
+model-index:
+- name: checkpoint
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# checkpoint
+This model is a fine-tuned version of [sjlee311/bart-large-cnn-finetuned](https://huggingface.co/sjlee311/bart-large-cnn-finetuned) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.3937
+- Rouge1: 40.8383
+- Rouge2: 9.9101
+- Rougel: 21.2025
+- Precision: 86.95
+- Recall: 86.5305
+- F1: 86.7381
+- Hashcode: roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.35.2)
+- Fkgl: 10.01
+- Cloze Score: 17.01
+- Reading Level 13-15: 83
+- Reading Level 16+: 94
+- Reading Level 9-10: 14
+- Reading Level 7-8: 3
+- Reading Level 11-12: 46
+- Reading Level 5-6: 1
+- Reading Level Mode: 16+
+- Summac Val: 0.61
+- Gen Len: 128.0
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- Transformers 4.35.2
+- Pytorch 2.2.2+cu121
+- Datasets 2.19.1
+- Tokenizers 0.15.2

config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "_name_or_path": "facebook/bart-large-cnn",
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "add_final_layer_norm": false,
+  "architectures": [
+    "BartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 1024,
+  "decoder_attention_heads": 16,
+  "decoder_ffn_dim": 4096,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 16,
+  "encoder_ffn_dim": 4096,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 12,
+  "eos_token_id": 2,
+  "force_bos_token_to_be_generated": true,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "length_penalty": 2.0,
+  "max_length": 142,
+  "max_position_embeddings": 1024,
+  "min_length": 56,
+  "model_type": "bart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": false,
+  "num_beams": 4,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "prefix": " ",
+  "scale_embedding": false,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 142,
+      "min_length": 56,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_cache": true,
+  "vocab_size": 50264
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+    "epoch": 2.99,
+    "eval_cloze_score": 17.01,
+    "eval_f1": 86.7381,
+    "eval_fkgl": 10.01,
+    "eval_gen_len": 128.0,
+    "eval_hashcode": "roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.35.2)",
+    "eval_loss": 2.3937041759490967,
+    "eval_precision": 86.95,
+    "eval_reading_level_11-12": 46,
+    "eval_reading_level_13-15": 83,
+    "eval_reading_level_16+": 94,
+    "eval_reading_level_5-6": 1,
+    "eval_reading_level_7-8": 3,
+    "eval_reading_level_9-10": 14,
+    "eval_reading_level_mode": "16+",
+    "eval_recall": 86.5305,
+    "eval_rouge1": 40.8383,
+    "eval_rouge2": 9.9101,
+    "eval_rougeL": 21.2025,
+    "eval_runtime": 355.8584,
+    "eval_samples": 241,
+    "eval_samples_per_second": 0.677,
+    "eval_steps_per_second": 0.171,
+    "eval_summac_val": 0.61
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ff22e5d85378ab9edbb66947b0f8f752943b7084c8b9086d1cc3b7981d9bc87
+size 1625422896

predict_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "predict_runtime": 38.5172,
+    "predict_samples": 142,
+    "predict_samples_per_second": 3.687,
+    "predict_steps_per_second": 0.935,
+    "summac_predict": 0.61
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 1024,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "BartTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.99,
+    "train_loss": 1.5162586585182105,
+    "train_runtime": 753.3958,
+    "train_samples": 4346,
+    "train_samples_per_second": 17.306,
+    "train_steps_per_second": 1.079
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,514 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9917203311867526,
+  "eval_steps": 500,
+  "global_step": 813,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.93849938499385e-05,
+      "loss": 1.7671,
+      "step": 10
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.8769987699877e-05,
+      "loss": 1.7167,
+      "step": 20
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.81549815498155e-05,
+      "loss": 1.7802,
+      "step": 30
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.7539975399754e-05,
+      "loss": 1.7147,
+      "step": 40
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.6924969249692496e-05,
+      "loss": 1.7821,
+      "step": 50
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.6309963099631e-05,
+      "loss": 1.736,
+      "step": 60
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.569495694956949e-05,
+      "loss": 1.7452,
+      "step": 70
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.5079950799507994e-05,
+      "loss": 1.7133,
+      "step": 80
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.4464944649446495e-05,
+      "loss": 1.7226,
+      "step": 90
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.3849938499385e-05,
+      "loss": 1.7183,
+      "step": 100
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.323493234932349e-05,
+      "loss": 1.7213,
+      "step": 110
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.261992619926199e-05,
+      "loss": 1.7129,
+      "step": 120
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.2004920049200495e-05,
+      "loss": 1.7263,
+      "step": 130
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.1389913899138996e-05,
+      "loss": 1.6906,
+      "step": 140
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.077490774907749e-05,
+      "loss": 1.7081,
+      "step": 150
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.015990159901599e-05,
+      "loss": 1.6632,
+      "step": 160
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 3.954489544895449e-05,
+      "loss": 1.7391,
+      "step": 170
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 3.892988929889299e-05,
+      "loss": 1.7226,
+      "step": 180
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 3.831488314883149e-05,
+      "loss": 1.7101,
+      "step": 190
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.769987699876999e-05,
+      "loss": 1.7839,
+      "step": 200
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3.7084870848708486e-05,
+      "loss": 1.7438,
+      "step": 210
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 3.646986469864699e-05,
+      "loss": 1.7511,
+      "step": 220
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.585485854858548e-05,
+      "loss": 1.7076,
+      "step": 230
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3.5239852398523984e-05,
+      "loss": 1.6967,
+      "step": 240
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.4624846248462485e-05,
+      "loss": 1.7217,
+      "step": 250
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.400984009840099e-05,
+      "loss": 1.7106,
+      "step": 260
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.339483394833948e-05,
+      "loss": 1.7438,
+      "step": 270
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.277982779827798e-05,
+      "loss": 1.4464,
+      "step": 280
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 3.2164821648216484e-05,
+      "loss": 1.3142,
+      "step": 290
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3.1549815498154986e-05,
+      "loss": 1.3559,
+      "step": 300
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3.093480934809348e-05,
+      "loss": 1.3662,
+      "step": 310
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3.0319803198031982e-05,
+      "loss": 1.3499,
+      "step": 320
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 2.970479704797048e-05,
+      "loss": 1.3961,
+      "step": 330
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 2.908979089790898e-05,
+      "loss": 1.3712,
+      "step": 340
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 2.8474784747847476e-05,
+      "loss": 1.3994,
+      "step": 350
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 2.7859778597785978e-05,
+      "loss": 1.3919,
+      "step": 360
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.7244772447724476e-05,
+      "loss": 1.3564,
+      "step": 370
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 2.6629766297662977e-05,
+      "loss": 1.3711,
+      "step": 380
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 2.6014760147601475e-05,
+      "loss": 1.3818,
+      "step": 390
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 2.5399753997539977e-05,
+      "loss": 1.4208,
+      "step": 400
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 2.4784747847478475e-05,
+      "loss": 1.4105,
+      "step": 410
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.4169741697416977e-05,
+      "loss": 1.4127,
+      "step": 420
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 2.3554735547355475e-05,
+      "loss": 1.4413,
+      "step": 430
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 2.2939729397293973e-05,
+      "loss": 1.4459,
+      "step": 440
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 2.2324723247232474e-05,
+      "loss": 1.4432,
+      "step": 450
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.1709717097170972e-05,
+      "loss": 1.4724,
+      "step": 460
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.1094710947109474e-05,
+      "loss": 1.4482,
+      "step": 470
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 2.0479704797047972e-05,
+      "loss": 1.4861,
+      "step": 480
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.986469864698647e-05,
+      "loss": 1.4791,
+      "step": 490
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 1.924969249692497e-05,
+      "loss": 1.5557,
+      "step": 500
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.863468634686347e-05,
+      "loss": 1.7621,
+      "step": 510
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.8019680196801968e-05,
+      "loss": 1.7283,
+      "step": 520
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.740467404674047e-05,
+      "loss": 1.7163,
+      "step": 530
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 1.6789667896678967e-05,
+      "loss": 1.6936,
+      "step": 540
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 1.617466174661747e-05,
+      "loss": 1.4864,
+      "step": 550
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 1.5559655596555967e-05,
+      "loss": 1.328,
+      "step": 560
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 1.4944649446494467e-05,
+      "loss": 1.3673,
+      "step": 570
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 1.4329643296432965e-05,
+      "loss": 1.3545,
+      "step": 580
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 1.3714637146371464e-05,
+      "loss": 1.3736,
+      "step": 590
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.3099630996309964e-05,
+      "loss": 1.3618,
+      "step": 600
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.2484624846248464e-05,
+      "loss": 1.3407,
+      "step": 610
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 1.1869618696186962e-05,
+      "loss": 1.3543,
+      "step": 620
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 1.1254612546125462e-05,
+      "loss": 1.3831,
+      "step": 630
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 1.0639606396063962e-05,
+      "loss": 1.3331,
+      "step": 640
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 1.0024600246002461e-05,
+      "loss": 1.3872,
+      "step": 650
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 9.40959409594096e-06,
+      "loss": 1.3579,
+      "step": 660
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 8.79458794587946e-06,
+      "loss": 1.402,
+      "step": 670
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 8.179581795817959e-06,
+      "loss": 1.3763,
+      "step": 680
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 7.564575645756458e-06,
+      "loss": 1.3659,
+      "step": 690
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 6.949569495694958e-06,
+      "loss": 1.3575,
+      "step": 700
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 6.334563345633457e-06,
+      "loss": 1.3666,
+      "step": 710
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 5.7195571955719566e-06,
+      "loss": 1.3642,
+      "step": 720
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 5.1045510455104555e-06,
+      "loss": 1.3613,
+      "step": 730
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.489544895448955e-06,
+      "loss": 1.3673,
+      "step": 740
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 3.874538745387454e-06,
+      "loss": 1.3516,
+      "step": 750
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 3.2595325953259536e-06,
+      "loss": 1.3662,
+      "step": 760
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 2.6445264452644525e-06,
+      "loss": 1.3449,
+      "step": 770
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 2.029520295202952e-06,
+      "loss": 1.3232,
+      "step": 780
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 1.4145141451414515e-06,
+      "loss": 1.3536,
+      "step": 790
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 7.995079950799507e-07,
+      "loss": 1.3384,
+      "step": 800
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 1.845018450184502e-07,
+      "loss": 1.3277,
+      "step": 810
+    },
+    {
+      "epoch": 2.99,
+      "step": 813,
+      "total_flos": 2.818102824586445e+16,
+      "train_loss": 1.5162586585182105,
+      "train_runtime": 753.3958,
+      "train_samples_per_second": 17.306,
+      "train_steps_per_second": 1.079
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 813,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 2.818102824586445e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50ec6ad55ee4ce1e765ca19fc2356f6b0a152a9e4e151a78da816528d03cf01d
+size 4792

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff