Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

training_checkpoints/checkpoint-16718/config.json +78 -0
training_checkpoints/checkpoint-16718/model.safetensors +3 -0
training_checkpoints/checkpoint-16718/optimizer.pt +3 -0
training_checkpoints/checkpoint-16718/rng_state.pth +3 -0
training_checkpoints/checkpoint-16718/scheduler.pt +3 -0
training_checkpoints/checkpoint-16718/special_tokens_map.json +19 -0
training_checkpoints/checkpoint-16718/spiece.model +3 -0
training_checkpoints/checkpoint-16718/tokenizer_config.json +94 -0
training_checkpoints/checkpoint-16718/trainer_state.json +789 -0
training_checkpoints/checkpoint-16718/training_args.bin +3 -0

training_checkpoints/checkpoint-16718/config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "_name_or_path": "xlnet/xlnet-base-cased",
+  "architectures": [
+    "XLNetForSequenceClassification"
+  ],
+  "attn_type": "bi",
+  "bi_data": false,
+  "bos_token_id": 1,
+  "clamp_len": -1,
+  "d_head": 64,
+  "d_inner": 3072,
+  "d_model": 768,
+  "dropout": 0.1,
+  "end_n_top": 5,
+  "eos_token_id": 2,
+  "ff_activation": "gelu",
+  "id2label": {
+    "0": "Issue",
+    "1": "Court Discourse",
+    "2": "Conclusion",
+    "3": "Precedent Analysis",
+    "4": "Section Analysis",
+    "5": "Argument by Petitioner",
+    "6": "Fact",
+    "7": "Argument by Respondent",
+    "8": "Ratio",
+    "9": "Appellant",
+    "10": "Respondent",
+    "11": "Argument by Appellant",
+    "12": "Petitioner",
+    "13": "Judge",
+    "14": "Argument by Defendant"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "Appellant": 9,
+    "Argument by Appellant": 11,
+    "Argument by Defendant": 14,
+    "Argument by Petitioner": 5,
+    "Argument by Respondent": 7,
+    "Conclusion": 2,
+    "Court Discourse": 1,
+    "Fact": 6,
+    "Issue": 0,
+    "Judge": 13,
+    "Petitioner": 12,
+    "Precedent Analysis": 3,
+    "Ratio": 8,
+    "Respondent": 10,
+    "Section Analysis": 4
+  },
+  "layer_norm_eps": 1e-12,
+  "mem_len": null,
+  "model_type": "xlnet",
+  "n_head": 12,
+  "n_layer": 12,
+  "pad_token_id": 5,
+  "problem_type": "single_label_classification",
+  "reuse_len": null,
+  "same_length": false,
+  "start_n_top": 5,
+  "summary_activation": "tanh",
+  "summary_last_dropout": 0.1,
+  "summary_type": "last",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 250
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "untie_r": true,
+  "use_mems_eval": true,
+  "use_mems_train": false,
+  "vocab_size": 32000
+}

training_checkpoints/checkpoint-16718/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfb51b12fd9c57c481181a6198b05a720925ad89246b1fb0e95778b457d946db
+size 469304588

training_checkpoints/checkpoint-16718/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fef0264ef02058e2c18e0d4f1f5af0896f9819898c7919dcf2d88789a0a088b
+size 938733178

training_checkpoints/checkpoint-16718/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62c3b7bbe902f2b9854d7f2cc6b72e7cc41ad365b0f2a7bc081473c393864343
+size 14244

training_checkpoints/checkpoint-16718/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3319585773ca9bce2f11496ea0a48568169cfa45d74d849830eb70bad3ab39f1
+size 1064

training_checkpoints/checkpoint-16718/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "additional_special_tokens": [
+    "<eop>",
+    "<eod>"
+  ],
+  "bos_token": "<s>",
+  "cls_token": "<cls>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "<sep>",
+  "unk_token": "<unk>"
+}

training_checkpoints/checkpoint-16718/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f8c1c0bc2854d1af911a8550288c1258af5ba50277f3a5c829b98eb86fc5646
+size 798011

training_checkpoints/checkpoint-16718/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,94 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<cls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<sep>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<eod>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<eop>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<eop>",
+    "<eod>"
+  ],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<cls>",
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "keep_accents": false,
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "remove_space": true,
+  "sep_token": "<sep>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "XLNetTokenizer",
+  "unk_token": "<unk>"
+}

training_checkpoints/checkpoint-16718/trainer_state.json ADDED Viewed

	@@ -0,0 +1,789 @@

+{
+  "best_metric": 0.7813861108366882,
+  "best_model_checkpoint": "xlnet-base-cased/checkpoint-12217",
+  "epoch": 26.0,
+  "eval_steps": 500,
+  "global_step": 16718,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.871695178849145e-05,
+      "loss": 1.2613,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7676219984508134,
+      "eval_f1_macro": 0.4818756771742453,
+      "eval_f1_micro": 0.7676219984508135,
+      "eval_f1_weighted": 0.7524385212708887,
+      "eval_loss": 0.775787353515625,
+      "eval_macro_fpr": 0.022019799606126652,
+      "eval_macro_sensitivity": 0.5128622254580788,
+      "eval_macro_specificity": 0.9823717840367622,
+      "eval_precision": 0.7672637518290021,
+      "eval_precision_macro": 0.5269420024270713,
+      "eval_recall": 0.7676219984508134,
+      "eval_recall_macro": 0.5128622254580788,
+      "eval_runtime": 65.0712,
+      "eval_samples_per_second": 19.84,
+      "eval_steps_per_second": 2.49,
+      "eval_weighted_fpr": 0.021165514321998025,
+      "eval_weighted_sensitivity": 0.7676219984508134,
+      "eval_weighted_specificity": 0.9679547621006213,
+      "step": 643
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 4.7420943494038366e-05,
+      "loss": 0.7364,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8071262587141751,
+      "eval_f1_macro": 0.701878478303997,
+      "eval_f1_micro": 0.8071262587141751,
+      "eval_f1_weighted": 0.8012788916547595,
+      "eval_loss": 0.6754755973815918,
+      "eval_macro_fpr": 0.01739858713969909,
+      "eval_macro_sensitivity": 0.6971761972643127,
+      "eval_macro_specificity": 0.9854830758512745,
+      "eval_precision": 0.8087721671110009,
+      "eval_precision_macro": 0.7425135911700289,
+      "eval_recall": 0.8071262587141751,
+      "eval_recall_macro": 0.6971761972643127,
+      "eval_runtime": 86.774,
+      "eval_samples_per_second": 14.878,
+      "eval_steps_per_second": 1.867,
+      "eval_weighted_fpr": 0.016782368403316036,
+      "eval_weighted_sensitivity": 0.8071262587141751,
+      "eval_weighted_specificity": 0.9751198790549438,
+      "step": 1286
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 4.612493519958528e-05,
+      "loss": 0.6021,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8063516653756778,
+      "eval_f1_macro": 0.722931923188587,
+      "eval_f1_micro": 0.8063516653756778,
+      "eval_f1_weighted": 0.8013697737227732,
+      "eval_loss": 0.8442708253860474,
+      "eval_macro_fpr": 0.01757802934678216,
+      "eval_macro_sensitivity": 0.7262014539622089,
+      "eval_macro_specificity": 0.9852110484486459,
+      "eval_precision": 0.8016312862866737,
+      "eval_precision_macro": 0.7269969408457856,
+      "eval_recall": 0.8063516653756778,
+      "eval_recall_macro": 0.7262014539622089,
+      "eval_runtime": 89.8454,
+      "eval_samples_per_second": 14.369,
+      "eval_steps_per_second": 1.803,
+      "eval_weighted_fpr": 0.01686454398273071,
+      "eval_weighted_sensitivity": 0.8063516653756778,
+      "eval_weighted_specificity": 0.9718140613540133,
+      "step": 1929
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 4.4828926905132196e-05,
+      "loss": 0.5435,
+      "step": 2000
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 4.353551062726802e-05,
+      "loss": 0.4361,
+      "step": 2500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8001549186676995,
+      "eval_f1_macro": 0.7051095861561788,
+      "eval_f1_micro": 0.8001549186676995,
+      "eval_f1_weighted": 0.7970808578587494,
+      "eval_loss": 0.8849796056747437,
+      "eval_macro_fpr": 0.017973543700983616,
+      "eval_macro_sensitivity": 0.704754303632947,
+      "eval_macro_specificity": 0.984883284344937,
+      "eval_precision": 0.8001040615771999,
+      "eval_precision_macro": 0.716655759638538,
+      "eval_recall": 0.8001549186676995,
+      "eval_recall_macro": 0.704754303632947,
+      "eval_runtime": 88.029,
+      "eval_samples_per_second": 14.666,
+      "eval_steps_per_second": 1.84,
+      "eval_weighted_fpr": 0.017527173913043478,
+      "eval_weighted_sensitivity": 0.8001549186676995,
+      "eval_weighted_specificity": 0.9730943465063553,
+      "step": 2572
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 4.223950233281493e-05,
+      "loss": 0.3359,
+      "step": 3000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.801704105344694,
+      "eval_f1_macro": 0.6458763793901992,
+      "eval_f1_micro": 0.801704105344694,
+      "eval_f1_weighted": 0.7961730342415405,
+      "eval_loss": 1.126444935798645,
+      "eval_macro_fpr": 0.01805997413754306,
+      "eval_macro_sensitivity": 0.6681366041180199,
+      "eval_macro_specificity": 0.9849908327913178,
+      "eval_precision": 0.7981459541145973,
+      "eval_precision_macro": 0.6531140613829887,
+      "eval_recall": 0.801704105344694,
+      "eval_recall_macro": 0.6681366041180199,
+      "eval_runtime": 90.8127,
+      "eval_samples_per_second": 14.216,
+      "eval_steps_per_second": 1.784,
+      "eval_weighted_fpr": 0.0173606401736064,
+      "eval_weighted_sensitivity": 0.801704105344694,
+      "eval_weighted_specificity": 0.973158386525071,
+      "step": 3215
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 4.0943494038361847e-05,
+      "loss": 0.2827,
+      "step": 3500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7993803253292022,
+      "eval_f1_macro": 0.7042383323872946,
+      "eval_f1_micro": 0.7993803253292022,
+      "eval_f1_weighted": 0.7951558065494785,
+      "eval_loss": 1.1471006870269775,
+      "eval_macro_fpr": 0.01833120632003448,
+      "eval_macro_sensitivity": 0.692160115457962,
+      "eval_macro_specificity": 0.9845339432297603,
+      "eval_precision": 0.8091520232110664,
+      "eval_precision_macro": 0.7389074945114087,
+      "eval_recall": 0.7993803253292022,
+      "eval_recall_macro": 0.692160115457962,
+      "eval_runtime": 89.506,
+      "eval_samples_per_second": 14.424,
+      "eval_steps_per_second": 1.81,
+      "eval_weighted_fpr": 0.017610661589719183,
+      "eval_weighted_sensitivity": 0.7993803253292022,
+      "eval_weighted_specificity": 0.9686288231172028,
+      "step": 3858
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 3.964748574390876e-05,
+      "loss": 0.2626,
+      "step": 4000
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 3.835147744945568e-05,
+      "loss": 0.1945,
+      "step": 4500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.814872192099148,
+      "eval_f1_macro": 0.7667275846579111,
+      "eval_f1_micro": 0.814872192099148,
+      "eval_f1_weighted": 0.812156980007075,
+      "eval_loss": 1.1841164827346802,
+      "eval_macro_fpr": 0.016569799909363286,
+      "eval_macro_sensitivity": 0.7598143558862378,
+      "eval_macro_specificity": 0.9859673331635007,
+      "eval_precision": 0.8128843369221012,
+      "eval_precision_macro": 0.7850186311075981,
+      "eval_recall": 0.814872192099148,
+      "eval_recall_macro": 0.7598143558862378,
+      "eval_runtime": 89.1729,
+      "eval_samples_per_second": 14.477,
+      "eval_steps_per_second": 1.817,
+      "eval_weighted_fpr": 0.015968463954032203,
+      "eval_weighted_sensitivity": 0.814872192099148,
+      "eval_weighted_specificity": 0.974637805353365,
+      "step": 4501
+    },
+    {
+      "epoch": 7.78,
+      "learning_rate": 3.705546915500259e-05,
+      "loss": 0.1286,
+      "step": 5000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8079008520526724,
+      "eval_f1_macro": 0.728267610383121,
+      "eval_f1_micro": 0.8079008520526724,
+      "eval_f1_weighted": 0.8067061599230408,
+      "eval_loss": 1.3231384754180908,
+      "eval_macro_fpr": 0.01714064720569306,
+      "eval_macro_sensitivity": 0.7216321376051643,
+      "eval_macro_specificity": 0.9855732952526467,
+      "eval_precision": 0.8105008603379217,
+      "eval_precision_macro": 0.763038482726323,
+      "eval_recall": 0.8079008520526724,
+      "eval_recall_macro": 0.7216321376051643,
+      "eval_runtime": 93.4716,
+      "eval_samples_per_second": 13.812,
+      "eval_steps_per_second": 1.733,
+      "eval_weighted_fpr": 0.0167003367003367,
+      "eval_weighted_sensitivity": 0.8079008520526724,
+      "eval_weighted_specificity": 0.9756985767370285,
+      "step": 5144
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 3.576205287713841e-05,
+      "loss": 0.1304,
+      "step": 5500
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8102246320681642,
+      "eval_f1_macro": 0.7569552546114842,
+      "eval_f1_micro": 0.8102246320681642,
+      "eval_f1_weighted": 0.808840893500485,
+      "eval_loss": 1.3869109153747559,
+      "eval_macro_fpr": 0.017055465242864547,
+      "eval_macro_sensitivity": 0.7602881393177737,
+      "eval_macro_specificity": 0.9856184320870693,
+      "eval_precision": 0.811846243162855,
+      "eval_precision_macro": 0.7704913288832418,
+      "eval_recall": 0.8102246320681642,
+      "eval_recall_macro": 0.7602881393177737,
+      "eval_runtime": 88.7368,
+      "eval_samples_per_second": 14.549,
+      "eval_steps_per_second": 1.826,
+      "eval_weighted_fpr": 0.016455101081335213,
+      "eval_weighted_sensitivity": 0.8102246320681642,
+      "eval_weighted_specificity": 0.9740518492378762,
+      "step": 5787
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 3.4466044582685334e-05,
+      "loss": 0.0875,
+      "step": 6000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7823392718822618,
+      "eval_f1_macro": 0.7192346851166359,
+      "eval_f1_micro": 0.7823392718822618,
+      "eval_f1_weighted": 0.7816836829450283,
+      "eval_loss": 1.690091609954834,
+      "eval_macro_fpr": 0.01985842187936775,
+      "eval_macro_sensitivity": 0.7020361329217759,
+      "eval_macro_specificity": 0.9833585449617043,
+      "eval_precision": 0.7931868181724199,
+      "eval_precision_macro": 0.7600588253545632,
+      "eval_recall": 0.7823392718822618,
+      "eval_recall_macro": 0.7020361329217759,
+      "eval_runtime": 88.4203,
+      "eval_samples_per_second": 14.601,
+      "eval_steps_per_second": 1.832,
+      "eval_weighted_fpr": 0.019485472574717427,
+      "eval_weighted_sensitivity": 0.7823392718822618,
+      "eval_weighted_specificity": 0.9680389025433043,
+      "step": 6430
+    },
+    {
+      "epoch": 10.11,
+      "learning_rate": 3.317003628823225e-05,
+      "loss": 0.1088,
+      "step": 6500
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 3.187402799377916e-05,
+      "loss": 0.1075,
+      "step": 7000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.7978311386522076,
+      "eval_f1_macro": 0.7470393699186935,
+      "eval_f1_micro": 0.7978311386522076,
+      "eval_f1_weighted": 0.793529238632398,
+      "eval_loss": 1.6517162322998047,
+      "eval_macro_fpr": 0.01832601410957563,
+      "eval_macro_sensitivity": 0.7566567183934103,
+      "eval_macro_specificity": 0.9849074579220182,
+      "eval_precision": 0.8021421826960871,
+      "eval_precision_macro": 0.7513026067404466,
+      "eval_recall": 0.7978311386522076,
+      "eval_recall_macro": 0.7566567183934103,
+      "eval_runtime": 91.1007,
+      "eval_samples_per_second": 14.171,
+      "eval_steps_per_second": 1.778,
+      "eval_weighted_fpr": 0.017778080512226686,
+      "eval_weighted_sensitivity": 0.7978311386522076,
+      "eval_weighted_specificity": 0.9757807301780667,
+      "step": 7073
+    },
+    {
+      "epoch": 11.66,
+      "learning_rate": 3.057801969932608e-05,
+      "loss": 0.0632,
+      "step": 7500
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.814872192099148,
+      "eval_f1_macro": 0.7706785605409691,
+      "eval_f1_micro": 0.814872192099148,
+      "eval_f1_weighted": 0.814999517133868,
+      "eval_loss": 1.528985857963562,
+      "eval_macro_fpr": 0.016687805753048134,
+      "eval_macro_sensitivity": 0.7772039784617947,
+      "eval_macro_specificity": 0.9859096029272495,
+      "eval_precision": 0.8184480381747821,
+      "eval_precision_macro": 0.7745990994843823,
+      "eval_recall": 0.814872192099148,
+      "eval_recall_macro": 0.7772039784617947,
+      "eval_runtime": 89.9659,
+      "eval_samples_per_second": 14.35,
+      "eval_steps_per_second": 1.801,
+      "eval_weighted_fpr": 0.015968463954032203,
+      "eval_weighted_sensitivity": 0.814872192099148,
+      "eval_weighted_specificity": 0.9737718518095959,
+      "step": 7716
+    },
+    {
+      "epoch": 12.44,
+      "learning_rate": 2.92846034214619e-05,
+      "loss": 0.0565,
+      "step": 8000
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.8063516653756778,
+      "eval_f1_macro": 0.7536745391279389,
+      "eval_f1_micro": 0.8063516653756778,
+      "eval_f1_weighted": 0.806105583642158,
+      "eval_loss": 1.5766452550888062,
+      "eval_macro_fpr": 0.017353934865295607,
+      "eval_macro_sensitivity": 0.7627918284863161,
+      "eval_macro_specificity": 0.9855508104644062,
+      "eval_precision": 0.8106650569621797,
+      "eval_precision_macro": 0.7527919670677403,
+      "eval_recall": 0.8063516653756778,
+      "eval_recall_macro": 0.7627918284863161,
+      "eval_runtime": 87.0044,
+      "eval_samples_per_second": 14.838,
+      "eval_steps_per_second": 1.862,
+      "eval_weighted_fpr": 0.01686454398273071,
+      "eval_weighted_sensitivity": 0.8063516653756778,
+      "eval_weighted_specificity": 0.9769104915904122,
+      "step": 8359
+    },
+    {
+      "epoch": 13.22,
+      "learning_rate": 2.7988595127008814e-05,
+      "loss": 0.0611,
+      "step": 8500
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 2.669258683255573e-05,
+      "loss": 0.0504,
+      "step": 9000
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8048024786986832,
+      "eval_f1_macro": 0.7553476960817118,
+      "eval_f1_micro": 0.804802478698683,
+      "eval_f1_weighted": 0.8045680080251187,
+      "eval_loss": 1.754842758178711,
+      "eval_macro_fpr": 0.0173894746246557,
+      "eval_macro_sensitivity": 0.7701954697850913,
+      "eval_macro_specificity": 0.9854203302407508,
+      "eval_precision": 0.8100370206947073,
+      "eval_precision_macro": 0.7569340956810083,
+      "eval_recall": 0.8048024786986832,
+      "eval_recall_macro": 0.7701954697850913,
+      "eval_runtime": 87.2595,
+      "eval_samples_per_second": 14.795,
+      "eval_steps_per_second": 1.857,
+      "eval_weighted_fpr": 0.017029328287606435,
+      "eval_weighted_sensitivity": 0.8048024786986832,
+      "eval_weighted_specificity": 0.9765024749125794,
+      "step": 9002
+    },
+    {
+      "epoch": 14.77,
+      "learning_rate": 2.5396578538102643e-05,
+      "loss": 0.0295,
+      "step": 9500
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.8102246320681642,
+      "eval_f1_macro": 0.760967233946951,
+      "eval_f1_micro": 0.8102246320681642,
+      "eval_f1_weighted": 0.8140816963742711,
+      "eval_loss": 1.7570178508758545,
+      "eval_macro_fpr": 0.016848493530959043,
+      "eval_macro_sensitivity": 0.7610604622194231,
+      "eval_macro_specificity": 0.9858148957915706,
+      "eval_precision": 0.8226139584587638,
+      "eval_precision_macro": 0.7705404207703173,
+      "eval_recall": 0.8102246320681642,
+      "eval_recall_macro": 0.7610604622194231,
+      "eval_runtime": 89.5369,
+      "eval_samples_per_second": 14.419,
+      "eval_steps_per_second": 1.809,
+      "eval_weighted_fpr": 0.016455101081335213,
+      "eval_weighted_sensitivity": 0.8102246320681642,
+      "eval_weighted_specificity": 0.9769988048053938,
+      "step": 9645
+    },
+    {
+      "epoch": 15.55,
+      "learning_rate": 2.410057024364956e-05,
+      "loss": 0.0338,
+      "step": 10000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8109992254066615,
+      "eval_f1_macro": 0.7612941688912773,
+      "eval_f1_micro": 0.8109992254066615,
+      "eval_f1_weighted": 0.8100237367109931,
+      "eval_loss": 1.7394386529922485,
+      "eval_macro_fpr": 0.0167552939703591,
+      "eval_macro_sensitivity": 0.7659323423256559,
+      "eval_macro_specificity": 0.9858976267005801,
+      "eval_precision": 0.8138390585578686,
+      "eval_precision_macro": 0.7638742891195117,
+      "eval_recall": 0.8109992254066615,
+      "eval_recall_macro": 0.7659323423256559,
+      "eval_runtime": 88.2753,
+      "eval_samples_per_second": 14.625,
+      "eval_steps_per_second": 1.835,
+      "eval_weighted_fpr": 0.016373641121997046,
+      "eval_weighted_sensitivity": 0.8109992254066615,
+      "eval_weighted_specificity": 0.9774651751020407,
+      "step": 10288
+    },
+    {
+      "epoch": 16.33,
+      "learning_rate": 2.2807153965785383e-05,
+      "loss": 0.0444,
+      "step": 10500
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.8117738187451587,
+      "eval_f1_macro": 0.7457173379536453,
+      "eval_f1_micro": 0.8117738187451587,
+      "eval_f1_weighted": 0.8129470595277309,
+      "eval_loss": 1.7974809408187866,
+      "eval_macro_fpr": 0.016811586751854603,
+      "eval_macro_sensitivity": 0.7609908124543953,
+      "eval_macro_specificity": 0.9859494204465505,
+      "eval_precision": 0.8200630062296891,
+      "eval_precision_macro": 0.7510908703409428,
+      "eval_recall": 0.8117738187451587,
+      "eval_recall_macro": 0.7609908124543953,
+      "eval_runtime": 92.8836,
+      "eval_samples_per_second": 13.899,
+      "eval_steps_per_second": 1.744,
+      "eval_weighted_fpr": 0.016292323164599398,
+      "eval_weighted_sensitivity": 0.8117738187451587,
+      "eval_weighted_specificity": 0.9774674879531003,
+      "step": 10931
+    },
+    {
+      "epoch": 17.11,
+      "learning_rate": 2.1511145671332298e-05,
+      "loss": 0.017,
+      "step": 11000
+    },
+    {
+      "epoch": 17.88,
+      "learning_rate": 2.0215137376879212e-05,
+      "loss": 0.0397,
+      "step": 11500
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.814872192099148,
+      "eval_f1_macro": 0.7553030972375019,
+      "eval_f1_micro": 0.814872192099148,
+      "eval_f1_weighted": 0.8129982672337318,
+      "eval_loss": 1.692070722579956,
+      "eval_macro_fpr": 0.01648801618238916,
+      "eval_macro_sensitivity": 0.7854174817784654,
+      "eval_macro_specificity": 0.986188960440481,
+      "eval_precision": 0.8203469277405308,
+      "eval_precision_macro": 0.7540048119736065,
+      "eval_recall": 0.814872192099148,
+      "eval_recall_macro": 0.7854174817784654,
+      "eval_runtime": 89.1118,
+      "eval_samples_per_second": 14.487,
+      "eval_steps_per_second": 1.818,
+      "eval_weighted_fpr": 0.015968463954032203,
+      "eval_weighted_sensitivity": 0.814872192099148,
+      "eval_weighted_specificity": 0.9779622145080659,
+      "step": 11574
+    },
+    {
+      "epoch": 18.66,
+      "learning_rate": 1.891912908242613e-05,
+      "loss": 0.0356,
+      "step": 12000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.8272656855151046,
+      "eval_f1_macro": 0.7813861108366882,
+      "eval_f1_micro": 0.8272656855151046,
+      "eval_f1_weighted": 0.826538691051554,
+      "eval_loss": 1.6908154487609863,
+      "eval_macro_fpr": 0.01519208147936786,
+      "eval_macro_sensitivity": 0.7991667789217406,
+      "eval_macro_specificity": 0.9870458274462965,
+      "eval_precision": 0.8307223507185943,
+      "eval_precision_macro": 0.7763966212643805,
+      "eval_recall": 0.8272656855151046,
+      "eval_recall_macro": 0.7991667789217406,
+      "eval_runtime": 87.1936,
+      "eval_samples_per_second": 14.806,
+      "eval_steps_per_second": 1.858,
+      "eval_weighted_fpr": 0.014695222405271829,
+      "eval_weighted_sensitivity": 0.8272656855151046,
+      "eval_weighted_specificity": 0.9784217261793432,
+      "step": 12217
+    },
+    {
+      "epoch": 19.44,
+      "learning_rate": 1.7623120787973045e-05,
+      "loss": 0.0306,
+      "step": 12500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8179705654531371,
+      "eval_f1_macro": 0.7619799923440557,
+      "eval_f1_micro": 0.817970565453137,
+      "eval_f1_weighted": 0.8165762317081299,
+      "eval_loss": 1.8374216556549072,
+      "eval_macro_fpr": 0.016177559752434546,
+      "eval_macro_sensitivity": 0.7756239390284622,
+      "eval_macro_specificity": 0.9863402294201706,
+      "eval_precision": 0.8207768510844915,
+      "eval_precision_macro": 0.7634613762524876,
+      "eval_recall": 0.8179705654531371,
+      "eval_recall_macro": 0.7756239390284622,
+      "eval_runtime": 90.845,
+      "eval_samples_per_second": 14.211,
+      "eval_steps_per_second": 1.783,
+      "eval_weighted_fpr": 0.01564684732671949,
+      "eval_weighted_sensitivity": 0.8179705654531371,
+      "eval_weighted_specificity": 0.9771328758494231,
+      "step": 12860
+    },
+    {
+      "epoch": 20.22,
+      "learning_rate": 1.6329704510108863e-05,
+      "loss": 0.0212,
+      "step": 13000
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 1.5033696215655781e-05,
+      "loss": 0.0234,
+      "step": 13500
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.8195197521301317,
+      "eval_f1_macro": 0.7713314772989432,
+      "eval_f1_micro": 0.8195197521301317,
+      "eval_f1_weighted": 0.8173803797431164,
+      "eval_loss": 1.7737590074539185,
+      "eval_macro_fpr": 0.016026463371050827,
+      "eval_macro_sensitivity": 0.7602260272694004,
+      "eval_macro_specificity": 0.986365365175067,
+      "eval_precision": 0.8184750402268075,
+      "eval_precision_macro": 0.7946623933037265,
+      "eval_recall": 0.8195197521301317,
+      "eval_recall_macro": 0.7602260272694004,
+      "eval_runtime": 91.8609,
+      "eval_samples_per_second": 14.054,
+      "eval_steps_per_second": 1.764,
+      "eval_weighted_fpr": 0.01548687271518777,
+      "eval_weighted_sensitivity": 0.8195197521301317,
+      "eval_weighted_specificity": 0.9759607254958742,
+      "step": 13503
+    },
+    {
+      "epoch": 21.77,
+      "learning_rate": 1.3737687921202696e-05,
+      "loss": 0.0091,
+      "step": 14000
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.8171959721146398,
+      "eval_f1_macro": 0.7654257885617937,
+      "eval_f1_micro": 0.8171959721146398,
+      "eval_f1_weighted": 0.8142875910554035,
+      "eval_loss": 1.8536922931671143,
+      "eval_macro_fpr": 0.01629310015159196,
+      "eval_macro_sensitivity": 0.764643422315937,
+      "eval_macro_specificity": 0.9862407504253736,
+      "eval_precision": 0.8166701024955205,
+      "eval_precision_macro": 0.7732430914536168,
+      "eval_recall": 0.8171959721146398,
+      "eval_recall_macro": 0.764643422315937,
+      "eval_runtime": 90.6571,
+      "eval_samples_per_second": 14.24,
+      "eval_steps_per_second": 1.787,
+      "eval_weighted_fpr": 0.015727042516326804,
+      "eval_weighted_sensitivity": 0.8171959721146398,
+      "eval_weighted_specificity": 0.9764152842659637,
+      "step": 14146
+    },
+    {
+      "epoch": 22.55,
+      "learning_rate": 1.2441679626749613e-05,
+      "loss": 0.0138,
+      "step": 14500
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.8102246320681642,
+      "eval_f1_macro": 0.7625345023789766,
+      "eval_f1_micro": 0.8102246320681642,
+      "eval_f1_weighted": 0.8125053880007282,
+      "eval_loss": 1.8306434154510498,
+      "eval_macro_fpr": 0.016736134303170593,
+      "eval_macro_sensitivity": 0.756885195214288,
+      "eval_macro_specificity": 0.9857279908699159,
+      "eval_precision": 0.8173023805599954,
+      "eval_precision_macro": 0.7728935893141891,
+      "eval_recall": 0.8102246320681642,
+      "eval_recall_macro": 0.756885195214288,
+      "eval_runtime": 90.427,
+      "eval_samples_per_second": 14.277,
+      "eval_steps_per_second": 1.792,
+      "eval_weighted_fpr": 0.016455101081335213,
+      "eval_weighted_sensitivity": 0.8102246320681642,
+      "eval_weighted_specificity": 0.9756952309805736,
+      "step": 14789
+    },
+    {
+      "epoch": 23.33,
+      "learning_rate": 1.1145671332296527e-05,
+      "loss": 0.0213,
+      "step": 15000
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8125484120836561,
+      "eval_f1_macro": 0.7621751729607458,
+      "eval_f1_micro": 0.8125484120836561,
+      "eval_f1_weighted": 0.8115038090694412,
+      "eval_loss": 1.9362603425979614,
+      "eval_macro_fpr": 0.01683702461756531,
+      "eval_macro_sensitivity": 0.7540395774984562,
+      "eval_macro_specificity": 0.9857620549754743,
+      "eval_precision": 0.8149135580816148,
+      "eval_precision_macro": 0.7776678366951572,
+      "eval_recall": 0.8125484120836561,
+      "eval_recall_macro": 0.7540395774984562,
+      "eval_runtime": 88.263,
+      "eval_samples_per_second": 14.627,
+      "eval_steps_per_second": 1.835,
+      "eval_weighted_fpr": 0.016211146838156484,
+      "eval_weighted_sensitivity": 0.8125484120836561,
+      "eval_weighted_specificity": 0.9738824125484591,
+      "step": 15432
+    },
+    {
+      "epoch": 24.11,
+      "learning_rate": 9.849663037843444e-06,
+      "loss": 0.0093,
+      "step": 15500
+    },
+    {
+      "epoch": 24.88,
+      "learning_rate": 8.553654743390357e-06,
+      "loss": 0.0034,
+      "step": 16000
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.8156467854376452,
+      "eval_f1_macro": 0.7657175740645626,
+      "eval_f1_micro": 0.8156467854376452,
+      "eval_f1_weighted": 0.8146604455620535,
+      "eval_loss": 1.9551670551300049,
+      "eval_macro_fpr": 0.016486620997243625,
+      "eval_macro_sensitivity": 0.7583153569803489,
+      "eval_macro_specificity": 0.9859786977080429,
+      "eval_precision": 0.8179068770261545,
+      "eval_precision_macro": 0.784269104280255,
+      "eval_recall": 0.8156467854376452,
+      "eval_recall_macro": 0.7583153569803489,
+      "eval_runtime": 88.1618,
+      "eval_samples_per_second": 14.644,
+      "eval_steps_per_second": 1.838,
+      "eval_weighted_fpr": 0.01588785046728972,
+      "eval_weighted_sensitivity": 0.8156467854376452,
+      "eval_weighted_specificity": 0.9740336801829997,
+      "step": 16075
+    },
+    {
+      "epoch": 25.66,
+      "learning_rate": 7.257646448937273e-06,
+      "loss": 0.0028,
+      "step": 16500
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.8171959721146398,
+      "eval_f1_macro": 0.765626710558111,
+      "eval_f1_micro": 0.8171959721146398,
+      "eval_f1_weighted": 0.8136712199805007,
+      "eval_loss": 1.9404480457305908,
+      "eval_macro_fpr": 0.016406621988607466,
+      "eval_macro_sensitivity": 0.7590987750130427,
+      "eval_macro_specificity": 0.986125347486047,
+      "eval_precision": 0.8163220208857828,
+      "eval_precision_macro": 0.7883904047689811,
+      "eval_recall": 0.8171959721146398,
+      "eval_recall_macro": 0.7590987750130427,
+      "eval_runtime": 89.7,
+      "eval_samples_per_second": 14.392,
+      "eval_steps_per_second": 1.806,
+      "eval_weighted_fpr": 0.015727042516326804,
+      "eval_weighted_sensitivity": 0.8171959721146398,
+      "eval_weighted_specificity": 0.974684240176066,
+      "step": 16718
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 19290,
+  "num_train_epochs": 30,
+  "save_steps": 500,
+  "total_flos": 3.806068937700557e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_checkpoints/checkpoint-16718/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec20e9f8adfcfee3337ee75e60d11aa0228a2bd24494baa212e8cd20722381d4
+size 4600