Ivanrs commited on
Commit
b46f4ce
·
verified ·
1 Parent(s): 3b38d18

vit-finetune-kidney-stone-Michel_Daudon_-w256_1k_v1-_SEC-pretrain

Browse files
README.md ADDED
@@ -0,0 +1,113 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ library_name: transformers
3
+ license: apache-2.0
4
+ base_model: google/vit-base-patch16-224-in21k
5
+ tags:
6
+ - generated_from_trainer
7
+ datasets:
8
+ - imagefolder
9
+ metrics:
10
+ - accuracy
11
+ - precision
12
+ - recall
13
+ - f1
14
+ model-index:
15
+ - name: vit-finetune-kidney-stone-Michel_Daudon_-w256_1k_v1-_SEC-pretrain
16
+ results:
17
+ - task:
18
+ name: Image Classification
19
+ type: image-classification
20
+ dataset:
21
+ name: imagefolder
22
+ type: imagefolder
23
+ config: default
24
+ split: test
25
+ args: default
26
+ metrics:
27
+ - name: Accuracy
28
+ type: accuracy
29
+ value: 0.9108333333333334
30
+ - name: Precision
31
+ type: precision
32
+ value: 0.9190361753451352
33
+ - name: Recall
34
+ type: recall
35
+ value: 0.9108333333333334
36
+ - name: F1
37
+ type: f1
38
+ value: 0.9102828889161464
39
+ ---
40
+
41
+ <!-- This model card has been generated automatically according to the information the Trainer had access to. You
42
+ should probably proofread and complete it, then remove this comment. -->
43
+
44
+ # vit-finetune-kidney-stone-Michel_Daudon_-w256_1k_v1-_SEC-pretrain
45
+
46
+ This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
47
+ It achieves the following results on the evaluation set:
48
+ - Loss: 0.3455
49
+ - Accuracy: 0.9108
50
+ - Precision: 0.9190
51
+ - Recall: 0.9108
52
+ - F1: 0.9103
53
+
54
+ ## Model description
55
+
56
+ More information needed
57
+
58
+ ## Intended uses & limitations
59
+
60
+ More information needed
61
+
62
+ ## Training and evaluation data
63
+
64
+ More information needed
65
+
66
+ ## Training procedure
67
+
68
+ ### Training hyperparameters
69
+
70
+ The following hyperparameters were used during training:
71
+ - learning_rate: 0.0002
72
+ - train_batch_size: 32
73
+ - eval_batch_size: 8
74
+ - seed: 42
75
+ - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
76
+ - lr_scheduler_type: linear
77
+ - num_epochs: 15
78
+ - mixed_precision_training: Native AMP
79
+
80
+ ### Training results
81
+
82
+ | Training Loss | Epoch | Step | Validation Loss | Accuracy | Precision | Recall | F1 |
83
+ |:-------------:|:-------:|:----:|:---------------:|:--------:|:---------:|:------:|:------:|
84
+ | 0.1494 | 0.6667 | 100 | 0.6088 | 0.8442 | 0.8766 | 0.8442 | 0.8390 |
85
+ | 0.0665 | 1.3333 | 200 | 0.5533 | 0.8492 | 0.8810 | 0.8492 | 0.8542 |
86
+ | 0.0215 | 2.0 | 300 | 0.3721 | 0.9017 | 0.9082 | 0.9017 | 0.8985 |
87
+ | 0.0101 | 2.6667 | 400 | 0.5347 | 0.8942 | 0.9061 | 0.8942 | 0.8920 |
88
+ | 0.043 | 3.3333 | 500 | 0.7850 | 0.8425 | 0.8592 | 0.8425 | 0.8427 |
89
+ | 0.0641 | 4.0 | 600 | 0.7735 | 0.8583 | 0.8770 | 0.8583 | 0.8574 |
90
+ | 0.0036 | 4.6667 | 700 | 0.7351 | 0.8367 | 0.8623 | 0.8367 | 0.8250 |
91
+ | 0.0039 | 5.3333 | 800 | 0.3455 | 0.9108 | 0.9190 | 0.9108 | 0.9103 |
92
+ | 0.0021 | 6.0 | 900 | 0.5940 | 0.8758 | 0.8985 | 0.8758 | 0.8730 |
93
+ | 0.054 | 6.6667 | 1000 | 0.7463 | 0.8733 | 0.9068 | 0.8733 | 0.8714 |
94
+ | 0.0015 | 7.3333 | 1100 | 0.8915 | 0.8392 | 0.8722 | 0.8392 | 0.8243 |
95
+ | 0.0013 | 8.0 | 1200 | 0.5725 | 0.8917 | 0.8943 | 0.8917 | 0.8909 |
96
+ | 0.0011 | 8.6667 | 1300 | 0.5772 | 0.8933 | 0.8960 | 0.8933 | 0.8926 |
97
+ | 0.001 | 9.3333 | 1400 | 0.5820 | 0.8933 | 0.8956 | 0.8933 | 0.8926 |
98
+ | 0.0009 | 10.0 | 1500 | 0.5859 | 0.8933 | 0.8954 | 0.8933 | 0.8925 |
99
+ | 0.0008 | 10.6667 | 1600 | 0.5901 | 0.8933 | 0.8955 | 0.8933 | 0.8926 |
100
+ | 0.0008 | 11.3333 | 1700 | 0.5938 | 0.8933 | 0.8955 | 0.8933 | 0.8926 |
101
+ | 0.0007 | 12.0 | 1800 | 0.5971 | 0.8933 | 0.8953 | 0.8933 | 0.8925 |
102
+ | 0.0007 | 12.6667 | 1900 | 0.5998 | 0.8933 | 0.8952 | 0.8933 | 0.8926 |
103
+ | 0.0007 | 13.3333 | 2000 | 0.6016 | 0.8933 | 0.8952 | 0.8933 | 0.8926 |
104
+ | 0.0006 | 14.0 | 2100 | 0.6032 | 0.8933 | 0.8952 | 0.8933 | 0.8926 |
105
+ | 0.0006 | 14.6667 | 2200 | 0.6039 | 0.8933 | 0.8952 | 0.8933 | 0.8926 |
106
+
107
+
108
+ ### Framework versions
109
+
110
+ - Transformers 4.48.2
111
+ - Pytorch 2.6.0+cu126
112
+ - Datasets 3.2.0
113
+ - Tokenizers 0.21.0
all_results.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 15.0,
3
+ "eval_accuracy": 0.9108333333333334,
4
+ "eval_f1": 0.9102828889161464,
5
+ "eval_loss": 0.3454643189907074,
6
+ "eval_precision": 0.9190361753451352,
7
+ "eval_recall": 0.9108333333333334,
8
+ "eval_runtime": 9.2262,
9
+ "eval_samples_per_second": 130.064,
10
+ "eval_steps_per_second": 16.258,
11
+ "total_flos": 5.57962327867392e+18,
12
+ "train_loss": 0.03856972599029541,
13
+ "train_runtime": 877.6839,
14
+ "train_samples_per_second": 82.034,
15
+ "train_steps_per_second": 2.564
16
+ }
config.json ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "google/vit-base-patch16-224-in21k",
3
+ "architectures": [
4
+ "ViTForImageClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.0,
7
+ "encoder_stride": 16,
8
+ "hidden_act": "gelu",
9
+ "hidden_dropout_prob": 0.0,
10
+ "hidden_size": 768,
11
+ "id2label": {
12
+ "0": "SEC-Subtype_IVa",
13
+ "1": "SEC-Subtype_IVa2",
14
+ "2": "SEC-Subtype_IVc",
15
+ "3": "SEC-Subtype_IVd",
16
+ "4": "SEC-Subtype_Ia",
17
+ "5": "SEC-Subtype_Va"
18
+ },
19
+ "image_size": 224,
20
+ "initializer_range": 0.02,
21
+ "intermediate_size": 3072,
22
+ "label2id": {
23
+ "SEC-Subtype_IVa": "0",
24
+ "SEC-Subtype_IVa2": "1",
25
+ "SEC-Subtype_IVc": "2",
26
+ "SEC-Subtype_IVd": "3",
27
+ "SEC-Subtype_Ia": "4",
28
+ "SEC-Subtype_Va": "5"
29
+ },
30
+ "layer_norm_eps": 1e-12,
31
+ "model_type": "vit",
32
+ "num_attention_heads": 12,
33
+ "num_channels": 3,
34
+ "num_hidden_layers": 12,
35
+ "patch_size": 16,
36
+ "problem_type": "single_label_classification",
37
+ "qkv_bias": true,
38
+ "torch_dtype": "float32",
39
+ "transformers_version": "4.48.2"
40
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:93bf64d74d9a9d8cb4cdeeab8e2200e73547ae04503781ef6f826aa61c743686
3
+ size 343236280
preprocessor_config.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "do_convert_rgb": null,
3
+ "do_normalize": true,
4
+ "do_rescale": true,
5
+ "do_resize": true,
6
+ "image_mean": [
7
+ 0.5,
8
+ 0.5,
9
+ 0.5
10
+ ],
11
+ "image_processor_type": "ViTFeatureExtractor",
12
+ "image_std": [
13
+ 0.5,
14
+ 0.5,
15
+ 0.5
16
+ ],
17
+ "resample": 2,
18
+ "rescale_factor": 0.00392156862745098,
19
+ "size": {
20
+ "height": 224,
21
+ "width": 224
22
+ }
23
+ }
test_results.json ADDED
@@ -0,0 +1,11 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 15.0,
3
+ "eval_accuracy": 0.9108333333333334,
4
+ "eval_f1": 0.9102828889161464,
5
+ "eval_loss": 0.3454643189907074,
6
+ "eval_precision": 0.9190361753451352,
7
+ "eval_recall": 0.9108333333333334,
8
+ "eval_runtime": 9.2262,
9
+ "eval_samples_per_second": 130.064,
10
+ "eval_steps_per_second": 16.258
11
+ }
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 15.0,
3
+ "total_flos": 5.57962327867392e+18,
4
+ "train_loss": 0.03856972599029541,
5
+ "train_runtime": 877.6839,
6
+ "train_samples_per_second": 82.034,
7
+ "train_steps_per_second": 2.564
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,3456 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.3454643189907074,
3
+ "best_model_checkpoint": "vit-finetune-kidney-stone-Michel_Daudon_-w256_1k_v1-_SEC-pretrain\\checkpoint-800",
4
+ "epoch": 15.0,
5
+ "eval_steps": 100,
6
+ "global_step": 2250,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.03333333333333333,
13
+ "grad_norm": 1.789089322090149,
14
+ "learning_rate": 0.00019955555555555558,
15
+ "loss": 1.6418,
16
+ "step": 5
17
+ },
18
+ {
19
+ "epoch": 0.06666666666666667,
20
+ "grad_norm": 1.9554781913757324,
21
+ "learning_rate": 0.00019911111111111111,
22
+ "loss": 1.3356,
23
+ "step": 10
24
+ },
25
+ {
26
+ "epoch": 0.1,
27
+ "grad_norm": 1.6346088647842407,
28
+ "learning_rate": 0.00019866666666666668,
29
+ "loss": 0.9694,
30
+ "step": 15
31
+ },
32
+ {
33
+ "epoch": 0.13333333333333333,
34
+ "grad_norm": 3.838526725769043,
35
+ "learning_rate": 0.00019822222222222225,
36
+ "loss": 0.7895,
37
+ "step": 20
38
+ },
39
+ {
40
+ "epoch": 0.16666666666666666,
41
+ "grad_norm": 2.2996692657470703,
42
+ "learning_rate": 0.00019777777777777778,
43
+ "loss": 0.5608,
44
+ "step": 25
45
+ },
46
+ {
47
+ "epoch": 0.2,
48
+ "grad_norm": 2.4577720165252686,
49
+ "learning_rate": 0.00019733333333333335,
50
+ "loss": 0.4723,
51
+ "step": 30
52
+ },
53
+ {
54
+ "epoch": 0.23333333333333334,
55
+ "grad_norm": 1.0262706279754639,
56
+ "learning_rate": 0.0001968888888888889,
57
+ "loss": 0.442,
58
+ "step": 35
59
+ },
60
+ {
61
+ "epoch": 0.26666666666666666,
62
+ "grad_norm": 3.0762388706207275,
63
+ "learning_rate": 0.00019644444444444445,
64
+ "loss": 0.3641,
65
+ "step": 40
66
+ },
67
+ {
68
+ "epoch": 0.3,
69
+ "grad_norm": 2.80593204498291,
70
+ "learning_rate": 0.000196,
71
+ "loss": 0.3185,
72
+ "step": 45
73
+ },
74
+ {
75
+ "epoch": 0.3333333333333333,
76
+ "grad_norm": 1.8633087873458862,
77
+ "learning_rate": 0.00019555555555555556,
78
+ "loss": 0.2134,
79
+ "step": 50
80
+ },
81
+ {
82
+ "epoch": 0.36666666666666664,
83
+ "grad_norm": 2.5019023418426514,
84
+ "learning_rate": 0.0001951111111111111,
85
+ "loss": 0.303,
86
+ "step": 55
87
+ },
88
+ {
89
+ "epoch": 0.4,
90
+ "grad_norm": 4.1190361976623535,
91
+ "learning_rate": 0.0001946666666666667,
92
+ "loss": 0.3188,
93
+ "step": 60
94
+ },
95
+ {
96
+ "epoch": 0.43333333333333335,
97
+ "grad_norm": 4.875674247741699,
98
+ "learning_rate": 0.00019422222222222223,
99
+ "loss": 0.1905,
100
+ "step": 65
101
+ },
102
+ {
103
+ "epoch": 0.4666666666666667,
104
+ "grad_norm": 0.8875412940979004,
105
+ "learning_rate": 0.0001937777777777778,
106
+ "loss": 0.2546,
107
+ "step": 70
108
+ },
109
+ {
110
+ "epoch": 0.5,
111
+ "grad_norm": 0.5920054316520691,
112
+ "learning_rate": 0.00019333333333333333,
113
+ "loss": 0.2255,
114
+ "step": 75
115
+ },
116
+ {
117
+ "epoch": 0.5333333333333333,
118
+ "grad_norm": 1.1335688829421997,
119
+ "learning_rate": 0.0001928888888888889,
120
+ "loss": 0.1288,
121
+ "step": 80
122
+ },
123
+ {
124
+ "epoch": 0.5666666666666667,
125
+ "grad_norm": 1.0775712728500366,
126
+ "learning_rate": 0.00019244444444444444,
127
+ "loss": 0.1847,
128
+ "step": 85
129
+ },
130
+ {
131
+ "epoch": 0.6,
132
+ "grad_norm": 1.5961558818817139,
133
+ "learning_rate": 0.000192,
134
+ "loss": 0.1618,
135
+ "step": 90
136
+ },
137
+ {
138
+ "epoch": 0.6333333333333333,
139
+ "grad_norm": 2.420574188232422,
140
+ "learning_rate": 0.00019155555555555554,
141
+ "loss": 0.2102,
142
+ "step": 95
143
+ },
144
+ {
145
+ "epoch": 0.6666666666666666,
146
+ "grad_norm": 0.7953271865844727,
147
+ "learning_rate": 0.00019111111111111114,
148
+ "loss": 0.1494,
149
+ "step": 100
150
+ },
151
+ {
152
+ "epoch": 0.6666666666666666,
153
+ "eval_accuracy": 0.8441666666666666,
154
+ "eval_f1": 0.8389603304554332,
155
+ "eval_loss": 0.6088427901268005,
156
+ "eval_precision": 0.8766189856356855,
157
+ "eval_recall": 0.8441666666666666,
158
+ "eval_runtime": 9.7541,
159
+ "eval_samples_per_second": 123.025,
160
+ "eval_steps_per_second": 15.378,
161
+ "step": 100
162
+ },
163
+ {
164
+ "epoch": 0.7,
165
+ "grad_norm": 1.2056903839111328,
166
+ "learning_rate": 0.00019066666666666668,
167
+ "loss": 0.2564,
168
+ "step": 105
169
+ },
170
+ {
171
+ "epoch": 0.7333333333333333,
172
+ "grad_norm": 0.280213326215744,
173
+ "learning_rate": 0.00019022222222222224,
174
+ "loss": 0.1638,
175
+ "step": 110
176
+ },
177
+ {
178
+ "epoch": 0.7666666666666667,
179
+ "grad_norm": 0.9152695536613464,
180
+ "learning_rate": 0.00018977777777777778,
181
+ "loss": 0.1242,
182
+ "step": 115
183
+ },
184
+ {
185
+ "epoch": 0.8,
186
+ "grad_norm": 0.8287985324859619,
187
+ "learning_rate": 0.00018933333333333335,
188
+ "loss": 0.1684,
189
+ "step": 120
190
+ },
191
+ {
192
+ "epoch": 0.8333333333333334,
193
+ "grad_norm": 6.265803337097168,
194
+ "learning_rate": 0.00018888888888888888,
195
+ "loss": 0.1403,
196
+ "step": 125
197
+ },
198
+ {
199
+ "epoch": 0.8666666666666667,
200
+ "grad_norm": 1.710580825805664,
201
+ "learning_rate": 0.00018844444444444445,
202
+ "loss": 0.1048,
203
+ "step": 130
204
+ },
205
+ {
206
+ "epoch": 0.9,
207
+ "grad_norm": 0.5326979756355286,
208
+ "learning_rate": 0.000188,
209
+ "loss": 0.0594,
210
+ "step": 135
211
+ },
212
+ {
213
+ "epoch": 0.9333333333333333,
214
+ "grad_norm": 4.1653289794921875,
215
+ "learning_rate": 0.00018755555555555558,
216
+ "loss": 0.1216,
217
+ "step": 140
218
+ },
219
+ {
220
+ "epoch": 0.9666666666666667,
221
+ "grad_norm": 0.7304482460021973,
222
+ "learning_rate": 0.00018711111111111112,
223
+ "loss": 0.1131,
224
+ "step": 145
225
+ },
226
+ {
227
+ "epoch": 1.0,
228
+ "grad_norm": 5.068601131439209,
229
+ "learning_rate": 0.0001866666666666667,
230
+ "loss": 0.1653,
231
+ "step": 150
232
+ },
233
+ {
234
+ "epoch": 1.0333333333333334,
235
+ "grad_norm": 1.9872854948043823,
236
+ "learning_rate": 0.00018622222222222223,
237
+ "loss": 0.1083,
238
+ "step": 155
239
+ },
240
+ {
241
+ "epoch": 1.0666666666666667,
242
+ "grad_norm": 1.3612173795700073,
243
+ "learning_rate": 0.0001857777777777778,
244
+ "loss": 0.1147,
245
+ "step": 160
246
+ },
247
+ {
248
+ "epoch": 1.1,
249
+ "grad_norm": 4.431027412414551,
250
+ "learning_rate": 0.00018533333333333333,
251
+ "loss": 0.1274,
252
+ "step": 165
253
+ },
254
+ {
255
+ "epoch": 1.1333333333333333,
256
+ "grad_norm": 4.902954578399658,
257
+ "learning_rate": 0.0001848888888888889,
258
+ "loss": 0.0944,
259
+ "step": 170
260
+ },
261
+ {
262
+ "epoch": 1.1666666666666667,
263
+ "grad_norm": 0.3168695271015167,
264
+ "learning_rate": 0.00018444444444444446,
265
+ "loss": 0.1347,
266
+ "step": 175
267
+ },
268
+ {
269
+ "epoch": 1.2,
270
+ "grad_norm": 0.4788297712802887,
271
+ "learning_rate": 0.00018400000000000003,
272
+ "loss": 0.108,
273
+ "step": 180
274
+ },
275
+ {
276
+ "epoch": 1.2333333333333334,
277
+ "grad_norm": 0.159646138548851,
278
+ "learning_rate": 0.00018355555555555557,
279
+ "loss": 0.0388,
280
+ "step": 185
281
+ },
282
+ {
283
+ "epoch": 1.2666666666666666,
284
+ "grad_norm": 0.08620858937501907,
285
+ "learning_rate": 0.00018311111111111113,
286
+ "loss": 0.0652,
287
+ "step": 190
288
+ },
289
+ {
290
+ "epoch": 1.3,
291
+ "grad_norm": 3.772901773452759,
292
+ "learning_rate": 0.00018266666666666667,
293
+ "loss": 0.0483,
294
+ "step": 195
295
+ },
296
+ {
297
+ "epoch": 1.3333333333333333,
298
+ "grad_norm": 0.07443404942750931,
299
+ "learning_rate": 0.00018222222222222224,
300
+ "loss": 0.0665,
301
+ "step": 200
302
+ },
303
+ {
304
+ "epoch": 1.3333333333333333,
305
+ "eval_accuracy": 0.8491666666666666,
306
+ "eval_f1": 0.8541751498812096,
307
+ "eval_loss": 0.5532689690589905,
308
+ "eval_precision": 0.881005645309773,
309
+ "eval_recall": 0.8491666666666666,
310
+ "eval_runtime": 9.2193,
311
+ "eval_samples_per_second": 130.162,
312
+ "eval_steps_per_second": 16.27,
313
+ "step": 200
314
+ },
315
+ {
316
+ "epoch": 1.3666666666666667,
317
+ "grad_norm": 6.843237400054932,
318
+ "learning_rate": 0.00018177777777777778,
319
+ "loss": 0.1125,
320
+ "step": 205
321
+ },
322
+ {
323
+ "epoch": 1.4,
324
+ "grad_norm": 4.178153991699219,
325
+ "learning_rate": 0.00018133333333333334,
326
+ "loss": 0.0818,
327
+ "step": 210
328
+ },
329
+ {
330
+ "epoch": 1.4333333333333333,
331
+ "grad_norm": 0.07139376550912857,
332
+ "learning_rate": 0.0001808888888888889,
333
+ "loss": 0.0564,
334
+ "step": 215
335
+ },
336
+ {
337
+ "epoch": 1.4666666666666668,
338
+ "grad_norm": 2.2558469772338867,
339
+ "learning_rate": 0.00018044444444444447,
340
+ "loss": 0.0917,
341
+ "step": 220
342
+ },
343
+ {
344
+ "epoch": 1.5,
345
+ "grad_norm": 5.316349506378174,
346
+ "learning_rate": 0.00018,
347
+ "loss": 0.0803,
348
+ "step": 225
349
+ },
350
+ {
351
+ "epoch": 1.5333333333333332,
352
+ "grad_norm": 0.21899549663066864,
353
+ "learning_rate": 0.00017955555555555558,
354
+ "loss": 0.113,
355
+ "step": 230
356
+ },
357
+ {
358
+ "epoch": 1.5666666666666667,
359
+ "grad_norm": 6.164524078369141,
360
+ "learning_rate": 0.00017911111111111112,
361
+ "loss": 0.0666,
362
+ "step": 235
363
+ },
364
+ {
365
+ "epoch": 1.6,
366
+ "grad_norm": 0.5532757639884949,
367
+ "learning_rate": 0.00017866666666666668,
368
+ "loss": 0.0778,
369
+ "step": 240
370
+ },
371
+ {
372
+ "epoch": 1.6333333333333333,
373
+ "grad_norm": 0.05819055810570717,
374
+ "learning_rate": 0.00017822222222222222,
375
+ "loss": 0.0719,
376
+ "step": 245
377
+ },
378
+ {
379
+ "epoch": 1.6666666666666665,
380
+ "grad_norm": 0.2468406856060028,
381
+ "learning_rate": 0.00017777777777777779,
382
+ "loss": 0.0438,
383
+ "step": 250
384
+ },
385
+ {
386
+ "epoch": 1.7,
387
+ "grad_norm": 3.8207075595855713,
388
+ "learning_rate": 0.00017733333333333335,
389
+ "loss": 0.1873,
390
+ "step": 255
391
+ },
392
+ {
393
+ "epoch": 1.7333333333333334,
394
+ "grad_norm": 0.05965983495116234,
395
+ "learning_rate": 0.0001768888888888889,
396
+ "loss": 0.055,
397
+ "step": 260
398
+ },
399
+ {
400
+ "epoch": 1.7666666666666666,
401
+ "grad_norm": 4.2167205810546875,
402
+ "learning_rate": 0.00017644444444444446,
403
+ "loss": 0.042,
404
+ "step": 265
405
+ },
406
+ {
407
+ "epoch": 1.8,
408
+ "grad_norm": 0.10185975581407547,
409
+ "learning_rate": 0.00017600000000000002,
410
+ "loss": 0.0424,
411
+ "step": 270
412
+ },
413
+ {
414
+ "epoch": 1.8333333333333335,
415
+ "grad_norm": 1.9210762977600098,
416
+ "learning_rate": 0.00017555555555555556,
417
+ "loss": 0.0562,
418
+ "step": 275
419
+ },
420
+ {
421
+ "epoch": 1.8666666666666667,
422
+ "grad_norm": 0.6008936166763306,
423
+ "learning_rate": 0.00017511111111111113,
424
+ "loss": 0.0524,
425
+ "step": 280
426
+ },
427
+ {
428
+ "epoch": 1.9,
429
+ "grad_norm": 1.841305136680603,
430
+ "learning_rate": 0.00017466666666666667,
431
+ "loss": 0.146,
432
+ "step": 285
433
+ },
434
+ {
435
+ "epoch": 1.9333333333333333,
436
+ "grad_norm": 0.04818285256624222,
437
+ "learning_rate": 0.00017422222222222223,
438
+ "loss": 0.015,
439
+ "step": 290
440
+ },
441
+ {
442
+ "epoch": 1.9666666666666668,
443
+ "grad_norm": 0.050033003091812134,
444
+ "learning_rate": 0.0001737777777777778,
445
+ "loss": 0.1287,
446
+ "step": 295
447
+ },
448
+ {
449
+ "epoch": 2.0,
450
+ "grad_norm": 0.05448291450738907,
451
+ "learning_rate": 0.00017333333333333334,
452
+ "loss": 0.0215,
453
+ "step": 300
454
+ },
455
+ {
456
+ "epoch": 2.0,
457
+ "eval_accuracy": 0.9016666666666666,
458
+ "eval_f1": 0.8984841257788492,
459
+ "eval_loss": 0.37212345004081726,
460
+ "eval_precision": 0.9081757709131506,
461
+ "eval_recall": 0.9016666666666666,
462
+ "eval_runtime": 8.9962,
463
+ "eval_samples_per_second": 133.389,
464
+ "eval_steps_per_second": 16.674,
465
+ "step": 300
466
+ },
467
+ {
468
+ "epoch": 2.033333333333333,
469
+ "grad_norm": 0.05407797917723656,
470
+ "learning_rate": 0.0001728888888888889,
471
+ "loss": 0.0321,
472
+ "step": 305
473
+ },
474
+ {
475
+ "epoch": 2.066666666666667,
476
+ "grad_norm": 4.20230770111084,
477
+ "learning_rate": 0.00017244444444444444,
478
+ "loss": 0.0491,
479
+ "step": 310
480
+ },
481
+ {
482
+ "epoch": 2.1,
483
+ "grad_norm": 1.49053955078125,
484
+ "learning_rate": 0.000172,
485
+ "loss": 0.0539,
486
+ "step": 315
487
+ },
488
+ {
489
+ "epoch": 2.1333333333333333,
490
+ "grad_norm": 4.136805057525635,
491
+ "learning_rate": 0.00017155555555555555,
492
+ "loss": 0.0815,
493
+ "step": 320
494
+ },
495
+ {
496
+ "epoch": 2.1666666666666665,
497
+ "grad_norm": 4.121062278747559,
498
+ "learning_rate": 0.0001711111111111111,
499
+ "loss": 0.0551,
500
+ "step": 325
501
+ },
502
+ {
503
+ "epoch": 2.2,
504
+ "grad_norm": 2.9513375759124756,
505
+ "learning_rate": 0.00017066666666666668,
506
+ "loss": 0.0429,
507
+ "step": 330
508
+ },
509
+ {
510
+ "epoch": 2.2333333333333334,
511
+ "grad_norm": 0.24824482202529907,
512
+ "learning_rate": 0.00017022222222222224,
513
+ "loss": 0.0402,
514
+ "step": 335
515
+ },
516
+ {
517
+ "epoch": 2.2666666666666666,
518
+ "grad_norm": 2.6825144290924072,
519
+ "learning_rate": 0.00016977777777777778,
520
+ "loss": 0.1037,
521
+ "step": 340
522
+ },
523
+ {
524
+ "epoch": 2.3,
525
+ "grad_norm": 8.458391189575195,
526
+ "learning_rate": 0.00016933333333333335,
527
+ "loss": 0.0547,
528
+ "step": 345
529
+ },
530
+ {
531
+ "epoch": 2.3333333333333335,
532
+ "grad_norm": 4.8150739669799805,
533
+ "learning_rate": 0.00016888888888888889,
534
+ "loss": 0.1288,
535
+ "step": 350
536
+ },
537
+ {
538
+ "epoch": 2.3666666666666667,
539
+ "grad_norm": 2.286815643310547,
540
+ "learning_rate": 0.00016844444444444445,
541
+ "loss": 0.0206,
542
+ "step": 355
543
+ },
544
+ {
545
+ "epoch": 2.4,
546
+ "grad_norm": 6.384063720703125,
547
+ "learning_rate": 0.000168,
548
+ "loss": 0.0305,
549
+ "step": 360
550
+ },
551
+ {
552
+ "epoch": 2.4333333333333336,
553
+ "grad_norm": 0.08697441965341568,
554
+ "learning_rate": 0.00016755555555555556,
555
+ "loss": 0.0306,
556
+ "step": 365
557
+ },
558
+ {
559
+ "epoch": 2.466666666666667,
560
+ "grad_norm": 5.742947578430176,
561
+ "learning_rate": 0.00016711111111111112,
562
+ "loss": 0.0494,
563
+ "step": 370
564
+ },
565
+ {
566
+ "epoch": 2.5,
567
+ "grad_norm": 0.03892851248383522,
568
+ "learning_rate": 0.0001666666666666667,
569
+ "loss": 0.0096,
570
+ "step": 375
571
+ },
572
+ {
573
+ "epoch": 2.533333333333333,
574
+ "grad_norm": 0.0344746969640255,
575
+ "learning_rate": 0.00016622222222222223,
576
+ "loss": 0.0283,
577
+ "step": 380
578
+ },
579
+ {
580
+ "epoch": 2.5666666666666664,
581
+ "grad_norm": 0.02712893858551979,
582
+ "learning_rate": 0.0001657777777777778,
583
+ "loss": 0.022,
584
+ "step": 385
585
+ },
586
+ {
587
+ "epoch": 2.6,
588
+ "grad_norm": 0.03232201561331749,
589
+ "learning_rate": 0.00016533333333333333,
590
+ "loss": 0.1133,
591
+ "step": 390
592
+ },
593
+ {
594
+ "epoch": 2.6333333333333333,
595
+ "grad_norm": 0.034541644155979156,
596
+ "learning_rate": 0.0001648888888888889,
597
+ "loss": 0.009,
598
+ "step": 395
599
+ },
600
+ {
601
+ "epoch": 2.6666666666666665,
602
+ "grad_norm": 0.04563550278544426,
603
+ "learning_rate": 0.00016444444444444444,
604
+ "loss": 0.0101,
605
+ "step": 400
606
+ },
607
+ {
608
+ "epoch": 2.6666666666666665,
609
+ "eval_accuracy": 0.8941666666666667,
610
+ "eval_f1": 0.8920220351736138,
611
+ "eval_loss": 0.5347270965576172,
612
+ "eval_precision": 0.9061420167128886,
613
+ "eval_recall": 0.8941666666666667,
614
+ "eval_runtime": 9.1242,
615
+ "eval_samples_per_second": 131.518,
616
+ "eval_steps_per_second": 16.44,
617
+ "step": 400
618
+ },
619
+ {
620
+ "epoch": 2.7,
621
+ "grad_norm": 0.03443131595849991,
622
+ "learning_rate": 0.000164,
623
+ "loss": 0.0091,
624
+ "step": 405
625
+ },
626
+ {
627
+ "epoch": 2.7333333333333334,
628
+ "grad_norm": 0.025529412552714348,
629
+ "learning_rate": 0.00016355555555555557,
630
+ "loss": 0.0074,
631
+ "step": 410
632
+ },
633
+ {
634
+ "epoch": 2.7666666666666666,
635
+ "grad_norm": 0.06645037978887558,
636
+ "learning_rate": 0.00016311111111111113,
637
+ "loss": 0.0073,
638
+ "step": 415
639
+ },
640
+ {
641
+ "epoch": 2.8,
642
+ "grad_norm": 0.026776228100061417,
643
+ "learning_rate": 0.00016266666666666667,
644
+ "loss": 0.0079,
645
+ "step": 420
646
+ },
647
+ {
648
+ "epoch": 2.8333333333333335,
649
+ "grad_norm": 0.20765815675258636,
650
+ "learning_rate": 0.00016222222222222224,
651
+ "loss": 0.0071,
652
+ "step": 425
653
+ },
654
+ {
655
+ "epoch": 2.8666666666666667,
656
+ "grad_norm": 0.023739568889141083,
657
+ "learning_rate": 0.00016177777777777778,
658
+ "loss": 0.0067,
659
+ "step": 430
660
+ },
661
+ {
662
+ "epoch": 2.9,
663
+ "grad_norm": 0.023541877046227455,
664
+ "learning_rate": 0.00016133333333333334,
665
+ "loss": 0.0061,
666
+ "step": 435
667
+ },
668
+ {
669
+ "epoch": 2.9333333333333336,
670
+ "grad_norm": 0.02066374383866787,
671
+ "learning_rate": 0.00016088888888888888,
672
+ "loss": 0.006,
673
+ "step": 440
674
+ },
675
+ {
676
+ "epoch": 2.966666666666667,
677
+ "grad_norm": 0.022866908460855484,
678
+ "learning_rate": 0.00016044444444444445,
679
+ "loss": 0.006,
680
+ "step": 445
681
+ },
682
+ {
683
+ "epoch": 3.0,
684
+ "grad_norm": 0.03311862796545029,
685
+ "learning_rate": 0.00016,
686
+ "loss": 0.0058,
687
+ "step": 450
688
+ },
689
+ {
690
+ "epoch": 3.033333333333333,
691
+ "grad_norm": 2.7163822650909424,
692
+ "learning_rate": 0.00015955555555555558,
693
+ "loss": 0.0187,
694
+ "step": 455
695
+ },
696
+ {
697
+ "epoch": 3.066666666666667,
698
+ "grad_norm": 0.020368332043290138,
699
+ "learning_rate": 0.00015911111111111112,
700
+ "loss": 0.0053,
701
+ "step": 460
702
+ },
703
+ {
704
+ "epoch": 3.1,
705
+ "grad_norm": 0.02092335745692253,
706
+ "learning_rate": 0.00015866666666666668,
707
+ "loss": 0.0446,
708
+ "step": 465
709
+ },
710
+ {
711
+ "epoch": 3.1333333333333333,
712
+ "grad_norm": 0.01936771348118782,
713
+ "learning_rate": 0.00015822222222222222,
714
+ "loss": 0.019,
715
+ "step": 470
716
+ },
717
+ {
718
+ "epoch": 3.1666666666666665,
719
+ "grad_norm": 0.05188484862446785,
720
+ "learning_rate": 0.0001577777777777778,
721
+ "loss": 0.0064,
722
+ "step": 475
723
+ },
724
+ {
725
+ "epoch": 3.2,
726
+ "grad_norm": 0.7598115801811218,
727
+ "learning_rate": 0.00015733333333333333,
728
+ "loss": 0.0065,
729
+ "step": 480
730
+ },
731
+ {
732
+ "epoch": 3.2333333333333334,
733
+ "grad_norm": 0.017925532534718513,
734
+ "learning_rate": 0.00015688888888888892,
735
+ "loss": 0.0052,
736
+ "step": 485
737
+ },
738
+ {
739
+ "epoch": 3.2666666666666666,
740
+ "grad_norm": 1.7092453241348267,
741
+ "learning_rate": 0.00015644444444444446,
742
+ "loss": 0.039,
743
+ "step": 490
744
+ },
745
+ {
746
+ "epoch": 3.3,
747
+ "grad_norm": 0.03364104405045509,
748
+ "learning_rate": 0.00015600000000000002,
749
+ "loss": 0.0306,
750
+ "step": 495
751
+ },
752
+ {
753
+ "epoch": 3.3333333333333335,
754
+ "grad_norm": 3.7608277797698975,
755
+ "learning_rate": 0.00015555555555555556,
756
+ "loss": 0.043,
757
+ "step": 500
758
+ },
759
+ {
760
+ "epoch": 3.3333333333333335,
761
+ "eval_accuracy": 0.8425,
762
+ "eval_f1": 0.8426894645957341,
763
+ "eval_loss": 0.784968912601471,
764
+ "eval_precision": 0.8592122423357443,
765
+ "eval_recall": 0.8425,
766
+ "eval_runtime": 9.2177,
767
+ "eval_samples_per_second": 130.185,
768
+ "eval_steps_per_second": 16.273,
769
+ "step": 500
770
+ },
771
+ {
772
+ "epoch": 3.3666666666666667,
773
+ "grad_norm": 0.1858338564634323,
774
+ "learning_rate": 0.00015511111111111113,
775
+ "loss": 0.0066,
776
+ "step": 505
777
+ },
778
+ {
779
+ "epoch": 3.4,
780
+ "grad_norm": 0.022260984405875206,
781
+ "learning_rate": 0.00015466666666666667,
782
+ "loss": 0.0104,
783
+ "step": 510
784
+ },
785
+ {
786
+ "epoch": 3.4333333333333336,
787
+ "grad_norm": 3.2305305004119873,
788
+ "learning_rate": 0.00015422222222222223,
789
+ "loss": 0.0734,
790
+ "step": 515
791
+ },
792
+ {
793
+ "epoch": 3.466666666666667,
794
+ "grad_norm": 0.02268332615494728,
795
+ "learning_rate": 0.00015377777777777777,
796
+ "loss": 0.0191,
797
+ "step": 520
798
+ },
799
+ {
800
+ "epoch": 3.5,
801
+ "grad_norm": 0.6931867599487305,
802
+ "learning_rate": 0.00015333333333333334,
803
+ "loss": 0.0415,
804
+ "step": 525
805
+ },
806
+ {
807
+ "epoch": 3.533333333333333,
808
+ "grad_norm": 0.05407170578837395,
809
+ "learning_rate": 0.0001528888888888889,
810
+ "loss": 0.0445,
811
+ "step": 530
812
+ },
813
+ {
814
+ "epoch": 3.5666666666666664,
815
+ "grad_norm": 0.09081502258777618,
816
+ "learning_rate": 0.00015244444444444447,
817
+ "loss": 0.0555,
818
+ "step": 535
819
+ },
820
+ {
821
+ "epoch": 3.6,
822
+ "grad_norm": 0.026441602036356926,
823
+ "learning_rate": 0.000152,
824
+ "loss": 0.0058,
825
+ "step": 540
826
+ },
827
+ {
828
+ "epoch": 3.6333333333333333,
829
+ "grad_norm": 0.25190070271492004,
830
+ "learning_rate": 0.00015155555555555557,
831
+ "loss": 0.005,
832
+ "step": 545
833
+ },
834
+ {
835
+ "epoch": 3.6666666666666665,
836
+ "grad_norm": 0.016116006299853325,
837
+ "learning_rate": 0.0001511111111111111,
838
+ "loss": 0.0049,
839
+ "step": 550
840
+ },
841
+ {
842
+ "epoch": 3.7,
843
+ "grad_norm": 4.043995380401611,
844
+ "learning_rate": 0.00015066666666666668,
845
+ "loss": 0.0677,
846
+ "step": 555
847
+ },
848
+ {
849
+ "epoch": 3.7333333333333334,
850
+ "grad_norm": 0.02261391095817089,
851
+ "learning_rate": 0.00015022222222222222,
852
+ "loss": 0.0043,
853
+ "step": 560
854
+ },
855
+ {
856
+ "epoch": 3.7666666666666666,
857
+ "grad_norm": 0.015623694285750389,
858
+ "learning_rate": 0.00014977777777777778,
859
+ "loss": 0.0052,
860
+ "step": 565
861
+ },
862
+ {
863
+ "epoch": 3.8,
864
+ "grad_norm": 0.0159298162907362,
865
+ "learning_rate": 0.00014933333333333335,
866
+ "loss": 0.0302,
867
+ "step": 570
868
+ },
869
+ {
870
+ "epoch": 3.8333333333333335,
871
+ "grad_norm": 0.020601999014616013,
872
+ "learning_rate": 0.0001488888888888889,
873
+ "loss": 0.0041,
874
+ "step": 575
875
+ },
876
+ {
877
+ "epoch": 3.8666666666666667,
878
+ "grad_norm": 0.013788328506052494,
879
+ "learning_rate": 0.00014844444444444445,
880
+ "loss": 0.0048,
881
+ "step": 580
882
+ },
883
+ {
884
+ "epoch": 3.9,
885
+ "grad_norm": 1.414560317993164,
886
+ "learning_rate": 0.000148,
887
+ "loss": 0.0077,
888
+ "step": 585
889
+ },
890
+ {
891
+ "epoch": 3.9333333333333336,
892
+ "grad_norm": 4.793529033660889,
893
+ "learning_rate": 0.00014755555555555556,
894
+ "loss": 0.008,
895
+ "step": 590
896
+ },
897
+ {
898
+ "epoch": 3.966666666666667,
899
+ "grad_norm": 0.014001097530126572,
900
+ "learning_rate": 0.00014711111111111112,
901
+ "loss": 0.0415,
902
+ "step": 595
903
+ },
904
+ {
905
+ "epoch": 4.0,
906
+ "grad_norm": 0.029955489560961723,
907
+ "learning_rate": 0.00014666666666666666,
908
+ "loss": 0.0641,
909
+ "step": 600
910
+ },
911
+ {
912
+ "epoch": 4.0,
913
+ "eval_accuracy": 0.8583333333333333,
914
+ "eval_f1": 0.8573833554569419,
915
+ "eval_loss": 0.7735322117805481,
916
+ "eval_precision": 0.8770446177892626,
917
+ "eval_recall": 0.8583333333333333,
918
+ "eval_runtime": 9.0657,
919
+ "eval_samples_per_second": 132.367,
920
+ "eval_steps_per_second": 16.546,
921
+ "step": 600
922
+ },
923
+ {
924
+ "epoch": 4.033333333333333,
925
+ "grad_norm": 1.7859865427017212,
926
+ "learning_rate": 0.00014622222222222223,
927
+ "loss": 0.0383,
928
+ "step": 605
929
+ },
930
+ {
931
+ "epoch": 4.066666666666666,
932
+ "grad_norm": 2.2146739959716797,
933
+ "learning_rate": 0.0001457777777777778,
934
+ "loss": 0.049,
935
+ "step": 610
936
+ },
937
+ {
938
+ "epoch": 4.1,
939
+ "grad_norm": 4.788426399230957,
940
+ "learning_rate": 0.00014533333333333333,
941
+ "loss": 0.0172,
942
+ "step": 615
943
+ },
944
+ {
945
+ "epoch": 4.133333333333334,
946
+ "grad_norm": 4.24533224105835,
947
+ "learning_rate": 0.0001448888888888889,
948
+ "loss": 0.0581,
949
+ "step": 620
950
+ },
951
+ {
952
+ "epoch": 4.166666666666667,
953
+ "grad_norm": 3.2386908531188965,
954
+ "learning_rate": 0.00014444444444444444,
955
+ "loss": 0.2119,
956
+ "step": 625
957
+ },
958
+ {
959
+ "epoch": 4.2,
960
+ "grad_norm": 3.0637991428375244,
961
+ "learning_rate": 0.000144,
962
+ "loss": 0.0952,
963
+ "step": 630
964
+ },
965
+ {
966
+ "epoch": 4.233333333333333,
967
+ "grad_norm": 1.8726221323013306,
968
+ "learning_rate": 0.00014355555555555554,
969
+ "loss": 0.0625,
970
+ "step": 635
971
+ },
972
+ {
973
+ "epoch": 4.266666666666667,
974
+ "grad_norm": 2.6457202434539795,
975
+ "learning_rate": 0.0001431111111111111,
976
+ "loss": 0.0337,
977
+ "step": 640
978
+ },
979
+ {
980
+ "epoch": 4.3,
981
+ "grad_norm": 0.16701628267765045,
982
+ "learning_rate": 0.00014266666666666667,
983
+ "loss": 0.0452,
984
+ "step": 645
985
+ },
986
+ {
987
+ "epoch": 4.333333333333333,
988
+ "grad_norm": 0.021049339324235916,
989
+ "learning_rate": 0.00014222222222222224,
990
+ "loss": 0.0309,
991
+ "step": 650
992
+ },
993
+ {
994
+ "epoch": 4.366666666666666,
995
+ "grad_norm": 0.013704544864594936,
996
+ "learning_rate": 0.00014177777777777778,
997
+ "loss": 0.0362,
998
+ "step": 655
999
+ },
1000
+ {
1001
+ "epoch": 4.4,
1002
+ "grad_norm": 1.8577803373336792,
1003
+ "learning_rate": 0.00014133333333333334,
1004
+ "loss": 0.0962,
1005
+ "step": 660
1006
+ },
1007
+ {
1008
+ "epoch": 4.433333333333334,
1009
+ "grad_norm": 6.272852897644043,
1010
+ "learning_rate": 0.00014088888888888888,
1011
+ "loss": 0.0107,
1012
+ "step": 665
1013
+ },
1014
+ {
1015
+ "epoch": 4.466666666666667,
1016
+ "grad_norm": 0.03123130276799202,
1017
+ "learning_rate": 0.00014044444444444445,
1018
+ "loss": 0.0632,
1019
+ "step": 670
1020
+ },
1021
+ {
1022
+ "epoch": 4.5,
1023
+ "grad_norm": 0.26144641637802124,
1024
+ "learning_rate": 0.00014,
1025
+ "loss": 0.0608,
1026
+ "step": 675
1027
+ },
1028
+ {
1029
+ "epoch": 4.533333333333333,
1030
+ "grad_norm": 0.032063163816928864,
1031
+ "learning_rate": 0.00013955555555555558,
1032
+ "loss": 0.0356,
1033
+ "step": 680
1034
+ },
1035
+ {
1036
+ "epoch": 4.566666666666666,
1037
+ "grad_norm": 1.1699529886245728,
1038
+ "learning_rate": 0.00013911111111111112,
1039
+ "loss": 0.0284,
1040
+ "step": 685
1041
+ },
1042
+ {
1043
+ "epoch": 4.6,
1044
+ "grad_norm": 1.968325138092041,
1045
+ "learning_rate": 0.00013866666666666669,
1046
+ "loss": 0.0615,
1047
+ "step": 690
1048
+ },
1049
+ {
1050
+ "epoch": 4.633333333333333,
1051
+ "grad_norm": 0.014379513449966908,
1052
+ "learning_rate": 0.00013822222222222222,
1053
+ "loss": 0.0193,
1054
+ "step": 695
1055
+ },
1056
+ {
1057
+ "epoch": 4.666666666666667,
1058
+ "grad_norm": 0.022963469848036766,
1059
+ "learning_rate": 0.0001377777777777778,
1060
+ "loss": 0.0036,
1061
+ "step": 700
1062
+ },
1063
+ {
1064
+ "epoch": 4.666666666666667,
1065
+ "eval_accuracy": 0.8366666666666667,
1066
+ "eval_f1": 0.8250255822533592,
1067
+ "eval_loss": 0.7351471185684204,
1068
+ "eval_precision": 0.8623013064610192,
1069
+ "eval_recall": 0.8366666666666667,
1070
+ "eval_runtime": 9.0085,
1071
+ "eval_samples_per_second": 133.207,
1072
+ "eval_steps_per_second": 16.651,
1073
+ "step": 700
1074
+ },
1075
+ {
1076
+ "epoch": 4.7,
1077
+ "grad_norm": 0.014110775664448738,
1078
+ "learning_rate": 0.00013733333333333333,
1079
+ "loss": 0.0147,
1080
+ "step": 705
1081
+ },
1082
+ {
1083
+ "epoch": 4.733333333333333,
1084
+ "grad_norm": 0.014284992590546608,
1085
+ "learning_rate": 0.0001368888888888889,
1086
+ "loss": 0.0035,
1087
+ "step": 710
1088
+ },
1089
+ {
1090
+ "epoch": 4.766666666666667,
1091
+ "grad_norm": 0.012826389633119106,
1092
+ "learning_rate": 0.00013644444444444443,
1093
+ "loss": 0.0044,
1094
+ "step": 715
1095
+ },
1096
+ {
1097
+ "epoch": 4.8,
1098
+ "grad_norm": 0.011032935231924057,
1099
+ "learning_rate": 0.00013600000000000003,
1100
+ "loss": 0.0046,
1101
+ "step": 720
1102
+ },
1103
+ {
1104
+ "epoch": 4.833333333333333,
1105
+ "grad_norm": 0.014207839034497738,
1106
+ "learning_rate": 0.00013555555555555556,
1107
+ "loss": 0.0339,
1108
+ "step": 725
1109
+ },
1110
+ {
1111
+ "epoch": 4.866666666666667,
1112
+ "grad_norm": 0.010903984308242798,
1113
+ "learning_rate": 0.00013511111111111113,
1114
+ "loss": 0.0052,
1115
+ "step": 730
1116
+ },
1117
+ {
1118
+ "epoch": 4.9,
1119
+ "grad_norm": 1.6590766906738281,
1120
+ "learning_rate": 0.00013466666666666667,
1121
+ "loss": 0.0792,
1122
+ "step": 735
1123
+ },
1124
+ {
1125
+ "epoch": 4.933333333333334,
1126
+ "grad_norm": 0.010764382779598236,
1127
+ "learning_rate": 0.00013422222222222224,
1128
+ "loss": 0.0912,
1129
+ "step": 740
1130
+ },
1131
+ {
1132
+ "epoch": 4.966666666666667,
1133
+ "grad_norm": 6.360743045806885,
1134
+ "learning_rate": 0.00013377777777777777,
1135
+ "loss": 0.0142,
1136
+ "step": 745
1137
+ },
1138
+ {
1139
+ "epoch": 5.0,
1140
+ "grad_norm": 0.08818025141954422,
1141
+ "learning_rate": 0.00013333333333333334,
1142
+ "loss": 0.0125,
1143
+ "step": 750
1144
+ },
1145
+ {
1146
+ "epoch": 5.033333333333333,
1147
+ "grad_norm": 0.039597898721694946,
1148
+ "learning_rate": 0.00013288888888888888,
1149
+ "loss": 0.047,
1150
+ "step": 755
1151
+ },
1152
+ {
1153
+ "epoch": 5.066666666666666,
1154
+ "grad_norm": 3.1502726078033447,
1155
+ "learning_rate": 0.00013244444444444447,
1156
+ "loss": 0.0817,
1157
+ "step": 760
1158
+ },
1159
+ {
1160
+ "epoch": 5.1,
1161
+ "grad_norm": 0.04044979810714722,
1162
+ "learning_rate": 0.000132,
1163
+ "loss": 0.004,
1164
+ "step": 765
1165
+ },
1166
+ {
1167
+ "epoch": 5.133333333333334,
1168
+ "grad_norm": 0.018100356683135033,
1169
+ "learning_rate": 0.00013155555555555558,
1170
+ "loss": 0.0059,
1171
+ "step": 770
1172
+ },
1173
+ {
1174
+ "epoch": 5.166666666666667,
1175
+ "grad_norm": 0.1408000886440277,
1176
+ "learning_rate": 0.00013111111111111111,
1177
+ "loss": 0.0058,
1178
+ "step": 775
1179
+ },
1180
+ {
1181
+ "epoch": 5.2,
1182
+ "grad_norm": 0.014914629980921745,
1183
+ "learning_rate": 0.00013066666666666668,
1184
+ "loss": 0.0397,
1185
+ "step": 780
1186
+ },
1187
+ {
1188
+ "epoch": 5.233333333333333,
1189
+ "grad_norm": 0.010519575327634811,
1190
+ "learning_rate": 0.00013022222222222222,
1191
+ "loss": 0.0035,
1192
+ "step": 785
1193
+ },
1194
+ {
1195
+ "epoch": 5.266666666666667,
1196
+ "grad_norm": 0.1079607829451561,
1197
+ "learning_rate": 0.00012977777777777779,
1198
+ "loss": 0.003,
1199
+ "step": 790
1200
+ },
1201
+ {
1202
+ "epoch": 5.3,
1203
+ "grad_norm": 0.012321013025939465,
1204
+ "learning_rate": 0.00012933333333333332,
1205
+ "loss": 0.0043,
1206
+ "step": 795
1207
+ },
1208
+ {
1209
+ "epoch": 5.333333333333333,
1210
+ "grad_norm": 0.009173799306154251,
1211
+ "learning_rate": 0.00012888888888888892,
1212
+ "loss": 0.0039,
1213
+ "step": 800
1214
+ },
1215
+ {
1216
+ "epoch": 5.333333333333333,
1217
+ "eval_accuracy": 0.9108333333333334,
1218
+ "eval_f1": 0.9102828889161464,
1219
+ "eval_loss": 0.3454643189907074,
1220
+ "eval_precision": 0.9190361753451352,
1221
+ "eval_recall": 0.9108333333333334,
1222
+ "eval_runtime": 9.0972,
1223
+ "eval_samples_per_second": 131.909,
1224
+ "eval_steps_per_second": 16.489,
1225
+ "step": 800
1226
+ },
1227
+ {
1228
+ "epoch": 5.366666666666666,
1229
+ "grad_norm": 0.00932050310075283,
1230
+ "learning_rate": 0.00012844444444444446,
1231
+ "loss": 0.0031,
1232
+ "step": 805
1233
+ },
1234
+ {
1235
+ "epoch": 5.4,
1236
+ "grad_norm": 0.009178749285638332,
1237
+ "learning_rate": 0.00012800000000000002,
1238
+ "loss": 0.0025,
1239
+ "step": 810
1240
+ },
1241
+ {
1242
+ "epoch": 5.433333333333334,
1243
+ "grad_norm": 0.008462225086987019,
1244
+ "learning_rate": 0.00012755555555555556,
1245
+ "loss": 0.0024,
1246
+ "step": 815
1247
+ },
1248
+ {
1249
+ "epoch": 5.466666666666667,
1250
+ "grad_norm": 0.009262710809707642,
1251
+ "learning_rate": 0.00012711111111111113,
1252
+ "loss": 0.0392,
1253
+ "step": 820
1254
+ },
1255
+ {
1256
+ "epoch": 5.5,
1257
+ "grad_norm": 0.008442485705018044,
1258
+ "learning_rate": 0.00012666666666666666,
1259
+ "loss": 0.0023,
1260
+ "step": 825
1261
+ },
1262
+ {
1263
+ "epoch": 5.533333333333333,
1264
+ "grad_norm": 0.016601471230387688,
1265
+ "learning_rate": 0.00012622222222222223,
1266
+ "loss": 0.0146,
1267
+ "step": 830
1268
+ },
1269
+ {
1270
+ "epoch": 5.566666666666666,
1271
+ "grad_norm": 0.008341116830706596,
1272
+ "learning_rate": 0.0001257777777777778,
1273
+ "loss": 0.0023,
1274
+ "step": 835
1275
+ },
1276
+ {
1277
+ "epoch": 5.6,
1278
+ "grad_norm": 0.008404243737459183,
1279
+ "learning_rate": 0.00012533333333333334,
1280
+ "loss": 0.0023,
1281
+ "step": 840
1282
+ },
1283
+ {
1284
+ "epoch": 5.633333333333333,
1285
+ "grad_norm": 0.05369413644075394,
1286
+ "learning_rate": 0.0001248888888888889,
1287
+ "loss": 0.0026,
1288
+ "step": 845
1289
+ },
1290
+ {
1291
+ "epoch": 5.666666666666667,
1292
+ "grad_norm": 1.255624532699585,
1293
+ "learning_rate": 0.00012444444444444444,
1294
+ "loss": 0.0301,
1295
+ "step": 850
1296
+ },
1297
+ {
1298
+ "epoch": 5.7,
1299
+ "grad_norm": 0.07422761619091034,
1300
+ "learning_rate": 0.000124,
1301
+ "loss": 0.0024,
1302
+ "step": 855
1303
+ },
1304
+ {
1305
+ "epoch": 5.733333333333333,
1306
+ "grad_norm": 0.4810630679130554,
1307
+ "learning_rate": 0.00012355555555555557,
1308
+ "loss": 0.0043,
1309
+ "step": 860
1310
+ },
1311
+ {
1312
+ "epoch": 5.766666666666667,
1313
+ "grad_norm": 0.009810343384742737,
1314
+ "learning_rate": 0.0001231111111111111,
1315
+ "loss": 0.0159,
1316
+ "step": 865
1317
+ },
1318
+ {
1319
+ "epoch": 5.8,
1320
+ "grad_norm": 0.007798292208462954,
1321
+ "learning_rate": 0.00012266666666666668,
1322
+ "loss": 0.011,
1323
+ "step": 870
1324
+ },
1325
+ {
1326
+ "epoch": 5.833333333333333,
1327
+ "grad_norm": 2.5725393295288086,
1328
+ "learning_rate": 0.00012222222222222224,
1329
+ "loss": 0.0323,
1330
+ "step": 875
1331
+ },
1332
+ {
1333
+ "epoch": 5.866666666666667,
1334
+ "grad_norm": 0.1737234741449356,
1335
+ "learning_rate": 0.0001217777777777778,
1336
+ "loss": 0.0025,
1337
+ "step": 880
1338
+ },
1339
+ {
1340
+ "epoch": 5.9,
1341
+ "grad_norm": 0.10713543742895126,
1342
+ "learning_rate": 0.00012133333333333335,
1343
+ "loss": 0.0137,
1344
+ "step": 885
1345
+ },
1346
+ {
1347
+ "epoch": 5.933333333333334,
1348
+ "grad_norm": 0.0170454028993845,
1349
+ "learning_rate": 0.0001208888888888889,
1350
+ "loss": 0.0024,
1351
+ "step": 890
1352
+ },
1353
+ {
1354
+ "epoch": 5.966666666666667,
1355
+ "grad_norm": 0.008214999921619892,
1356
+ "learning_rate": 0.00012044444444444445,
1357
+ "loss": 0.0227,
1358
+ "step": 895
1359
+ },
1360
+ {
1361
+ "epoch": 6.0,
1362
+ "grad_norm": 0.008387326262891293,
1363
+ "learning_rate": 0.00012,
1364
+ "loss": 0.0021,
1365
+ "step": 900
1366
+ },
1367
+ {
1368
+ "epoch": 6.0,
1369
+ "eval_accuracy": 0.8758333333333334,
1370
+ "eval_f1": 0.8729622165068617,
1371
+ "eval_loss": 0.5939724445343018,
1372
+ "eval_precision": 0.898484934932439,
1373
+ "eval_recall": 0.8758333333333334,
1374
+ "eval_runtime": 9.3035,
1375
+ "eval_samples_per_second": 128.984,
1376
+ "eval_steps_per_second": 16.123,
1377
+ "step": 900
1378
+ },
1379
+ {
1380
+ "epoch": 6.033333333333333,
1381
+ "grad_norm": 0.00791590753942728,
1382
+ "learning_rate": 0.00011955555555555556,
1383
+ "loss": 0.087,
1384
+ "step": 905
1385
+ },
1386
+ {
1387
+ "epoch": 6.066666666666666,
1388
+ "grad_norm": 0.06848917156457901,
1389
+ "learning_rate": 0.00011911111111111111,
1390
+ "loss": 0.0276,
1391
+ "step": 910
1392
+ },
1393
+ {
1394
+ "epoch": 6.1,
1395
+ "grad_norm": 0.029530571773648262,
1396
+ "learning_rate": 0.00011866666666666669,
1397
+ "loss": 0.0032,
1398
+ "step": 915
1399
+ },
1400
+ {
1401
+ "epoch": 6.133333333333334,
1402
+ "grad_norm": 0.07200734317302704,
1403
+ "learning_rate": 0.00011822222222222224,
1404
+ "loss": 0.0066,
1405
+ "step": 920
1406
+ },
1407
+ {
1408
+ "epoch": 6.166666666666667,
1409
+ "grad_norm": 0.013201626017689705,
1410
+ "learning_rate": 0.00011777777777777779,
1411
+ "loss": 0.0263,
1412
+ "step": 925
1413
+ },
1414
+ {
1415
+ "epoch": 6.2,
1416
+ "grad_norm": 0.055678680539131165,
1417
+ "learning_rate": 0.00011733333333333334,
1418
+ "loss": 0.0027,
1419
+ "step": 930
1420
+ },
1421
+ {
1422
+ "epoch": 6.233333333333333,
1423
+ "grad_norm": 7.015408515930176,
1424
+ "learning_rate": 0.0001168888888888889,
1425
+ "loss": 0.0369,
1426
+ "step": 935
1427
+ },
1428
+ {
1429
+ "epoch": 6.266666666666667,
1430
+ "grad_norm": 0.009604562073946,
1431
+ "learning_rate": 0.00011644444444444445,
1432
+ "loss": 0.0023,
1433
+ "step": 940
1434
+ },
1435
+ {
1436
+ "epoch": 6.3,
1437
+ "grad_norm": 0.008789158426225185,
1438
+ "learning_rate": 0.000116,
1439
+ "loss": 0.0027,
1440
+ "step": 945
1441
+ },
1442
+ {
1443
+ "epoch": 6.333333333333333,
1444
+ "grad_norm": 0.009867105633020401,
1445
+ "learning_rate": 0.00011555555555555555,
1446
+ "loss": 0.025,
1447
+ "step": 950
1448
+ },
1449
+ {
1450
+ "epoch": 6.366666666666666,
1451
+ "grad_norm": 0.09046179801225662,
1452
+ "learning_rate": 0.00011511111111111112,
1453
+ "loss": 0.021,
1454
+ "step": 955
1455
+ },
1456
+ {
1457
+ "epoch": 6.4,
1458
+ "grad_norm": 0.2990459203720093,
1459
+ "learning_rate": 0.00011466666666666667,
1460
+ "loss": 0.0437,
1461
+ "step": 960
1462
+ },
1463
+ {
1464
+ "epoch": 6.433333333333334,
1465
+ "grad_norm": 2.726165533065796,
1466
+ "learning_rate": 0.00011422222222222224,
1467
+ "loss": 0.0033,
1468
+ "step": 965
1469
+ },
1470
+ {
1471
+ "epoch": 6.466666666666667,
1472
+ "grad_norm": 0.23076964914798737,
1473
+ "learning_rate": 0.00011377777777777779,
1474
+ "loss": 0.0343,
1475
+ "step": 970
1476
+ },
1477
+ {
1478
+ "epoch": 6.5,
1479
+ "grad_norm": 0.04384481534361839,
1480
+ "learning_rate": 0.00011333333333333334,
1481
+ "loss": 0.0152,
1482
+ "step": 975
1483
+ },
1484
+ {
1485
+ "epoch": 6.533333333333333,
1486
+ "grad_norm": 0.007463160436600447,
1487
+ "learning_rate": 0.0001128888888888889,
1488
+ "loss": 0.0019,
1489
+ "step": 980
1490
+ },
1491
+ {
1492
+ "epoch": 6.566666666666666,
1493
+ "grad_norm": 0.015924058854579926,
1494
+ "learning_rate": 0.00011244444444444445,
1495
+ "loss": 0.0019,
1496
+ "step": 985
1497
+ },
1498
+ {
1499
+ "epoch": 6.6,
1500
+ "grad_norm": 0.007377041503787041,
1501
+ "learning_rate": 0.00011200000000000001,
1502
+ "loss": 0.0019,
1503
+ "step": 990
1504
+ },
1505
+ {
1506
+ "epoch": 6.633333333333333,
1507
+ "grad_norm": 0.04355741664767265,
1508
+ "learning_rate": 0.00011155555555555556,
1509
+ "loss": 0.0379,
1510
+ "step": 995
1511
+ },
1512
+ {
1513
+ "epoch": 6.666666666666667,
1514
+ "grad_norm": 3.4687533378601074,
1515
+ "learning_rate": 0.00011111111111111112,
1516
+ "loss": 0.054,
1517
+ "step": 1000
1518
+ },
1519
+ {
1520
+ "epoch": 6.666666666666667,
1521
+ "eval_accuracy": 0.8733333333333333,
1522
+ "eval_f1": 0.8714263425298715,
1523
+ "eval_loss": 0.7463460564613342,
1524
+ "eval_precision": 0.9067771826890199,
1525
+ "eval_recall": 0.8733333333333333,
1526
+ "eval_runtime": 9.3125,
1527
+ "eval_samples_per_second": 128.859,
1528
+ "eval_steps_per_second": 16.107,
1529
+ "step": 1000
1530
+ },
1531
+ {
1532
+ "epoch": 6.7,
1533
+ "grad_norm": 0.00824672356247902,
1534
+ "learning_rate": 0.00011066666666666667,
1535
+ "loss": 0.002,
1536
+ "step": 1005
1537
+ },
1538
+ {
1539
+ "epoch": 6.733333333333333,
1540
+ "grad_norm": 1.1352989673614502,
1541
+ "learning_rate": 0.00011022222222222222,
1542
+ "loss": 0.046,
1543
+ "step": 1010
1544
+ },
1545
+ {
1546
+ "epoch": 6.766666666666667,
1547
+ "grad_norm": 0.010397437028586864,
1548
+ "learning_rate": 0.00010977777777777777,
1549
+ "loss": 0.0027,
1550
+ "step": 1015
1551
+ },
1552
+ {
1553
+ "epoch": 6.8,
1554
+ "grad_norm": 0.12541429698467255,
1555
+ "learning_rate": 0.00010933333333333333,
1556
+ "loss": 0.003,
1557
+ "step": 1020
1558
+ },
1559
+ {
1560
+ "epoch": 6.833333333333333,
1561
+ "grad_norm": 0.009704334661364555,
1562
+ "learning_rate": 0.00010888888888888889,
1563
+ "loss": 0.0174,
1564
+ "step": 1025
1565
+ },
1566
+ {
1567
+ "epoch": 6.866666666666667,
1568
+ "grad_norm": 0.011578983627259731,
1569
+ "learning_rate": 0.00010844444444444446,
1570
+ "loss": 0.0161,
1571
+ "step": 1030
1572
+ },
1573
+ {
1574
+ "epoch": 6.9,
1575
+ "grad_norm": 0.009918139316141605,
1576
+ "learning_rate": 0.00010800000000000001,
1577
+ "loss": 0.0022,
1578
+ "step": 1035
1579
+ },
1580
+ {
1581
+ "epoch": 6.933333333333334,
1582
+ "grad_norm": 0.007548391819000244,
1583
+ "learning_rate": 0.00010755555555555556,
1584
+ "loss": 0.002,
1585
+ "step": 1040
1586
+ },
1587
+ {
1588
+ "epoch": 6.966666666666667,
1589
+ "grad_norm": 0.007331849075853825,
1590
+ "learning_rate": 0.00010711111111111111,
1591
+ "loss": 0.002,
1592
+ "step": 1045
1593
+ },
1594
+ {
1595
+ "epoch": 7.0,
1596
+ "grad_norm": 0.008315078914165497,
1597
+ "learning_rate": 0.00010666666666666667,
1598
+ "loss": 0.002,
1599
+ "step": 1050
1600
+ },
1601
+ {
1602
+ "epoch": 7.033333333333333,
1603
+ "grad_norm": 0.007235812954604626,
1604
+ "learning_rate": 0.00010622222222222222,
1605
+ "loss": 0.0023,
1606
+ "step": 1055
1607
+ },
1608
+ {
1609
+ "epoch": 7.066666666666666,
1610
+ "grad_norm": 0.0062900567427277565,
1611
+ "learning_rate": 0.00010577777777777777,
1612
+ "loss": 0.0017,
1613
+ "step": 1060
1614
+ },
1615
+ {
1616
+ "epoch": 7.1,
1617
+ "grad_norm": 0.009442648850381374,
1618
+ "learning_rate": 0.00010533333333333332,
1619
+ "loss": 0.0018,
1620
+ "step": 1065
1621
+ },
1622
+ {
1623
+ "epoch": 7.133333333333334,
1624
+ "grad_norm": 0.006661895662546158,
1625
+ "learning_rate": 0.0001048888888888889,
1626
+ "loss": 0.0018,
1627
+ "step": 1070
1628
+ },
1629
+ {
1630
+ "epoch": 7.166666666666667,
1631
+ "grad_norm": 0.009286611340939999,
1632
+ "learning_rate": 0.00010444444444444445,
1633
+ "loss": 0.0018,
1634
+ "step": 1075
1635
+ },
1636
+ {
1637
+ "epoch": 7.2,
1638
+ "grad_norm": 0.006994432769715786,
1639
+ "learning_rate": 0.00010400000000000001,
1640
+ "loss": 0.0016,
1641
+ "step": 1080
1642
+ },
1643
+ {
1644
+ "epoch": 7.233333333333333,
1645
+ "grad_norm": 0.006040586624294519,
1646
+ "learning_rate": 0.00010355555555555556,
1647
+ "loss": 0.0016,
1648
+ "step": 1085
1649
+ },
1650
+ {
1651
+ "epoch": 7.266666666666667,
1652
+ "grad_norm": 0.005971700418740511,
1653
+ "learning_rate": 0.00010311111111111111,
1654
+ "loss": 0.0027,
1655
+ "step": 1090
1656
+ },
1657
+ {
1658
+ "epoch": 7.3,
1659
+ "grad_norm": 0.0062834471464157104,
1660
+ "learning_rate": 0.00010266666666666666,
1661
+ "loss": 0.0023,
1662
+ "step": 1095
1663
+ },
1664
+ {
1665
+ "epoch": 7.333333333333333,
1666
+ "grad_norm": 0.005578146781772375,
1667
+ "learning_rate": 0.00010222222222222222,
1668
+ "loss": 0.0015,
1669
+ "step": 1100
1670
+ },
1671
+ {
1672
+ "epoch": 7.333333333333333,
1673
+ "eval_accuracy": 0.8391666666666666,
1674
+ "eval_f1": 0.8243070430866863,
1675
+ "eval_loss": 0.891526997089386,
1676
+ "eval_precision": 0.8721606965107342,
1677
+ "eval_recall": 0.8391666666666666,
1678
+ "eval_runtime": 9.3025,
1679
+ "eval_samples_per_second": 128.998,
1680
+ "eval_steps_per_second": 16.125,
1681
+ "step": 1100
1682
+ },
1683
+ {
1684
+ "epoch": 7.366666666666666,
1685
+ "grad_norm": 0.005597973708063364,
1686
+ "learning_rate": 0.00010177777777777777,
1687
+ "loss": 0.0223,
1688
+ "step": 1105
1689
+ },
1690
+ {
1691
+ "epoch": 7.4,
1692
+ "grad_norm": 0.006115862168371677,
1693
+ "learning_rate": 0.00010133333333333335,
1694
+ "loss": 0.0015,
1695
+ "step": 1110
1696
+ },
1697
+ {
1698
+ "epoch": 7.433333333333334,
1699
+ "grad_norm": 0.013728507794439793,
1700
+ "learning_rate": 0.0001008888888888889,
1701
+ "loss": 0.002,
1702
+ "step": 1115
1703
+ },
1704
+ {
1705
+ "epoch": 7.466666666666667,
1706
+ "grad_norm": 0.005637649912387133,
1707
+ "learning_rate": 0.00010044444444444445,
1708
+ "loss": 0.0016,
1709
+ "step": 1120
1710
+ },
1711
+ {
1712
+ "epoch": 7.5,
1713
+ "grad_norm": 0.08930695056915283,
1714
+ "learning_rate": 0.0001,
1715
+ "loss": 0.0018,
1716
+ "step": 1125
1717
+ },
1718
+ {
1719
+ "epoch": 7.533333333333333,
1720
+ "grad_norm": 0.011366425082087517,
1721
+ "learning_rate": 9.955555555555556e-05,
1722
+ "loss": 0.0016,
1723
+ "step": 1130
1724
+ },
1725
+ {
1726
+ "epoch": 7.566666666666666,
1727
+ "grad_norm": 0.005648004822432995,
1728
+ "learning_rate": 9.911111111111112e-05,
1729
+ "loss": 0.0017,
1730
+ "step": 1135
1731
+ },
1732
+ {
1733
+ "epoch": 7.6,
1734
+ "grad_norm": 0.05995195358991623,
1735
+ "learning_rate": 9.866666666666668e-05,
1736
+ "loss": 0.0015,
1737
+ "step": 1140
1738
+ },
1739
+ {
1740
+ "epoch": 7.633333333333333,
1741
+ "grad_norm": 0.00540464511141181,
1742
+ "learning_rate": 9.822222222222223e-05,
1743
+ "loss": 0.0015,
1744
+ "step": 1145
1745
+ },
1746
+ {
1747
+ "epoch": 7.666666666666667,
1748
+ "grad_norm": 0.00566456513479352,
1749
+ "learning_rate": 9.777777777777778e-05,
1750
+ "loss": 0.0014,
1751
+ "step": 1150
1752
+ },
1753
+ {
1754
+ "epoch": 7.7,
1755
+ "grad_norm": 0.004974729381501675,
1756
+ "learning_rate": 9.733333333333335e-05,
1757
+ "loss": 0.0014,
1758
+ "step": 1155
1759
+ },
1760
+ {
1761
+ "epoch": 7.733333333333333,
1762
+ "grad_norm": 0.0054329875856637955,
1763
+ "learning_rate": 9.68888888888889e-05,
1764
+ "loss": 0.0014,
1765
+ "step": 1160
1766
+ },
1767
+ {
1768
+ "epoch": 7.766666666666667,
1769
+ "grad_norm": 0.0056770662777125835,
1770
+ "learning_rate": 9.644444444444445e-05,
1771
+ "loss": 0.0014,
1772
+ "step": 1165
1773
+ },
1774
+ {
1775
+ "epoch": 7.8,
1776
+ "grad_norm": 0.005198624450713396,
1777
+ "learning_rate": 9.6e-05,
1778
+ "loss": 0.0013,
1779
+ "step": 1170
1780
+ },
1781
+ {
1782
+ "epoch": 7.833333333333333,
1783
+ "grad_norm": 0.004914712626487017,
1784
+ "learning_rate": 9.555555555555557e-05,
1785
+ "loss": 0.0013,
1786
+ "step": 1175
1787
+ },
1788
+ {
1789
+ "epoch": 7.866666666666667,
1790
+ "grad_norm": 0.0047191414050757885,
1791
+ "learning_rate": 9.511111111111112e-05,
1792
+ "loss": 0.0015,
1793
+ "step": 1180
1794
+ },
1795
+ {
1796
+ "epoch": 7.9,
1797
+ "grad_norm": 0.005518757738173008,
1798
+ "learning_rate": 9.466666666666667e-05,
1799
+ "loss": 0.0013,
1800
+ "step": 1185
1801
+ },
1802
+ {
1803
+ "epoch": 7.933333333333334,
1804
+ "grad_norm": 0.0048125083558261395,
1805
+ "learning_rate": 9.422222222222223e-05,
1806
+ "loss": 0.0013,
1807
+ "step": 1190
1808
+ },
1809
+ {
1810
+ "epoch": 7.966666666666667,
1811
+ "grad_norm": 0.004910661838948727,
1812
+ "learning_rate": 9.377777777777779e-05,
1813
+ "loss": 0.0013,
1814
+ "step": 1195
1815
+ },
1816
+ {
1817
+ "epoch": 8.0,
1818
+ "grad_norm": 0.0058229537680745125,
1819
+ "learning_rate": 9.333333333333334e-05,
1820
+ "loss": 0.0013,
1821
+ "step": 1200
1822
+ },
1823
+ {
1824
+ "epoch": 8.0,
1825
+ "eval_accuracy": 0.8916666666666667,
1826
+ "eval_f1": 0.8909265231423857,
1827
+ "eval_loss": 0.5724537372589111,
1828
+ "eval_precision": 0.8942914839150495,
1829
+ "eval_recall": 0.8916666666666667,
1830
+ "eval_runtime": 9.3088,
1831
+ "eval_samples_per_second": 128.91,
1832
+ "eval_steps_per_second": 16.114,
1833
+ "step": 1200
1834
+ },
1835
+ {
1836
+ "epoch": 8.033333333333333,
1837
+ "grad_norm": 0.004967012442648411,
1838
+ "learning_rate": 9.28888888888889e-05,
1839
+ "loss": 0.0012,
1840
+ "step": 1205
1841
+ },
1842
+ {
1843
+ "epoch": 8.066666666666666,
1844
+ "grad_norm": 0.004711432848125696,
1845
+ "learning_rate": 9.244444444444445e-05,
1846
+ "loss": 0.0012,
1847
+ "step": 1210
1848
+ },
1849
+ {
1850
+ "epoch": 8.1,
1851
+ "grad_norm": 0.004830135498195887,
1852
+ "learning_rate": 9.200000000000001e-05,
1853
+ "loss": 0.0012,
1854
+ "step": 1215
1855
+ },
1856
+ {
1857
+ "epoch": 8.133333333333333,
1858
+ "grad_norm": 0.004584715235978365,
1859
+ "learning_rate": 9.155555555555557e-05,
1860
+ "loss": 0.0012,
1861
+ "step": 1220
1862
+ },
1863
+ {
1864
+ "epoch": 8.166666666666666,
1865
+ "grad_norm": 0.004607088398188353,
1866
+ "learning_rate": 9.111111111111112e-05,
1867
+ "loss": 0.0012,
1868
+ "step": 1225
1869
+ },
1870
+ {
1871
+ "epoch": 8.2,
1872
+ "grad_norm": 0.004765022080391645,
1873
+ "learning_rate": 9.066666666666667e-05,
1874
+ "loss": 0.0012,
1875
+ "step": 1230
1876
+ },
1877
+ {
1878
+ "epoch": 8.233333333333333,
1879
+ "grad_norm": 0.00450365012511611,
1880
+ "learning_rate": 9.022222222222224e-05,
1881
+ "loss": 0.0012,
1882
+ "step": 1235
1883
+ },
1884
+ {
1885
+ "epoch": 8.266666666666667,
1886
+ "grad_norm": 0.00442493474110961,
1887
+ "learning_rate": 8.977777777777779e-05,
1888
+ "loss": 0.0012,
1889
+ "step": 1240
1890
+ },
1891
+ {
1892
+ "epoch": 8.3,
1893
+ "grad_norm": 0.004229240119457245,
1894
+ "learning_rate": 8.933333333333334e-05,
1895
+ "loss": 0.0012,
1896
+ "step": 1245
1897
+ },
1898
+ {
1899
+ "epoch": 8.333333333333334,
1900
+ "grad_norm": 0.004398667719215155,
1901
+ "learning_rate": 8.888888888888889e-05,
1902
+ "loss": 0.0012,
1903
+ "step": 1250
1904
+ },
1905
+ {
1906
+ "epoch": 8.366666666666667,
1907
+ "grad_norm": 0.0043451967649161816,
1908
+ "learning_rate": 8.844444444444445e-05,
1909
+ "loss": 0.0012,
1910
+ "step": 1255
1911
+ },
1912
+ {
1913
+ "epoch": 8.4,
1914
+ "grad_norm": 0.004788388032466173,
1915
+ "learning_rate": 8.800000000000001e-05,
1916
+ "loss": 0.0012,
1917
+ "step": 1260
1918
+ },
1919
+ {
1920
+ "epoch": 8.433333333333334,
1921
+ "grad_norm": 0.004544616676867008,
1922
+ "learning_rate": 8.755555555555556e-05,
1923
+ "loss": 0.0011,
1924
+ "step": 1265
1925
+ },
1926
+ {
1927
+ "epoch": 8.466666666666667,
1928
+ "grad_norm": 0.0046425084583461285,
1929
+ "learning_rate": 8.711111111111112e-05,
1930
+ "loss": 0.0011,
1931
+ "step": 1270
1932
+ },
1933
+ {
1934
+ "epoch": 8.5,
1935
+ "grad_norm": 0.004542881157249212,
1936
+ "learning_rate": 8.666666666666667e-05,
1937
+ "loss": 0.0011,
1938
+ "step": 1275
1939
+ },
1940
+ {
1941
+ "epoch": 8.533333333333333,
1942
+ "grad_norm": 0.0045421249233186245,
1943
+ "learning_rate": 8.622222222222222e-05,
1944
+ "loss": 0.0011,
1945
+ "step": 1280
1946
+ },
1947
+ {
1948
+ "epoch": 8.566666666666666,
1949
+ "grad_norm": 0.00405106833204627,
1950
+ "learning_rate": 8.577777777777777e-05,
1951
+ "loss": 0.0011,
1952
+ "step": 1285
1953
+ },
1954
+ {
1955
+ "epoch": 8.6,
1956
+ "grad_norm": 0.004394896794110537,
1957
+ "learning_rate": 8.533333333333334e-05,
1958
+ "loss": 0.0011,
1959
+ "step": 1290
1960
+ },
1961
+ {
1962
+ "epoch": 8.633333333333333,
1963
+ "grad_norm": 0.004041062202304602,
1964
+ "learning_rate": 8.488888888888889e-05,
1965
+ "loss": 0.0011,
1966
+ "step": 1295
1967
+ },
1968
+ {
1969
+ "epoch": 8.666666666666666,
1970
+ "grad_norm": 0.004039550665766001,
1971
+ "learning_rate": 8.444444444444444e-05,
1972
+ "loss": 0.0011,
1973
+ "step": 1300
1974
+ },
1975
+ {
1976
+ "epoch": 8.666666666666666,
1977
+ "eval_accuracy": 0.8933333333333333,
1978
+ "eval_f1": 0.8925802394981491,
1979
+ "eval_loss": 0.5772183537483215,
1980
+ "eval_precision": 0.8960185823716569,
1981
+ "eval_recall": 0.8933333333333333,
1982
+ "eval_runtime": 9.1025,
1983
+ "eval_samples_per_second": 131.831,
1984
+ "eval_steps_per_second": 16.479,
1985
+ "step": 1300
1986
+ },
1987
+ {
1988
+ "epoch": 8.7,
1989
+ "grad_norm": 0.004443011712282896,
1990
+ "learning_rate": 8.4e-05,
1991
+ "loss": 0.0011,
1992
+ "step": 1305
1993
+ },
1994
+ {
1995
+ "epoch": 8.733333333333333,
1996
+ "grad_norm": 0.004374076146632433,
1997
+ "learning_rate": 8.355555555555556e-05,
1998
+ "loss": 0.0011,
1999
+ "step": 1310
2000
+ },
2001
+ {
2002
+ "epoch": 8.766666666666667,
2003
+ "grad_norm": 0.0038743040058761835,
2004
+ "learning_rate": 8.311111111111111e-05,
2005
+ "loss": 0.001,
2006
+ "step": 1315
2007
+ },
2008
+ {
2009
+ "epoch": 8.8,
2010
+ "grad_norm": 0.004188260063529015,
2011
+ "learning_rate": 8.266666666666667e-05,
2012
+ "loss": 0.0011,
2013
+ "step": 1320
2014
+ },
2015
+ {
2016
+ "epoch": 8.833333333333334,
2017
+ "grad_norm": 0.0040704007260501385,
2018
+ "learning_rate": 8.222222222222222e-05,
2019
+ "loss": 0.001,
2020
+ "step": 1325
2021
+ },
2022
+ {
2023
+ "epoch": 8.866666666666667,
2024
+ "grad_norm": 0.004075295757502317,
2025
+ "learning_rate": 8.177777777777778e-05,
2026
+ "loss": 0.001,
2027
+ "step": 1330
2028
+ },
2029
+ {
2030
+ "epoch": 8.9,
2031
+ "grad_norm": 0.00430710194632411,
2032
+ "learning_rate": 8.133333333333334e-05,
2033
+ "loss": 0.001,
2034
+ "step": 1335
2035
+ },
2036
+ {
2037
+ "epoch": 8.933333333333334,
2038
+ "grad_norm": 0.004175866488367319,
2039
+ "learning_rate": 8.088888888888889e-05,
2040
+ "loss": 0.001,
2041
+ "step": 1340
2042
+ },
2043
+ {
2044
+ "epoch": 8.966666666666667,
2045
+ "grad_norm": 0.0053639840334653854,
2046
+ "learning_rate": 8.044444444444444e-05,
2047
+ "loss": 0.001,
2048
+ "step": 1345
2049
+ },
2050
+ {
2051
+ "epoch": 9.0,
2052
+ "grad_norm": 0.004056727048009634,
2053
+ "learning_rate": 8e-05,
2054
+ "loss": 0.001,
2055
+ "step": 1350
2056
+ },
2057
+ {
2058
+ "epoch": 9.033333333333333,
2059
+ "grad_norm": 0.004028972238302231,
2060
+ "learning_rate": 7.955555555555556e-05,
2061
+ "loss": 0.001,
2062
+ "step": 1355
2063
+ },
2064
+ {
2065
+ "epoch": 9.066666666666666,
2066
+ "grad_norm": 0.0037729782052338123,
2067
+ "learning_rate": 7.911111111111111e-05,
2068
+ "loss": 0.001,
2069
+ "step": 1360
2070
+ },
2071
+ {
2072
+ "epoch": 9.1,
2073
+ "grad_norm": 0.004193460568785667,
2074
+ "learning_rate": 7.866666666666666e-05,
2075
+ "loss": 0.001,
2076
+ "step": 1365
2077
+ },
2078
+ {
2079
+ "epoch": 9.133333333333333,
2080
+ "grad_norm": 0.0038553299382328987,
2081
+ "learning_rate": 7.822222222222223e-05,
2082
+ "loss": 0.001,
2083
+ "step": 1370
2084
+ },
2085
+ {
2086
+ "epoch": 9.166666666666666,
2087
+ "grad_norm": 0.0036280308850109577,
2088
+ "learning_rate": 7.777777777777778e-05,
2089
+ "loss": 0.001,
2090
+ "step": 1375
2091
+ },
2092
+ {
2093
+ "epoch": 9.2,
2094
+ "grad_norm": 0.003699022112414241,
2095
+ "learning_rate": 7.733333333333333e-05,
2096
+ "loss": 0.001,
2097
+ "step": 1380
2098
+ },
2099
+ {
2100
+ "epoch": 9.233333333333333,
2101
+ "grad_norm": 0.00368758337572217,
2102
+ "learning_rate": 7.688888888888889e-05,
2103
+ "loss": 0.001,
2104
+ "step": 1385
2105
+ },
2106
+ {
2107
+ "epoch": 9.266666666666667,
2108
+ "grad_norm": 0.0037148615811020136,
2109
+ "learning_rate": 7.644444444444445e-05,
2110
+ "loss": 0.001,
2111
+ "step": 1390
2112
+ },
2113
+ {
2114
+ "epoch": 9.3,
2115
+ "grad_norm": 0.0037871082313358784,
2116
+ "learning_rate": 7.6e-05,
2117
+ "loss": 0.001,
2118
+ "step": 1395
2119
+ },
2120
+ {
2121
+ "epoch": 9.333333333333334,
2122
+ "grad_norm": 0.004081921651959419,
2123
+ "learning_rate": 7.555555555555556e-05,
2124
+ "loss": 0.001,
2125
+ "step": 1400
2126
+ },
2127
+ {
2128
+ "epoch": 9.333333333333334,
2129
+ "eval_accuracy": 0.8933333333333333,
2130
+ "eval_f1": 0.8925776922397967,
2131
+ "eval_loss": 0.582018256187439,
2132
+ "eval_precision": 0.8956392450490401,
2133
+ "eval_recall": 0.8933333333333333,
2134
+ "eval_runtime": 9.1239,
2135
+ "eval_samples_per_second": 131.522,
2136
+ "eval_steps_per_second": 16.44,
2137
+ "step": 1400
2138
+ },
2139
+ {
2140
+ "epoch": 9.366666666666667,
2141
+ "grad_norm": 0.003595563583076,
2142
+ "learning_rate": 7.511111111111111e-05,
2143
+ "loss": 0.0009,
2144
+ "step": 1405
2145
+ },
2146
+ {
2147
+ "epoch": 9.4,
2148
+ "grad_norm": 0.0034805000759661198,
2149
+ "learning_rate": 7.466666666666667e-05,
2150
+ "loss": 0.001,
2151
+ "step": 1410
2152
+ },
2153
+ {
2154
+ "epoch": 9.433333333333334,
2155
+ "grad_norm": 0.00359420501627028,
2156
+ "learning_rate": 7.422222222222223e-05,
2157
+ "loss": 0.0009,
2158
+ "step": 1415
2159
+ },
2160
+ {
2161
+ "epoch": 9.466666666666667,
2162
+ "grad_norm": 0.003963571507483721,
2163
+ "learning_rate": 7.377777777777778e-05,
2164
+ "loss": 0.0009,
2165
+ "step": 1420
2166
+ },
2167
+ {
2168
+ "epoch": 9.5,
2169
+ "grad_norm": 0.003502447856590152,
2170
+ "learning_rate": 7.333333333333333e-05,
2171
+ "loss": 0.0009,
2172
+ "step": 1425
2173
+ },
2174
+ {
2175
+ "epoch": 9.533333333333333,
2176
+ "grad_norm": 0.0036816669162362814,
2177
+ "learning_rate": 7.28888888888889e-05,
2178
+ "loss": 0.0009,
2179
+ "step": 1430
2180
+ },
2181
+ {
2182
+ "epoch": 9.566666666666666,
2183
+ "grad_norm": 0.0036629538517445326,
2184
+ "learning_rate": 7.244444444444445e-05,
2185
+ "loss": 0.0009,
2186
+ "step": 1435
2187
+ },
2188
+ {
2189
+ "epoch": 9.6,
2190
+ "grad_norm": 0.003758195787668228,
2191
+ "learning_rate": 7.2e-05,
2192
+ "loss": 0.001,
2193
+ "step": 1440
2194
+ },
2195
+ {
2196
+ "epoch": 9.633333333333333,
2197
+ "grad_norm": 0.0035963943228125572,
2198
+ "learning_rate": 7.155555555555555e-05,
2199
+ "loss": 0.0009,
2200
+ "step": 1445
2201
+ },
2202
+ {
2203
+ "epoch": 9.666666666666666,
2204
+ "grad_norm": 0.0038454525638371706,
2205
+ "learning_rate": 7.111111111111112e-05,
2206
+ "loss": 0.0009,
2207
+ "step": 1450
2208
+ },
2209
+ {
2210
+ "epoch": 9.7,
2211
+ "grad_norm": 0.003494839882478118,
2212
+ "learning_rate": 7.066666666666667e-05,
2213
+ "loss": 0.0009,
2214
+ "step": 1455
2215
+ },
2216
+ {
2217
+ "epoch": 9.733333333333333,
2218
+ "grad_norm": 0.0035291763488203287,
2219
+ "learning_rate": 7.022222222222222e-05,
2220
+ "loss": 0.0009,
2221
+ "step": 1460
2222
+ },
2223
+ {
2224
+ "epoch": 9.766666666666667,
2225
+ "grad_norm": 0.0035067368298768997,
2226
+ "learning_rate": 6.977777777777779e-05,
2227
+ "loss": 0.0009,
2228
+ "step": 1465
2229
+ },
2230
+ {
2231
+ "epoch": 9.8,
2232
+ "grad_norm": 0.0036443774588406086,
2233
+ "learning_rate": 6.933333333333334e-05,
2234
+ "loss": 0.0009,
2235
+ "step": 1470
2236
+ },
2237
+ {
2238
+ "epoch": 9.833333333333334,
2239
+ "grad_norm": 0.003411532612517476,
2240
+ "learning_rate": 6.88888888888889e-05,
2241
+ "loss": 0.0009,
2242
+ "step": 1475
2243
+ },
2244
+ {
2245
+ "epoch": 9.866666666666667,
2246
+ "grad_norm": 0.0036557214334607124,
2247
+ "learning_rate": 6.844444444444445e-05,
2248
+ "loss": 0.0009,
2249
+ "step": 1480
2250
+ },
2251
+ {
2252
+ "epoch": 9.9,
2253
+ "grad_norm": 0.003884528297930956,
2254
+ "learning_rate": 6.800000000000001e-05,
2255
+ "loss": 0.0009,
2256
+ "step": 1485
2257
+ },
2258
+ {
2259
+ "epoch": 9.933333333333334,
2260
+ "grad_norm": 0.003588372375816107,
2261
+ "learning_rate": 6.755555555555557e-05,
2262
+ "loss": 0.0009,
2263
+ "step": 1490
2264
+ },
2265
+ {
2266
+ "epoch": 9.966666666666667,
2267
+ "grad_norm": 0.0034349607303738594,
2268
+ "learning_rate": 6.711111111111112e-05,
2269
+ "loss": 0.0009,
2270
+ "step": 1495
2271
+ },
2272
+ {
2273
+ "epoch": 10.0,
2274
+ "grad_norm": 0.0033968989737331867,
2275
+ "learning_rate": 6.666666666666667e-05,
2276
+ "loss": 0.0009,
2277
+ "step": 1500
2278
+ },
2279
+ {
2280
+ "epoch": 10.0,
2281
+ "eval_accuracy": 0.8933333333333333,
2282
+ "eval_f1": 0.8924770543900274,
2283
+ "eval_loss": 0.5859149098396301,
2284
+ "eval_precision": 0.8954137223601668,
2285
+ "eval_recall": 0.8933333333333333,
2286
+ "eval_runtime": 9.2287,
2287
+ "eval_samples_per_second": 130.029,
2288
+ "eval_steps_per_second": 16.254,
2289
+ "step": 1500
2290
+ },
2291
+ {
2292
+ "epoch": 10.033333333333333,
2293
+ "grad_norm": 0.0033387893345206976,
2294
+ "learning_rate": 6.622222222222224e-05,
2295
+ "loss": 0.0009,
2296
+ "step": 1505
2297
+ },
2298
+ {
2299
+ "epoch": 10.066666666666666,
2300
+ "grad_norm": 0.003473068820312619,
2301
+ "learning_rate": 6.577777777777779e-05,
2302
+ "loss": 0.0009,
2303
+ "step": 1510
2304
+ },
2305
+ {
2306
+ "epoch": 10.1,
2307
+ "grad_norm": 0.0033902309369295835,
2308
+ "learning_rate": 6.533333333333334e-05,
2309
+ "loss": 0.0009,
2310
+ "step": 1515
2311
+ },
2312
+ {
2313
+ "epoch": 10.133333333333333,
2314
+ "grad_norm": 0.0031655190978199244,
2315
+ "learning_rate": 6.488888888888889e-05,
2316
+ "loss": 0.0009,
2317
+ "step": 1520
2318
+ },
2319
+ {
2320
+ "epoch": 10.166666666666666,
2321
+ "grad_norm": 0.003475926583632827,
2322
+ "learning_rate": 6.444444444444446e-05,
2323
+ "loss": 0.0008,
2324
+ "step": 1525
2325
+ },
2326
+ {
2327
+ "epoch": 10.2,
2328
+ "grad_norm": 0.003318113274872303,
2329
+ "learning_rate": 6.400000000000001e-05,
2330
+ "loss": 0.0008,
2331
+ "step": 1530
2332
+ },
2333
+ {
2334
+ "epoch": 10.233333333333333,
2335
+ "grad_norm": 0.0037339297123253345,
2336
+ "learning_rate": 6.355555555555556e-05,
2337
+ "loss": 0.0008,
2338
+ "step": 1535
2339
+ },
2340
+ {
2341
+ "epoch": 10.266666666666667,
2342
+ "grad_norm": 0.003497259458526969,
2343
+ "learning_rate": 6.311111111111112e-05,
2344
+ "loss": 0.0009,
2345
+ "step": 1540
2346
+ },
2347
+ {
2348
+ "epoch": 10.3,
2349
+ "grad_norm": 0.0031404101755470037,
2350
+ "learning_rate": 6.266666666666667e-05,
2351
+ "loss": 0.0008,
2352
+ "step": 1545
2353
+ },
2354
+ {
2355
+ "epoch": 10.333333333333334,
2356
+ "grad_norm": 0.003206310560926795,
2357
+ "learning_rate": 6.222222222222222e-05,
2358
+ "loss": 0.0008,
2359
+ "step": 1550
2360
+ },
2361
+ {
2362
+ "epoch": 10.366666666666667,
2363
+ "grad_norm": 0.003239595564082265,
2364
+ "learning_rate": 6.177777777777779e-05,
2365
+ "loss": 0.0008,
2366
+ "step": 1555
2367
+ },
2368
+ {
2369
+ "epoch": 10.4,
2370
+ "grad_norm": 0.0032086025457829237,
2371
+ "learning_rate": 6.133333333333334e-05,
2372
+ "loss": 0.0008,
2373
+ "step": 1560
2374
+ },
2375
+ {
2376
+ "epoch": 10.433333333333334,
2377
+ "grad_norm": 0.0031386413611471653,
2378
+ "learning_rate": 6.08888888888889e-05,
2379
+ "loss": 0.0008,
2380
+ "step": 1565
2381
+ },
2382
+ {
2383
+ "epoch": 10.466666666666667,
2384
+ "grad_norm": 0.0030272870790213346,
2385
+ "learning_rate": 6.044444444444445e-05,
2386
+ "loss": 0.0008,
2387
+ "step": 1570
2388
+ },
2389
+ {
2390
+ "epoch": 10.5,
2391
+ "grad_norm": 0.0032087203580886126,
2392
+ "learning_rate": 6e-05,
2393
+ "loss": 0.0008,
2394
+ "step": 1575
2395
+ },
2396
+ {
2397
+ "epoch": 10.533333333333333,
2398
+ "grad_norm": 0.003076587338000536,
2399
+ "learning_rate": 5.9555555555555554e-05,
2400
+ "loss": 0.0008,
2401
+ "step": 1580
2402
+ },
2403
+ {
2404
+ "epoch": 10.566666666666666,
2405
+ "grad_norm": 0.0031864922493696213,
2406
+ "learning_rate": 5.911111111111112e-05,
2407
+ "loss": 0.0008,
2408
+ "step": 1585
2409
+ },
2410
+ {
2411
+ "epoch": 10.6,
2412
+ "grad_norm": 0.003065708791837096,
2413
+ "learning_rate": 5.866666666666667e-05,
2414
+ "loss": 0.0008,
2415
+ "step": 1590
2416
+ },
2417
+ {
2418
+ "epoch": 10.633333333333333,
2419
+ "grad_norm": 0.003103989874944091,
2420
+ "learning_rate": 5.8222222222222224e-05,
2421
+ "loss": 0.0008,
2422
+ "step": 1595
2423
+ },
2424
+ {
2425
+ "epoch": 10.666666666666666,
2426
+ "grad_norm": 0.0032167991157621145,
2427
+ "learning_rate": 5.7777777777777776e-05,
2428
+ "loss": 0.0008,
2429
+ "step": 1600
2430
+ },
2431
+ {
2432
+ "epoch": 10.666666666666666,
2433
+ "eval_accuracy": 0.8933333333333333,
2434
+ "eval_f1": 0.892564314412375,
2435
+ "eval_loss": 0.5900735259056091,
2436
+ "eval_precision": 0.895467423351318,
2437
+ "eval_recall": 0.8933333333333333,
2438
+ "eval_runtime": 9.1411,
2439
+ "eval_samples_per_second": 131.276,
2440
+ "eval_steps_per_second": 16.409,
2441
+ "step": 1600
2442
+ },
2443
+ {
2444
+ "epoch": 10.7,
2445
+ "grad_norm": 0.0030533717945218086,
2446
+ "learning_rate": 5.7333333333333336e-05,
2447
+ "loss": 0.0008,
2448
+ "step": 1605
2449
+ },
2450
+ {
2451
+ "epoch": 10.733333333333333,
2452
+ "grad_norm": 0.0032962567638605833,
2453
+ "learning_rate": 5.6888888888888895e-05,
2454
+ "loss": 0.0008,
2455
+ "step": 1610
2456
+ },
2457
+ {
2458
+ "epoch": 10.766666666666667,
2459
+ "grad_norm": 0.0032729010563343763,
2460
+ "learning_rate": 5.644444444444445e-05,
2461
+ "loss": 0.0008,
2462
+ "step": 1615
2463
+ },
2464
+ {
2465
+ "epoch": 10.8,
2466
+ "grad_norm": 0.003075138432905078,
2467
+ "learning_rate": 5.6000000000000006e-05,
2468
+ "loss": 0.0008,
2469
+ "step": 1620
2470
+ },
2471
+ {
2472
+ "epoch": 10.833333333333334,
2473
+ "grad_norm": 0.0031263744458556175,
2474
+ "learning_rate": 5.555555555555556e-05,
2475
+ "loss": 0.0008,
2476
+ "step": 1625
2477
+ },
2478
+ {
2479
+ "epoch": 10.866666666666667,
2480
+ "grad_norm": 0.003029222832992673,
2481
+ "learning_rate": 5.511111111111111e-05,
2482
+ "loss": 0.0008,
2483
+ "step": 1630
2484
+ },
2485
+ {
2486
+ "epoch": 10.9,
2487
+ "grad_norm": 0.003155304118990898,
2488
+ "learning_rate": 5.466666666666666e-05,
2489
+ "loss": 0.0008,
2490
+ "step": 1635
2491
+ },
2492
+ {
2493
+ "epoch": 10.933333333333334,
2494
+ "grad_norm": 0.0031627577263861895,
2495
+ "learning_rate": 5.422222222222223e-05,
2496
+ "loss": 0.0008,
2497
+ "step": 1640
2498
+ },
2499
+ {
2500
+ "epoch": 10.966666666666667,
2501
+ "grad_norm": 0.002991090528666973,
2502
+ "learning_rate": 5.377777777777778e-05,
2503
+ "loss": 0.0008,
2504
+ "step": 1645
2505
+ },
2506
+ {
2507
+ "epoch": 11.0,
2508
+ "grad_norm": 0.0030046808533370495,
2509
+ "learning_rate": 5.333333333333333e-05,
2510
+ "loss": 0.0008,
2511
+ "step": 1650
2512
+ },
2513
+ {
2514
+ "epoch": 11.033333333333333,
2515
+ "grad_norm": 0.0029926581773906946,
2516
+ "learning_rate": 5.2888888888888885e-05,
2517
+ "loss": 0.0008,
2518
+ "step": 1655
2519
+ },
2520
+ {
2521
+ "epoch": 11.066666666666666,
2522
+ "grad_norm": 0.0029577272944152355,
2523
+ "learning_rate": 5.244444444444445e-05,
2524
+ "loss": 0.0008,
2525
+ "step": 1660
2526
+ },
2527
+ {
2528
+ "epoch": 11.1,
2529
+ "grad_norm": 0.00291816215030849,
2530
+ "learning_rate": 5.2000000000000004e-05,
2531
+ "loss": 0.0008,
2532
+ "step": 1665
2533
+ },
2534
+ {
2535
+ "epoch": 11.133333333333333,
2536
+ "grad_norm": 0.0028882354963570833,
2537
+ "learning_rate": 5.1555555555555556e-05,
2538
+ "loss": 0.0008,
2539
+ "step": 1670
2540
+ },
2541
+ {
2542
+ "epoch": 11.166666666666666,
2543
+ "grad_norm": 0.0029444245155900717,
2544
+ "learning_rate": 5.111111111111111e-05,
2545
+ "loss": 0.0008,
2546
+ "step": 1675
2547
+ },
2548
+ {
2549
+ "epoch": 11.2,
2550
+ "grad_norm": 0.0028277155943214893,
2551
+ "learning_rate": 5.0666666666666674e-05,
2552
+ "loss": 0.0008,
2553
+ "step": 1680
2554
+ },
2555
+ {
2556
+ "epoch": 11.233333333333333,
2557
+ "grad_norm": 0.0028599537909030914,
2558
+ "learning_rate": 5.0222222222222226e-05,
2559
+ "loss": 0.0008,
2560
+ "step": 1685
2561
+ },
2562
+ {
2563
+ "epoch": 11.266666666666667,
2564
+ "grad_norm": 0.002907586982473731,
2565
+ "learning_rate": 4.977777777777778e-05,
2566
+ "loss": 0.0008,
2567
+ "step": 1690
2568
+ },
2569
+ {
2570
+ "epoch": 11.3,
2571
+ "grad_norm": 0.0030153663828969,
2572
+ "learning_rate": 4.933333333333334e-05,
2573
+ "loss": 0.0008,
2574
+ "step": 1695
2575
+ },
2576
+ {
2577
+ "epoch": 11.333333333333334,
2578
+ "grad_norm": 0.0028990330174565315,
2579
+ "learning_rate": 4.888888888888889e-05,
2580
+ "loss": 0.0008,
2581
+ "step": 1700
2582
+ },
2583
+ {
2584
+ "epoch": 11.333333333333334,
2585
+ "eval_accuracy": 0.8933333333333333,
2586
+ "eval_f1": 0.8925901113216209,
2587
+ "eval_loss": 0.5938182473182678,
2588
+ "eval_precision": 0.8954790398682951,
2589
+ "eval_recall": 0.8933333333333333,
2590
+ "eval_runtime": 9.2035,
2591
+ "eval_samples_per_second": 130.385,
2592
+ "eval_steps_per_second": 16.298,
2593
+ "step": 1700
2594
+ },
2595
+ {
2596
+ "epoch": 11.366666666666667,
2597
+ "grad_norm": 0.0032022136729210615,
2598
+ "learning_rate": 4.844444444444445e-05,
2599
+ "loss": 0.0007,
2600
+ "step": 1705
2601
+ },
2602
+ {
2603
+ "epoch": 11.4,
2604
+ "grad_norm": 0.0028595593757927418,
2605
+ "learning_rate": 4.8e-05,
2606
+ "loss": 0.0007,
2607
+ "step": 1710
2608
+ },
2609
+ {
2610
+ "epoch": 11.433333333333334,
2611
+ "grad_norm": 0.0029640330467373133,
2612
+ "learning_rate": 4.755555555555556e-05,
2613
+ "loss": 0.0008,
2614
+ "step": 1715
2615
+ },
2616
+ {
2617
+ "epoch": 11.466666666666667,
2618
+ "grad_norm": 0.0029016851913183928,
2619
+ "learning_rate": 4.711111111111111e-05,
2620
+ "loss": 0.0007,
2621
+ "step": 1720
2622
+ },
2623
+ {
2624
+ "epoch": 11.5,
2625
+ "grad_norm": 0.0029438238125294447,
2626
+ "learning_rate": 4.666666666666667e-05,
2627
+ "loss": 0.0007,
2628
+ "step": 1725
2629
+ },
2630
+ {
2631
+ "epoch": 11.533333333333333,
2632
+ "grad_norm": 0.003153452416881919,
2633
+ "learning_rate": 4.6222222222222224e-05,
2634
+ "loss": 0.0007,
2635
+ "step": 1730
2636
+ },
2637
+ {
2638
+ "epoch": 11.566666666666666,
2639
+ "grad_norm": 0.0031303968280553818,
2640
+ "learning_rate": 4.577777777777778e-05,
2641
+ "loss": 0.0007,
2642
+ "step": 1735
2643
+ },
2644
+ {
2645
+ "epoch": 11.6,
2646
+ "grad_norm": 0.0029108517337590456,
2647
+ "learning_rate": 4.5333333333333335e-05,
2648
+ "loss": 0.0007,
2649
+ "step": 1740
2650
+ },
2651
+ {
2652
+ "epoch": 11.633333333333333,
2653
+ "grad_norm": 0.0029351389966905117,
2654
+ "learning_rate": 4.4888888888888894e-05,
2655
+ "loss": 0.0007,
2656
+ "step": 1745
2657
+ },
2658
+ {
2659
+ "epoch": 11.666666666666666,
2660
+ "grad_norm": 0.003020907286554575,
2661
+ "learning_rate": 4.4444444444444447e-05,
2662
+ "loss": 0.0007,
2663
+ "step": 1750
2664
+ },
2665
+ {
2666
+ "epoch": 11.7,
2667
+ "grad_norm": 0.003223966807126999,
2668
+ "learning_rate": 4.4000000000000006e-05,
2669
+ "loss": 0.0007,
2670
+ "step": 1755
2671
+ },
2672
+ {
2673
+ "epoch": 11.733333333333333,
2674
+ "grad_norm": 0.002827573334798217,
2675
+ "learning_rate": 4.355555555555556e-05,
2676
+ "loss": 0.0007,
2677
+ "step": 1760
2678
+ },
2679
+ {
2680
+ "epoch": 11.766666666666667,
2681
+ "grad_norm": 0.0028787998016923666,
2682
+ "learning_rate": 4.311111111111111e-05,
2683
+ "loss": 0.0007,
2684
+ "step": 1765
2685
+ },
2686
+ {
2687
+ "epoch": 11.8,
2688
+ "grad_norm": 0.0027750665321946144,
2689
+ "learning_rate": 4.266666666666667e-05,
2690
+ "loss": 0.0007,
2691
+ "step": 1770
2692
+ },
2693
+ {
2694
+ "epoch": 11.833333333333334,
2695
+ "grad_norm": 0.002890476491302252,
2696
+ "learning_rate": 4.222222222222222e-05,
2697
+ "loss": 0.0007,
2698
+ "step": 1775
2699
+ },
2700
+ {
2701
+ "epoch": 11.866666666666667,
2702
+ "grad_norm": 0.002820511581376195,
2703
+ "learning_rate": 4.177777777777778e-05,
2704
+ "loss": 0.0007,
2705
+ "step": 1780
2706
+ },
2707
+ {
2708
+ "epoch": 11.9,
2709
+ "grad_norm": 0.0028251498006284237,
2710
+ "learning_rate": 4.133333333333333e-05,
2711
+ "loss": 0.0007,
2712
+ "step": 1785
2713
+ },
2714
+ {
2715
+ "epoch": 11.933333333333334,
2716
+ "grad_norm": 0.002791108563542366,
2717
+ "learning_rate": 4.088888888888889e-05,
2718
+ "loss": 0.0007,
2719
+ "step": 1790
2720
+ },
2721
+ {
2722
+ "epoch": 11.966666666666667,
2723
+ "grad_norm": 0.002661674050614238,
2724
+ "learning_rate": 4.0444444444444444e-05,
2725
+ "loss": 0.0007,
2726
+ "step": 1795
2727
+ },
2728
+ {
2729
+ "epoch": 12.0,
2730
+ "grad_norm": 0.002654584590345621,
2731
+ "learning_rate": 4e-05,
2732
+ "loss": 0.0007,
2733
+ "step": 1800
2734
+ },
2735
+ {
2736
+ "epoch": 12.0,
2737
+ "eval_accuracy": 0.8933333333333333,
2738
+ "eval_f1": 0.8924909258808299,
2739
+ "eval_loss": 0.5971092581748962,
2740
+ "eval_precision": 0.8952869179752938,
2741
+ "eval_recall": 0.8933333333333333,
2742
+ "eval_runtime": 9.2033,
2743
+ "eval_samples_per_second": 130.388,
2744
+ "eval_steps_per_second": 16.298,
2745
+ "step": 1800
2746
+ },
2747
+ {
2748
+ "epoch": 12.033333333333333,
2749
+ "grad_norm": 0.002706103026866913,
2750
+ "learning_rate": 3.9555555555555556e-05,
2751
+ "loss": 0.0007,
2752
+ "step": 1805
2753
+ },
2754
+ {
2755
+ "epoch": 12.066666666666666,
2756
+ "grad_norm": 0.0027892158832401037,
2757
+ "learning_rate": 3.9111111111111115e-05,
2758
+ "loss": 0.0007,
2759
+ "step": 1810
2760
+ },
2761
+ {
2762
+ "epoch": 12.1,
2763
+ "grad_norm": 0.002687312662601471,
2764
+ "learning_rate": 3.866666666666667e-05,
2765
+ "loss": 0.0007,
2766
+ "step": 1815
2767
+ },
2768
+ {
2769
+ "epoch": 12.133333333333333,
2770
+ "grad_norm": 0.002817670814692974,
2771
+ "learning_rate": 3.8222222222222226e-05,
2772
+ "loss": 0.0007,
2773
+ "step": 1820
2774
+ },
2775
+ {
2776
+ "epoch": 12.166666666666666,
2777
+ "grad_norm": 0.002796135377138853,
2778
+ "learning_rate": 3.777777777777778e-05,
2779
+ "loss": 0.0007,
2780
+ "step": 1825
2781
+ },
2782
+ {
2783
+ "epoch": 12.2,
2784
+ "grad_norm": 0.0026829817797988653,
2785
+ "learning_rate": 3.733333333333334e-05,
2786
+ "loss": 0.0007,
2787
+ "step": 1830
2788
+ },
2789
+ {
2790
+ "epoch": 12.233333333333333,
2791
+ "grad_norm": 0.0027780223172158003,
2792
+ "learning_rate": 3.688888888888889e-05,
2793
+ "loss": 0.0007,
2794
+ "step": 1835
2795
+ },
2796
+ {
2797
+ "epoch": 12.266666666666667,
2798
+ "grad_norm": 0.0026549564208835363,
2799
+ "learning_rate": 3.644444444444445e-05,
2800
+ "loss": 0.0007,
2801
+ "step": 1840
2802
+ },
2803
+ {
2804
+ "epoch": 12.3,
2805
+ "grad_norm": 0.0025722929276525974,
2806
+ "learning_rate": 3.6e-05,
2807
+ "loss": 0.0007,
2808
+ "step": 1845
2809
+ },
2810
+ {
2811
+ "epoch": 12.333333333333334,
2812
+ "grad_norm": 0.0031209082808345556,
2813
+ "learning_rate": 3.555555555555556e-05,
2814
+ "loss": 0.0007,
2815
+ "step": 1850
2816
+ },
2817
+ {
2818
+ "epoch": 12.366666666666667,
2819
+ "grad_norm": 0.0028525665402412415,
2820
+ "learning_rate": 3.511111111111111e-05,
2821
+ "loss": 0.0007,
2822
+ "step": 1855
2823
+ },
2824
+ {
2825
+ "epoch": 12.4,
2826
+ "grad_norm": 0.0027296545449644327,
2827
+ "learning_rate": 3.466666666666667e-05,
2828
+ "loss": 0.0007,
2829
+ "step": 1860
2830
+ },
2831
+ {
2832
+ "epoch": 12.433333333333334,
2833
+ "grad_norm": 0.00296882726252079,
2834
+ "learning_rate": 3.4222222222222224e-05,
2835
+ "loss": 0.0007,
2836
+ "step": 1865
2837
+ },
2838
+ {
2839
+ "epoch": 12.466666666666667,
2840
+ "grad_norm": 0.002597276819869876,
2841
+ "learning_rate": 3.377777777777778e-05,
2842
+ "loss": 0.0007,
2843
+ "step": 1870
2844
+ },
2845
+ {
2846
+ "epoch": 12.5,
2847
+ "grad_norm": 0.0027183096390217543,
2848
+ "learning_rate": 3.3333333333333335e-05,
2849
+ "loss": 0.0007,
2850
+ "step": 1875
2851
+ },
2852
+ {
2853
+ "epoch": 12.533333333333333,
2854
+ "grad_norm": 0.0025975320022553205,
2855
+ "learning_rate": 3.2888888888888894e-05,
2856
+ "loss": 0.0007,
2857
+ "step": 1880
2858
+ },
2859
+ {
2860
+ "epoch": 12.566666666666666,
2861
+ "grad_norm": 0.0028336485847830772,
2862
+ "learning_rate": 3.2444444444444446e-05,
2863
+ "loss": 0.0007,
2864
+ "step": 1885
2865
+ },
2866
+ {
2867
+ "epoch": 12.6,
2868
+ "grad_norm": 0.002649620408192277,
2869
+ "learning_rate": 3.2000000000000005e-05,
2870
+ "loss": 0.0007,
2871
+ "step": 1890
2872
+ },
2873
+ {
2874
+ "epoch": 12.633333333333333,
2875
+ "grad_norm": 0.0029035883489996195,
2876
+ "learning_rate": 3.155555555555556e-05,
2877
+ "loss": 0.0007,
2878
+ "step": 1895
2879
+ },
2880
+ {
2881
+ "epoch": 12.666666666666666,
2882
+ "grad_norm": 0.002905472880229354,
2883
+ "learning_rate": 3.111111111111111e-05,
2884
+ "loss": 0.0007,
2885
+ "step": 1900
2886
+ },
2887
+ {
2888
+ "epoch": 12.666666666666666,
2889
+ "eval_accuracy": 0.8933333333333333,
2890
+ "eval_f1": 0.8925572625959594,
2891
+ "eval_loss": 0.5997689962387085,
2892
+ "eval_precision": 0.8952187213685717,
2893
+ "eval_recall": 0.8933333333333333,
2894
+ "eval_runtime": 9.124,
2895
+ "eval_samples_per_second": 131.522,
2896
+ "eval_steps_per_second": 16.44,
2897
+ "step": 1900
2898
+ },
2899
+ {
2900
+ "epoch": 12.7,
2901
+ "grad_norm": 0.0026109640020877123,
2902
+ "learning_rate": 3.066666666666667e-05,
2903
+ "loss": 0.0007,
2904
+ "step": 1905
2905
+ },
2906
+ {
2907
+ "epoch": 12.733333333333333,
2908
+ "grad_norm": 0.002541190944612026,
2909
+ "learning_rate": 3.0222222222222225e-05,
2910
+ "loss": 0.0007,
2911
+ "step": 1910
2912
+ },
2913
+ {
2914
+ "epoch": 12.766666666666667,
2915
+ "grad_norm": 0.0027586170472204685,
2916
+ "learning_rate": 2.9777777777777777e-05,
2917
+ "loss": 0.0007,
2918
+ "step": 1915
2919
+ },
2920
+ {
2921
+ "epoch": 12.8,
2922
+ "grad_norm": 0.0025249046739190817,
2923
+ "learning_rate": 2.9333333333333336e-05,
2924
+ "loss": 0.0007,
2925
+ "step": 1920
2926
+ },
2927
+ {
2928
+ "epoch": 12.833333333333334,
2929
+ "grad_norm": 0.002689517568796873,
2930
+ "learning_rate": 2.8888888888888888e-05,
2931
+ "loss": 0.0007,
2932
+ "step": 1925
2933
+ },
2934
+ {
2935
+ "epoch": 12.866666666666667,
2936
+ "grad_norm": 0.0028575279284268618,
2937
+ "learning_rate": 2.8444444444444447e-05,
2938
+ "loss": 0.0007,
2939
+ "step": 1930
2940
+ },
2941
+ {
2942
+ "epoch": 12.9,
2943
+ "grad_norm": 0.002582886489108205,
2944
+ "learning_rate": 2.8000000000000003e-05,
2945
+ "loss": 0.0007,
2946
+ "step": 1935
2947
+ },
2948
+ {
2949
+ "epoch": 12.933333333333334,
2950
+ "grad_norm": 0.0026416087057441473,
2951
+ "learning_rate": 2.7555555555555555e-05,
2952
+ "loss": 0.0007,
2953
+ "step": 1940
2954
+ },
2955
+ {
2956
+ "epoch": 12.966666666666667,
2957
+ "grad_norm": 0.002628608839586377,
2958
+ "learning_rate": 2.7111111111111114e-05,
2959
+ "loss": 0.0007,
2960
+ "step": 1945
2961
+ },
2962
+ {
2963
+ "epoch": 13.0,
2964
+ "grad_norm": 0.0025201744865626097,
2965
+ "learning_rate": 2.6666666666666667e-05,
2966
+ "loss": 0.0007,
2967
+ "step": 1950
2968
+ },
2969
+ {
2970
+ "epoch": 13.033333333333333,
2971
+ "grad_norm": 0.0026108119636774063,
2972
+ "learning_rate": 2.6222222222222226e-05,
2973
+ "loss": 0.0007,
2974
+ "step": 1955
2975
+ },
2976
+ {
2977
+ "epoch": 13.066666666666666,
2978
+ "grad_norm": 0.002755657071247697,
2979
+ "learning_rate": 2.5777777777777778e-05,
2980
+ "loss": 0.0007,
2981
+ "step": 1960
2982
+ },
2983
+ {
2984
+ "epoch": 13.1,
2985
+ "grad_norm": 0.002564393449574709,
2986
+ "learning_rate": 2.5333333333333337e-05,
2987
+ "loss": 0.0007,
2988
+ "step": 1965
2989
+ },
2990
+ {
2991
+ "epoch": 13.133333333333333,
2992
+ "grad_norm": 0.0025547167751938105,
2993
+ "learning_rate": 2.488888888888889e-05,
2994
+ "loss": 0.0007,
2995
+ "step": 1970
2996
+ },
2997
+ {
2998
+ "epoch": 13.166666666666666,
2999
+ "grad_norm": 0.002583136083558202,
3000
+ "learning_rate": 2.4444444444444445e-05,
3001
+ "loss": 0.0007,
3002
+ "step": 1975
3003
+ },
3004
+ {
3005
+ "epoch": 13.2,
3006
+ "grad_norm": 0.002491503022611141,
3007
+ "learning_rate": 2.4e-05,
3008
+ "loss": 0.0007,
3009
+ "step": 1980
3010
+ },
3011
+ {
3012
+ "epoch": 13.233333333333333,
3013
+ "grad_norm": 0.0025622770190238953,
3014
+ "learning_rate": 2.3555555555555556e-05,
3015
+ "loss": 0.0007,
3016
+ "step": 1985
3017
+ },
3018
+ {
3019
+ "epoch": 13.266666666666667,
3020
+ "grad_norm": 0.0027995556592941284,
3021
+ "learning_rate": 2.3111111111111112e-05,
3022
+ "loss": 0.0007,
3023
+ "step": 1990
3024
+ },
3025
+ {
3026
+ "epoch": 13.3,
3027
+ "grad_norm": 0.0027331418823450804,
3028
+ "learning_rate": 2.2666666666666668e-05,
3029
+ "loss": 0.0006,
3030
+ "step": 1995
3031
+ },
3032
+ {
3033
+ "epoch": 13.333333333333334,
3034
+ "grad_norm": 0.0026821917854249477,
3035
+ "learning_rate": 2.2222222222222223e-05,
3036
+ "loss": 0.0007,
3037
+ "step": 2000
3038
+ },
3039
+ {
3040
+ "epoch": 13.333333333333334,
3041
+ "eval_accuracy": 0.8933333333333333,
3042
+ "eval_f1": 0.8926087304810708,
3043
+ "eval_loss": 0.6016172766685486,
3044
+ "eval_precision": 0.8952164937109535,
3045
+ "eval_recall": 0.8933333333333333,
3046
+ "eval_runtime": 9.2849,
3047
+ "eval_samples_per_second": 129.243,
3048
+ "eval_steps_per_second": 16.155,
3049
+ "step": 2000
3050
+ },
3051
+ {
3052
+ "epoch": 13.366666666666667,
3053
+ "grad_norm": 0.002859922591596842,
3054
+ "learning_rate": 2.177777777777778e-05,
3055
+ "loss": 0.0007,
3056
+ "step": 2005
3057
+ },
3058
+ {
3059
+ "epoch": 13.4,
3060
+ "grad_norm": 0.0024555367417633533,
3061
+ "learning_rate": 2.1333333333333335e-05,
3062
+ "loss": 0.0006,
3063
+ "step": 2010
3064
+ },
3065
+ {
3066
+ "epoch": 13.433333333333334,
3067
+ "grad_norm": 0.0026238062418997288,
3068
+ "learning_rate": 2.088888888888889e-05,
3069
+ "loss": 0.0007,
3070
+ "step": 2015
3071
+ },
3072
+ {
3073
+ "epoch": 13.466666666666667,
3074
+ "grad_norm": 0.0028192377649247646,
3075
+ "learning_rate": 2.0444444444444446e-05,
3076
+ "loss": 0.0007,
3077
+ "step": 2020
3078
+ },
3079
+ {
3080
+ "epoch": 13.5,
3081
+ "grad_norm": 0.0025528157129883766,
3082
+ "learning_rate": 2e-05,
3083
+ "loss": 0.0007,
3084
+ "step": 2025
3085
+ },
3086
+ {
3087
+ "epoch": 13.533333333333333,
3088
+ "grad_norm": 0.0025877885054796934,
3089
+ "learning_rate": 1.9555555555555557e-05,
3090
+ "loss": 0.0006,
3091
+ "step": 2030
3092
+ },
3093
+ {
3094
+ "epoch": 13.566666666666666,
3095
+ "grad_norm": 0.0025963452644646168,
3096
+ "learning_rate": 1.9111111111111113e-05,
3097
+ "loss": 0.0006,
3098
+ "step": 2035
3099
+ },
3100
+ {
3101
+ "epoch": 13.6,
3102
+ "grad_norm": 0.002605219604447484,
3103
+ "learning_rate": 1.866666666666667e-05,
3104
+ "loss": 0.0006,
3105
+ "step": 2040
3106
+ },
3107
+ {
3108
+ "epoch": 13.633333333333333,
3109
+ "grad_norm": 0.0024622888304293156,
3110
+ "learning_rate": 1.8222222222222224e-05,
3111
+ "loss": 0.0007,
3112
+ "step": 2045
3113
+ },
3114
+ {
3115
+ "epoch": 13.666666666666666,
3116
+ "grad_norm": 0.00264735403470695,
3117
+ "learning_rate": 1.777777777777778e-05,
3118
+ "loss": 0.0007,
3119
+ "step": 2050
3120
+ },
3121
+ {
3122
+ "epoch": 13.7,
3123
+ "grad_norm": 0.0025377385318279266,
3124
+ "learning_rate": 1.7333333333333336e-05,
3125
+ "loss": 0.0006,
3126
+ "step": 2055
3127
+ },
3128
+ {
3129
+ "epoch": 13.733333333333333,
3130
+ "grad_norm": 0.0024450563360005617,
3131
+ "learning_rate": 1.688888888888889e-05,
3132
+ "loss": 0.0006,
3133
+ "step": 2060
3134
+ },
3135
+ {
3136
+ "epoch": 13.766666666666667,
3137
+ "grad_norm": 0.0024939640425145626,
3138
+ "learning_rate": 1.6444444444444447e-05,
3139
+ "loss": 0.0006,
3140
+ "step": 2065
3141
+ },
3142
+ {
3143
+ "epoch": 13.8,
3144
+ "grad_norm": 0.0026530995965003967,
3145
+ "learning_rate": 1.6000000000000003e-05,
3146
+ "loss": 0.0006,
3147
+ "step": 2070
3148
+ },
3149
+ {
3150
+ "epoch": 13.833333333333334,
3151
+ "grad_norm": 0.002551464829593897,
3152
+ "learning_rate": 1.5555555555555555e-05,
3153
+ "loss": 0.0006,
3154
+ "step": 2075
3155
+ },
3156
+ {
3157
+ "epoch": 13.866666666666667,
3158
+ "grad_norm": 0.0026167011819779873,
3159
+ "learning_rate": 1.5111111111111112e-05,
3160
+ "loss": 0.0006,
3161
+ "step": 2080
3162
+ },
3163
+ {
3164
+ "epoch": 13.9,
3165
+ "grad_norm": 0.0023945062421262264,
3166
+ "learning_rate": 1.4666666666666668e-05,
3167
+ "loss": 0.0006,
3168
+ "step": 2085
3169
+ },
3170
+ {
3171
+ "epoch": 13.933333333333334,
3172
+ "grad_norm": 0.0023595585953444242,
3173
+ "learning_rate": 1.4222222222222224e-05,
3174
+ "loss": 0.0006,
3175
+ "step": 2090
3176
+ },
3177
+ {
3178
+ "epoch": 13.966666666666667,
3179
+ "grad_norm": 0.002572057070210576,
3180
+ "learning_rate": 1.3777777777777778e-05,
3181
+ "loss": 0.0006,
3182
+ "step": 2095
3183
+ },
3184
+ {
3185
+ "epoch": 14.0,
3186
+ "grad_norm": 0.0027738932985812426,
3187
+ "learning_rate": 1.3333333333333333e-05,
3188
+ "loss": 0.0006,
3189
+ "step": 2100
3190
+ },
3191
+ {
3192
+ "epoch": 14.0,
3193
+ "eval_accuracy": 0.8933333333333333,
3194
+ "eval_f1": 0.8926087304810708,
3195
+ "eval_loss": 0.6031957268714905,
3196
+ "eval_precision": 0.8952164937109535,
3197
+ "eval_recall": 0.8933333333333333,
3198
+ "eval_runtime": 8.9675,
3199
+ "eval_samples_per_second": 133.816,
3200
+ "eval_steps_per_second": 16.727,
3201
+ "step": 2100
3202
+ },
3203
+ {
3204
+ "epoch": 14.033333333333333,
3205
+ "grad_norm": 0.002405740087851882,
3206
+ "learning_rate": 1.2888888888888889e-05,
3207
+ "loss": 0.0006,
3208
+ "step": 2105
3209
+ },
3210
+ {
3211
+ "epoch": 14.066666666666666,
3212
+ "grad_norm": 0.002379121957346797,
3213
+ "learning_rate": 1.2444444444444445e-05,
3214
+ "loss": 0.0006,
3215
+ "step": 2110
3216
+ },
3217
+ {
3218
+ "epoch": 14.1,
3219
+ "grad_norm": 0.002425256185233593,
3220
+ "learning_rate": 1.2e-05,
3221
+ "loss": 0.0006,
3222
+ "step": 2115
3223
+ },
3224
+ {
3225
+ "epoch": 14.133333333333333,
3226
+ "grad_norm": 0.002582225715741515,
3227
+ "learning_rate": 1.1555555555555556e-05,
3228
+ "loss": 0.0006,
3229
+ "step": 2120
3230
+ },
3231
+ {
3232
+ "epoch": 14.166666666666666,
3233
+ "grad_norm": 0.002389343688264489,
3234
+ "learning_rate": 1.1111111111111112e-05,
3235
+ "loss": 0.0006,
3236
+ "step": 2125
3237
+ },
3238
+ {
3239
+ "epoch": 14.2,
3240
+ "grad_norm": 0.0024247432593256235,
3241
+ "learning_rate": 1.0666666666666667e-05,
3242
+ "loss": 0.0006,
3243
+ "step": 2130
3244
+ },
3245
+ {
3246
+ "epoch": 14.233333333333333,
3247
+ "grad_norm": 0.002556301886215806,
3248
+ "learning_rate": 1.0222222222222223e-05,
3249
+ "loss": 0.0006,
3250
+ "step": 2135
3251
+ },
3252
+ {
3253
+ "epoch": 14.266666666666667,
3254
+ "grad_norm": 0.002499427879229188,
3255
+ "learning_rate": 9.777777777777779e-06,
3256
+ "loss": 0.0006,
3257
+ "step": 2140
3258
+ },
3259
+ {
3260
+ "epoch": 14.3,
3261
+ "grad_norm": 0.002539202570915222,
3262
+ "learning_rate": 9.333333333333334e-06,
3263
+ "loss": 0.0006,
3264
+ "step": 2145
3265
+ },
3266
+ {
3267
+ "epoch": 14.333333333333334,
3268
+ "grad_norm": 0.0024849127512425184,
3269
+ "learning_rate": 8.88888888888889e-06,
3270
+ "loss": 0.0006,
3271
+ "step": 2150
3272
+ },
3273
+ {
3274
+ "epoch": 14.366666666666667,
3275
+ "grad_norm": 0.002673888811841607,
3276
+ "learning_rate": 8.444444444444446e-06,
3277
+ "loss": 0.0006,
3278
+ "step": 2155
3279
+ },
3280
+ {
3281
+ "epoch": 14.4,
3282
+ "grad_norm": 0.0023994643706828356,
3283
+ "learning_rate": 8.000000000000001e-06,
3284
+ "loss": 0.0006,
3285
+ "step": 2160
3286
+ },
3287
+ {
3288
+ "epoch": 14.433333333333334,
3289
+ "grad_norm": 0.002650046721100807,
3290
+ "learning_rate": 7.555555555555556e-06,
3291
+ "loss": 0.0006,
3292
+ "step": 2165
3293
+ },
3294
+ {
3295
+ "epoch": 14.466666666666667,
3296
+ "grad_norm": 0.0024455806706100702,
3297
+ "learning_rate": 7.111111111111112e-06,
3298
+ "loss": 0.0006,
3299
+ "step": 2170
3300
+ },
3301
+ {
3302
+ "epoch": 14.5,
3303
+ "grad_norm": 0.0025402368046343327,
3304
+ "learning_rate": 6.666666666666667e-06,
3305
+ "loss": 0.0006,
3306
+ "step": 2175
3307
+ },
3308
+ {
3309
+ "epoch": 14.533333333333333,
3310
+ "grad_norm": 0.0025018779560923576,
3311
+ "learning_rate": 6.222222222222222e-06,
3312
+ "loss": 0.0006,
3313
+ "step": 2180
3314
+ },
3315
+ {
3316
+ "epoch": 14.566666666666666,
3317
+ "grad_norm": 0.0026018363423645496,
3318
+ "learning_rate": 5.777777777777778e-06,
3319
+ "loss": 0.0006,
3320
+ "step": 2185
3321
+ },
3322
+ {
3323
+ "epoch": 14.6,
3324
+ "grad_norm": 0.002430640161037445,
3325
+ "learning_rate": 5.333333333333334e-06,
3326
+ "loss": 0.0006,
3327
+ "step": 2190
3328
+ },
3329
+ {
3330
+ "epoch": 14.633333333333333,
3331
+ "grad_norm": 0.002809967612847686,
3332
+ "learning_rate": 4.888888888888889e-06,
3333
+ "loss": 0.0006,
3334
+ "step": 2195
3335
+ },
3336
+ {
3337
+ "epoch": 14.666666666666666,
3338
+ "grad_norm": 0.002380241174250841,
3339
+ "learning_rate": 4.444444444444445e-06,
3340
+ "loss": 0.0006,
3341
+ "step": 2200
3342
+ },
3343
+ {
3344
+ "epoch": 14.666666666666666,
3345
+ "eval_accuracy": 0.8933333333333333,
3346
+ "eval_f1": 0.8926087304810708,
3347
+ "eval_loss": 0.603855311870575,
3348
+ "eval_precision": 0.8952164937109535,
3349
+ "eval_recall": 0.8933333333333333,
3350
+ "eval_runtime": 9.1221,
3351
+ "eval_samples_per_second": 131.549,
3352
+ "eval_steps_per_second": 16.444,
3353
+ "step": 2200
3354
+ },
3355
+ {
3356
+ "epoch": 14.7,
3357
+ "grad_norm": 0.002586866496130824,
3358
+ "learning_rate": 4.000000000000001e-06,
3359
+ "loss": 0.0006,
3360
+ "step": 2205
3361
+ },
3362
+ {
3363
+ "epoch": 14.733333333333333,
3364
+ "grad_norm": 0.002559363842010498,
3365
+ "learning_rate": 3.555555555555556e-06,
3366
+ "loss": 0.0006,
3367
+ "step": 2210
3368
+ },
3369
+ {
3370
+ "epoch": 14.766666666666667,
3371
+ "grad_norm": 0.002355343895033002,
3372
+ "learning_rate": 3.111111111111111e-06,
3373
+ "loss": 0.0006,
3374
+ "step": 2215
3375
+ },
3376
+ {
3377
+ "epoch": 14.8,
3378
+ "grad_norm": 0.002358679659664631,
3379
+ "learning_rate": 2.666666666666667e-06,
3380
+ "loss": 0.0006,
3381
+ "step": 2220
3382
+ },
3383
+ {
3384
+ "epoch": 14.833333333333334,
3385
+ "grad_norm": 0.0025940965861082077,
3386
+ "learning_rate": 2.2222222222222225e-06,
3387
+ "loss": 0.0006,
3388
+ "step": 2225
3389
+ },
3390
+ {
3391
+ "epoch": 14.866666666666667,
3392
+ "grad_norm": 0.0026809147093445063,
3393
+ "learning_rate": 1.777777777777778e-06,
3394
+ "loss": 0.0006,
3395
+ "step": 2230
3396
+ },
3397
+ {
3398
+ "epoch": 14.9,
3399
+ "grad_norm": 0.0024571644607931376,
3400
+ "learning_rate": 1.3333333333333334e-06,
3401
+ "loss": 0.0006,
3402
+ "step": 2235
3403
+ },
3404
+ {
3405
+ "epoch": 14.933333333333334,
3406
+ "grad_norm": 0.0025657913647592068,
3407
+ "learning_rate": 8.88888888888889e-07,
3408
+ "loss": 0.0006,
3409
+ "step": 2240
3410
+ },
3411
+ {
3412
+ "epoch": 14.966666666666667,
3413
+ "grad_norm": 0.002465125173330307,
3414
+ "learning_rate": 4.444444444444445e-07,
3415
+ "loss": 0.0006,
3416
+ "step": 2245
3417
+ },
3418
+ {
3419
+ "epoch": 15.0,
3420
+ "grad_norm": 0.002350958064198494,
3421
+ "learning_rate": 0.0,
3422
+ "loss": 0.0006,
3423
+ "step": 2250
3424
+ },
3425
+ {
3426
+ "epoch": 15.0,
3427
+ "step": 2250,
3428
+ "total_flos": 5.57962327867392e+18,
3429
+ "train_loss": 0.03856972599029541,
3430
+ "train_runtime": 877.6839,
3431
+ "train_samples_per_second": 82.034,
3432
+ "train_steps_per_second": 2.564
3433
+ }
3434
+ ],
3435
+ "logging_steps": 5,
3436
+ "max_steps": 2250,
3437
+ "num_input_tokens_seen": 0,
3438
+ "num_train_epochs": 15,
3439
+ "save_steps": 100,
3440
+ "stateful_callbacks": {
3441
+ "TrainerControl": {
3442
+ "args": {
3443
+ "should_epoch_stop": false,
3444
+ "should_evaluate": false,
3445
+ "should_log": false,
3446
+ "should_save": true,
3447
+ "should_training_stop": true
3448
+ },
3449
+ "attributes": {}
3450
+ }
3451
+ },
3452
+ "total_flos": 5.57962327867392e+18,
3453
+ "train_batch_size": 32,
3454
+ "trial_name": null,
3455
+ "trial_params": null
3456
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4c6d8940e22bf0ca1d1e707e068d3e8f5eaf8a2a622ba6d92b40a24d1a2fb3e0
3
+ size 5432