haiefff commited on
Commit
86b1968
1 Parent(s): 0879a1d

Upload folder using huggingface_hub

Browse files
README.md ADDED
@@ -0,0 +1,31 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ tags:
4
+ - autotrain
5
+ - image-classification
6
+ base_model: google/vit-large-patch32-384
7
+ widget:
8
+ - src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
9
+ example_title: Tiger
10
+ - src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
11
+ example_title: Teapot
12
+ - src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg
13
+ example_title: Palace
14
+ ---
15
+
16
+ # Model Trained Using AutoTrain
17
+
18
+ - Problem type: Image Classification
19
+
20
+ ## Validation Metrics
21
+ loss: 0.0027391575276851654
22
+
23
+ f1: 0.9523809523809523
24
+
25
+ precision: 0.958904109589041
26
+
27
+ recall: 0.9459459459459459
28
+
29
+ auc: 0.9999216153508497
30
+
31
+ accuracy: 0.9988539620170268
checkpoint-9162/config.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "google/vit-large-patch32-384",
3
+ "_num_labels": 2,
4
+ "architectures": [
5
+ "ViTForImageClassification"
6
+ ],
7
+ "attention_probs_dropout_prob": 0.0,
8
+ "encoder_stride": 16,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.0,
11
+ "hidden_size": 1024,
12
+ "id2label": {
13
+ "0": "not_soyjak",
14
+ "1": "soyjak"
15
+ },
16
+ "image_size": 384,
17
+ "initializer_range": 0.02,
18
+ "intermediate_size": 4096,
19
+ "label2id": {
20
+ "not_soyjak": 0,
21
+ "soyjak": 1
22
+ },
23
+ "layer_norm_eps": 1e-12,
24
+ "model_type": "vit",
25
+ "num_attention_heads": 16,
26
+ "num_channels": 3,
27
+ "num_hidden_layers": 24,
28
+ "patch_size": 32,
29
+ "problem_type": "single_label_classification",
30
+ "qkv_bias": true,
31
+ "torch_dtype": "float32",
32
+ "transformers_version": "4.45.0"
33
+ }
checkpoint-9162/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6370312cf8b3c3c9cdcab23d0c40535752368b0bcb77471852c134abba4add6d
3
+ size 1222485480
checkpoint-9162/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7ff9d283ec04f6990599d0ae675f95ff9f54feb96dc5674cb5a7a813e121b08d
3
+ size 2445205930
checkpoint-9162/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e455470a03ae85cd92795a22919ec1902e11da55fff6d7916647ba425512bc09
3
+ size 14244
checkpoint-9162/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9637f4f3050c34b296165f7c171e34f47e27e0faf3a84aaa55c6c80064be806e
3
+ size 1064
checkpoint-9162/trainer_state.json ADDED
@@ -0,0 +1,2643 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.0027391575276851654,
3
+ "best_model_checkpoint": "sj-det-6/checkpoint-9162",
4
+ "epoch": 3.0,
5
+ "eval_steps": 500,
6
+ "global_step": 9162,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.008185985592665358,
13
+ "grad_norm": 14.986274719238281,
14
+ "learning_rate": 1.2540894220283533e-06,
15
+ "loss": 1.1682,
16
+ "step": 25
17
+ },
18
+ {
19
+ "epoch": 0.016371971185330715,
20
+ "grad_norm": 8.189007759094238,
21
+ "learning_rate": 2.6172300981461287e-06,
22
+ "loss": 0.7882,
23
+ "step": 50
24
+ },
25
+ {
26
+ "epoch": 0.02455795677799607,
27
+ "grad_norm": 4.545085906982422,
28
+ "learning_rate": 3.980370774263904e-06,
29
+ "loss": 0.3987,
30
+ "step": 75
31
+ },
32
+ {
33
+ "epoch": 0.03274394237066143,
34
+ "grad_norm": 0.8907670974731445,
35
+ "learning_rate": 5.343511450381679e-06,
36
+ "loss": 0.1198,
37
+ "step": 100
38
+ },
39
+ {
40
+ "epoch": 0.040929927963326784,
41
+ "grad_norm": 0.8682488203048706,
42
+ "learning_rate": 6.7066521264994545e-06,
43
+ "loss": 0.1166,
44
+ "step": 125
45
+ },
46
+ {
47
+ "epoch": 0.04911591355599214,
48
+ "grad_norm": 0.1406942456960678,
49
+ "learning_rate": 8.069792802617231e-06,
50
+ "loss": 0.0797,
51
+ "step": 150
52
+ },
53
+ {
54
+ "epoch": 0.0573018991486575,
55
+ "grad_norm": 0.030166020616889,
56
+ "learning_rate": 9.432933478735007e-06,
57
+ "loss": 0.0518,
58
+ "step": 175
59
+ },
60
+ {
61
+ "epoch": 0.06548788474132286,
62
+ "grad_norm": 0.0494314506649971,
63
+ "learning_rate": 1.0796074154852782e-05,
64
+ "loss": 0.0505,
65
+ "step": 200
66
+ },
67
+ {
68
+ "epoch": 0.07367387033398821,
69
+ "grad_norm": 0.01392674632370472,
70
+ "learning_rate": 1.2159214830970557e-05,
71
+ "loss": 0.0272,
72
+ "step": 225
73
+ },
74
+ {
75
+ "epoch": 0.08185985592665357,
76
+ "grad_norm": 0.0814874917268753,
77
+ "learning_rate": 1.3522355507088334e-05,
78
+ "loss": 0.0365,
79
+ "step": 250
80
+ },
81
+ {
82
+ "epoch": 0.09004584151931892,
83
+ "grad_norm": 0.04325518757104874,
84
+ "learning_rate": 1.4885496183206107e-05,
85
+ "loss": 0.0576,
86
+ "step": 275
87
+ },
88
+ {
89
+ "epoch": 0.09823182711198428,
90
+ "grad_norm": 0.09735051542520523,
91
+ "learning_rate": 1.624863685932388e-05,
92
+ "loss": 0.0329,
93
+ "step": 300
94
+ },
95
+ {
96
+ "epoch": 0.10641781270464964,
97
+ "grad_norm": 0.64588862657547,
98
+ "learning_rate": 1.761177753544166e-05,
99
+ "loss": 0.0802,
100
+ "step": 325
101
+ },
102
+ {
103
+ "epoch": 0.114603798297315,
104
+ "grad_norm": 0.011760449036955833,
105
+ "learning_rate": 1.8974918211559434e-05,
106
+ "loss": 0.0524,
107
+ "step": 350
108
+ },
109
+ {
110
+ "epoch": 0.12278978388998035,
111
+ "grad_norm": 0.1449550837278366,
112
+ "learning_rate": 2.033805888767721e-05,
113
+ "loss": 0.0347,
114
+ "step": 375
115
+ },
116
+ {
117
+ "epoch": 0.13097576948264572,
118
+ "grad_norm": 0.018402298912405968,
119
+ "learning_rate": 2.1701199563794985e-05,
120
+ "loss": 0.0155,
121
+ "step": 400
122
+ },
123
+ {
124
+ "epoch": 0.13916175507531106,
125
+ "grad_norm": 0.016214437782764435,
126
+ "learning_rate": 2.306434023991276e-05,
127
+ "loss": 0.0988,
128
+ "step": 425
129
+ },
130
+ {
131
+ "epoch": 0.14734774066797643,
132
+ "grad_norm": 0.08800540119409561,
133
+ "learning_rate": 2.4427480916030535e-05,
134
+ "loss": 0.0428,
135
+ "step": 450
136
+ },
137
+ {
138
+ "epoch": 0.15553372626064177,
139
+ "grad_norm": 0.005783313885331154,
140
+ "learning_rate": 2.5790621592148313e-05,
141
+ "loss": 0.1005,
142
+ "step": 475
143
+ },
144
+ {
145
+ "epoch": 0.16371971185330714,
146
+ "grad_norm": 0.028863191604614258,
147
+ "learning_rate": 2.7153762268266085e-05,
148
+ "loss": 0.0427,
149
+ "step": 500
150
+ },
151
+ {
152
+ "epoch": 0.1719056974459725,
153
+ "grad_norm": 6.242043495178223,
154
+ "learning_rate": 2.851690294438386e-05,
155
+ "loss": 0.0868,
156
+ "step": 525
157
+ },
158
+ {
159
+ "epoch": 0.18009168303863785,
160
+ "grad_norm": 0.013895904645323753,
161
+ "learning_rate": 2.9880043620501635e-05,
162
+ "loss": 0.0898,
163
+ "step": 550
164
+ },
165
+ {
166
+ "epoch": 0.1882776686313032,
167
+ "grad_norm": 0.019419686868786812,
168
+ "learning_rate": 3.124318429661941e-05,
169
+ "loss": 0.0351,
170
+ "step": 575
171
+ },
172
+ {
173
+ "epoch": 0.19646365422396855,
174
+ "grad_norm": 0.008130255155265331,
175
+ "learning_rate": 3.260632497273719e-05,
176
+ "loss": 0.0164,
177
+ "step": 600
178
+ },
179
+ {
180
+ "epoch": 0.20464963981663392,
181
+ "grad_norm": 6.5059814453125,
182
+ "learning_rate": 3.3969465648854964e-05,
183
+ "loss": 0.0359,
184
+ "step": 625
185
+ },
186
+ {
187
+ "epoch": 0.2128356254092993,
188
+ "grad_norm": 0.010089697316288948,
189
+ "learning_rate": 3.533260632497274e-05,
190
+ "loss": 0.0305,
191
+ "step": 650
192
+ },
193
+ {
194
+ "epoch": 0.22102161100196463,
195
+ "grad_norm": 0.014347407966852188,
196
+ "learning_rate": 3.6695747001090515e-05,
197
+ "loss": 0.0435,
198
+ "step": 675
199
+ },
200
+ {
201
+ "epoch": 0.22920759659463,
202
+ "grad_norm": 0.017506686970591545,
203
+ "learning_rate": 3.805888767720829e-05,
204
+ "loss": 0.0486,
205
+ "step": 700
206
+ },
207
+ {
208
+ "epoch": 0.23739358218729534,
209
+ "grad_norm": 0.004301242996007204,
210
+ "learning_rate": 3.9422028353326065e-05,
211
+ "loss": 0.0002,
212
+ "step": 725
213
+ },
214
+ {
215
+ "epoch": 0.2455795677799607,
216
+ "grad_norm": 0.00440743425861001,
217
+ "learning_rate": 4.078516902944384e-05,
218
+ "loss": 0.0134,
219
+ "step": 750
220
+ },
221
+ {
222
+ "epoch": 0.2537655533726261,
223
+ "grad_norm": 0.037835538387298584,
224
+ "learning_rate": 4.2148309705561615e-05,
225
+ "loss": 0.0334,
226
+ "step": 775
227
+ },
228
+ {
229
+ "epoch": 0.26195153896529144,
230
+ "grad_norm": 0.11478447914123535,
231
+ "learning_rate": 4.351145038167939e-05,
232
+ "loss": 0.0665,
233
+ "step": 800
234
+ },
235
+ {
236
+ "epoch": 0.27013752455795675,
237
+ "grad_norm": 0.006648090668022633,
238
+ "learning_rate": 4.4874591057797165e-05,
239
+ "loss": 0.0033,
240
+ "step": 825
241
+ },
242
+ {
243
+ "epoch": 0.2783235101506221,
244
+ "grad_norm": 8.948714256286621,
245
+ "learning_rate": 4.623773173391494e-05,
246
+ "loss": 0.0996,
247
+ "step": 850
248
+ },
249
+ {
250
+ "epoch": 0.2865094957432875,
251
+ "grad_norm": 0.012912426143884659,
252
+ "learning_rate": 4.7600872410032716e-05,
253
+ "loss": 0.0102,
254
+ "step": 875
255
+ },
256
+ {
257
+ "epoch": 0.29469548133595286,
258
+ "grad_norm": 0.0026352498680353165,
259
+ "learning_rate": 4.89640130861505e-05,
260
+ "loss": 0.0226,
261
+ "step": 900
262
+ },
263
+ {
264
+ "epoch": 0.3028814669286182,
265
+ "grad_norm": 0.15103408694267273,
266
+ "learning_rate": 4.996361431170407e-05,
267
+ "loss": 0.0225,
268
+ "step": 925
269
+ },
270
+ {
271
+ "epoch": 0.31106745252128354,
272
+ "grad_norm": 0.04878251254558563,
273
+ "learning_rate": 4.981200727713766e-05,
274
+ "loss": 0.0005,
275
+ "step": 950
276
+ },
277
+ {
278
+ "epoch": 0.3192534381139489,
279
+ "grad_norm": 0.00841938890516758,
280
+ "learning_rate": 4.966040024257126e-05,
281
+ "loss": 0.0513,
282
+ "step": 975
283
+ },
284
+ {
285
+ "epoch": 0.3274394237066143,
286
+ "grad_norm": 0.04339870065450668,
287
+ "learning_rate": 4.9508793208004854e-05,
288
+ "loss": 0.0328,
289
+ "step": 1000
290
+ },
291
+ {
292
+ "epoch": 0.33562540929927964,
293
+ "grad_norm": 0.00045626997598446906,
294
+ "learning_rate": 4.935718617343845e-05,
295
+ "loss": 0.0124,
296
+ "step": 1025
297
+ },
298
+ {
299
+ "epoch": 0.343811394891945,
300
+ "grad_norm": 0.00013843162741977721,
301
+ "learning_rate": 4.9205579138872046e-05,
302
+ "loss": 0.0,
303
+ "step": 1050
304
+ },
305
+ {
306
+ "epoch": 0.3519973804846103,
307
+ "grad_norm": 1.9331814050674438,
308
+ "learning_rate": 4.905397210430564e-05,
309
+ "loss": 0.0504,
310
+ "step": 1075
311
+ },
312
+ {
313
+ "epoch": 0.3601833660772757,
314
+ "grad_norm": 0.002882858505472541,
315
+ "learning_rate": 4.890236506973924e-05,
316
+ "loss": 0.1157,
317
+ "step": 1100
318
+ },
319
+ {
320
+ "epoch": 0.36836935166994106,
321
+ "grad_norm": 0.022938862442970276,
322
+ "learning_rate": 4.875075803517283e-05,
323
+ "loss": 0.0716,
324
+ "step": 1125
325
+ },
326
+ {
327
+ "epoch": 0.3765553372626064,
328
+ "grad_norm": 0.0010779292788356543,
329
+ "learning_rate": 4.859915100060643e-05,
330
+ "loss": 0.0419,
331
+ "step": 1150
332
+ },
333
+ {
334
+ "epoch": 0.3847413228552718,
335
+ "grad_norm": 0.03177574649453163,
336
+ "learning_rate": 4.8447543966040024e-05,
337
+ "loss": 0.0249,
338
+ "step": 1175
339
+ },
340
+ {
341
+ "epoch": 0.3929273084479371,
342
+ "grad_norm": 0.0006776170921511948,
343
+ "learning_rate": 4.8295936931473626e-05,
344
+ "loss": 0.0415,
345
+ "step": 1200
346
+ },
347
+ {
348
+ "epoch": 0.4011132940406025,
349
+ "grad_norm": 0.00865075271576643,
350
+ "learning_rate": 4.814432989690722e-05,
351
+ "loss": 0.0304,
352
+ "step": 1225
353
+ },
354
+ {
355
+ "epoch": 0.40929927963326784,
356
+ "grad_norm": 0.004142033401876688,
357
+ "learning_rate": 4.799272286234082e-05,
358
+ "loss": 0.066,
359
+ "step": 1250
360
+ },
361
+ {
362
+ "epoch": 0.4174852652259332,
363
+ "grad_norm": 0.006911768112331629,
364
+ "learning_rate": 4.784111582777441e-05,
365
+ "loss": 0.0345,
366
+ "step": 1275
367
+ },
368
+ {
369
+ "epoch": 0.4256712508185986,
370
+ "grad_norm": 0.011829985305666924,
371
+ "learning_rate": 4.768950879320801e-05,
372
+ "loss": 0.0324,
373
+ "step": 1300
374
+ },
375
+ {
376
+ "epoch": 0.4338572364112639,
377
+ "grad_norm": 0.024410191923379898,
378
+ "learning_rate": 4.7537901758641604e-05,
379
+ "loss": 0.0412,
380
+ "step": 1325
381
+ },
382
+ {
383
+ "epoch": 0.44204322200392926,
384
+ "grad_norm": 0.0020343943033367395,
385
+ "learning_rate": 4.73862947240752e-05,
386
+ "loss": 0.0133,
387
+ "step": 1350
388
+ },
389
+ {
390
+ "epoch": 0.4502292075965946,
391
+ "grad_norm": 0.0009943109471350908,
392
+ "learning_rate": 4.7234687689508795e-05,
393
+ "loss": 0.0004,
394
+ "step": 1375
395
+ },
396
+ {
397
+ "epoch": 0.45841519318926,
398
+ "grad_norm": 0.00024950483930297196,
399
+ "learning_rate": 4.708308065494239e-05,
400
+ "loss": 0.0,
401
+ "step": 1400
402
+ },
403
+ {
404
+ "epoch": 0.46660117878192536,
405
+ "grad_norm": 0.0015270832227542996,
406
+ "learning_rate": 4.6931473620375986e-05,
407
+ "loss": 0.0314,
408
+ "step": 1425
409
+ },
410
+ {
411
+ "epoch": 0.4747871643745907,
412
+ "grad_norm": 9.285660743713379,
413
+ "learning_rate": 4.677986658580958e-05,
414
+ "loss": 0.0955,
415
+ "step": 1450
416
+ },
417
+ {
418
+ "epoch": 0.48297314996725604,
419
+ "grad_norm": 0.004155229777097702,
420
+ "learning_rate": 4.6628259551243184e-05,
421
+ "loss": 0.003,
422
+ "step": 1475
423
+ },
424
+ {
425
+ "epoch": 0.4911591355599214,
426
+ "grad_norm": 0.013534590601921082,
427
+ "learning_rate": 4.647665251667678e-05,
428
+ "loss": 0.0269,
429
+ "step": 1500
430
+ },
431
+ {
432
+ "epoch": 0.4993451211525868,
433
+ "grad_norm": 0.004476598929613829,
434
+ "learning_rate": 4.6325045482110375e-05,
435
+ "loss": 0.0011,
436
+ "step": 1525
437
+ },
438
+ {
439
+ "epoch": 0.5075311067452521,
440
+ "grad_norm": 0.0038523597177118063,
441
+ "learning_rate": 4.617343844754397e-05,
442
+ "loss": 0.0015,
443
+ "step": 1550
444
+ },
445
+ {
446
+ "epoch": 0.5157170923379175,
447
+ "grad_norm": 0.03839994966983795,
448
+ "learning_rate": 4.602183141297756e-05,
449
+ "loss": 0.1135,
450
+ "step": 1575
451
+ },
452
+ {
453
+ "epoch": 0.5239030779305829,
454
+ "grad_norm": 0.000390953995520249,
455
+ "learning_rate": 4.587022437841116e-05,
456
+ "loss": 0.0015,
457
+ "step": 1600
458
+ },
459
+ {
460
+ "epoch": 0.5320890635232483,
461
+ "grad_norm": 0.00021860921697225422,
462
+ "learning_rate": 4.571861734384476e-05,
463
+ "loss": 0.0015,
464
+ "step": 1625
465
+ },
466
+ {
467
+ "epoch": 0.5402750491159135,
468
+ "grad_norm": 0.005596529692411423,
469
+ "learning_rate": 4.556701030927835e-05,
470
+ "loss": 0.1111,
471
+ "step": 1650
472
+ },
473
+ {
474
+ "epoch": 0.5484610347085789,
475
+ "grad_norm": 5.192307949066162,
476
+ "learning_rate": 4.541540327471195e-05,
477
+ "loss": 0.056,
478
+ "step": 1675
479
+ },
480
+ {
481
+ "epoch": 0.5566470203012442,
482
+ "grad_norm": 0.004266222473233938,
483
+ "learning_rate": 4.5263796240145544e-05,
484
+ "loss": 0.0078,
485
+ "step": 1700
486
+ },
487
+ {
488
+ "epoch": 0.5648330058939096,
489
+ "grad_norm": 4.940586090087891,
490
+ "learning_rate": 4.511218920557914e-05,
491
+ "loss": 0.0416,
492
+ "step": 1725
493
+ },
494
+ {
495
+ "epoch": 0.573018991486575,
496
+ "grad_norm": 0.056938640773296356,
497
+ "learning_rate": 4.4960582171012735e-05,
498
+ "loss": 0.0299,
499
+ "step": 1750
500
+ },
501
+ {
502
+ "epoch": 0.5812049770792403,
503
+ "grad_norm": 0.025186289101839066,
504
+ "learning_rate": 4.480897513644634e-05,
505
+ "loss": 0.0046,
506
+ "step": 1775
507
+ },
508
+ {
509
+ "epoch": 0.5893909626719057,
510
+ "grad_norm": 0.0009007578482851386,
511
+ "learning_rate": 4.465736810187993e-05,
512
+ "loss": 0.0402,
513
+ "step": 1800
514
+ },
515
+ {
516
+ "epoch": 0.5975769482645711,
517
+ "grad_norm": 0.006263722199946642,
518
+ "learning_rate": 4.450576106731352e-05,
519
+ "loss": 0.0008,
520
+ "step": 1825
521
+ },
522
+ {
523
+ "epoch": 0.6057629338572365,
524
+ "grad_norm": 0.002118312055245042,
525
+ "learning_rate": 4.435415403274712e-05,
526
+ "loss": 0.0003,
527
+ "step": 1850
528
+ },
529
+ {
530
+ "epoch": 0.6139489194499018,
531
+ "grad_norm": 0.011466097086668015,
532
+ "learning_rate": 4.420254699818071e-05,
533
+ "loss": 0.0025,
534
+ "step": 1875
535
+ },
536
+ {
537
+ "epoch": 0.6221349050425671,
538
+ "grad_norm": 0.27655062079429626,
539
+ "learning_rate": 4.4050939963614315e-05,
540
+ "loss": 0.0694,
541
+ "step": 1900
542
+ },
543
+ {
544
+ "epoch": 0.6303208906352324,
545
+ "grad_norm": 0.011102208867669106,
546
+ "learning_rate": 4.389933292904791e-05,
547
+ "loss": 0.0771,
548
+ "step": 1925
549
+ },
550
+ {
551
+ "epoch": 0.6385068762278978,
552
+ "grad_norm": 0.03391822427511215,
553
+ "learning_rate": 4.3747725894481507e-05,
554
+ "loss": 0.0516,
555
+ "step": 1950
556
+ },
557
+ {
558
+ "epoch": 0.6466928618205632,
559
+ "grad_norm": 1.2409979104995728,
560
+ "learning_rate": 4.35961188599151e-05,
561
+ "loss": 0.0052,
562
+ "step": 1975
563
+ },
564
+ {
565
+ "epoch": 0.6548788474132285,
566
+ "grad_norm": 0.005223038140684366,
567
+ "learning_rate": 4.34445118253487e-05,
568
+ "loss": 0.0265,
569
+ "step": 2000
570
+ },
571
+ {
572
+ "epoch": 0.6630648330058939,
573
+ "grad_norm": 0.015766901895403862,
574
+ "learning_rate": 4.329290479078229e-05,
575
+ "loss": 0.0023,
576
+ "step": 2025
577
+ },
578
+ {
579
+ "epoch": 0.6712508185985593,
580
+ "grad_norm": 0.030491165816783905,
581
+ "learning_rate": 4.3141297756215896e-05,
582
+ "loss": 0.0343,
583
+ "step": 2050
584
+ },
585
+ {
586
+ "epoch": 0.6794368041912247,
587
+ "grad_norm": 0.00046129990369081497,
588
+ "learning_rate": 4.298969072164949e-05,
589
+ "loss": 0.0121,
590
+ "step": 2075
591
+ },
592
+ {
593
+ "epoch": 0.68762278978389,
594
+ "grad_norm": 0.0001839818141888827,
595
+ "learning_rate": 4.283808368708308e-05,
596
+ "loss": 0.0012,
597
+ "step": 2100
598
+ },
599
+ {
600
+ "epoch": 0.6958087753765554,
601
+ "grad_norm": 0.0003591451095417142,
602
+ "learning_rate": 4.2686476652516676e-05,
603
+ "loss": 0.0374,
604
+ "step": 2125
605
+ },
606
+ {
607
+ "epoch": 0.7039947609692206,
608
+ "grad_norm": 0.009124216623604298,
609
+ "learning_rate": 4.253486961795027e-05,
610
+ "loss": 0.0082,
611
+ "step": 2150
612
+ },
613
+ {
614
+ "epoch": 0.712180746561886,
615
+ "grad_norm": 0.0014978774124756455,
616
+ "learning_rate": 4.2383262583383874e-05,
617
+ "loss": 0.0306,
618
+ "step": 2175
619
+ },
620
+ {
621
+ "epoch": 0.7203667321545514,
622
+ "grad_norm": 1.0534560680389404,
623
+ "learning_rate": 4.223165554881747e-05,
624
+ "loss": 0.0008,
625
+ "step": 2200
626
+ },
627
+ {
628
+ "epoch": 0.7285527177472167,
629
+ "grad_norm": 0.005840160418301821,
630
+ "learning_rate": 4.2080048514251065e-05,
631
+ "loss": 0.0562,
632
+ "step": 2225
633
+ },
634
+ {
635
+ "epoch": 0.7367387033398821,
636
+ "grad_norm": 4.12369966506958,
637
+ "learning_rate": 4.192844147968466e-05,
638
+ "loss": 0.01,
639
+ "step": 2250
640
+ },
641
+ {
642
+ "epoch": 0.7449246889325475,
643
+ "grad_norm": 0.0006641410291194916,
644
+ "learning_rate": 4.1776834445118256e-05,
645
+ "loss": 0.0001,
646
+ "step": 2275
647
+ },
648
+ {
649
+ "epoch": 0.7531106745252129,
650
+ "grad_norm": 0.0009534868295304477,
651
+ "learning_rate": 4.162522741055185e-05,
652
+ "loss": 0.0854,
653
+ "step": 2300
654
+ },
655
+ {
656
+ "epoch": 0.7612966601178782,
657
+ "grad_norm": 0.02312465012073517,
658
+ "learning_rate": 4.147362037598545e-05,
659
+ "loss": 0.0523,
660
+ "step": 2325
661
+ },
662
+ {
663
+ "epoch": 0.7694826457105436,
664
+ "grad_norm": 0.009137257933616638,
665
+ "learning_rate": 4.132201334141904e-05,
666
+ "loss": 0.0337,
667
+ "step": 2350
668
+ },
669
+ {
670
+ "epoch": 0.777668631303209,
671
+ "grad_norm": 0.01361013948917389,
672
+ "learning_rate": 4.117040630685264e-05,
673
+ "loss": 0.0228,
674
+ "step": 2375
675
+ },
676
+ {
677
+ "epoch": 0.7858546168958742,
678
+ "grad_norm": 0.0018830469343811274,
679
+ "learning_rate": 4.1018799272286234e-05,
680
+ "loss": 0.0129,
681
+ "step": 2400
682
+ },
683
+ {
684
+ "epoch": 0.7940406024885396,
685
+ "grad_norm": 0.6149205565452576,
686
+ "learning_rate": 4.086719223771983e-05,
687
+ "loss": 0.0404,
688
+ "step": 2425
689
+ },
690
+ {
691
+ "epoch": 0.802226588081205,
692
+ "grad_norm": 0.005154294427484274,
693
+ "learning_rate": 4.0715585203153425e-05,
694
+ "loss": 0.0011,
695
+ "step": 2450
696
+ },
697
+ {
698
+ "epoch": 0.8104125736738703,
699
+ "grad_norm": 0.022492127493023872,
700
+ "learning_rate": 4.056397816858703e-05,
701
+ "loss": 0.042,
702
+ "step": 2475
703
+ },
704
+ {
705
+ "epoch": 0.8185985592665357,
706
+ "grad_norm": 0.020115699619054794,
707
+ "learning_rate": 4.041237113402062e-05,
708
+ "loss": 0.0495,
709
+ "step": 2500
710
+ },
711
+ {
712
+ "epoch": 0.826784544859201,
713
+ "grad_norm": 0.008540102280676365,
714
+ "learning_rate": 4.026076409945422e-05,
715
+ "loss": 0.0074,
716
+ "step": 2525
717
+ },
718
+ {
719
+ "epoch": 0.8349705304518664,
720
+ "grad_norm": 0.00022775791876483709,
721
+ "learning_rate": 4.0109157064887814e-05,
722
+ "loss": 0.0001,
723
+ "step": 2550
724
+ },
725
+ {
726
+ "epoch": 0.8431565160445318,
727
+ "grad_norm": 0.0014885278651490808,
728
+ "learning_rate": 3.995755003032141e-05,
729
+ "loss": 0.0207,
730
+ "step": 2575
731
+ },
732
+ {
733
+ "epoch": 0.8513425016371972,
734
+ "grad_norm": 0.0014814437599852681,
735
+ "learning_rate": 3.9805942995755005e-05,
736
+ "loss": 0.0219,
737
+ "step": 2600
738
+ },
739
+ {
740
+ "epoch": 0.8595284872298625,
741
+ "grad_norm": 0.0025843679904937744,
742
+ "learning_rate": 3.96543359611886e-05,
743
+ "loss": 0.0137,
744
+ "step": 2625
745
+ },
746
+ {
747
+ "epoch": 0.8677144728225278,
748
+ "grad_norm": 0.04107142984867096,
749
+ "learning_rate": 3.9502728926622196e-05,
750
+ "loss": 0.0695,
751
+ "step": 2650
752
+ },
753
+ {
754
+ "epoch": 0.8759004584151932,
755
+ "grad_norm": 0.005535195115953684,
756
+ "learning_rate": 3.935112189205579e-05,
757
+ "loss": 0.0157,
758
+ "step": 2675
759
+ },
760
+ {
761
+ "epoch": 0.8840864440078585,
762
+ "grad_norm": 5.580929756164551,
763
+ "learning_rate": 3.919951485748939e-05,
764
+ "loss": 0.0806,
765
+ "step": 2700
766
+ },
767
+ {
768
+ "epoch": 0.8922724296005239,
769
+ "grad_norm": 0.0086448909714818,
770
+ "learning_rate": 3.904790782292298e-05,
771
+ "loss": 0.046,
772
+ "step": 2725
773
+ },
774
+ {
775
+ "epoch": 0.9004584151931893,
776
+ "grad_norm": 0.0019950985442847013,
777
+ "learning_rate": 3.8896300788356585e-05,
778
+ "loss": 0.0004,
779
+ "step": 2750
780
+ },
781
+ {
782
+ "epoch": 0.9086444007858546,
783
+ "grad_norm": 0.04631026089191437,
784
+ "learning_rate": 3.874469375379018e-05,
785
+ "loss": 0.1026,
786
+ "step": 2775
787
+ },
788
+ {
789
+ "epoch": 0.91683038637852,
790
+ "grad_norm": 0.14316339790821075,
791
+ "learning_rate": 3.8593086719223776e-05,
792
+ "loss": 0.0173,
793
+ "step": 2800
794
+ },
795
+ {
796
+ "epoch": 0.9250163719711854,
797
+ "grad_norm": 0.002735959365963936,
798
+ "learning_rate": 3.844147968465737e-05,
799
+ "loss": 0.0102,
800
+ "step": 2825
801
+ },
802
+ {
803
+ "epoch": 0.9332023575638507,
804
+ "grad_norm": 0.007864673621952534,
805
+ "learning_rate": 3.828987265009097e-05,
806
+ "loss": 0.001,
807
+ "step": 2850
808
+ },
809
+ {
810
+ "epoch": 0.9413883431565161,
811
+ "grad_norm": 0.0006219564820639789,
812
+ "learning_rate": 3.813826561552456e-05,
813
+ "loss": 0.0121,
814
+ "step": 2875
815
+ },
816
+ {
817
+ "epoch": 0.9495743287491814,
818
+ "grad_norm": 0.20409245789051056,
819
+ "learning_rate": 3.798665858095816e-05,
820
+ "loss": 0.0383,
821
+ "step": 2900
822
+ },
823
+ {
824
+ "epoch": 0.9577603143418467,
825
+ "grad_norm": 0.0005641476600430906,
826
+ "learning_rate": 3.7835051546391754e-05,
827
+ "loss": 0.0054,
828
+ "step": 2925
829
+ },
830
+ {
831
+ "epoch": 0.9659462999345121,
832
+ "grad_norm": 0.004506452474743128,
833
+ "learning_rate": 3.768344451182535e-05,
834
+ "loss": 0.0167,
835
+ "step": 2950
836
+ },
837
+ {
838
+ "epoch": 0.9741322855271775,
839
+ "grad_norm": 0.0007494801538996398,
840
+ "learning_rate": 3.7531837477258945e-05,
841
+ "loss": 0.0016,
842
+ "step": 2975
843
+ },
844
+ {
845
+ "epoch": 0.9823182711198428,
846
+ "grad_norm": 0.0016925218515098095,
847
+ "learning_rate": 3.738023044269254e-05,
848
+ "loss": 0.0144,
849
+ "step": 3000
850
+ },
851
+ {
852
+ "epoch": 0.9905042567125082,
853
+ "grad_norm": 0.007691397797316313,
854
+ "learning_rate": 3.7228623408126137e-05,
855
+ "loss": 0.0264,
856
+ "step": 3025
857
+ },
858
+ {
859
+ "epoch": 0.9986902423051736,
860
+ "grad_norm": 0.004836967680603266,
861
+ "learning_rate": 3.707701637355974e-05,
862
+ "loss": 0.0003,
863
+ "step": 3050
864
+ },
865
+ {
866
+ "epoch": 1.0,
867
+ "eval_accuracy": 0.9955795677799607,
868
+ "eval_auc": 0.9977481210079818,
869
+ "eval_f1": 0.8187919463087249,
870
+ "eval_loss": 0.014572993852198124,
871
+ "eval_precision": 0.8133333333333334,
872
+ "eval_recall": 0.8243243243243243,
873
+ "eval_runtime": 74.4335,
874
+ "eval_samples_per_second": 82.06,
875
+ "eval_steps_per_second": 5.132,
876
+ "step": 3054
877
+ },
878
+ {
879
+ "epoch": 1.006876227897839,
880
+ "grad_norm": 0.0026801538188010454,
881
+ "learning_rate": 3.6925409338993335e-05,
882
+ "loss": 0.0003,
883
+ "step": 3075
884
+ },
885
+ {
886
+ "epoch": 1.0150622134905043,
887
+ "grad_norm": 0.0013839630410075188,
888
+ "learning_rate": 3.677380230442693e-05,
889
+ "loss": 0.0415,
890
+ "step": 3100
891
+ },
892
+ {
893
+ "epoch": 1.0232481990831697,
894
+ "grad_norm": 0.0052743577398359776,
895
+ "learning_rate": 3.662219526986052e-05,
896
+ "loss": 0.0551,
897
+ "step": 3125
898
+ },
899
+ {
900
+ "epoch": 1.031434184675835,
901
+ "grad_norm": 0.001981929875910282,
902
+ "learning_rate": 3.6470588235294114e-05,
903
+ "loss": 0.0011,
904
+ "step": 3150
905
+ },
906
+ {
907
+ "epoch": 1.0396201702685004,
908
+ "grad_norm": 0.005122967530041933,
909
+ "learning_rate": 3.631898120072772e-05,
910
+ "loss": 0.0013,
911
+ "step": 3175
912
+ },
913
+ {
914
+ "epoch": 1.0478061558611658,
915
+ "grad_norm": 0.0008022825350053608,
916
+ "learning_rate": 3.616737416616131e-05,
917
+ "loss": 0.0001,
918
+ "step": 3200
919
+ },
920
+ {
921
+ "epoch": 1.0559921414538311,
922
+ "grad_norm": 0.002690242137759924,
923
+ "learning_rate": 3.601576713159491e-05,
924
+ "loss": 0.0,
925
+ "step": 3225
926
+ },
927
+ {
928
+ "epoch": 1.0641781270464965,
929
+ "grad_norm": 0.0003424021415412426,
930
+ "learning_rate": 3.5864160097028504e-05,
931
+ "loss": 0.0066,
932
+ "step": 3250
933
+ },
934
+ {
935
+ "epoch": 1.0723641126391619,
936
+ "grad_norm": 0.0005132851074449718,
937
+ "learning_rate": 3.57125530624621e-05,
938
+ "loss": 0.0145,
939
+ "step": 3275
940
+ },
941
+ {
942
+ "epoch": 1.080550098231827,
943
+ "grad_norm": 0.0189173873513937,
944
+ "learning_rate": 3.5560946027895695e-05,
945
+ "loss": 0.0465,
946
+ "step": 3300
947
+ },
948
+ {
949
+ "epoch": 1.0887360838244924,
950
+ "grad_norm": 0.0036357955541461706,
951
+ "learning_rate": 3.54093389933293e-05,
952
+ "loss": 0.0492,
953
+ "step": 3325
954
+ },
955
+ {
956
+ "epoch": 1.0969220694171578,
957
+ "grad_norm": 0.003961147274821997,
958
+ "learning_rate": 3.525773195876289e-05,
959
+ "loss": 0.039,
960
+ "step": 3350
961
+ },
962
+ {
963
+ "epoch": 1.1051080550098231,
964
+ "grad_norm": 0.003041486954316497,
965
+ "learning_rate": 3.510612492419648e-05,
966
+ "loss": 0.0123,
967
+ "step": 3375
968
+ },
969
+ {
970
+ "epoch": 1.1132940406024885,
971
+ "grad_norm": 0.001711357617750764,
972
+ "learning_rate": 3.495451788963008e-05,
973
+ "loss": 0.0003,
974
+ "step": 3400
975
+ },
976
+ {
977
+ "epoch": 1.1214800261951539,
978
+ "grad_norm": 0.0013232220662757754,
979
+ "learning_rate": 3.480291085506367e-05,
980
+ "loss": 0.0096,
981
+ "step": 3425
982
+ },
983
+ {
984
+ "epoch": 1.1296660117878192,
985
+ "grad_norm": 0.000497565430123359,
986
+ "learning_rate": 3.4651303820497275e-05,
987
+ "loss": 0.0233,
988
+ "step": 3450
989
+ },
990
+ {
991
+ "epoch": 1.1378519973804846,
992
+ "grad_norm": 0.005278216674923897,
993
+ "learning_rate": 3.449969678593087e-05,
994
+ "loss": 0.0399,
995
+ "step": 3475
996
+ },
997
+ {
998
+ "epoch": 1.14603798297315,
999
+ "grad_norm": 0.3594399392604828,
1000
+ "learning_rate": 3.4348089751364466e-05,
1001
+ "loss": 0.068,
1002
+ "step": 3500
1003
+ },
1004
+ {
1005
+ "epoch": 1.1542239685658153,
1006
+ "grad_norm": 0.013597418554127216,
1007
+ "learning_rate": 3.419648271679806e-05,
1008
+ "loss": 0.0018,
1009
+ "step": 3525
1010
+ },
1011
+ {
1012
+ "epoch": 1.1624099541584807,
1013
+ "grad_norm": 0.004102836363017559,
1014
+ "learning_rate": 3.404487568223166e-05,
1015
+ "loss": 0.0292,
1016
+ "step": 3550
1017
+ },
1018
+ {
1019
+ "epoch": 1.170595939751146,
1020
+ "grad_norm": 0.0014996347017586231,
1021
+ "learning_rate": 3.389326864766525e-05,
1022
+ "loss": 0.0114,
1023
+ "step": 3575
1024
+ },
1025
+ {
1026
+ "epoch": 1.1787819253438114,
1027
+ "grad_norm": 0.018868234008550644,
1028
+ "learning_rate": 3.374166161309885e-05,
1029
+ "loss": 0.0169,
1030
+ "step": 3600
1031
+ },
1032
+ {
1033
+ "epoch": 1.1869679109364768,
1034
+ "grad_norm": 0.001259682234376669,
1035
+ "learning_rate": 3.3590054578532444e-05,
1036
+ "loss": 0.0042,
1037
+ "step": 3625
1038
+ },
1039
+ {
1040
+ "epoch": 1.1951538965291422,
1041
+ "grad_norm": 0.15819938480854034,
1042
+ "learning_rate": 3.343844754396604e-05,
1043
+ "loss": 0.0007,
1044
+ "step": 3650
1045
+ },
1046
+ {
1047
+ "epoch": 1.2033398821218075,
1048
+ "grad_norm": 0.0013165829004719853,
1049
+ "learning_rate": 3.3286840509399635e-05,
1050
+ "loss": 0.0357,
1051
+ "step": 3675
1052
+ },
1053
+ {
1054
+ "epoch": 1.211525867714473,
1055
+ "grad_norm": 0.0017084279097616673,
1056
+ "learning_rate": 3.313523347483323e-05,
1057
+ "loss": 0.0034,
1058
+ "step": 3700
1059
+ },
1060
+ {
1061
+ "epoch": 1.2197118533071383,
1062
+ "grad_norm": 0.0006795689114369452,
1063
+ "learning_rate": 3.2983626440266826e-05,
1064
+ "loss": 0.0004,
1065
+ "step": 3725
1066
+ },
1067
+ {
1068
+ "epoch": 1.2278978388998034,
1069
+ "grad_norm": 0.0009630739223212004,
1070
+ "learning_rate": 3.283201940570043e-05,
1071
+ "loss": 0.0133,
1072
+ "step": 3750
1073
+ },
1074
+ {
1075
+ "epoch": 1.2360838244924688,
1076
+ "grad_norm": 0.0106749152764678,
1077
+ "learning_rate": 3.2680412371134024e-05,
1078
+ "loss": 0.0173,
1079
+ "step": 3775
1080
+ },
1081
+ {
1082
+ "epoch": 1.2442698100851342,
1083
+ "grad_norm": 0.001351616345345974,
1084
+ "learning_rate": 3.252880533656762e-05,
1085
+ "loss": 0.0023,
1086
+ "step": 3800
1087
+ },
1088
+ {
1089
+ "epoch": 1.2524557956777995,
1090
+ "grad_norm": 0.0006208529230207205,
1091
+ "learning_rate": 3.2377198302001215e-05,
1092
+ "loss": 0.0,
1093
+ "step": 3825
1094
+ },
1095
+ {
1096
+ "epoch": 1.260641781270465,
1097
+ "grad_norm": 0.0005773603334091604,
1098
+ "learning_rate": 3.222559126743481e-05,
1099
+ "loss": 0.0373,
1100
+ "step": 3850
1101
+ },
1102
+ {
1103
+ "epoch": 1.2688277668631303,
1104
+ "grad_norm": 0.0014631077647209167,
1105
+ "learning_rate": 3.2073984232868406e-05,
1106
+ "loss": 0.0025,
1107
+ "step": 3875
1108
+ },
1109
+ {
1110
+ "epoch": 1.2770137524557956,
1111
+ "grad_norm": 0.0002054146461887285,
1112
+ "learning_rate": 3.1922377198302e-05,
1113
+ "loss": 0.0013,
1114
+ "step": 3900
1115
+ },
1116
+ {
1117
+ "epoch": 1.285199738048461,
1118
+ "grad_norm": 0.0010797285940498114,
1119
+ "learning_rate": 3.17707701637356e-05,
1120
+ "loss": 0.0427,
1121
+ "step": 3925
1122
+ },
1123
+ {
1124
+ "epoch": 1.2933857236411264,
1125
+ "grad_norm": 0.022801030427217484,
1126
+ "learning_rate": 3.161916312916919e-05,
1127
+ "loss": 0.0297,
1128
+ "step": 3950
1129
+ },
1130
+ {
1131
+ "epoch": 1.3015717092337917,
1132
+ "grad_norm": 0.33411428332328796,
1133
+ "learning_rate": 3.146755609460279e-05,
1134
+ "loss": 0.0412,
1135
+ "step": 3975
1136
+ },
1137
+ {
1138
+ "epoch": 1.309757694826457,
1139
+ "grad_norm": 0.014158491976559162,
1140
+ "learning_rate": 3.1315949060036384e-05,
1141
+ "loss": 0.0185,
1142
+ "step": 4000
1143
+ },
1144
+ {
1145
+ "epoch": 1.3179436804191225,
1146
+ "grad_norm": 0.00048260248149745166,
1147
+ "learning_rate": 3.116434202546999e-05,
1148
+ "loss": 0.0,
1149
+ "step": 4025
1150
+ },
1151
+ {
1152
+ "epoch": 1.3261296660117878,
1153
+ "grad_norm": 0.19578149914741516,
1154
+ "learning_rate": 3.101273499090358e-05,
1155
+ "loss": 0.0772,
1156
+ "step": 4050
1157
+ },
1158
+ {
1159
+ "epoch": 1.3343156516044532,
1160
+ "grad_norm": 0.0038196328096091747,
1161
+ "learning_rate": 3.086112795633718e-05,
1162
+ "loss": 0.0031,
1163
+ "step": 4075
1164
+ },
1165
+ {
1166
+ "epoch": 1.3425016371971186,
1167
+ "grad_norm": 0.001698371721431613,
1168
+ "learning_rate": 3.070952092177077e-05,
1169
+ "loss": 0.054,
1170
+ "step": 4100
1171
+ },
1172
+ {
1173
+ "epoch": 1.350687622789784,
1174
+ "grad_norm": 0.0078005073592066765,
1175
+ "learning_rate": 3.055791388720437e-05,
1176
+ "loss": 0.0095,
1177
+ "step": 4125
1178
+ },
1179
+ {
1180
+ "epoch": 1.3588736083824493,
1181
+ "grad_norm": 0.0008572742226533592,
1182
+ "learning_rate": 3.040630685263796e-05,
1183
+ "loss": 0.0508,
1184
+ "step": 4150
1185
+ },
1186
+ {
1187
+ "epoch": 1.3670595939751147,
1188
+ "grad_norm": 0.011146394535899162,
1189
+ "learning_rate": 3.0254699818071557e-05,
1190
+ "loss": 0.0004,
1191
+ "step": 4175
1192
+ },
1193
+ {
1194
+ "epoch": 1.37524557956778,
1195
+ "grad_norm": 0.003408160526305437,
1196
+ "learning_rate": 3.0103092783505156e-05,
1197
+ "loss": 0.0431,
1198
+ "step": 4200
1199
+ },
1200
+ {
1201
+ "epoch": 1.3834315651604454,
1202
+ "grad_norm": 0.01908206194639206,
1203
+ "learning_rate": 2.995148574893875e-05,
1204
+ "loss": 0.0387,
1205
+ "step": 4225
1206
+ },
1207
+ {
1208
+ "epoch": 1.3916175507531108,
1209
+ "grad_norm": 0.001946812029927969,
1210
+ "learning_rate": 2.9799878714372347e-05,
1211
+ "loss": 0.0005,
1212
+ "step": 4250
1213
+ },
1214
+ {
1215
+ "epoch": 1.3998035363457761,
1216
+ "grad_norm": 0.008685130625963211,
1217
+ "learning_rate": 2.9648271679805946e-05,
1218
+ "loss": 0.0786,
1219
+ "step": 4275
1220
+ },
1221
+ {
1222
+ "epoch": 1.4079895219384415,
1223
+ "grad_norm": 0.07280147820711136,
1224
+ "learning_rate": 2.949666464523954e-05,
1225
+ "loss": 0.0217,
1226
+ "step": 4300
1227
+ },
1228
+ {
1229
+ "epoch": 1.4161755075311069,
1230
+ "grad_norm": 0.01758684776723385,
1231
+ "learning_rate": 2.9345057610673137e-05,
1232
+ "loss": 0.0042,
1233
+ "step": 4325
1234
+ },
1235
+ {
1236
+ "epoch": 1.424361493123772,
1237
+ "grad_norm": 0.003927039448171854,
1238
+ "learning_rate": 2.9193450576106736e-05,
1239
+ "loss": 0.0033,
1240
+ "step": 4350
1241
+ },
1242
+ {
1243
+ "epoch": 1.4325474787164374,
1244
+ "grad_norm": 0.003762061009183526,
1245
+ "learning_rate": 2.904184354154033e-05,
1246
+ "loss": 0.0313,
1247
+ "step": 4375
1248
+ },
1249
+ {
1250
+ "epoch": 1.4407334643091028,
1251
+ "grad_norm": 0.00642773462459445,
1252
+ "learning_rate": 2.8890236506973924e-05,
1253
+ "loss": 0.0003,
1254
+ "step": 4400
1255
+ },
1256
+ {
1257
+ "epoch": 1.4489194499017681,
1258
+ "grad_norm": 0.005841416772454977,
1259
+ "learning_rate": 2.873862947240752e-05,
1260
+ "loss": 0.0001,
1261
+ "step": 4425
1262
+ },
1263
+ {
1264
+ "epoch": 1.4571054354944335,
1265
+ "grad_norm": 0.0015138218877837062,
1266
+ "learning_rate": 2.8587022437841115e-05,
1267
+ "loss": 0.0001,
1268
+ "step": 4450
1269
+ },
1270
+ {
1271
+ "epoch": 1.4652914210870989,
1272
+ "grad_norm": 0.005790230352431536,
1273
+ "learning_rate": 2.8435415403274714e-05,
1274
+ "loss": 0.0166,
1275
+ "step": 4475
1276
+ },
1277
+ {
1278
+ "epoch": 1.4734774066797642,
1279
+ "grad_norm": 0.002549233613535762,
1280
+ "learning_rate": 2.828380836870831e-05,
1281
+ "loss": 0.0006,
1282
+ "step": 4500
1283
+ },
1284
+ {
1285
+ "epoch": 1.4816633922724296,
1286
+ "grad_norm": 0.0019311434589326382,
1287
+ "learning_rate": 2.8132201334141905e-05,
1288
+ "loss": 0.0094,
1289
+ "step": 4525
1290
+ },
1291
+ {
1292
+ "epoch": 1.489849377865095,
1293
+ "grad_norm": 0.0018175276927649975,
1294
+ "learning_rate": 2.7980594299575504e-05,
1295
+ "loss": 0.0179,
1296
+ "step": 4550
1297
+ },
1298
+ {
1299
+ "epoch": 1.4980353634577603,
1300
+ "grad_norm": 0.00037457983125932515,
1301
+ "learning_rate": 2.78289872650091e-05,
1302
+ "loss": 0.0,
1303
+ "step": 4575
1304
+ },
1305
+ {
1306
+ "epoch": 1.5062213490504257,
1307
+ "grad_norm": 0.0009425774333067238,
1308
+ "learning_rate": 2.7677380230442695e-05,
1309
+ "loss": 0.0,
1310
+ "step": 4600
1311
+ },
1312
+ {
1313
+ "epoch": 1.514407334643091,
1314
+ "grad_norm": 0.00077505485387519,
1315
+ "learning_rate": 2.752577319587629e-05,
1316
+ "loss": 0.0002,
1317
+ "step": 4625
1318
+ },
1319
+ {
1320
+ "epoch": 1.5225933202357562,
1321
+ "grad_norm": 0.00036527996417135,
1322
+ "learning_rate": 2.737416616130989e-05,
1323
+ "loss": 0.0002,
1324
+ "step": 4650
1325
+ },
1326
+ {
1327
+ "epoch": 1.5307793058284216,
1328
+ "grad_norm": 0.0006952973199076951,
1329
+ "learning_rate": 2.7222559126743478e-05,
1330
+ "loss": 0.0,
1331
+ "step": 4675
1332
+ },
1333
+ {
1334
+ "epoch": 1.538965291421087,
1335
+ "grad_norm": 0.0010176642099395394,
1336
+ "learning_rate": 2.7070952092177077e-05,
1337
+ "loss": 0.0465,
1338
+ "step": 4700
1339
+ },
1340
+ {
1341
+ "epoch": 1.5471512770137523,
1342
+ "grad_norm": 0.00043089999235235155,
1343
+ "learning_rate": 2.6919345057610673e-05,
1344
+ "loss": 0.013,
1345
+ "step": 4725
1346
+ },
1347
+ {
1348
+ "epoch": 1.5553372626064177,
1349
+ "grad_norm": 0.0003544854116626084,
1350
+ "learning_rate": 2.676773802304427e-05,
1351
+ "loss": 0.0001,
1352
+ "step": 4750
1353
+ },
1354
+ {
1355
+ "epoch": 1.563523248199083,
1356
+ "grad_norm": 0.0013717171968892217,
1357
+ "learning_rate": 2.6616130988477867e-05,
1358
+ "loss": 0.0002,
1359
+ "step": 4775
1360
+ },
1361
+ {
1362
+ "epoch": 1.5717092337917484,
1363
+ "grad_norm": 0.0011255746940150857,
1364
+ "learning_rate": 2.6464523953911463e-05,
1365
+ "loss": 0.0002,
1366
+ "step": 4800
1367
+ },
1368
+ {
1369
+ "epoch": 1.5798952193844138,
1370
+ "grad_norm": 0.0009519586456008255,
1371
+ "learning_rate": 2.631291691934506e-05,
1372
+ "loss": 0.0042,
1373
+ "step": 4825
1374
+ },
1375
+ {
1376
+ "epoch": 1.5880812049770792,
1377
+ "grad_norm": 0.0012405363377183676,
1378
+ "learning_rate": 2.6161309884778657e-05,
1379
+ "loss": 0.0,
1380
+ "step": 4850
1381
+ },
1382
+ {
1383
+ "epoch": 1.5962671905697445,
1384
+ "grad_norm": 0.0004118427459616214,
1385
+ "learning_rate": 2.6009702850212253e-05,
1386
+ "loss": 0.0515,
1387
+ "step": 4875
1388
+ },
1389
+ {
1390
+ "epoch": 1.60445317616241,
1391
+ "grad_norm": 0.0020054271444678307,
1392
+ "learning_rate": 2.585809581564585e-05,
1393
+ "loss": 0.0162,
1394
+ "step": 4900
1395
+ },
1396
+ {
1397
+ "epoch": 1.6126391617550753,
1398
+ "grad_norm": 0.0009532085387036204,
1399
+ "learning_rate": 2.570648878107944e-05,
1400
+ "loss": 0.0003,
1401
+ "step": 4925
1402
+ },
1403
+ {
1404
+ "epoch": 1.6208251473477406,
1405
+ "grad_norm": 0.009459923952817917,
1406
+ "learning_rate": 2.5554881746513036e-05,
1407
+ "loss": 0.0538,
1408
+ "step": 4950
1409
+ },
1410
+ {
1411
+ "epoch": 1.629011132940406,
1412
+ "grad_norm": 0.0009569909307174385,
1413
+ "learning_rate": 2.5403274711946635e-05,
1414
+ "loss": 0.0346,
1415
+ "step": 4975
1416
+ },
1417
+ {
1418
+ "epoch": 1.6371971185330714,
1419
+ "grad_norm": 0.0007560375961475074,
1420
+ "learning_rate": 2.525166767738023e-05,
1421
+ "loss": 0.0362,
1422
+ "step": 5000
1423
+ },
1424
+ {
1425
+ "epoch": 1.6453831041257367,
1426
+ "grad_norm": 0.0004632064083125442,
1427
+ "learning_rate": 2.5100060642813826e-05,
1428
+ "loss": 0.0005,
1429
+ "step": 5025
1430
+ },
1431
+ {
1432
+ "epoch": 1.653569089718402,
1433
+ "grad_norm": 0.0006956621073186398,
1434
+ "learning_rate": 2.4948453608247425e-05,
1435
+ "loss": 0.0028,
1436
+ "step": 5050
1437
+ },
1438
+ {
1439
+ "epoch": 1.6617550753110675,
1440
+ "grad_norm": 0.0004222158167976886,
1441
+ "learning_rate": 2.479684657368102e-05,
1442
+ "loss": 0.0002,
1443
+ "step": 5075
1444
+ },
1445
+ {
1446
+ "epoch": 1.6699410609037328,
1447
+ "grad_norm": 0.0006862828740850091,
1448
+ "learning_rate": 2.4645239539114617e-05,
1449
+ "loss": 0.0395,
1450
+ "step": 5100
1451
+ },
1452
+ {
1453
+ "epoch": 1.6781270464963982,
1454
+ "grad_norm": 0.001836837618611753,
1455
+ "learning_rate": 2.4493632504548212e-05,
1456
+ "loss": 0.0268,
1457
+ "step": 5125
1458
+ },
1459
+ {
1460
+ "epoch": 1.6863130320890636,
1461
+ "grad_norm": 0.0008472290937788785,
1462
+ "learning_rate": 2.4342025469981808e-05,
1463
+ "loss": 0.0028,
1464
+ "step": 5150
1465
+ },
1466
+ {
1467
+ "epoch": 1.694499017681729,
1468
+ "grad_norm": 0.0012132123811170459,
1469
+ "learning_rate": 2.4190418435415403e-05,
1470
+ "loss": 0.0001,
1471
+ "step": 5175
1472
+ },
1473
+ {
1474
+ "epoch": 1.7026850032743943,
1475
+ "grad_norm": 0.0005179749568924308,
1476
+ "learning_rate": 2.4038811400849002e-05,
1477
+ "loss": 0.0397,
1478
+ "step": 5200
1479
+ },
1480
+ {
1481
+ "epoch": 1.7108709888670597,
1482
+ "grad_norm": 0.0008750595734454691,
1483
+ "learning_rate": 2.3887204366282598e-05,
1484
+ "loss": 0.0002,
1485
+ "step": 5225
1486
+ },
1487
+ {
1488
+ "epoch": 1.719056974459725,
1489
+ "grad_norm": 0.02541407383978367,
1490
+ "learning_rate": 2.373559733171619e-05,
1491
+ "loss": 0.0001,
1492
+ "step": 5250
1493
+ },
1494
+ {
1495
+ "epoch": 1.7272429600523904,
1496
+ "grad_norm": 0.02840971015393734,
1497
+ "learning_rate": 2.358399029714979e-05,
1498
+ "loss": 0.0002,
1499
+ "step": 5275
1500
+ },
1501
+ {
1502
+ "epoch": 1.7354289456450558,
1503
+ "grad_norm": 0.0008489146712236106,
1504
+ "learning_rate": 2.3432383262583385e-05,
1505
+ "loss": 0.0142,
1506
+ "step": 5300
1507
+ },
1508
+ {
1509
+ "epoch": 1.7436149312377212,
1510
+ "grad_norm": 0.002642701379954815,
1511
+ "learning_rate": 2.328077622801698e-05,
1512
+ "loss": 0.0562,
1513
+ "step": 5325
1514
+ },
1515
+ {
1516
+ "epoch": 1.7518009168303865,
1517
+ "grad_norm": 0.004949661903083324,
1518
+ "learning_rate": 2.312916919345058e-05,
1519
+ "loss": 0.0147,
1520
+ "step": 5350
1521
+ },
1522
+ {
1523
+ "epoch": 1.759986902423052,
1524
+ "grad_norm": 0.11022938042879105,
1525
+ "learning_rate": 2.297756215888417e-05,
1526
+ "loss": 0.028,
1527
+ "step": 5375
1528
+ },
1529
+ {
1530
+ "epoch": 1.768172888015717,
1531
+ "grad_norm": 0.006674617063254118,
1532
+ "learning_rate": 2.282595512431777e-05,
1533
+ "loss": 0.0014,
1534
+ "step": 5400
1535
+ },
1536
+ {
1537
+ "epoch": 1.7763588736083824,
1538
+ "grad_norm": 0.0017073052003979683,
1539
+ "learning_rate": 2.2674348089751366e-05,
1540
+ "loss": 0.0028,
1541
+ "step": 5425
1542
+ },
1543
+ {
1544
+ "epoch": 1.7845448592010478,
1545
+ "grad_norm": 3.2796061038970947,
1546
+ "learning_rate": 2.252274105518496e-05,
1547
+ "loss": 0.0025,
1548
+ "step": 5450
1549
+ },
1550
+ {
1551
+ "epoch": 1.7927308447937131,
1552
+ "grad_norm": 0.0006569511606357992,
1553
+ "learning_rate": 2.237113402061856e-05,
1554
+ "loss": 0.0009,
1555
+ "step": 5475
1556
+ },
1557
+ {
1558
+ "epoch": 1.8009168303863785,
1559
+ "grad_norm": 0.00020327128004282713,
1560
+ "learning_rate": 2.2219526986052153e-05,
1561
+ "loss": 0.0,
1562
+ "step": 5500
1563
+ },
1564
+ {
1565
+ "epoch": 1.8091028159790439,
1566
+ "grad_norm": 0.041166484355926514,
1567
+ "learning_rate": 2.2067919951485748e-05,
1568
+ "loss": 0.0937,
1569
+ "step": 5525
1570
+ },
1571
+ {
1572
+ "epoch": 1.8172888015717092,
1573
+ "grad_norm": 0.05974828451871872,
1574
+ "learning_rate": 2.1916312916919347e-05,
1575
+ "loss": 0.0147,
1576
+ "step": 5550
1577
+ },
1578
+ {
1579
+ "epoch": 1.8254747871643746,
1580
+ "grad_norm": 0.004328828305006027,
1581
+ "learning_rate": 2.1764705882352943e-05,
1582
+ "loss": 0.0041,
1583
+ "step": 5575
1584
+ },
1585
+ {
1586
+ "epoch": 1.83366077275704,
1587
+ "grad_norm": 0.004382645711302757,
1588
+ "learning_rate": 2.1613098847786538e-05,
1589
+ "loss": 0.0006,
1590
+ "step": 5600
1591
+ },
1592
+ {
1593
+ "epoch": 1.8418467583497053,
1594
+ "grad_norm": 0.005558451171964407,
1595
+ "learning_rate": 2.1461491813220134e-05,
1596
+ "loss": 0.0002,
1597
+ "step": 5625
1598
+ },
1599
+ {
1600
+ "epoch": 1.8500327439423707,
1601
+ "grad_norm": 0.02043689414858818,
1602
+ "learning_rate": 2.130988477865373e-05,
1603
+ "loss": 0.044,
1604
+ "step": 5650
1605
+ },
1606
+ {
1607
+ "epoch": 1.8582187295350359,
1608
+ "grad_norm": 0.007403884083032608,
1609
+ "learning_rate": 2.1158277744087325e-05,
1610
+ "loss": 0.0295,
1611
+ "step": 5675
1612
+ },
1613
+ {
1614
+ "epoch": 1.8664047151277012,
1615
+ "grad_norm": 0.002108983462676406,
1616
+ "learning_rate": 2.1006670709520924e-05,
1617
+ "loss": 0.0033,
1618
+ "step": 5700
1619
+ },
1620
+ {
1621
+ "epoch": 1.8745907007203666,
1622
+ "grad_norm": 0.0540454126894474,
1623
+ "learning_rate": 2.085506367495452e-05,
1624
+ "loss": 0.0247,
1625
+ "step": 5725
1626
+ },
1627
+ {
1628
+ "epoch": 1.882776686313032,
1629
+ "grad_norm": 0.02874263934791088,
1630
+ "learning_rate": 2.0703456640388115e-05,
1631
+ "loss": 0.0117,
1632
+ "step": 5750
1633
+ },
1634
+ {
1635
+ "epoch": 1.8909626719056973,
1636
+ "grad_norm": 0.0010341499000787735,
1637
+ "learning_rate": 2.055184960582171e-05,
1638
+ "loss": 0.0029,
1639
+ "step": 5775
1640
+ },
1641
+ {
1642
+ "epoch": 1.8991486574983627,
1643
+ "grad_norm": 0.0022526606917381287,
1644
+ "learning_rate": 2.0400242571255306e-05,
1645
+ "loss": 0.0404,
1646
+ "step": 5800
1647
+ },
1648
+ {
1649
+ "epoch": 1.907334643091028,
1650
+ "grad_norm": 0.0009332990157417953,
1651
+ "learning_rate": 2.0248635536688905e-05,
1652
+ "loss": 0.0001,
1653
+ "step": 5825
1654
+ },
1655
+ {
1656
+ "epoch": 1.9155206286836934,
1657
+ "grad_norm": 0.01605447567999363,
1658
+ "learning_rate": 2.00970285021225e-05,
1659
+ "loss": 0.0744,
1660
+ "step": 5850
1661
+ },
1662
+ {
1663
+ "epoch": 1.9237066142763588,
1664
+ "grad_norm": 0.057828161865472794,
1665
+ "learning_rate": 1.9945421467556096e-05,
1666
+ "loss": 0.038,
1667
+ "step": 5875
1668
+ },
1669
+ {
1670
+ "epoch": 1.9318925998690242,
1671
+ "grad_norm": 0.01713876612484455,
1672
+ "learning_rate": 1.9793814432989692e-05,
1673
+ "loss": 0.0071,
1674
+ "step": 5900
1675
+ },
1676
+ {
1677
+ "epoch": 1.9400785854616895,
1678
+ "grad_norm": 0.0016962456284090877,
1679
+ "learning_rate": 1.9642207398423287e-05,
1680
+ "loss": 0.0075,
1681
+ "step": 5925
1682
+ },
1683
+ {
1684
+ "epoch": 1.948264571054355,
1685
+ "grad_norm": 0.001768580754287541,
1686
+ "learning_rate": 1.9490600363856883e-05,
1687
+ "loss": 0.0008,
1688
+ "step": 5950
1689
+ },
1690
+ {
1691
+ "epoch": 1.9564505566470203,
1692
+ "grad_norm": 0.005728750489652157,
1693
+ "learning_rate": 1.9338993329290482e-05,
1694
+ "loss": 0.0627,
1695
+ "step": 5975
1696
+ },
1697
+ {
1698
+ "epoch": 1.9646365422396856,
1699
+ "grad_norm": 7.606292724609375,
1700
+ "learning_rate": 1.9187386294724078e-05,
1701
+ "loss": 0.0418,
1702
+ "step": 6000
1703
+ },
1704
+ {
1705
+ "epoch": 1.972822527832351,
1706
+ "grad_norm": 0.0018708339193835855,
1707
+ "learning_rate": 1.903577926015767e-05,
1708
+ "loss": 0.0006,
1709
+ "step": 6025
1710
+ },
1711
+ {
1712
+ "epoch": 1.9810085134250164,
1713
+ "grad_norm": 7.210286617279053,
1714
+ "learning_rate": 1.888417222559127e-05,
1715
+ "loss": 0.0324,
1716
+ "step": 6050
1717
+ },
1718
+ {
1719
+ "epoch": 1.9891944990176817,
1720
+ "grad_norm": 0.021973388269543648,
1721
+ "learning_rate": 1.8732565191024864e-05,
1722
+ "loss": 0.0005,
1723
+ "step": 6075
1724
+ },
1725
+ {
1726
+ "epoch": 1.9973804846103471,
1727
+ "grad_norm": 0.2803119421005249,
1728
+ "learning_rate": 1.858095815645846e-05,
1729
+ "loss": 0.0454,
1730
+ "step": 6100
1731
+ },
1732
+ {
1733
+ "epoch": 2.0,
1734
+ "eval_accuracy": 0.9975442043222004,
1735
+ "eval_auc": 0.9995912800437162,
1736
+ "eval_f1": 0.9044585987261147,
1737
+ "eval_loss": 0.008845364674925804,
1738
+ "eval_precision": 0.8554216867469879,
1739
+ "eval_recall": 0.9594594594594594,
1740
+ "eval_runtime": 74.792,
1741
+ "eval_samples_per_second": 81.666,
1742
+ "eval_steps_per_second": 5.107,
1743
+ "step": 6108
1744
+ },
1745
+ {
1746
+ "epoch": 2.0055664702030125,
1747
+ "grad_norm": 0.022678203880786896,
1748
+ "learning_rate": 1.8435415403274715e-05,
1749
+ "loss": 0.0121,
1750
+ "step": 6125
1751
+ },
1752
+ {
1753
+ "epoch": 2.013752455795678,
1754
+ "grad_norm": 0.0033217219170182943,
1755
+ "learning_rate": 1.8283808368708307e-05,
1756
+ "loss": 0.0446,
1757
+ "step": 6150
1758
+ },
1759
+ {
1760
+ "epoch": 2.021938441388343,
1761
+ "grad_norm": 0.006960027851164341,
1762
+ "learning_rate": 1.8132201334141906e-05,
1763
+ "loss": 0.0067,
1764
+ "step": 6175
1765
+ },
1766
+ {
1767
+ "epoch": 2.0301244269810086,
1768
+ "grad_norm": 1.543547511100769,
1769
+ "learning_rate": 1.79805942995755e-05,
1770
+ "loss": 0.0201,
1771
+ "step": 6200
1772
+ },
1773
+ {
1774
+ "epoch": 2.038310412573674,
1775
+ "grad_norm": 0.01694468781352043,
1776
+ "learning_rate": 1.7828987265009097e-05,
1777
+ "loss": 0.0258,
1778
+ "step": 6225
1779
+ },
1780
+ {
1781
+ "epoch": 2.0464963981663393,
1782
+ "grad_norm": 0.004578434396535158,
1783
+ "learning_rate": 1.7677380230442696e-05,
1784
+ "loss": 0.0006,
1785
+ "step": 6250
1786
+ },
1787
+ {
1788
+ "epoch": 2.0546823837590047,
1789
+ "grad_norm": 1.5190191268920898,
1790
+ "learning_rate": 1.7525773195876288e-05,
1791
+ "loss": 0.0126,
1792
+ "step": 6275
1793
+ },
1794
+ {
1795
+ "epoch": 2.06286836935167,
1796
+ "grad_norm": 0.0018938812427222729,
1797
+ "learning_rate": 1.7374166161309884e-05,
1798
+ "loss": 0.0003,
1799
+ "step": 6300
1800
+ },
1801
+ {
1802
+ "epoch": 2.0710543549443354,
1803
+ "grad_norm": 0.0011117063695564866,
1804
+ "learning_rate": 1.7222559126743483e-05,
1805
+ "loss": 0.0002,
1806
+ "step": 6325
1807
+ },
1808
+ {
1809
+ "epoch": 2.079240340537001,
1810
+ "grad_norm": 0.000687290565110743,
1811
+ "learning_rate": 1.7070952092177078e-05,
1812
+ "loss": 0.0154,
1813
+ "step": 6350
1814
+ },
1815
+ {
1816
+ "epoch": 2.087426326129666,
1817
+ "grad_norm": 0.001672151731327176,
1818
+ "learning_rate": 1.6919345057610674e-05,
1819
+ "loss": 0.0006,
1820
+ "step": 6375
1821
+ },
1822
+ {
1823
+ "epoch": 2.0956123117223315,
1824
+ "grad_norm": 5.109748363494873,
1825
+ "learning_rate": 1.676773802304427e-05,
1826
+ "loss": 0.0352,
1827
+ "step": 6400
1828
+ },
1829
+ {
1830
+ "epoch": 2.103798297314997,
1831
+ "grad_norm": 0.020103197544813156,
1832
+ "learning_rate": 1.6616130988477865e-05,
1833
+ "loss": 0.0007,
1834
+ "step": 6425
1835
+ },
1836
+ {
1837
+ "epoch": 2.1119842829076623,
1838
+ "grad_norm": 0.005654872860759497,
1839
+ "learning_rate": 1.646452395391146e-05,
1840
+ "loss": 0.0004,
1841
+ "step": 6450
1842
+ },
1843
+ {
1844
+ "epoch": 2.1201702685003276,
1845
+ "grad_norm": 0.009023274295032024,
1846
+ "learning_rate": 1.631291691934506e-05,
1847
+ "loss": 0.0018,
1848
+ "step": 6475
1849
+ },
1850
+ {
1851
+ "epoch": 2.128356254092993,
1852
+ "grad_norm": 0.0016646806616336107,
1853
+ "learning_rate": 1.6161309884778655e-05,
1854
+ "loss": 0.0001,
1855
+ "step": 6500
1856
+ },
1857
+ {
1858
+ "epoch": 2.1365422396856584,
1859
+ "grad_norm": 0.0016474899603053927,
1860
+ "learning_rate": 1.600970285021225e-05,
1861
+ "loss": 0.0005,
1862
+ "step": 6525
1863
+ },
1864
+ {
1865
+ "epoch": 2.1447282252783237,
1866
+ "grad_norm": 0.014943123795092106,
1867
+ "learning_rate": 1.5858095815645846e-05,
1868
+ "loss": 0.0147,
1869
+ "step": 6550
1870
+ },
1871
+ {
1872
+ "epoch": 2.1529142108709887,
1873
+ "grad_norm": 0.0021474878303706646,
1874
+ "learning_rate": 1.570648878107944e-05,
1875
+ "loss": 0.0002,
1876
+ "step": 6575
1877
+ },
1878
+ {
1879
+ "epoch": 2.161100196463654,
1880
+ "grad_norm": 0.0017727293306961656,
1881
+ "learning_rate": 1.555488174651304e-05,
1882
+ "loss": 0.0,
1883
+ "step": 6600
1884
+ },
1885
+ {
1886
+ "epoch": 2.1692861820563194,
1887
+ "grad_norm": 0.0010321360314264894,
1888
+ "learning_rate": 1.5403274711946636e-05,
1889
+ "loss": 0.0001,
1890
+ "step": 6625
1891
+ },
1892
+ {
1893
+ "epoch": 2.1774721676489848,
1894
+ "grad_norm": 0.0004758843861054629,
1895
+ "learning_rate": 1.5251667677380232e-05,
1896
+ "loss": 0.0114,
1897
+ "step": 6650
1898
+ },
1899
+ {
1900
+ "epoch": 2.18565815324165,
1901
+ "grad_norm": 0.0012892503291368484,
1902
+ "learning_rate": 1.5100060642813826e-05,
1903
+ "loss": 0.0262,
1904
+ "step": 6675
1905
+ },
1906
+ {
1907
+ "epoch": 2.1938441388343155,
1908
+ "grad_norm": 0.01857004500925541,
1909
+ "learning_rate": 1.4948453608247423e-05,
1910
+ "loss": 0.0003,
1911
+ "step": 6700
1912
+ },
1913
+ {
1914
+ "epoch": 2.202030124426981,
1915
+ "grad_norm": 0.0008667947258800268,
1916
+ "learning_rate": 1.479684657368102e-05,
1917
+ "loss": 0.0099,
1918
+ "step": 6725
1919
+ },
1920
+ {
1921
+ "epoch": 2.2102161100196462,
1922
+ "grad_norm": 0.001100408611819148,
1923
+ "learning_rate": 1.4645239539114616e-05,
1924
+ "loss": 0.0341,
1925
+ "step": 6750
1926
+ },
1927
+ {
1928
+ "epoch": 2.2184020956123116,
1929
+ "grad_norm": 0.001291294815018773,
1930
+ "learning_rate": 1.4493632504548213e-05,
1931
+ "loss": 0.0001,
1932
+ "step": 6775
1933
+ },
1934
+ {
1935
+ "epoch": 2.226588081204977,
1936
+ "grad_norm": 0.011078906245529652,
1937
+ "learning_rate": 1.4342025469981807e-05,
1938
+ "loss": 0.0479,
1939
+ "step": 6800
1940
+ },
1941
+ {
1942
+ "epoch": 2.2347740667976423,
1943
+ "grad_norm": 0.0018653717124834657,
1944
+ "learning_rate": 1.4190418435415404e-05,
1945
+ "loss": 0.0026,
1946
+ "step": 6825
1947
+ },
1948
+ {
1949
+ "epoch": 2.2429600523903077,
1950
+ "grad_norm": 0.0010668339673429728,
1951
+ "learning_rate": 1.4038811400849e-05,
1952
+ "loss": 0.0005,
1953
+ "step": 6850
1954
+ },
1955
+ {
1956
+ "epoch": 2.251146037982973,
1957
+ "grad_norm": 0.002098933095112443,
1958
+ "learning_rate": 1.3887204366282597e-05,
1959
+ "loss": 0.0005,
1960
+ "step": 6875
1961
+ },
1962
+ {
1963
+ "epoch": 2.2593320235756384,
1964
+ "grad_norm": 0.0008214248227886856,
1965
+ "learning_rate": 1.3735597331716193e-05,
1966
+ "loss": 0.0185,
1967
+ "step": 6900
1968
+ },
1969
+ {
1970
+ "epoch": 2.267518009168304,
1971
+ "grad_norm": 0.001296183792874217,
1972
+ "learning_rate": 1.3583990297149786e-05,
1973
+ "loss": 0.0354,
1974
+ "step": 6925
1975
+ },
1976
+ {
1977
+ "epoch": 2.275703994760969,
1978
+ "grad_norm": 0.0009354737703688443,
1979
+ "learning_rate": 1.3432383262583384e-05,
1980
+ "loss": 0.0127,
1981
+ "step": 6950
1982
+ },
1983
+ {
1984
+ "epoch": 2.2838899803536346,
1985
+ "grad_norm": 0.0020546901505440474,
1986
+ "learning_rate": 1.3280776228016981e-05,
1987
+ "loss": 0.0004,
1988
+ "step": 6975
1989
+ },
1990
+ {
1991
+ "epoch": 2.2920759659463,
1992
+ "grad_norm": 0.02266145683825016,
1993
+ "learning_rate": 1.3129169193450577e-05,
1994
+ "loss": 0.0364,
1995
+ "step": 7000
1996
+ },
1997
+ {
1998
+ "epoch": 2.3002619515389653,
1999
+ "grad_norm": 0.010976303368806839,
2000
+ "learning_rate": 1.2977562158884174e-05,
2001
+ "loss": 0.0018,
2002
+ "step": 7025
2003
+ },
2004
+ {
2005
+ "epoch": 2.3084479371316307,
2006
+ "grad_norm": 0.006094989832490683,
2007
+ "learning_rate": 1.2825955124317768e-05,
2008
+ "loss": 0.0091,
2009
+ "step": 7050
2010
+ },
2011
+ {
2012
+ "epoch": 2.316633922724296,
2013
+ "grad_norm": 0.07841998338699341,
2014
+ "learning_rate": 1.2674348089751365e-05,
2015
+ "loss": 0.0094,
2016
+ "step": 7075
2017
+ },
2018
+ {
2019
+ "epoch": 2.3248199083169614,
2020
+ "grad_norm": 2.630479335784912,
2021
+ "learning_rate": 1.252274105518496e-05,
2022
+ "loss": 0.0029,
2023
+ "step": 7100
2024
+ },
2025
+ {
2026
+ "epoch": 2.3330058939096268,
2027
+ "grad_norm": 0.0039812372997403145,
2028
+ "learning_rate": 1.2371134020618558e-05,
2029
+ "loss": 0.0086,
2030
+ "step": 7125
2031
+ },
2032
+ {
2033
+ "epoch": 2.341191879502292,
2034
+ "grad_norm": 0.0007643400458618999,
2035
+ "learning_rate": 1.2219526986052153e-05,
2036
+ "loss": 0.0001,
2037
+ "step": 7150
2038
+ },
2039
+ {
2040
+ "epoch": 2.3493778650949575,
2041
+ "grad_norm": 0.0021422533318400383,
2042
+ "learning_rate": 1.2067919951485749e-05,
2043
+ "loss": 0.0029,
2044
+ "step": 7175
2045
+ },
2046
+ {
2047
+ "epoch": 2.357563850687623,
2048
+ "grad_norm": 0.0017942421836778522,
2049
+ "learning_rate": 1.1916312916919346e-05,
2050
+ "loss": 0.0026,
2051
+ "step": 7200
2052
+ },
2053
+ {
2054
+ "epoch": 2.3657498362802882,
2055
+ "grad_norm": 0.0007688822224736214,
2056
+ "learning_rate": 1.1764705882352942e-05,
2057
+ "loss": 0.0018,
2058
+ "step": 7225
2059
+ },
2060
+ {
2061
+ "epoch": 2.3739358218729536,
2062
+ "grad_norm": 0.0004730868386104703,
2063
+ "learning_rate": 1.1613098847786537e-05,
2064
+ "loss": 0.0028,
2065
+ "step": 7250
2066
+ },
2067
+ {
2068
+ "epoch": 2.382121807465619,
2069
+ "grad_norm": 0.0004939533537253737,
2070
+ "learning_rate": 1.1461491813220133e-05,
2071
+ "loss": 0.0003,
2072
+ "step": 7275
2073
+ },
2074
+ {
2075
+ "epoch": 2.3903077930582843,
2076
+ "grad_norm": 0.0010573838371783495,
2077
+ "learning_rate": 1.130988477865373e-05,
2078
+ "loss": 0.0158,
2079
+ "step": 7300
2080
+ },
2081
+ {
2082
+ "epoch": 2.3984937786509497,
2083
+ "grad_norm": 0.0003521484904922545,
2084
+ "learning_rate": 1.1158277744087328e-05,
2085
+ "loss": 0.0008,
2086
+ "step": 7325
2087
+ },
2088
+ {
2089
+ "epoch": 2.406679764243615,
2090
+ "grad_norm": 0.00083108467515558,
2091
+ "learning_rate": 1.1006670709520921e-05,
2092
+ "loss": 0.0209,
2093
+ "step": 7350
2094
+ },
2095
+ {
2096
+ "epoch": 2.4148657498362804,
2097
+ "grad_norm": 0.00046702896361239254,
2098
+ "learning_rate": 1.0855063674954519e-05,
2099
+ "loss": 0.0002,
2100
+ "step": 7375
2101
+ },
2102
+ {
2103
+ "epoch": 2.423051735428946,
2104
+ "grad_norm": 0.0009466594783589244,
2105
+ "learning_rate": 1.0703456640388114e-05,
2106
+ "loss": 0.0534,
2107
+ "step": 7400
2108
+ },
2109
+ {
2110
+ "epoch": 2.431237721021611,
2111
+ "grad_norm": 0.0005027965526096523,
2112
+ "learning_rate": 1.055184960582171e-05,
2113
+ "loss": 0.0031,
2114
+ "step": 7425
2115
+ },
2116
+ {
2117
+ "epoch": 2.4394237066142765,
2118
+ "grad_norm": 0.00883590430021286,
2119
+ "learning_rate": 1.0400242571255307e-05,
2120
+ "loss": 0.0078,
2121
+ "step": 7450
2122
+ },
2123
+ {
2124
+ "epoch": 2.4476096922069415,
2125
+ "grad_norm": 0.0009790252661332488,
2126
+ "learning_rate": 1.0248635536688903e-05,
2127
+ "loss": 0.002,
2128
+ "step": 7475
2129
+ },
2130
+ {
2131
+ "epoch": 2.455795677799607,
2132
+ "grad_norm": 0.017697228118777275,
2133
+ "learning_rate": 1.00970285021225e-05,
2134
+ "loss": 0.0049,
2135
+ "step": 7500
2136
+ },
2137
+ {
2138
+ "epoch": 2.463981663392272,
2139
+ "grad_norm": 0.0005443913978524506,
2140
+ "learning_rate": 9.945421467556094e-06,
2141
+ "loss": 0.0672,
2142
+ "step": 7525
2143
+ },
2144
+ {
2145
+ "epoch": 2.4721676489849376,
2146
+ "grad_norm": 0.0002733923611231148,
2147
+ "learning_rate": 9.793814432989691e-06,
2148
+ "loss": 0.0089,
2149
+ "step": 7550
2150
+ },
2151
+ {
2152
+ "epoch": 2.480353634577603,
2153
+ "grad_norm": 0.002381040947511792,
2154
+ "learning_rate": 9.642207398423288e-06,
2155
+ "loss": 0.0001,
2156
+ "step": 7575
2157
+ },
2158
+ {
2159
+ "epoch": 2.4885396201702683,
2160
+ "grad_norm": 0.0006111008697189391,
2161
+ "learning_rate": 9.490600363856882e-06,
2162
+ "loss": 0.0,
2163
+ "step": 7600
2164
+ },
2165
+ {
2166
+ "epoch": 2.4967256057629337,
2167
+ "grad_norm": 0.0005736036109738052,
2168
+ "learning_rate": 9.33899332929048e-06,
2169
+ "loss": 0.0176,
2170
+ "step": 7625
2171
+ },
2172
+ {
2173
+ "epoch": 2.504911591355599,
2174
+ "grad_norm": 0.00394043792039156,
2175
+ "learning_rate": 9.187386294724077e-06,
2176
+ "loss": 0.0039,
2177
+ "step": 7650
2178
+ },
2179
+ {
2180
+ "epoch": 2.5130975769482644,
2181
+ "grad_norm": 0.0005367947742342949,
2182
+ "learning_rate": 9.035779260157672e-06,
2183
+ "loss": 0.0001,
2184
+ "step": 7675
2185
+ },
2186
+ {
2187
+ "epoch": 2.52128356254093,
2188
+ "grad_norm": 0.004565802868455648,
2189
+ "learning_rate": 8.884172225591268e-06,
2190
+ "loss": 0.0255,
2191
+ "step": 7700
2192
+ },
2193
+ {
2194
+ "epoch": 2.529469548133595,
2195
+ "grad_norm": 0.0027460469864308834,
2196
+ "learning_rate": 8.732565191024863e-06,
2197
+ "loss": 0.0007,
2198
+ "step": 7725
2199
+ },
2200
+ {
2201
+ "epoch": 2.5376555337262605,
2202
+ "grad_norm": 0.006453353445976973,
2203
+ "learning_rate": 8.58095815645846e-06,
2204
+ "loss": 0.0003,
2205
+ "step": 7750
2206
+ },
2207
+ {
2208
+ "epoch": 2.545841519318926,
2209
+ "grad_norm": 0.05628466606140137,
2210
+ "learning_rate": 8.429351121892056e-06,
2211
+ "loss": 0.0005,
2212
+ "step": 7775
2213
+ },
2214
+ {
2215
+ "epoch": 2.5540275049115913,
2216
+ "grad_norm": 0.0020795781165361404,
2217
+ "learning_rate": 8.277744087325652e-06,
2218
+ "loss": 0.0001,
2219
+ "step": 7800
2220
+ },
2221
+ {
2222
+ "epoch": 2.5622134905042566,
2223
+ "grad_norm": 6.260252952575684,
2224
+ "learning_rate": 8.126137052759249e-06,
2225
+ "loss": 0.065,
2226
+ "step": 7825
2227
+ },
2228
+ {
2229
+ "epoch": 2.570399476096922,
2230
+ "grad_norm": 0.032053545117378235,
2231
+ "learning_rate": 7.974530018192845e-06,
2232
+ "loss": 0.0005,
2233
+ "step": 7850
2234
+ },
2235
+ {
2236
+ "epoch": 2.5785854616895874,
2237
+ "grad_norm": 0.0007737306877970695,
2238
+ "learning_rate": 7.82292298362644e-06,
2239
+ "loss": 0.0005,
2240
+ "step": 7875
2241
+ },
2242
+ {
2243
+ "epoch": 2.5867714472822527,
2244
+ "grad_norm": 0.0028309288900345564,
2245
+ "learning_rate": 7.671315949060038e-06,
2246
+ "loss": 0.0004,
2247
+ "step": 7900
2248
+ },
2249
+ {
2250
+ "epoch": 2.594957432874918,
2251
+ "grad_norm": 0.002330320654436946,
2252
+ "learning_rate": 7.519708914493632e-06,
2253
+ "loss": 0.0001,
2254
+ "step": 7925
2255
+ },
2256
+ {
2257
+ "epoch": 2.6031434184675835,
2258
+ "grad_norm": 0.002036983147263527,
2259
+ "learning_rate": 7.3681018799272296e-06,
2260
+ "loss": 0.0011,
2261
+ "step": 7950
2262
+ },
2263
+ {
2264
+ "epoch": 2.611329404060249,
2265
+ "grad_norm": 0.0005035591893829405,
2266
+ "learning_rate": 7.216494845360824e-06,
2267
+ "loss": 0.0012,
2268
+ "step": 7975
2269
+ },
2270
+ {
2271
+ "epoch": 2.619515389652914,
2272
+ "grad_norm": 0.011760620400309563,
2273
+ "learning_rate": 7.064887810794421e-06,
2274
+ "loss": 0.0015,
2275
+ "step": 8000
2276
+ },
2277
+ {
2278
+ "epoch": 2.6277013752455796,
2279
+ "grad_norm": 0.07406982779502869,
2280
+ "learning_rate": 6.913280776228018e-06,
2281
+ "loss": 0.0001,
2282
+ "step": 8025
2283
+ },
2284
+ {
2285
+ "epoch": 2.635887360838245,
2286
+ "grad_norm": 0.002441051648929715,
2287
+ "learning_rate": 6.761673741661613e-06,
2288
+ "loss": 0.0008,
2289
+ "step": 8050
2290
+ },
2291
+ {
2292
+ "epoch": 2.6440733464309103,
2293
+ "grad_norm": 0.001771932584233582,
2294
+ "learning_rate": 6.61006670709521e-06,
2295
+ "loss": 0.0261,
2296
+ "step": 8075
2297
+ },
2298
+ {
2299
+ "epoch": 2.6522593320235757,
2300
+ "grad_norm": 0.003007644321769476,
2301
+ "learning_rate": 6.458459672528806e-06,
2302
+ "loss": 0.0027,
2303
+ "step": 8100
2304
+ },
2305
+ {
2306
+ "epoch": 2.660445317616241,
2307
+ "grad_norm": 0.0029620120767503977,
2308
+ "learning_rate": 6.306852637962402e-06,
2309
+ "loss": 0.0001,
2310
+ "step": 8125
2311
+ },
2312
+ {
2313
+ "epoch": 2.6686313032089064,
2314
+ "grad_norm": 0.002668931847438216,
2315
+ "learning_rate": 6.161309884778654e-06,
2316
+ "loss": 0.0218,
2317
+ "step": 8150
2318
+ },
2319
+ {
2320
+ "epoch": 2.6768172888015718,
2321
+ "grad_norm": 0.005034355912357569,
2322
+ "learning_rate": 6.0097028502122506e-06,
2323
+ "loss": 0.0002,
2324
+ "step": 8175
2325
+ },
2326
+ {
2327
+ "epoch": 2.685003274394237,
2328
+ "grad_norm": 0.2363610863685608,
2329
+ "learning_rate": 5.858095815645846e-06,
2330
+ "loss": 0.0237,
2331
+ "step": 8200
2332
+ },
2333
+ {
2334
+ "epoch": 2.6931892599869025,
2335
+ "grad_norm": 0.0029050330631434917,
2336
+ "learning_rate": 5.7064887810794426e-06,
2337
+ "loss": 0.0142,
2338
+ "step": 8225
2339
+ },
2340
+ {
2341
+ "epoch": 2.701375245579568,
2342
+ "grad_norm": 0.0002962597936857492,
2343
+ "learning_rate": 5.554881746513038e-06,
2344
+ "loss": 0.0008,
2345
+ "step": 8250
2346
+ },
2347
+ {
2348
+ "epoch": 2.7095612311722332,
2349
+ "grad_norm": 0.002445927122607827,
2350
+ "learning_rate": 5.4032747119466346e-06,
2351
+ "loss": 0.0395,
2352
+ "step": 8275
2353
+ },
2354
+ {
2355
+ "epoch": 2.7177472167648986,
2356
+ "grad_norm": 4.508545875549316,
2357
+ "learning_rate": 5.251667677380231e-06,
2358
+ "loss": 0.0135,
2359
+ "step": 8300
2360
+ },
2361
+ {
2362
+ "epoch": 2.725933202357564,
2363
+ "grad_norm": 0.001652977429330349,
2364
+ "learning_rate": 5.1000606428138266e-06,
2365
+ "loss": 0.0005,
2366
+ "step": 8325
2367
+ },
2368
+ {
2369
+ "epoch": 2.7341191879502293,
2370
+ "grad_norm": 0.007348712533712387,
2371
+ "learning_rate": 4.948453608247423e-06,
2372
+ "loss": 0.0001,
2373
+ "step": 8350
2374
+ },
2375
+ {
2376
+ "epoch": 2.7423051735428947,
2377
+ "grad_norm": 0.0047335317358374596,
2378
+ "learning_rate": 4.796846573681019e-06,
2379
+ "loss": 0.0002,
2380
+ "step": 8375
2381
+ },
2382
+ {
2383
+ "epoch": 2.75049115913556,
2384
+ "grad_norm": 0.0006250338046811521,
2385
+ "learning_rate": 4.645239539114615e-06,
2386
+ "loss": 0.002,
2387
+ "step": 8400
2388
+ },
2389
+ {
2390
+ "epoch": 2.7586771447282254,
2391
+ "grad_norm": 0.0020159140694886446,
2392
+ "learning_rate": 4.493632504548211e-06,
2393
+ "loss": 0.0001,
2394
+ "step": 8425
2395
+ },
2396
+ {
2397
+ "epoch": 2.766863130320891,
2398
+ "grad_norm": 0.005961321294307709,
2399
+ "learning_rate": 4.342025469981807e-06,
2400
+ "loss": 0.0825,
2401
+ "step": 8450
2402
+ },
2403
+ {
2404
+ "epoch": 2.775049115913556,
2405
+ "grad_norm": 0.004888585302978754,
2406
+ "learning_rate": 4.190418435415403e-06,
2407
+ "loss": 0.0003,
2408
+ "step": 8475
2409
+ },
2410
+ {
2411
+ "epoch": 2.7832351015062216,
2412
+ "grad_norm": 0.0033836057409644127,
2413
+ "learning_rate": 4.038811400849e-06,
2414
+ "loss": 0.0002,
2415
+ "step": 8500
2416
+ },
2417
+ {
2418
+ "epoch": 2.791421087098887,
2419
+ "grad_norm": 0.048891954123973846,
2420
+ "learning_rate": 3.887204366282595e-06,
2421
+ "loss": 0.0002,
2422
+ "step": 8525
2423
+ },
2424
+ {
2425
+ "epoch": 2.7996070726915523,
2426
+ "grad_norm": 0.0019098659977316856,
2427
+ "learning_rate": 3.735597331716192e-06,
2428
+ "loss": 0.0014,
2429
+ "step": 8550
2430
+ },
2431
+ {
2432
+ "epoch": 2.8077930582842177,
2433
+ "grad_norm": 0.005250090733170509,
2434
+ "learning_rate": 3.583990297149788e-06,
2435
+ "loss": 0.0019,
2436
+ "step": 8575
2437
+ },
2438
+ {
2439
+ "epoch": 2.815979043876883,
2440
+ "grad_norm": 0.0005940294940955937,
2441
+ "learning_rate": 3.432383262583384e-06,
2442
+ "loss": 0.0003,
2443
+ "step": 8600
2444
+ },
2445
+ {
2446
+ "epoch": 2.8241650294695484,
2447
+ "grad_norm": 0.00769090885296464,
2448
+ "learning_rate": 3.28077622801698e-06,
2449
+ "loss": 0.0003,
2450
+ "step": 8625
2451
+ },
2452
+ {
2453
+ "epoch": 2.8323510150622138,
2454
+ "grad_norm": 0.004769071005284786,
2455
+ "learning_rate": 3.129169193450576e-06,
2456
+ "loss": 0.0082,
2457
+ "step": 8650
2458
+ },
2459
+ {
2460
+ "epoch": 2.8405370006548787,
2461
+ "grad_norm": 0.0006792404456064105,
2462
+ "learning_rate": 2.983626440266829e-06,
2463
+ "loss": 0.071,
2464
+ "step": 8675
2465
+ },
2466
+ {
2467
+ "epoch": 2.848722986247544,
2468
+ "grad_norm": 0.0006690117879770696,
2469
+ "learning_rate": 2.832019405700425e-06,
2470
+ "loss": 0.0303,
2471
+ "step": 8700
2472
+ },
2473
+ {
2474
+ "epoch": 2.8569089718402094,
2475
+ "grad_norm": 0.003535321680828929,
2476
+ "learning_rate": 2.6804123711340204e-06,
2477
+ "loss": 0.0041,
2478
+ "step": 8725
2479
+ },
2480
+ {
2481
+ "epoch": 2.865094957432875,
2482
+ "grad_norm": 0.007222822401672602,
2483
+ "learning_rate": 2.528805336567617e-06,
2484
+ "loss": 0.0002,
2485
+ "step": 8750
2486
+ },
2487
+ {
2488
+ "epoch": 2.87328094302554,
2489
+ "grad_norm": 0.001671507372520864,
2490
+ "learning_rate": 2.377198302001213e-06,
2491
+ "loss": 0.0102,
2492
+ "step": 8775
2493
+ },
2494
+ {
2495
+ "epoch": 2.8814669286182055,
2496
+ "grad_norm": 0.0008472661720588803,
2497
+ "learning_rate": 2.2255912674348092e-06,
2498
+ "loss": 0.0004,
2499
+ "step": 8800
2500
+ },
2501
+ {
2502
+ "epoch": 2.889652914210871,
2503
+ "grad_norm": 0.0037155933678150177,
2504
+ "learning_rate": 2.0739842328684052e-06,
2505
+ "loss": 0.0007,
2506
+ "step": 8825
2507
+ },
2508
+ {
2509
+ "epoch": 2.8978388998035363,
2510
+ "grad_norm": 0.0019001095788553357,
2511
+ "learning_rate": 1.9223771983020012e-06,
2512
+ "loss": 0.0071,
2513
+ "step": 8850
2514
+ },
2515
+ {
2516
+ "epoch": 2.9060248853962016,
2517
+ "grad_norm": 0.01914367638528347,
2518
+ "learning_rate": 1.7707701637355974e-06,
2519
+ "loss": 0.0003,
2520
+ "step": 8875
2521
+ },
2522
+ {
2523
+ "epoch": 2.914210870988867,
2524
+ "grad_norm": 0.0017183177405968308,
2525
+ "learning_rate": 1.6191631291691936e-06,
2526
+ "loss": 0.0001,
2527
+ "step": 8900
2528
+ },
2529
+ {
2530
+ "epoch": 2.9223968565815324,
2531
+ "grad_norm": 0.000283712986856699,
2532
+ "learning_rate": 1.4675560946027896e-06,
2533
+ "loss": 0.007,
2534
+ "step": 8925
2535
+ },
2536
+ {
2537
+ "epoch": 2.9305828421741977,
2538
+ "grad_norm": 0.0013638654490932822,
2539
+ "learning_rate": 1.3159490600363858e-06,
2540
+ "loss": 0.031,
2541
+ "step": 8950
2542
+ },
2543
+ {
2544
+ "epoch": 2.938768827766863,
2545
+ "grad_norm": 0.0024313374888151884,
2546
+ "learning_rate": 1.1643420254699818e-06,
2547
+ "loss": 0.0001,
2548
+ "step": 8975
2549
+ },
2550
+ {
2551
+ "epoch": 2.9469548133595285,
2552
+ "grad_norm": 0.0011194221442565322,
2553
+ "learning_rate": 1.012734990903578e-06,
2554
+ "loss": 0.0001,
2555
+ "step": 9000
2556
+ },
2557
+ {
2558
+ "epoch": 2.955140798952194,
2559
+ "grad_norm": 0.0018601082265377045,
2560
+ "learning_rate": 8.611279563371741e-07,
2561
+ "loss": 0.0091,
2562
+ "step": 9025
2563
+ },
2564
+ {
2565
+ "epoch": 2.963326784544859,
2566
+ "grad_norm": 0.001517856726422906,
2567
+ "learning_rate": 7.095209217707701e-07,
2568
+ "loss": 0.0003,
2569
+ "step": 9050
2570
+ },
2571
+ {
2572
+ "epoch": 2.9715127701375246,
2573
+ "grad_norm": 0.00028195424238219857,
2574
+ "learning_rate": 5.579138872043664e-07,
2575
+ "loss": 0.0225,
2576
+ "step": 9075
2577
+ },
2578
+ {
2579
+ "epoch": 2.97969875573019,
2580
+ "grad_norm": 0.0005502802086994052,
2581
+ "learning_rate": 4.0630685263796246e-07,
2582
+ "loss": 0.0001,
2583
+ "step": 9100
2584
+ },
2585
+ {
2586
+ "epoch": 2.9878847413228553,
2587
+ "grad_norm": 0.0016429908573627472,
2588
+ "learning_rate": 2.5469981807155856e-07,
2589
+ "loss": 0.0003,
2590
+ "step": 9125
2591
+ },
2592
+ {
2593
+ "epoch": 2.9960707269155207,
2594
+ "grad_norm": 0.0061945500783622265,
2595
+ "learning_rate": 1.0309278350515465e-07,
2596
+ "loss": 0.0033,
2597
+ "step": 9150
2598
+ },
2599
+ {
2600
+ "epoch": 3.0,
2601
+ "eval_accuracy": 0.9988539620170268,
2602
+ "eval_auc": 0.9999216153508497,
2603
+ "eval_f1": 0.9523809523809523,
2604
+ "eval_loss": 0.0027391575276851654,
2605
+ "eval_precision": 0.958904109589041,
2606
+ "eval_recall": 0.9459459459459459,
2607
+ "eval_runtime": 74.4951,
2608
+ "eval_samples_per_second": 81.992,
2609
+ "eval_steps_per_second": 5.128,
2610
+ "step": 9162
2611
+ }
2612
+ ],
2613
+ "logging_steps": 25,
2614
+ "max_steps": 9162,
2615
+ "num_input_tokens_seen": 0,
2616
+ "num_train_epochs": 3,
2617
+ "save_steps": 500,
2618
+ "stateful_callbacks": {
2619
+ "EarlyStoppingCallback": {
2620
+ "args": {
2621
+ "early_stopping_patience": 5,
2622
+ "early_stopping_threshold": 0.01
2623
+ },
2624
+ "attributes": {
2625
+ "early_stopping_patience_counter": 2
2626
+ }
2627
+ },
2628
+ "TrainerControl": {
2629
+ "args": {
2630
+ "should_epoch_stop": false,
2631
+ "should_evaluate": false,
2632
+ "should_log": false,
2633
+ "should_save": true,
2634
+ "should_training_stop": true
2635
+ },
2636
+ "attributes": {}
2637
+ }
2638
+ },
2639
+ "total_flos": 5.944931470697103e+19,
2640
+ "train_batch_size": 8,
2641
+ "trial_name": null,
2642
+ "trial_params": null
2643
+ }
checkpoint-9162/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ad693d0c2f46d11ac2af896306db2390532e5e2824467769cfb05f3952a13840
3
+ size 5240
config.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "google/vit-large-patch32-384",
3
+ "_num_labels": 2,
4
+ "architectures": [
5
+ "ViTForImageClassification"
6
+ ],
7
+ "attention_probs_dropout_prob": 0.0,
8
+ "encoder_stride": 16,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.0,
11
+ "hidden_size": 1024,
12
+ "id2label": {
13
+ "0": "not_soyjak",
14
+ "1": "soyjak"
15
+ },
16
+ "image_size": 384,
17
+ "initializer_range": 0.02,
18
+ "intermediate_size": 4096,
19
+ "label2id": {
20
+ "not_soyjak": 0,
21
+ "soyjak": 1
22
+ },
23
+ "layer_norm_eps": 1e-12,
24
+ "model_type": "vit",
25
+ "num_attention_heads": 16,
26
+ "num_channels": 3,
27
+ "num_hidden_layers": 24,
28
+ "patch_size": 32,
29
+ "problem_type": "single_label_classification",
30
+ "qkv_bias": true,
31
+ "torch_dtype": "float32",
32
+ "transformers_version": "4.45.0"
33
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6370312cf8b3c3c9cdcab23d0c40535752368b0bcb77471852c134abba4add6d
3
+ size 1222485480
preprocessor_config.json ADDED
@@ -0,0 +1,22 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "do_normalize": true,
3
+ "do_rescale": true,
4
+ "do_resize": true,
5
+ "image_mean": [
6
+ 0.5,
7
+ 0.5,
8
+ 0.5
9
+ ],
10
+ "image_processor_type": "ViTImageProcessor",
11
+ "image_std": [
12
+ 0.5,
13
+ 0.5,
14
+ 0.5
15
+ ],
16
+ "resample": 2,
17
+ "rescale_factor": 0.00392156862745098,
18
+ "size": {
19
+ "height": 384,
20
+ "width": 384
21
+ }
22
+ }
runs/Oct22_01-12-49_r-haiefff-sjstuff-186zjrrd-42d15-6st93/events.out.tfevents.1729559571.r-haiefff-sjstuff-186zjrrd-42d15-6st93.222.0 CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f1d2146e7cdd0d7410a193fd5dde64b2b1bcbb574f39c4632cfdc2d34f90c3bd
3
- size 79617
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d6299f3d69112400500f46df5ae6d8fb129e2a700817cd1ae76b8723c6c37b93
3
+ size 84077
runs/Oct22_01-12-49_r-haiefff-sjstuff-186zjrrd-42d15-6st93/events.out.tfevents.1729562910.r-haiefff-sjstuff-186zjrrd-42d15-6st93.222.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a63183c2a54fd5c900679bc7ae65350bb811b9bec69b40eef2f0ffe889f4d566
3
+ size 607
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ad693d0c2f46d11ac2af896306db2390532e5e2824467769cfb05f3952a13840
3
+ size 5240
training_params.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "data_path": "sj-det-6/autotrain-data",
3
+ "model": "google/vit-large-patch32-384",
4
+ "username": "haiefff",
5
+ "lr": 5e-05,
6
+ "epochs": 3,
7
+ "batch_size": 8,
8
+ "warmup_ratio": 0.1,
9
+ "gradient_accumulation": 1,
10
+ "optimizer": "adamw_torch",
11
+ "scheduler": "linear",
12
+ "weight_decay": 0.0,
13
+ "max_grad_norm": 1.0,
14
+ "seed": 42,
15
+ "train_split": "train",
16
+ "valid_split": "validation",
17
+ "logging_steps": -1,
18
+ "project_name": "sj-det-6",
19
+ "auto_find_batch_size": false,
20
+ "mixed_precision": "fp16",
21
+ "save_total_limit": 1,
22
+ "push_to_hub": true,
23
+ "eval_strategy": "epoch",
24
+ "image_column": "autotrain_image",
25
+ "target_column": "autotrain_label",
26
+ "log": "tensorboard",
27
+ "early_stopping_patience": 5,
28
+ "early_stopping_threshold": 0.01
29
+ }