lillian039 commited on
Commit
b749358
·
verified ·
1 Parent(s): f95b560

Model save

Browse files
Files changed (4) hide show
  1. README.md +69 -0
  2. all_results.json +9 -0
  3. train_results.json +9 -0
  4. trainer_state.json +3321 -0
README.md ADDED
@@ -0,0 +1,69 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: barc0/cot-400k-barc-llama3.1-8b-ins-fft-transduction_lr1e-5_epoch3
3
+ library_name: peft
4
+ license: llama3.1
5
+ tags:
6
+ - trl
7
+ - sft
8
+ - generated_from_trainer
9
+ model-index:
10
+ - name: cot-trainset-ft-transduction-v2-lora-train
11
+ results: []
12
+ ---
13
+
14
+ <!-- This model card has been generated automatically according to the information the Trainer had access to. You
15
+ should probably proofread and complete it, then remove this comment. -->
16
+
17
+ # cot-trainset-ft-transduction-v2-lora-train
18
+
19
+ This model is a fine-tuned version of [barc0/cot-400k-barc-llama3.1-8b-ins-fft-transduction_lr1e-5_epoch3](https://huggingface.co/barc0/cot-400k-barc-llama3.1-8b-ins-fft-transduction_lr1e-5_epoch3) on an unknown dataset.
20
+ It achieves the following results on the evaluation set:
21
+ - Loss: 0.2107
22
+
23
+ ## Model description
24
+
25
+ More information needed
26
+
27
+ ## Intended uses & limitations
28
+
29
+ More information needed
30
+
31
+ ## Training and evaluation data
32
+
33
+ More information needed
34
+
35
+ ## Training procedure
36
+
37
+ ### Training hyperparameters
38
+
39
+ The following hyperparameters were used during training:
40
+ - learning_rate: 0.0002
41
+ - train_batch_size: 2
42
+ - eval_batch_size: 2
43
+ - seed: 42
44
+ - distributed_type: multi-GPU
45
+ - num_devices: 4
46
+ - gradient_accumulation_steps: 2
47
+ - total_train_batch_size: 16
48
+ - total_eval_batch_size: 8
49
+ - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
50
+ - lr_scheduler_type: cosine
51
+ - lr_scheduler_warmup_ratio: 0.1
52
+ - num_epochs: 3
53
+
54
+ ### Training results
55
+
56
+ | Training Loss | Epoch | Step | Validation Loss |
57
+ |:-------------:|:-----:|:----:|:---------------:|
58
+ | 0.1316 | 1.0 | 155 | 0.1494 |
59
+ | 0.073 | 2.0 | 310 | 0.1669 |
60
+ | 0.0305 | 3.0 | 465 | 0.2107 |
61
+
62
+
63
+ ### Framework versions
64
+
65
+ - PEFT 0.12.0
66
+ - Transformers 4.45.0.dev0
67
+ - Pytorch 2.4.0+cu121
68
+ - Datasets 2.21.0
69
+ - Tokenizers 0.19.1
all_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 3.0,
3
+ "total_flos": 261374226563072.0,
4
+ "train_loss": 0.09038178783751304,
5
+ "train_runtime": 3542.1658,
6
+ "train_samples": 2476,
7
+ "train_samples_per_second": 2.097,
8
+ "train_steps_per_second": 0.131
9
+ }
train_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 3.0,
3
+ "total_flos": 261374226563072.0,
4
+ "train_loss": 0.09038178783751304,
5
+ "train_runtime": 3542.1658,
6
+ "train_samples": 2476,
7
+ "train_samples_per_second": 2.097,
8
+ "train_steps_per_second": 0.131
9
+ }
trainer_state.json ADDED
@@ -0,0 +1,3321 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 3.0,
5
+ "eval_steps": 500,
6
+ "global_step": 465,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0064516129032258064,
13
+ "grad_norm": 0.15169227525554954,
14
+ "learning_rate": 4.255319148936171e-06,
15
+ "loss": 0.1803,
16
+ "step": 1
17
+ },
18
+ {
19
+ "epoch": 0.012903225806451613,
20
+ "grad_norm": 0.1108587617034759,
21
+ "learning_rate": 8.510638297872341e-06,
22
+ "loss": 0.1441,
23
+ "step": 2
24
+ },
25
+ {
26
+ "epoch": 0.01935483870967742,
27
+ "grad_norm": 0.08345105115839851,
28
+ "learning_rate": 1.2765957446808511e-05,
29
+ "loss": 0.1118,
30
+ "step": 3
31
+ },
32
+ {
33
+ "epoch": 0.025806451612903226,
34
+ "grad_norm": 0.1426234633379846,
35
+ "learning_rate": 1.7021276595744682e-05,
36
+ "loss": 0.1313,
37
+ "step": 4
38
+ },
39
+ {
40
+ "epoch": 0.03225806451612903,
41
+ "grad_norm": 0.14217530777409554,
42
+ "learning_rate": 2.1276595744680852e-05,
43
+ "loss": 0.1195,
44
+ "step": 5
45
+ },
46
+ {
47
+ "epoch": 0.03870967741935484,
48
+ "grad_norm": 0.1459141077043439,
49
+ "learning_rate": 2.5531914893617022e-05,
50
+ "loss": 0.1453,
51
+ "step": 6
52
+ },
53
+ {
54
+ "epoch": 0.04516129032258064,
55
+ "grad_norm": 0.10195797727709278,
56
+ "learning_rate": 2.9787234042553192e-05,
57
+ "loss": 0.1119,
58
+ "step": 7
59
+ },
60
+ {
61
+ "epoch": 0.05161290322580645,
62
+ "grad_norm": 0.13553076939195616,
63
+ "learning_rate": 3.4042553191489365e-05,
64
+ "loss": 0.1791,
65
+ "step": 8
66
+ },
67
+ {
68
+ "epoch": 0.05806451612903226,
69
+ "grad_norm": 0.15732711391586654,
70
+ "learning_rate": 3.829787234042553e-05,
71
+ "loss": 0.1282,
72
+ "step": 9
73
+ },
74
+ {
75
+ "epoch": 0.06451612903225806,
76
+ "grad_norm": 0.1192108991071351,
77
+ "learning_rate": 4.2553191489361704e-05,
78
+ "loss": 0.1288,
79
+ "step": 10
80
+ },
81
+ {
82
+ "epoch": 0.07096774193548387,
83
+ "grad_norm": 0.1534053229135478,
84
+ "learning_rate": 4.680851063829788e-05,
85
+ "loss": 0.15,
86
+ "step": 11
87
+ },
88
+ {
89
+ "epoch": 0.07741935483870968,
90
+ "grad_norm": 0.11808236646609899,
91
+ "learning_rate": 5.1063829787234044e-05,
92
+ "loss": 0.1098,
93
+ "step": 12
94
+ },
95
+ {
96
+ "epoch": 0.08387096774193549,
97
+ "grad_norm": 0.1127350100020763,
98
+ "learning_rate": 5.531914893617022e-05,
99
+ "loss": 0.1214,
100
+ "step": 13
101
+ },
102
+ {
103
+ "epoch": 0.09032258064516129,
104
+ "grad_norm": 0.13802666747672132,
105
+ "learning_rate": 5.9574468085106384e-05,
106
+ "loss": 0.1555,
107
+ "step": 14
108
+ },
109
+ {
110
+ "epoch": 0.0967741935483871,
111
+ "grad_norm": 0.19187355993638458,
112
+ "learning_rate": 6.382978723404256e-05,
113
+ "loss": 0.1474,
114
+ "step": 15
115
+ },
116
+ {
117
+ "epoch": 0.1032258064516129,
118
+ "grad_norm": 0.16430813087649648,
119
+ "learning_rate": 6.808510638297873e-05,
120
+ "loss": 0.1461,
121
+ "step": 16
122
+ },
123
+ {
124
+ "epoch": 0.10967741935483871,
125
+ "grad_norm": 0.13789502094335715,
126
+ "learning_rate": 7.23404255319149e-05,
127
+ "loss": 0.1226,
128
+ "step": 17
129
+ },
130
+ {
131
+ "epoch": 0.11612903225806452,
132
+ "grad_norm": 0.173980091579583,
133
+ "learning_rate": 7.659574468085106e-05,
134
+ "loss": 0.1558,
135
+ "step": 18
136
+ },
137
+ {
138
+ "epoch": 0.12258064516129032,
139
+ "grad_norm": 0.1418687450951512,
140
+ "learning_rate": 8.085106382978723e-05,
141
+ "loss": 0.1379,
142
+ "step": 19
143
+ },
144
+ {
145
+ "epoch": 0.12903225806451613,
146
+ "grad_norm": 0.1765388069700401,
147
+ "learning_rate": 8.510638297872341e-05,
148
+ "loss": 0.149,
149
+ "step": 20
150
+ },
151
+ {
152
+ "epoch": 0.13548387096774195,
153
+ "grad_norm": 0.17659794510341198,
154
+ "learning_rate": 8.936170212765958e-05,
155
+ "loss": 0.1101,
156
+ "step": 21
157
+ },
158
+ {
159
+ "epoch": 0.14193548387096774,
160
+ "grad_norm": 0.22633201272355616,
161
+ "learning_rate": 9.361702127659576e-05,
162
+ "loss": 0.1656,
163
+ "step": 22
164
+ },
165
+ {
166
+ "epoch": 0.14838709677419354,
167
+ "grad_norm": 0.16004849032165383,
168
+ "learning_rate": 9.787234042553192e-05,
169
+ "loss": 0.1616,
170
+ "step": 23
171
+ },
172
+ {
173
+ "epoch": 0.15483870967741936,
174
+ "grad_norm": 0.16981049690586422,
175
+ "learning_rate": 0.00010212765957446809,
176
+ "loss": 0.1321,
177
+ "step": 24
178
+ },
179
+ {
180
+ "epoch": 0.16129032258064516,
181
+ "grad_norm": 0.13581353274905067,
182
+ "learning_rate": 0.00010638297872340425,
183
+ "loss": 0.1122,
184
+ "step": 25
185
+ },
186
+ {
187
+ "epoch": 0.16774193548387098,
188
+ "grad_norm": 0.2089185781750498,
189
+ "learning_rate": 0.00011063829787234043,
190
+ "loss": 0.1527,
191
+ "step": 26
192
+ },
193
+ {
194
+ "epoch": 0.17419354838709677,
195
+ "grad_norm": 0.16125655225492164,
196
+ "learning_rate": 0.00011489361702127661,
197
+ "loss": 0.1263,
198
+ "step": 27
199
+ },
200
+ {
201
+ "epoch": 0.18064516129032257,
202
+ "grad_norm": 0.13753328983503424,
203
+ "learning_rate": 0.00011914893617021277,
204
+ "loss": 0.1224,
205
+ "step": 28
206
+ },
207
+ {
208
+ "epoch": 0.1870967741935484,
209
+ "grad_norm": 0.19089590529877826,
210
+ "learning_rate": 0.00012340425531914893,
211
+ "loss": 0.168,
212
+ "step": 29
213
+ },
214
+ {
215
+ "epoch": 0.1935483870967742,
216
+ "grad_norm": 0.15419681175807715,
217
+ "learning_rate": 0.00012765957446808513,
218
+ "loss": 0.138,
219
+ "step": 30
220
+ },
221
+ {
222
+ "epoch": 0.2,
223
+ "grad_norm": 0.18178665024271073,
224
+ "learning_rate": 0.00013191489361702127,
225
+ "loss": 0.1955,
226
+ "step": 31
227
+ },
228
+ {
229
+ "epoch": 0.2064516129032258,
230
+ "grad_norm": 0.11760523051627117,
231
+ "learning_rate": 0.00013617021276595746,
232
+ "loss": 0.1367,
233
+ "step": 32
234
+ },
235
+ {
236
+ "epoch": 0.2129032258064516,
237
+ "grad_norm": 0.10853469531105876,
238
+ "learning_rate": 0.00014042553191489363,
239
+ "loss": 0.1208,
240
+ "step": 33
241
+ },
242
+ {
243
+ "epoch": 0.21935483870967742,
244
+ "grad_norm": 0.12890024443339382,
245
+ "learning_rate": 0.0001446808510638298,
246
+ "loss": 0.142,
247
+ "step": 34
248
+ },
249
+ {
250
+ "epoch": 0.22580645161290322,
251
+ "grad_norm": 0.12692879603118554,
252
+ "learning_rate": 0.00014893617021276596,
253
+ "loss": 0.1268,
254
+ "step": 35
255
+ },
256
+ {
257
+ "epoch": 0.23225806451612904,
258
+ "grad_norm": 0.1529612097417899,
259
+ "learning_rate": 0.00015319148936170213,
260
+ "loss": 0.1194,
261
+ "step": 36
262
+ },
263
+ {
264
+ "epoch": 0.23870967741935484,
265
+ "grad_norm": 0.129432114467059,
266
+ "learning_rate": 0.00015744680851063832,
267
+ "loss": 0.128,
268
+ "step": 37
269
+ },
270
+ {
271
+ "epoch": 0.24516129032258063,
272
+ "grad_norm": 0.11343138573627701,
273
+ "learning_rate": 0.00016170212765957446,
274
+ "loss": 0.102,
275
+ "step": 38
276
+ },
277
+ {
278
+ "epoch": 0.25161290322580643,
279
+ "grad_norm": 0.16577469112721435,
280
+ "learning_rate": 0.00016595744680851065,
281
+ "loss": 0.1691,
282
+ "step": 39
283
+ },
284
+ {
285
+ "epoch": 0.25806451612903225,
286
+ "grad_norm": 0.13614466586953358,
287
+ "learning_rate": 0.00017021276595744682,
288
+ "loss": 0.1348,
289
+ "step": 40
290
+ },
291
+ {
292
+ "epoch": 0.2645161290322581,
293
+ "grad_norm": 0.1524812917659128,
294
+ "learning_rate": 0.00017446808510638298,
295
+ "loss": 0.1281,
296
+ "step": 41
297
+ },
298
+ {
299
+ "epoch": 0.2709677419354839,
300
+ "grad_norm": 0.14519269708506746,
301
+ "learning_rate": 0.00017872340425531915,
302
+ "loss": 0.1349,
303
+ "step": 42
304
+ },
305
+ {
306
+ "epoch": 0.27741935483870966,
307
+ "grad_norm": 0.18300481897670345,
308
+ "learning_rate": 0.00018297872340425532,
309
+ "loss": 0.1694,
310
+ "step": 43
311
+ },
312
+ {
313
+ "epoch": 0.2838709677419355,
314
+ "grad_norm": 0.11929331561330575,
315
+ "learning_rate": 0.0001872340425531915,
316
+ "loss": 0.1331,
317
+ "step": 44
318
+ },
319
+ {
320
+ "epoch": 0.2903225806451613,
321
+ "grad_norm": 0.12604932986068976,
322
+ "learning_rate": 0.00019148936170212768,
323
+ "loss": 0.0949,
324
+ "step": 45
325
+ },
326
+ {
327
+ "epoch": 0.2967741935483871,
328
+ "grad_norm": 0.14226790630565908,
329
+ "learning_rate": 0.00019574468085106384,
330
+ "loss": 0.1477,
331
+ "step": 46
332
+ },
333
+ {
334
+ "epoch": 0.3032258064516129,
335
+ "grad_norm": 0.1465980952326029,
336
+ "learning_rate": 0.0002,
337
+ "loss": 0.1408,
338
+ "step": 47
339
+ },
340
+ {
341
+ "epoch": 0.3096774193548387,
342
+ "grad_norm": 0.14535685898764863,
343
+ "learning_rate": 0.0001999971756719333,
344
+ "loss": 0.1474,
345
+ "step": 48
346
+ },
347
+ {
348
+ "epoch": 0.3161290322580645,
349
+ "grad_norm": 0.1559112597851861,
350
+ "learning_rate": 0.00019998870284726968,
351
+ "loss": 0.1568,
352
+ "step": 49
353
+ },
354
+ {
355
+ "epoch": 0.3225806451612903,
356
+ "grad_norm": 0.14392375991483491,
357
+ "learning_rate": 0.00019997458200460993,
358
+ "loss": 0.1526,
359
+ "step": 50
360
+ },
361
+ {
362
+ "epoch": 0.32903225806451614,
363
+ "grad_norm": 0.18920444771524633,
364
+ "learning_rate": 0.00019995481394159188,
365
+ "loss": 0.1384,
366
+ "step": 51
367
+ },
368
+ {
369
+ "epoch": 0.33548387096774196,
370
+ "grad_norm": 0.17943388616343298,
371
+ "learning_rate": 0.0001999293997748454,
372
+ "loss": 0.1555,
373
+ "step": 52
374
+ },
375
+ {
376
+ "epoch": 0.3419354838709677,
377
+ "grad_norm": 0.16752646291327727,
378
+ "learning_rate": 0.00019989834093992945,
379
+ "loss": 0.1634,
380
+ "step": 53
381
+ },
382
+ {
383
+ "epoch": 0.34838709677419355,
384
+ "grad_norm": 0.1484740777328073,
385
+ "learning_rate": 0.00019986163919125075,
386
+ "loss": 0.124,
387
+ "step": 54
388
+ },
389
+ {
390
+ "epoch": 0.3548387096774194,
391
+ "grad_norm": 0.15268630472434244,
392
+ "learning_rate": 0.00019981929660196492,
393
+ "loss": 0.1228,
394
+ "step": 55
395
+ },
396
+ {
397
+ "epoch": 0.36129032258064514,
398
+ "grad_norm": 0.19583236181584973,
399
+ "learning_rate": 0.0001997713155638592,
400
+ "loss": 0.1227,
401
+ "step": 56
402
+ },
403
+ {
404
+ "epoch": 0.36774193548387096,
405
+ "grad_norm": 0.1469999186659826,
406
+ "learning_rate": 0.00019971769878721743,
407
+ "loss": 0.1188,
408
+ "step": 57
409
+ },
410
+ {
411
+ "epoch": 0.3741935483870968,
412
+ "grad_norm": 0.10845193424043034,
413
+ "learning_rate": 0.000199658449300667,
414
+ "loss": 0.1177,
415
+ "step": 58
416
+ },
417
+ {
418
+ "epoch": 0.38064516129032255,
419
+ "grad_norm": 0.1845188187089657,
420
+ "learning_rate": 0.00019959357045100764,
421
+ "loss": 0.1726,
422
+ "step": 59
423
+ },
424
+ {
425
+ "epoch": 0.3870967741935484,
426
+ "grad_norm": 0.14769124665651473,
427
+ "learning_rate": 0.00019952306590302247,
428
+ "loss": 0.1634,
429
+ "step": 60
430
+ },
431
+ {
432
+ "epoch": 0.3935483870967742,
433
+ "grad_norm": 0.16408468392163889,
434
+ "learning_rate": 0.00019944693963927092,
435
+ "loss": 0.1584,
436
+ "step": 61
437
+ },
438
+ {
439
+ "epoch": 0.4,
440
+ "grad_norm": 0.15156206723802879,
441
+ "learning_rate": 0.00019936519595986394,
442
+ "loss": 0.1454,
443
+ "step": 62
444
+ },
445
+ {
446
+ "epoch": 0.4064516129032258,
447
+ "grad_norm": 0.15835599927161748,
448
+ "learning_rate": 0.00019927783948222084,
449
+ "loss": 0.1621,
450
+ "step": 63
451
+ },
452
+ {
453
+ "epoch": 0.4129032258064516,
454
+ "grad_norm": 0.1333411665662589,
455
+ "learning_rate": 0.00019918487514080865,
456
+ "loss": 0.1293,
457
+ "step": 64
458
+ },
459
+ {
460
+ "epoch": 0.41935483870967744,
461
+ "grad_norm": 0.1589874051481937,
462
+ "learning_rate": 0.00019908630818686338,
463
+ "loss": 0.1391,
464
+ "step": 65
465
+ },
466
+ {
467
+ "epoch": 0.4258064516129032,
468
+ "grad_norm": 0.12399538770065353,
469
+ "learning_rate": 0.0001989821441880933,
470
+ "loss": 0.1208,
471
+ "step": 66
472
+ },
473
+ {
474
+ "epoch": 0.432258064516129,
475
+ "grad_norm": 0.16949673743147955,
476
+ "learning_rate": 0.00019887238902836448,
477
+ "loss": 0.1139,
478
+ "step": 67
479
+ },
480
+ {
481
+ "epoch": 0.43870967741935485,
482
+ "grad_norm": 0.1875430265393267,
483
+ "learning_rate": 0.00019875704890736853,
484
+ "loss": 0.1856,
485
+ "step": 68
486
+ },
487
+ {
488
+ "epoch": 0.44516129032258067,
489
+ "grad_norm": 0.14927152386929934,
490
+ "learning_rate": 0.00019863613034027224,
491
+ "loss": 0.1516,
492
+ "step": 69
493
+ },
494
+ {
495
+ "epoch": 0.45161290322580644,
496
+ "grad_norm": 0.17501653378304205,
497
+ "learning_rate": 0.0001985096401573497,
498
+ "loss": 0.161,
499
+ "step": 70
500
+ },
501
+ {
502
+ "epoch": 0.45806451612903226,
503
+ "grad_norm": 0.17582762670350804,
504
+ "learning_rate": 0.00019837758550359636,
505
+ "loss": 0.1564,
506
+ "step": 71
507
+ },
508
+ {
509
+ "epoch": 0.4645161290322581,
510
+ "grad_norm": 0.15692049884405931,
511
+ "learning_rate": 0.0001982399738383255,
512
+ "loss": 0.1282,
513
+ "step": 72
514
+ },
515
+ {
516
+ "epoch": 0.47096774193548385,
517
+ "grad_norm": 0.14436392088728167,
518
+ "learning_rate": 0.00019809681293474693,
519
+ "loss": 0.1299,
520
+ "step": 73
521
+ },
522
+ {
523
+ "epoch": 0.4774193548387097,
524
+ "grad_norm": 0.19048463762976417,
525
+ "learning_rate": 0.0001979481108795278,
526
+ "loss": 0.1983,
527
+ "step": 74
528
+ },
529
+ {
530
+ "epoch": 0.4838709677419355,
531
+ "grad_norm": 0.13475205452089994,
532
+ "learning_rate": 0.00019779387607233586,
533
+ "loss": 0.156,
534
+ "step": 75
535
+ },
536
+ {
537
+ "epoch": 0.49032258064516127,
538
+ "grad_norm": 0.14145398172929924,
539
+ "learning_rate": 0.00019763411722536502,
540
+ "loss": 0.1355,
541
+ "step": 76
542
+ },
543
+ {
544
+ "epoch": 0.4967741935483871,
545
+ "grad_norm": 0.14400838677113517,
546
+ "learning_rate": 0.00019746884336284317,
547
+ "loss": 0.1371,
548
+ "step": 77
549
+ },
550
+ {
551
+ "epoch": 0.5032258064516129,
552
+ "grad_norm": 0.13421206031331137,
553
+ "learning_rate": 0.00019729806382052248,
554
+ "loss": 0.1156,
555
+ "step": 78
556
+ },
557
+ {
558
+ "epoch": 0.5096774193548387,
559
+ "grad_norm": 0.11613915473665105,
560
+ "learning_rate": 0.00019712178824515212,
561
+ "loss": 0.1293,
562
+ "step": 79
563
+ },
564
+ {
565
+ "epoch": 0.5161290322580645,
566
+ "grad_norm": 0.12472786830602234,
567
+ "learning_rate": 0.00019694002659393305,
568
+ "loss": 0.1189,
569
+ "step": 80
570
+ },
571
+ {
572
+ "epoch": 0.5225806451612903,
573
+ "grad_norm": 0.11050712097688373,
574
+ "learning_rate": 0.00019675278913395606,
575
+ "loss": 0.12,
576
+ "step": 81
577
+ },
578
+ {
579
+ "epoch": 0.5290322580645161,
580
+ "grad_norm": 0.1303276052231771,
581
+ "learning_rate": 0.0001965600864416213,
582
+ "loss": 0.1428,
583
+ "step": 82
584
+ },
585
+ {
586
+ "epoch": 0.535483870967742,
587
+ "grad_norm": 0.13774570876008593,
588
+ "learning_rate": 0.00019636192940204134,
589
+ "loss": 0.1438,
590
+ "step": 83
591
+ },
592
+ {
593
+ "epoch": 0.5419354838709678,
594
+ "grad_norm": 0.14810394982940484,
595
+ "learning_rate": 0.00019615832920842586,
596
+ "loss": 0.1404,
597
+ "step": 84
598
+ },
599
+ {
600
+ "epoch": 0.5483870967741935,
601
+ "grad_norm": 0.144275852100491,
602
+ "learning_rate": 0.00019594929736144976,
603
+ "loss": 0.1357,
604
+ "step": 85
605
+ },
606
+ {
607
+ "epoch": 0.5548387096774193,
608
+ "grad_norm": 0.16879600090790034,
609
+ "learning_rate": 0.0001957348456686032,
610
+ "loss": 0.1578,
611
+ "step": 86
612
+ },
613
+ {
614
+ "epoch": 0.5612903225806452,
615
+ "grad_norm": 0.1588074767274021,
616
+ "learning_rate": 0.00019551498624352496,
617
+ "loss": 0.1228,
618
+ "step": 87
619
+ },
620
+ {
621
+ "epoch": 0.567741935483871,
622
+ "grad_norm": 0.15067916918276408,
623
+ "learning_rate": 0.00019528973150531787,
624
+ "loss": 0.1323,
625
+ "step": 88
626
+ },
627
+ {
628
+ "epoch": 0.5741935483870968,
629
+ "grad_norm": 0.16266341913656662,
630
+ "learning_rate": 0.00019505909417784754,
631
+ "loss": 0.13,
632
+ "step": 89
633
+ },
634
+ {
635
+ "epoch": 0.5806451612903226,
636
+ "grad_norm": 0.121529537729675,
637
+ "learning_rate": 0.00019482308728902356,
638
+ "loss": 0.1067,
639
+ "step": 90
640
+ },
641
+ {
642
+ "epoch": 0.5870967741935483,
643
+ "grad_norm": 0.1740468182649888,
644
+ "learning_rate": 0.00019458172417006347,
645
+ "loss": 0.1513,
646
+ "step": 91
647
+ },
648
+ {
649
+ "epoch": 0.5935483870967742,
650
+ "grad_norm": 0.14062538318374462,
651
+ "learning_rate": 0.00019433501845473995,
652
+ "loss": 0.1438,
653
+ "step": 92
654
+ },
655
+ {
656
+ "epoch": 0.6,
657
+ "grad_norm": 0.17690034130801896,
658
+ "learning_rate": 0.00019408298407861042,
659
+ "loss": 0.1356,
660
+ "step": 93
661
+ },
662
+ {
663
+ "epoch": 0.6064516129032258,
664
+ "grad_norm": 0.18789482750619546,
665
+ "learning_rate": 0.00019382563527823026,
666
+ "loss": 0.1758,
667
+ "step": 94
668
+ },
669
+ {
670
+ "epoch": 0.6129032258064516,
671
+ "grad_norm": 0.16993067663839118,
672
+ "learning_rate": 0.00019356298659034817,
673
+ "loss": 0.1599,
674
+ "step": 95
675
+ },
676
+ {
677
+ "epoch": 0.6193548387096774,
678
+ "grad_norm": 0.16495058136550117,
679
+ "learning_rate": 0.00019329505285108542,
680
+ "loss": 0.1283,
681
+ "step": 96
682
+ },
683
+ {
684
+ "epoch": 0.6258064516129033,
685
+ "grad_norm": 0.15497395377626808,
686
+ "learning_rate": 0.00019302184919509755,
687
+ "loss": 0.1493,
688
+ "step": 97
689
+ },
690
+ {
691
+ "epoch": 0.632258064516129,
692
+ "grad_norm": 0.13660921526912856,
693
+ "learning_rate": 0.00019274339105471971,
694
+ "loss": 0.1307,
695
+ "step": 98
696
+ },
697
+ {
698
+ "epoch": 0.6387096774193548,
699
+ "grad_norm": 0.18246231884688152,
700
+ "learning_rate": 0.00019245969415909465,
701
+ "loss": 0.1598,
702
+ "step": 99
703
+ },
704
+ {
705
+ "epoch": 0.6451612903225806,
706
+ "grad_norm": 0.11344749529118914,
707
+ "learning_rate": 0.00019217077453328449,
708
+ "loss": 0.1304,
709
+ "step": 100
710
+ },
711
+ {
712
+ "epoch": 0.6516129032258065,
713
+ "grad_norm": 0.11682283731326468,
714
+ "learning_rate": 0.0001918766484973654,
715
+ "loss": 0.0977,
716
+ "step": 101
717
+ },
718
+ {
719
+ "epoch": 0.6580645161290323,
720
+ "grad_norm": 0.14494532290577813,
721
+ "learning_rate": 0.00019157733266550575,
722
+ "loss": 0.1338,
723
+ "step": 102
724
+ },
725
+ {
726
+ "epoch": 0.6645161290322581,
727
+ "grad_norm": 0.12095275202026515,
728
+ "learning_rate": 0.0001912728439450276,
729
+ "loss": 0.1513,
730
+ "step": 103
731
+ },
732
+ {
733
+ "epoch": 0.6709677419354839,
734
+ "grad_norm": 0.13423702981009097,
735
+ "learning_rate": 0.00019096319953545185,
736
+ "loss": 0.1335,
737
+ "step": 104
738
+ },
739
+ {
740
+ "epoch": 0.6774193548387096,
741
+ "grad_norm": 0.1670132860946028,
742
+ "learning_rate": 0.0001906484169275263,
743
+ "loss": 0.1607,
744
+ "step": 105
745
+ },
746
+ {
747
+ "epoch": 0.6838709677419355,
748
+ "grad_norm": 0.14053854153152684,
749
+ "learning_rate": 0.00019032851390223812,
750
+ "loss": 0.1365,
751
+ "step": 106
752
+ },
753
+ {
754
+ "epoch": 0.6903225806451613,
755
+ "grad_norm": 0.1399807021991922,
756
+ "learning_rate": 0.00019000350852980909,
757
+ "loss": 0.1589,
758
+ "step": 107
759
+ },
760
+ {
761
+ "epoch": 0.6967741935483871,
762
+ "grad_norm": 0.15473299551506894,
763
+ "learning_rate": 0.00018967341916867518,
764
+ "loss": 0.166,
765
+ "step": 108
766
+ },
767
+ {
768
+ "epoch": 0.7032258064516129,
769
+ "grad_norm": 0.1536872117526864,
770
+ "learning_rate": 0.00018933826446444933,
771
+ "loss": 0.1657,
772
+ "step": 109
773
+ },
774
+ {
775
+ "epoch": 0.7096774193548387,
776
+ "grad_norm": 0.1282004975556196,
777
+ "learning_rate": 0.0001889980633488683,
778
+ "loss": 0.1212,
779
+ "step": 110
780
+ },
781
+ {
782
+ "epoch": 0.7161290322580646,
783
+ "grad_norm": 0.16458328388975405,
784
+ "learning_rate": 0.00018865283503872324,
785
+ "loss": 0.1655,
786
+ "step": 111
787
+ },
788
+ {
789
+ "epoch": 0.7225806451612903,
790
+ "grad_norm": 0.1505113828615181,
791
+ "learning_rate": 0.00018830259903477426,
792
+ "loss": 0.1571,
793
+ "step": 112
794
+ },
795
+ {
796
+ "epoch": 0.7290322580645161,
797
+ "grad_norm": 0.16575595088070239,
798
+ "learning_rate": 0.0001879473751206489,
799
+ "loss": 0.1504,
800
+ "step": 113
801
+ },
802
+ {
803
+ "epoch": 0.7354838709677419,
804
+ "grad_norm": 0.1484230902451611,
805
+ "learning_rate": 0.0001875871833617246,
806
+ "loss": 0.1498,
807
+ "step": 114
808
+ },
809
+ {
810
+ "epoch": 0.7419354838709677,
811
+ "grad_norm": 0.2059907492830938,
812
+ "learning_rate": 0.0001872220441039952,
813
+ "loss": 0.134,
814
+ "step": 115
815
+ },
816
+ {
817
+ "epoch": 0.7483870967741936,
818
+ "grad_norm": 0.1491671097000444,
819
+ "learning_rate": 0.0001868519779729218,
820
+ "loss": 0.1374,
821
+ "step": 116
822
+ },
823
+ {
824
+ "epoch": 0.7548387096774194,
825
+ "grad_norm": 0.1727675086328308,
826
+ "learning_rate": 0.0001864770058722676,
827
+ "loss": 0.1624,
828
+ "step": 117
829
+ },
830
+ {
831
+ "epoch": 0.7612903225806451,
832
+ "grad_norm": 0.16357318423846662,
833
+ "learning_rate": 0.00018609714898291718,
834
+ "loss": 0.1528,
835
+ "step": 118
836
+ },
837
+ {
838
+ "epoch": 0.7677419354838709,
839
+ "grad_norm": 0.1584052674932312,
840
+ "learning_rate": 0.00018571242876167996,
841
+ "loss": 0.1321,
842
+ "step": 119
843
+ },
844
+ {
845
+ "epoch": 0.7741935483870968,
846
+ "grad_norm": 0.21714396600094343,
847
+ "learning_rate": 0.0001853228669400784,
848
+ "loss": 0.1748,
849
+ "step": 120
850
+ },
851
+ {
852
+ "epoch": 0.7806451612903226,
853
+ "grad_norm": 0.13743651841776636,
854
+ "learning_rate": 0.00018492848552312014,
855
+ "loss": 0.1493,
856
+ "step": 121
857
+ },
858
+ {
859
+ "epoch": 0.7870967741935484,
860
+ "grad_norm": 0.1541126978032927,
861
+ "learning_rate": 0.00018452930678805536,
862
+ "loss": 0.1331,
863
+ "step": 122
864
+ },
865
+ {
866
+ "epoch": 0.7935483870967742,
867
+ "grad_norm": 0.1571822882709535,
868
+ "learning_rate": 0.00018412535328311814,
869
+ "loss": 0.1427,
870
+ "step": 123
871
+ },
872
+ {
873
+ "epoch": 0.8,
874
+ "grad_norm": 0.17825934340851243,
875
+ "learning_rate": 0.00018371664782625287,
876
+ "loss": 0.1871,
877
+ "step": 124
878
+ },
879
+ {
880
+ "epoch": 0.8064516129032258,
881
+ "grad_norm": 0.1745800846806893,
882
+ "learning_rate": 0.00018330321350382544,
883
+ "loss": 0.1672,
884
+ "step": 125
885
+ },
886
+ {
887
+ "epoch": 0.8129032258064516,
888
+ "grad_norm": 0.13970218689990957,
889
+ "learning_rate": 0.00018288507366931905,
890
+ "loss": 0.1715,
891
+ "step": 126
892
+ },
893
+ {
894
+ "epoch": 0.8193548387096774,
895
+ "grad_norm": 0.15100292169016535,
896
+ "learning_rate": 0.00018246225194201517,
897
+ "loss": 0.1411,
898
+ "step": 127
899
+ },
900
+ {
901
+ "epoch": 0.8258064516129032,
902
+ "grad_norm": 0.1538126122981586,
903
+ "learning_rate": 0.00018203477220565912,
904
+ "loss": 0.1516,
905
+ "step": 128
906
+ },
907
+ {
908
+ "epoch": 0.832258064516129,
909
+ "grad_norm": 0.15630735898296536,
910
+ "learning_rate": 0.00018160265860711134,
911
+ "loss": 0.1636,
912
+ "step": 129
913
+ },
914
+ {
915
+ "epoch": 0.8387096774193549,
916
+ "grad_norm": 0.1427718560771215,
917
+ "learning_rate": 0.00018116593555498307,
918
+ "loss": 0.1297,
919
+ "step": 130
920
+ },
921
+ {
922
+ "epoch": 0.8451612903225807,
923
+ "grad_norm": 0.11911885929622754,
924
+ "learning_rate": 0.0001807246277182578,
925
+ "loss": 0.1115,
926
+ "step": 131
927
+ },
928
+ {
929
+ "epoch": 0.8516129032258064,
930
+ "grad_norm": 0.13702745725576418,
931
+ "learning_rate": 0.0001802787600248977,
932
+ "loss": 0.157,
933
+ "step": 132
934
+ },
935
+ {
936
+ "epoch": 0.8580645161290322,
937
+ "grad_norm": 0.17220644805792673,
938
+ "learning_rate": 0.0001798283576604356,
939
+ "loss": 0.1561,
940
+ "step": 133
941
+ },
942
+ {
943
+ "epoch": 0.864516129032258,
944
+ "grad_norm": 0.196867226472361,
945
+ "learning_rate": 0.0001793734460665523,
946
+ "loss": 0.1657,
947
+ "step": 134
948
+ },
949
+ {
950
+ "epoch": 0.8709677419354839,
951
+ "grad_norm": 0.1759359784948508,
952
+ "learning_rate": 0.00017891405093963938,
953
+ "loss": 0.1909,
954
+ "step": 135
955
+ },
956
+ {
957
+ "epoch": 0.8774193548387097,
958
+ "grad_norm": 0.16063163300244113,
959
+ "learning_rate": 0.0001784501982293479,
960
+ "loss": 0.1552,
961
+ "step": 136
962
+ },
963
+ {
964
+ "epoch": 0.8838709677419355,
965
+ "grad_norm": 0.17034183209183734,
966
+ "learning_rate": 0.00017798191413712243,
967
+ "loss": 0.1502,
968
+ "step": 137
969
+ },
970
+ {
971
+ "epoch": 0.8903225806451613,
972
+ "grad_norm": 0.14694529779128243,
973
+ "learning_rate": 0.0001775092251147211,
974
+ "loss": 0.1277,
975
+ "step": 138
976
+ },
977
+ {
978
+ "epoch": 0.896774193548387,
979
+ "grad_norm": 0.13174927545002138,
980
+ "learning_rate": 0.0001770321578627213,
981
+ "loss": 0.1277,
982
+ "step": 139
983
+ },
984
+ {
985
+ "epoch": 0.9032258064516129,
986
+ "grad_norm": 0.15784079444219237,
987
+ "learning_rate": 0.00017655073932901168,
988
+ "loss": 0.1534,
989
+ "step": 140
990
+ },
991
+ {
992
+ "epoch": 0.9096774193548387,
993
+ "grad_norm": 0.19691370909219638,
994
+ "learning_rate": 0.0001760649967072697,
995
+ "loss": 0.1688,
996
+ "step": 141
997
+ },
998
+ {
999
+ "epoch": 0.9161290322580645,
1000
+ "grad_norm": 0.15697904965484202,
1001
+ "learning_rate": 0.00017557495743542585,
1002
+ "loss": 0.1523,
1003
+ "step": 142
1004
+ },
1005
+ {
1006
+ "epoch": 0.9225806451612903,
1007
+ "grad_norm": 0.1759980765103477,
1008
+ "learning_rate": 0.00017508064919411344,
1009
+ "loss": 0.15,
1010
+ "step": 143
1011
+ },
1012
+ {
1013
+ "epoch": 0.9290322580645162,
1014
+ "grad_norm": 0.19254834048997346,
1015
+ "learning_rate": 0.00017458209990510527,
1016
+ "loss": 0.1474,
1017
+ "step": 144
1018
+ },
1019
+ {
1020
+ "epoch": 0.9354838709677419,
1021
+ "grad_norm": 0.19220369870461818,
1022
+ "learning_rate": 0.00017407933772973637,
1023
+ "loss": 0.1678,
1024
+ "step": 145
1025
+ },
1026
+ {
1027
+ "epoch": 0.9419354838709677,
1028
+ "grad_norm": 0.14789056250556576,
1029
+ "learning_rate": 0.00017357239106731317,
1030
+ "loss": 0.1634,
1031
+ "step": 146
1032
+ },
1033
+ {
1034
+ "epoch": 0.9483870967741935,
1035
+ "grad_norm": 0.15823815803270533,
1036
+ "learning_rate": 0.00017306128855350942,
1037
+ "loss": 0.1744,
1038
+ "step": 147
1039
+ },
1040
+ {
1041
+ "epoch": 0.9548387096774194,
1042
+ "grad_norm": 0.159128130793647,
1043
+ "learning_rate": 0.0001725460590587486,
1044
+ "loss": 0.1732,
1045
+ "step": 148
1046
+ },
1047
+ {
1048
+ "epoch": 0.9612903225806452,
1049
+ "grad_norm": 0.1420932941022579,
1050
+ "learning_rate": 0.00017202673168657318,
1051
+ "loss": 0.1193,
1052
+ "step": 149
1053
+ },
1054
+ {
1055
+ "epoch": 0.967741935483871,
1056
+ "grad_norm": 0.1581041276537875,
1057
+ "learning_rate": 0.0001715033357720006,
1058
+ "loss": 0.157,
1059
+ "step": 150
1060
+ },
1061
+ {
1062
+ "epoch": 0.9741935483870968,
1063
+ "grad_norm": 0.13409040520330398,
1064
+ "learning_rate": 0.00017097590087986633,
1065
+ "loss": 0.1187,
1066
+ "step": 151
1067
+ },
1068
+ {
1069
+ "epoch": 0.9806451612903225,
1070
+ "grad_norm": 0.15236261967510367,
1071
+ "learning_rate": 0.00017044445680315372,
1072
+ "loss": 0.1541,
1073
+ "step": 152
1074
+ },
1075
+ {
1076
+ "epoch": 0.9870967741935484,
1077
+ "grad_norm": 0.15028826750982388,
1078
+ "learning_rate": 0.00016990903356131124,
1079
+ "loss": 0.1462,
1080
+ "step": 153
1081
+ },
1082
+ {
1083
+ "epoch": 0.9935483870967742,
1084
+ "grad_norm": 0.14170487741522195,
1085
+ "learning_rate": 0.00016936966139855663,
1086
+ "loss": 0.1275,
1087
+ "step": 154
1088
+ },
1089
+ {
1090
+ "epoch": 1.0,
1091
+ "grad_norm": 0.14288119090775778,
1092
+ "learning_rate": 0.00016882637078216868,
1093
+ "loss": 0.1316,
1094
+ "step": 155
1095
+ },
1096
+ {
1097
+ "epoch": 1.0,
1098
+ "eval_loss": 0.14944089949131012,
1099
+ "eval_runtime": 27.6083,
1100
+ "eval_samples_per_second": 4.745,
1101
+ "eval_steps_per_second": 0.616,
1102
+ "step": 155
1103
+ },
1104
+ {
1105
+ "epoch": 1.0064516129032257,
1106
+ "grad_norm": 0.08453811084356862,
1107
+ "learning_rate": 0.0001682791924007661,
1108
+ "loss": 0.0732,
1109
+ "step": 156
1110
+ },
1111
+ {
1112
+ "epoch": 1.0129032258064516,
1113
+ "grad_norm": 0.1163343033490188,
1114
+ "learning_rate": 0.00016772815716257412,
1115
+ "loss": 0.0955,
1116
+ "step": 157
1117
+ },
1118
+ {
1119
+ "epoch": 1.0193548387096774,
1120
+ "grad_norm": 0.12774969124655083,
1121
+ "learning_rate": 0.0001671732961936785,
1122
+ "loss": 0.1154,
1123
+ "step": 158
1124
+ },
1125
+ {
1126
+ "epoch": 1.0258064516129033,
1127
+ "grad_norm": 0.10149504758995384,
1128
+ "learning_rate": 0.00016661464083626734,
1129
+ "loss": 0.0834,
1130
+ "step": 159
1131
+ },
1132
+ {
1133
+ "epoch": 1.032258064516129,
1134
+ "grad_norm": 0.1558767636437416,
1135
+ "learning_rate": 0.00016605222264686086,
1136
+ "loss": 0.0978,
1137
+ "step": 160
1138
+ },
1139
+ {
1140
+ "epoch": 1.038709677419355,
1141
+ "grad_norm": 0.14800857594022712,
1142
+ "learning_rate": 0.00016548607339452853,
1143
+ "loss": 0.0783,
1144
+ "step": 161
1145
+ },
1146
+ {
1147
+ "epoch": 1.0451612903225806,
1148
+ "grad_norm": 0.10427437820954576,
1149
+ "learning_rate": 0.00016491622505909482,
1150
+ "loss": 0.0714,
1151
+ "step": 162
1152
+ },
1153
+ {
1154
+ "epoch": 1.0516129032258064,
1155
+ "grad_norm": 0.16509881361577539,
1156
+ "learning_rate": 0.00016434270982933273,
1157
+ "loss": 0.0971,
1158
+ "step": 163
1159
+ },
1160
+ {
1161
+ "epoch": 1.0580645161290323,
1162
+ "grad_norm": 0.15528612822142446,
1163
+ "learning_rate": 0.0001637655601011454,
1164
+ "loss": 0.0806,
1165
+ "step": 164
1166
+ },
1167
+ {
1168
+ "epoch": 1.064516129032258,
1169
+ "grad_norm": 0.1578175598943513,
1170
+ "learning_rate": 0.00016318480847573642,
1171
+ "loss": 0.0962,
1172
+ "step": 165
1173
+ },
1174
+ {
1175
+ "epoch": 1.070967741935484,
1176
+ "grad_norm": 0.2591491854389689,
1177
+ "learning_rate": 0.00016260048775776804,
1178
+ "loss": 0.1107,
1179
+ "step": 166
1180
+ },
1181
+ {
1182
+ "epoch": 1.0774193548387097,
1183
+ "grad_norm": 0.1557337965418426,
1184
+ "learning_rate": 0.00016201263095350833,
1185
+ "loss": 0.0707,
1186
+ "step": 167
1187
+ },
1188
+ {
1189
+ "epoch": 1.0838709677419356,
1190
+ "grad_norm": 0.24212581528206514,
1191
+ "learning_rate": 0.0001614212712689668,
1192
+ "loss": 0.0964,
1193
+ "step": 168
1194
+ },
1195
+ {
1196
+ "epoch": 1.0903225806451613,
1197
+ "grad_norm": 0.12600203218602474,
1198
+ "learning_rate": 0.00016082644210801844,
1199
+ "loss": 0.0649,
1200
+ "step": 169
1201
+ },
1202
+ {
1203
+ "epoch": 1.096774193548387,
1204
+ "grad_norm": 0.14377456483205683,
1205
+ "learning_rate": 0.00016022817707051724,
1206
+ "loss": 0.0778,
1207
+ "step": 170
1208
+ },
1209
+ {
1210
+ "epoch": 1.103225806451613,
1211
+ "grad_norm": 0.1828183442232092,
1212
+ "learning_rate": 0.00015962650995039783,
1213
+ "loss": 0.1068,
1214
+ "step": 171
1215
+ },
1216
+ {
1217
+ "epoch": 1.1096774193548387,
1218
+ "grad_norm": 0.1695078607562437,
1219
+ "learning_rate": 0.00015902147473376694,
1220
+ "loss": 0.0938,
1221
+ "step": 172
1222
+ },
1223
+ {
1224
+ "epoch": 1.1161290322580646,
1225
+ "grad_norm": 0.10525262692642562,
1226
+ "learning_rate": 0.00015841310559698343,
1227
+ "loss": 0.0645,
1228
+ "step": 173
1229
+ },
1230
+ {
1231
+ "epoch": 1.1225806451612903,
1232
+ "grad_norm": 0.15379971536703851,
1233
+ "learning_rate": 0.0001578014369047279,
1234
+ "loss": 0.0752,
1235
+ "step": 174
1236
+ },
1237
+ {
1238
+ "epoch": 1.129032258064516,
1239
+ "grad_norm": 0.1352511385337785,
1240
+ "learning_rate": 0.00015718650320806142,
1241
+ "loss": 0.0803,
1242
+ "step": 175
1243
+ },
1244
+ {
1245
+ "epoch": 1.135483870967742,
1246
+ "grad_norm": 0.1708537982318491,
1247
+ "learning_rate": 0.00015656833924247398,
1248
+ "loss": 0.0908,
1249
+ "step": 176
1250
+ },
1251
+ {
1252
+ "epoch": 1.1419354838709677,
1253
+ "grad_norm": 0.16847128771716718,
1254
+ "learning_rate": 0.00015594697992592232,
1255
+ "loss": 0.0697,
1256
+ "step": 177
1257
+ },
1258
+ {
1259
+ "epoch": 1.1483870967741936,
1260
+ "grad_norm": 0.14044376651199897,
1261
+ "learning_rate": 0.00015532246035685756,
1262
+ "loss": 0.0707,
1263
+ "step": 178
1264
+ },
1265
+ {
1266
+ "epoch": 1.1548387096774193,
1267
+ "grad_norm": 0.13752732543534765,
1268
+ "learning_rate": 0.00015469481581224272,
1269
+ "loss": 0.0769,
1270
+ "step": 179
1271
+ },
1272
+ {
1273
+ "epoch": 1.1612903225806452,
1274
+ "grad_norm": 0.20084535405957962,
1275
+ "learning_rate": 0.00015406408174555976,
1276
+ "loss": 0.1114,
1277
+ "step": 180
1278
+ },
1279
+ {
1280
+ "epoch": 1.167741935483871,
1281
+ "grad_norm": 0.16882912932677738,
1282
+ "learning_rate": 0.0001534302937848073,
1283
+ "loss": 0.0977,
1284
+ "step": 181
1285
+ },
1286
+ {
1287
+ "epoch": 1.1741935483870969,
1288
+ "grad_norm": 0.16088758279122345,
1289
+ "learning_rate": 0.00015279348773048786,
1290
+ "loss": 0.0862,
1291
+ "step": 182
1292
+ },
1293
+ {
1294
+ "epoch": 1.1806451612903226,
1295
+ "grad_norm": 0.1610420842518173,
1296
+ "learning_rate": 0.00015215369955358566,
1297
+ "loss": 0.0909,
1298
+ "step": 183
1299
+ },
1300
+ {
1301
+ "epoch": 1.1870967741935483,
1302
+ "grad_norm": 0.1567858759713509,
1303
+ "learning_rate": 0.0001515109653935348,
1304
+ "loss": 0.0988,
1305
+ "step": 184
1306
+ },
1307
+ {
1308
+ "epoch": 1.1935483870967742,
1309
+ "grad_norm": 0.12400211503217344,
1310
+ "learning_rate": 0.00015086532155617784,
1311
+ "loss": 0.0813,
1312
+ "step": 185
1313
+ },
1314
+ {
1315
+ "epoch": 1.2,
1316
+ "grad_norm": 0.12785181430507606,
1317
+ "learning_rate": 0.00015021680451171498,
1318
+ "loss": 0.0802,
1319
+ "step": 186
1320
+ },
1321
+ {
1322
+ "epoch": 1.206451612903226,
1323
+ "grad_norm": 0.14298258948499543,
1324
+ "learning_rate": 0.00014956545089264407,
1325
+ "loss": 0.0843,
1326
+ "step": 187
1327
+ },
1328
+ {
1329
+ "epoch": 1.2129032258064516,
1330
+ "grad_norm": 0.20148810623427083,
1331
+ "learning_rate": 0.0001489112974916912,
1332
+ "loss": 0.0942,
1333
+ "step": 188
1334
+ },
1335
+ {
1336
+ "epoch": 1.2193548387096773,
1337
+ "grad_norm": 0.14657915199625932,
1338
+ "learning_rate": 0.00014825438125973264,
1339
+ "loss": 0.0829,
1340
+ "step": 189
1341
+ },
1342
+ {
1343
+ "epoch": 1.2258064516129032,
1344
+ "grad_norm": 0.16147059815020365,
1345
+ "learning_rate": 0.00014759473930370736,
1346
+ "loss": 0.0756,
1347
+ "step": 190
1348
+ },
1349
+ {
1350
+ "epoch": 1.232258064516129,
1351
+ "grad_norm": 0.17956881851269735,
1352
+ "learning_rate": 0.0001469324088845212,
1353
+ "loss": 0.1007,
1354
+ "step": 191
1355
+ },
1356
+ {
1357
+ "epoch": 1.238709677419355,
1358
+ "grad_norm": 0.1578318532174886,
1359
+ "learning_rate": 0.00014626742741494206,
1360
+ "loss": 0.0983,
1361
+ "step": 192
1362
+ },
1363
+ {
1364
+ "epoch": 1.2451612903225806,
1365
+ "grad_norm": 0.1649792762044239,
1366
+ "learning_rate": 0.00014559983245748638,
1367
+ "loss": 0.0905,
1368
+ "step": 193
1369
+ },
1370
+ {
1371
+ "epoch": 1.2516129032258063,
1372
+ "grad_norm": 0.1455653603561888,
1373
+ "learning_rate": 0.00014492966172229777,
1374
+ "loss": 0.0791,
1375
+ "step": 194
1376
+ },
1377
+ {
1378
+ "epoch": 1.2580645161290323,
1379
+ "grad_norm": 0.1312841252501999,
1380
+ "learning_rate": 0.00014425695306501658,
1381
+ "loss": 0.0613,
1382
+ "step": 195
1383
+ },
1384
+ {
1385
+ "epoch": 1.2645161290322582,
1386
+ "grad_norm": 0.1361347125426188,
1387
+ "learning_rate": 0.00014358174448464154,
1388
+ "loss": 0.0773,
1389
+ "step": 196
1390
+ },
1391
+ {
1392
+ "epoch": 1.270967741935484,
1393
+ "grad_norm": 0.17551022044504175,
1394
+ "learning_rate": 0.00014290407412138366,
1395
+ "loss": 0.0985,
1396
+ "step": 197
1397
+ },
1398
+ {
1399
+ "epoch": 1.2774193548387096,
1400
+ "grad_norm": 0.1456899710914213,
1401
+ "learning_rate": 0.00014222398025451135,
1402
+ "loss": 0.0827,
1403
+ "step": 198
1404
+ },
1405
+ {
1406
+ "epoch": 1.2838709677419355,
1407
+ "grad_norm": 0.19482064326323745,
1408
+ "learning_rate": 0.00014154150130018866,
1409
+ "loss": 0.0974,
1410
+ "step": 199
1411
+ },
1412
+ {
1413
+ "epoch": 1.2903225806451613,
1414
+ "grad_norm": 0.13544624920378107,
1415
+ "learning_rate": 0.0001408566758093048,
1416
+ "loss": 0.0742,
1417
+ "step": 200
1418
+ },
1419
+ {
1420
+ "epoch": 1.2967741935483872,
1421
+ "grad_norm": 0.12685823273525554,
1422
+ "learning_rate": 0.00014016954246529696,
1423
+ "loss": 0.0677,
1424
+ "step": 201
1425
+ },
1426
+ {
1427
+ "epoch": 1.303225806451613,
1428
+ "grad_norm": 0.15457862761329938,
1429
+ "learning_rate": 0.00013948014008196487,
1430
+ "loss": 0.0815,
1431
+ "step": 202
1432
+ },
1433
+ {
1434
+ "epoch": 1.3096774193548386,
1435
+ "grad_norm": 0.1482256655702007,
1436
+ "learning_rate": 0.0001387885076012785,
1437
+ "loss": 0.0961,
1438
+ "step": 203
1439
+ },
1440
+ {
1441
+ "epoch": 1.3161290322580645,
1442
+ "grad_norm": 0.20896278322687534,
1443
+ "learning_rate": 0.00013809468409117846,
1444
+ "loss": 0.1049,
1445
+ "step": 204
1446
+ },
1447
+ {
1448
+ "epoch": 1.3225806451612903,
1449
+ "grad_norm": 0.175019480492322,
1450
+ "learning_rate": 0.00013739870874336898,
1451
+ "loss": 0.0884,
1452
+ "step": 205
1453
+ },
1454
+ {
1455
+ "epoch": 1.3290322580645162,
1456
+ "grad_norm": 0.14363356864891735,
1457
+ "learning_rate": 0.00013670062087110422,
1458
+ "loss": 0.0864,
1459
+ "step": 206
1460
+ },
1461
+ {
1462
+ "epoch": 1.335483870967742,
1463
+ "grad_norm": 0.1397081258858762,
1464
+ "learning_rate": 0.00013600045990696762,
1465
+ "loss": 0.0797,
1466
+ "step": 207
1467
+ },
1468
+ {
1469
+ "epoch": 1.3419354838709676,
1470
+ "grad_norm": 0.1667674455506937,
1471
+ "learning_rate": 0.0001352982654006444,
1472
+ "loss": 0.0977,
1473
+ "step": 208
1474
+ },
1475
+ {
1476
+ "epoch": 1.3483870967741935,
1477
+ "grad_norm": 0.1409898972781143,
1478
+ "learning_rate": 0.00013459407701668763,
1479
+ "loss": 0.0923,
1480
+ "step": 209
1481
+ },
1482
+ {
1483
+ "epoch": 1.3548387096774195,
1484
+ "grad_norm": 0.16290520924324786,
1485
+ "learning_rate": 0.00013388793453227767,
1486
+ "loss": 0.1033,
1487
+ "step": 210
1488
+ },
1489
+ {
1490
+ "epoch": 1.3612903225806452,
1491
+ "grad_norm": 0.14967784709530377,
1492
+ "learning_rate": 0.0001331798778349752,
1493
+ "loss": 0.0843,
1494
+ "step": 211
1495
+ },
1496
+ {
1497
+ "epoch": 1.367741935483871,
1498
+ "grad_norm": 0.14370370779202904,
1499
+ "learning_rate": 0.00013246994692046836,
1500
+ "loss": 0.0845,
1501
+ "step": 212
1502
+ },
1503
+ {
1504
+ "epoch": 1.3741935483870968,
1505
+ "grad_norm": 0.15288920332301245,
1506
+ "learning_rate": 0.00013175818189031327,
1507
+ "loss": 0.0962,
1508
+ "step": 213
1509
+ },
1510
+ {
1511
+ "epoch": 1.3806451612903226,
1512
+ "grad_norm": 0.16907810212754584,
1513
+ "learning_rate": 0.00013104462294966896,
1514
+ "loss": 0.1033,
1515
+ "step": 214
1516
+ },
1517
+ {
1518
+ "epoch": 1.3870967741935485,
1519
+ "grad_norm": 0.17023880837738012,
1520
+ "learning_rate": 0.00013032931040502627,
1521
+ "loss": 0.1155,
1522
+ "step": 215
1523
+ },
1524
+ {
1525
+ "epoch": 1.3935483870967742,
1526
+ "grad_norm": 0.12189251069561345,
1527
+ "learning_rate": 0.00012961228466193116,
1528
+ "loss": 0.0692,
1529
+ "step": 216
1530
+ },
1531
+ {
1532
+ "epoch": 1.4,
1533
+ "grad_norm": 0.18108512316647296,
1534
+ "learning_rate": 0.00012889358622270223,
1535
+ "loss": 0.086,
1536
+ "step": 217
1537
+ },
1538
+ {
1539
+ "epoch": 1.4064516129032258,
1540
+ "grad_norm": 0.15804455793477432,
1541
+ "learning_rate": 0.00012817325568414297,
1542
+ "loss": 0.0751,
1543
+ "step": 218
1544
+ },
1545
+ {
1546
+ "epoch": 1.4129032258064516,
1547
+ "grad_norm": 0.13668879316730062,
1548
+ "learning_rate": 0.00012745133373524853,
1549
+ "loss": 0.0786,
1550
+ "step": 219
1551
+ },
1552
+ {
1553
+ "epoch": 1.4193548387096775,
1554
+ "grad_norm": 0.18610949095399393,
1555
+ "learning_rate": 0.0001267278611549073,
1556
+ "loss": 0.0732,
1557
+ "step": 220
1558
+ },
1559
+ {
1560
+ "epoch": 1.4258064516129032,
1561
+ "grad_norm": 0.186875270696186,
1562
+ "learning_rate": 0.00012600287880959763,
1563
+ "loss": 0.1051,
1564
+ "step": 221
1565
+ },
1566
+ {
1567
+ "epoch": 1.432258064516129,
1568
+ "grad_norm": 0.15558801012557805,
1569
+ "learning_rate": 0.0001252764276510792,
1570
+ "loss": 0.0879,
1571
+ "step": 222
1572
+ },
1573
+ {
1574
+ "epoch": 1.4387096774193548,
1575
+ "grad_norm": 0.16188457902393685,
1576
+ "learning_rate": 0.00012454854871407994,
1577
+ "loss": 0.0887,
1578
+ "step": 223
1579
+ },
1580
+ {
1581
+ "epoch": 1.4451612903225808,
1582
+ "grad_norm": 0.1332789968563102,
1583
+ "learning_rate": 0.00012381928311397806,
1584
+ "loss": 0.0819,
1585
+ "step": 224
1586
+ },
1587
+ {
1588
+ "epoch": 1.4516129032258065,
1589
+ "grad_norm": 0.13104439295337186,
1590
+ "learning_rate": 0.0001230886720444796,
1591
+ "loss": 0.0992,
1592
+ "step": 225
1593
+ },
1594
+ {
1595
+ "epoch": 1.4580645161290322,
1596
+ "grad_norm": 0.1741921210517873,
1597
+ "learning_rate": 0.00012235675677529158,
1598
+ "loss": 0.1049,
1599
+ "step": 226
1600
+ },
1601
+ {
1602
+ "epoch": 1.4645161290322581,
1603
+ "grad_norm": 0.17686059237450052,
1604
+ "learning_rate": 0.00012162357864979072,
1605
+ "loss": 0.0942,
1606
+ "step": 227
1607
+ },
1608
+ {
1609
+ "epoch": 1.4709677419354839,
1610
+ "grad_norm": 0.14208255193217198,
1611
+ "learning_rate": 0.00012088917908268821,
1612
+ "loss": 0.0932,
1613
+ "step": 228
1614
+ },
1615
+ {
1616
+ "epoch": 1.4774193548387098,
1617
+ "grad_norm": 0.16207984639669018,
1618
+ "learning_rate": 0.00012015359955769021,
1619
+ "loss": 0.0952,
1620
+ "step": 229
1621
+ },
1622
+ {
1623
+ "epoch": 1.4838709677419355,
1624
+ "grad_norm": 0.10567516069189406,
1625
+ "learning_rate": 0.00011941688162515467,
1626
+ "loss": 0.0698,
1627
+ "step": 230
1628
+ },
1629
+ {
1630
+ "epoch": 1.4903225806451612,
1631
+ "grad_norm": 0.14315458863752037,
1632
+ "learning_rate": 0.00011867906689974428,
1633
+ "loss": 0.0706,
1634
+ "step": 231
1635
+ },
1636
+ {
1637
+ "epoch": 1.4967741935483871,
1638
+ "grad_norm": 0.14644874259664967,
1639
+ "learning_rate": 0.00011794019705807584,
1640
+ "loss": 0.0954,
1641
+ "step": 232
1642
+ },
1643
+ {
1644
+ "epoch": 1.5032258064516129,
1645
+ "grad_norm": 0.1522258926853921,
1646
+ "learning_rate": 0.00011720031383636585,
1647
+ "loss": 0.1026,
1648
+ "step": 233
1649
+ },
1650
+ {
1651
+ "epoch": 1.5096774193548388,
1652
+ "grad_norm": 0.2389589012648026,
1653
+ "learning_rate": 0.00011645945902807341,
1654
+ "loss": 0.0981,
1655
+ "step": 234
1656
+ },
1657
+ {
1658
+ "epoch": 1.5161290322580645,
1659
+ "grad_norm": 0.1539160607687386,
1660
+ "learning_rate": 0.00011571767448153901,
1661
+ "loss": 0.074,
1662
+ "step": 235
1663
+ },
1664
+ {
1665
+ "epoch": 1.5225806451612902,
1666
+ "grad_norm": 0.17340052794011998,
1667
+ "learning_rate": 0.00011497500209762102,
1668
+ "loss": 0.0943,
1669
+ "step": 236
1670
+ },
1671
+ {
1672
+ "epoch": 1.5290322580645161,
1673
+ "grad_norm": 0.11294207936842038,
1674
+ "learning_rate": 0.00011423148382732853,
1675
+ "loss": 0.0644,
1676
+ "step": 237
1677
+ },
1678
+ {
1679
+ "epoch": 1.535483870967742,
1680
+ "grad_norm": 0.14391081206665055,
1681
+ "learning_rate": 0.00011348716166945195,
1682
+ "loss": 0.0774,
1683
+ "step": 238
1684
+ },
1685
+ {
1686
+ "epoch": 1.5419354838709678,
1687
+ "grad_norm": 0.16298875474891092,
1688
+ "learning_rate": 0.0001127420776681905,
1689
+ "loss": 0.0786,
1690
+ "step": 239
1691
+ },
1692
+ {
1693
+ "epoch": 1.5483870967741935,
1694
+ "grad_norm": 0.1325076119120941,
1695
+ "learning_rate": 0.00011199627391077732,
1696
+ "loss": 0.0889,
1697
+ "step": 240
1698
+ },
1699
+ {
1700
+ "epoch": 1.5548387096774192,
1701
+ "grad_norm": 0.10971482413094012,
1702
+ "learning_rate": 0.00011124979252510208,
1703
+ "loss": 0.0737,
1704
+ "step": 241
1705
+ },
1706
+ {
1707
+ "epoch": 1.5612903225806452,
1708
+ "grad_norm": 0.14614299703062,
1709
+ "learning_rate": 0.0001105026756773314,
1710
+ "loss": 0.0682,
1711
+ "step": 242
1712
+ },
1713
+ {
1714
+ "epoch": 1.567741935483871,
1715
+ "grad_norm": 0.22690104820583093,
1716
+ "learning_rate": 0.00010975496556952682,
1717
+ "loss": 0.1094,
1718
+ "step": 243
1719
+ },
1720
+ {
1721
+ "epoch": 1.5741935483870968,
1722
+ "grad_norm": 0.2561727438038473,
1723
+ "learning_rate": 0.00010900670443726135,
1724
+ "loss": 0.0851,
1725
+ "step": 244
1726
+ },
1727
+ {
1728
+ "epoch": 1.5806451612903225,
1729
+ "grad_norm": 0.15371305701947427,
1730
+ "learning_rate": 0.00010825793454723325,
1731
+ "loss": 0.0923,
1732
+ "step": 245
1733
+ },
1734
+ {
1735
+ "epoch": 1.5870967741935482,
1736
+ "grad_norm": 0.16267574566743875,
1737
+ "learning_rate": 0.00010750869819487883,
1738
+ "loss": 0.1036,
1739
+ "step": 246
1740
+ },
1741
+ {
1742
+ "epoch": 1.5935483870967742,
1743
+ "grad_norm": 0.15591155698404394,
1744
+ "learning_rate": 0.00010675903770198333,
1745
+ "loss": 0.0893,
1746
+ "step": 247
1747
+ },
1748
+ {
1749
+ "epoch": 1.6,
1750
+ "grad_norm": 0.14338972962339533,
1751
+ "learning_rate": 0.00010600899541429004,
1752
+ "loss": 0.0837,
1753
+ "step": 248
1754
+ },
1755
+ {
1756
+ "epoch": 1.6064516129032258,
1757
+ "grad_norm": 0.12387607320751257,
1758
+ "learning_rate": 0.00010525861369910877,
1759
+ "loss": 0.0755,
1760
+ "step": 249
1761
+ },
1762
+ {
1763
+ "epoch": 1.6129032258064515,
1764
+ "grad_norm": 0.16606169294386383,
1765
+ "learning_rate": 0.00010450793494292224,
1766
+ "loss": 0.1043,
1767
+ "step": 250
1768
+ },
1769
+ {
1770
+ "epoch": 1.6193548387096774,
1771
+ "grad_norm": 0.1795920159350681,
1772
+ "learning_rate": 0.00010375700154899208,
1773
+ "loss": 0.1008,
1774
+ "step": 251
1775
+ },
1776
+ {
1777
+ "epoch": 1.6258064516129034,
1778
+ "grad_norm": 0.13025097291519463,
1779
+ "learning_rate": 0.00010300585593496348,
1780
+ "loss": 0.0851,
1781
+ "step": 252
1782
+ },
1783
+ {
1784
+ "epoch": 1.632258064516129,
1785
+ "grad_norm": 0.14349816154023654,
1786
+ "learning_rate": 0.00010225454053046921,
1787
+ "loss": 0.0807,
1788
+ "step": 253
1789
+ },
1790
+ {
1791
+ "epoch": 1.6387096774193548,
1792
+ "grad_norm": 0.16695448888874226,
1793
+ "learning_rate": 0.00010150309777473306,
1794
+ "loss": 0.1117,
1795
+ "step": 254
1796
+ },
1797
+ {
1798
+ "epoch": 1.6451612903225805,
1799
+ "grad_norm": 0.15743712528269815,
1800
+ "learning_rate": 0.0001007515701141722,
1801
+ "loss": 0.086,
1802
+ "step": 255
1803
+ },
1804
+ {
1805
+ "epoch": 1.6516129032258065,
1806
+ "grad_norm": 0.16704335210894908,
1807
+ "learning_rate": 0.0001,
1808
+ "loss": 0.0886,
1809
+ "step": 256
1810
+ },
1811
+ {
1812
+ "epoch": 1.6580645161290324,
1813
+ "grad_norm": 0.10245531520994122,
1814
+ "learning_rate": 9.924842988582782e-05,
1815
+ "loss": 0.0678,
1816
+ "step": 257
1817
+ },
1818
+ {
1819
+ "epoch": 1.664516129032258,
1820
+ "grad_norm": 0.1688033836669086,
1821
+ "learning_rate": 9.849690222526698e-05,
1822
+ "loss": 0.0958,
1823
+ "step": 258
1824
+ },
1825
+ {
1826
+ "epoch": 1.6709677419354838,
1827
+ "grad_norm": 0.1338126992775965,
1828
+ "learning_rate": 9.77454594695308e-05,
1829
+ "loss": 0.0782,
1830
+ "step": 259
1831
+ },
1832
+ {
1833
+ "epoch": 1.6774193548387095,
1834
+ "grad_norm": 0.1332820451604909,
1835
+ "learning_rate": 9.699414406503654e-05,
1836
+ "loss": 0.0856,
1837
+ "step": 260
1838
+ },
1839
+ {
1840
+ "epoch": 1.6838709677419355,
1841
+ "grad_norm": 0.1449401720605745,
1842
+ "learning_rate": 9.624299845100795e-05,
1843
+ "loss": 0.0882,
1844
+ "step": 261
1845
+ },
1846
+ {
1847
+ "epoch": 1.6903225806451614,
1848
+ "grad_norm": 0.19395703151279187,
1849
+ "learning_rate": 9.549206505707777e-05,
1850
+ "loss": 0.1148,
1851
+ "step": 262
1852
+ },
1853
+ {
1854
+ "epoch": 1.696774193548387,
1855
+ "grad_norm": 0.13482277559178169,
1856
+ "learning_rate": 9.474138630089124e-05,
1857
+ "loss": 0.0644,
1858
+ "step": 263
1859
+ },
1860
+ {
1861
+ "epoch": 1.7032258064516128,
1862
+ "grad_norm": 0.18530593840863338,
1863
+ "learning_rate": 9.399100458570997e-05,
1864
+ "loss": 0.1074,
1865
+ "step": 264
1866
+ },
1867
+ {
1868
+ "epoch": 1.7096774193548387,
1869
+ "grad_norm": 0.1897995033582595,
1870
+ "learning_rate": 9.324096229801674e-05,
1871
+ "loss": 0.0867,
1872
+ "step": 265
1873
+ },
1874
+ {
1875
+ "epoch": 1.7161290322580647,
1876
+ "grad_norm": 0.16472780150681127,
1877
+ "learning_rate": 9.249130180512118e-05,
1878
+ "loss": 0.0896,
1879
+ "step": 266
1880
+ },
1881
+ {
1882
+ "epoch": 1.7225806451612904,
1883
+ "grad_norm": 0.15525608679066774,
1884
+ "learning_rate": 9.174206545276677e-05,
1885
+ "loss": 0.0865,
1886
+ "step": 267
1887
+ },
1888
+ {
1889
+ "epoch": 1.729032258064516,
1890
+ "grad_norm": 0.15426999703424252,
1891
+ "learning_rate": 9.099329556273866e-05,
1892
+ "loss": 0.0853,
1893
+ "step": 268
1894
+ },
1895
+ {
1896
+ "epoch": 1.7354838709677418,
1897
+ "grad_norm": 0.19103115451320254,
1898
+ "learning_rate": 9.024503443047319e-05,
1899
+ "loss": 0.0993,
1900
+ "step": 269
1901
+ },
1902
+ {
1903
+ "epoch": 1.7419354838709677,
1904
+ "grad_norm": 0.12323460303269068,
1905
+ "learning_rate": 8.949732432266866e-05,
1906
+ "loss": 0.0723,
1907
+ "step": 270
1908
+ },
1909
+ {
1910
+ "epoch": 1.7483870967741937,
1911
+ "grad_norm": 0.1339668030381976,
1912
+ "learning_rate": 8.875020747489794e-05,
1913
+ "loss": 0.0852,
1914
+ "step": 271
1915
+ },
1916
+ {
1917
+ "epoch": 1.7548387096774194,
1918
+ "grad_norm": 0.1385020226698345,
1919
+ "learning_rate": 8.800372608922271e-05,
1920
+ "loss": 0.0773,
1921
+ "step": 272
1922
+ },
1923
+ {
1924
+ "epoch": 1.761290322580645,
1925
+ "grad_norm": 0.21835470061774626,
1926
+ "learning_rate": 8.72579223318095e-05,
1927
+ "loss": 0.1167,
1928
+ "step": 273
1929
+ },
1930
+ {
1931
+ "epoch": 1.7677419354838708,
1932
+ "grad_norm": 0.1425322245524885,
1933
+ "learning_rate": 8.651283833054809e-05,
1934
+ "loss": 0.0801,
1935
+ "step": 274
1936
+ },
1937
+ {
1938
+ "epoch": 1.7741935483870968,
1939
+ "grad_norm": 0.1794495686810833,
1940
+ "learning_rate": 8.57685161726715e-05,
1941
+ "loss": 0.0784,
1942
+ "step": 275
1943
+ },
1944
+ {
1945
+ "epoch": 1.7806451612903227,
1946
+ "grad_norm": 0.15688310999446023,
1947
+ "learning_rate": 8.5024997902379e-05,
1948
+ "loss": 0.1001,
1949
+ "step": 276
1950
+ },
1951
+ {
1952
+ "epoch": 1.7870967741935484,
1953
+ "grad_norm": 0.15417421931142297,
1954
+ "learning_rate": 8.428232551846101e-05,
1955
+ "loss": 0.0898,
1956
+ "step": 277
1957
+ },
1958
+ {
1959
+ "epoch": 1.793548387096774,
1960
+ "grad_norm": 0.17958092903510822,
1961
+ "learning_rate": 8.35405409719266e-05,
1962
+ "loss": 0.0921,
1963
+ "step": 278
1964
+ },
1965
+ {
1966
+ "epoch": 1.8,
1967
+ "grad_norm": 0.165061388870699,
1968
+ "learning_rate": 8.279968616363418e-05,
1969
+ "loss": 0.0935,
1970
+ "step": 279
1971
+ },
1972
+ {
1973
+ "epoch": 1.8064516129032258,
1974
+ "grad_norm": 0.1116000947584692,
1975
+ "learning_rate": 8.205980294192421e-05,
1976
+ "loss": 0.0684,
1977
+ "step": 280
1978
+ },
1979
+ {
1980
+ "epoch": 1.8129032258064517,
1981
+ "grad_norm": 0.12370745355237868,
1982
+ "learning_rate": 8.132093310025571e-05,
1983
+ "loss": 0.0764,
1984
+ "step": 281
1985
+ },
1986
+ {
1987
+ "epoch": 1.8193548387096774,
1988
+ "grad_norm": 0.1724137684896053,
1989
+ "learning_rate": 8.058311837484535e-05,
1990
+ "loss": 0.0969,
1991
+ "step": 282
1992
+ },
1993
+ {
1994
+ "epoch": 1.8258064516129031,
1995
+ "grad_norm": 0.16125193051943912,
1996
+ "learning_rate": 7.984640044230983e-05,
1997
+ "loss": 0.0868,
1998
+ "step": 283
1999
+ },
2000
+ {
2001
+ "epoch": 1.832258064516129,
2002
+ "grad_norm": 0.13929471780512187,
2003
+ "learning_rate": 7.911082091731181e-05,
2004
+ "loss": 0.0701,
2005
+ "step": 284
2006
+ },
2007
+ {
2008
+ "epoch": 1.838709677419355,
2009
+ "grad_norm": 0.1172859356132756,
2010
+ "learning_rate": 7.837642135020929e-05,
2011
+ "loss": 0.0705,
2012
+ "step": 285
2013
+ },
2014
+ {
2015
+ "epoch": 1.8451612903225807,
2016
+ "grad_norm": 0.1416371336298496,
2017
+ "learning_rate": 7.764324322470841e-05,
2018
+ "loss": 0.0683,
2019
+ "step": 286
2020
+ },
2021
+ {
2022
+ "epoch": 1.8516129032258064,
2023
+ "grad_norm": 0.19198949443360017,
2024
+ "learning_rate": 7.691132795552043e-05,
2025
+ "loss": 0.0894,
2026
+ "step": 287
2027
+ },
2028
+ {
2029
+ "epoch": 1.8580645161290321,
2030
+ "grad_norm": 0.19384526534149363,
2031
+ "learning_rate": 7.618071688602199e-05,
2032
+ "loss": 0.0954,
2033
+ "step": 288
2034
+ },
2035
+ {
2036
+ "epoch": 1.864516129032258,
2037
+ "grad_norm": 0.21508649416468206,
2038
+ "learning_rate": 7.54514512859201e-05,
2039
+ "loss": 0.0986,
2040
+ "step": 289
2041
+ },
2042
+ {
2043
+ "epoch": 1.870967741935484,
2044
+ "grad_norm": 0.1952670486171591,
2045
+ "learning_rate": 7.472357234892082e-05,
2046
+ "loss": 0.1049,
2047
+ "step": 290
2048
+ },
2049
+ {
2050
+ "epoch": 1.8774193548387097,
2051
+ "grad_norm": 0.13259304301639457,
2052
+ "learning_rate": 7.399712119040238e-05,
2053
+ "loss": 0.0784,
2054
+ "step": 291
2055
+ },
2056
+ {
2057
+ "epoch": 1.8838709677419354,
2058
+ "grad_norm": 0.1367442063153438,
2059
+ "learning_rate": 7.327213884509272e-05,
2060
+ "loss": 0.0828,
2061
+ "step": 292
2062
+ },
2063
+ {
2064
+ "epoch": 1.8903225806451613,
2065
+ "grad_norm": 0.16389743747526248,
2066
+ "learning_rate": 7.254866626475152e-05,
2067
+ "loss": 0.0927,
2068
+ "step": 293
2069
+ },
2070
+ {
2071
+ "epoch": 1.896774193548387,
2072
+ "grad_norm": 0.22089121957380548,
2073
+ "learning_rate": 7.182674431585704e-05,
2074
+ "loss": 0.1077,
2075
+ "step": 294
2076
+ },
2077
+ {
2078
+ "epoch": 1.903225806451613,
2079
+ "grad_norm": 0.14882797154919192,
2080
+ "learning_rate": 7.110641377729778e-05,
2081
+ "loss": 0.0879,
2082
+ "step": 295
2083
+ },
2084
+ {
2085
+ "epoch": 1.9096774193548387,
2086
+ "grad_norm": 0.12794357419440644,
2087
+ "learning_rate": 7.038771533806884e-05,
2088
+ "loss": 0.0719,
2089
+ "step": 296
2090
+ },
2091
+ {
2092
+ "epoch": 1.9161290322580644,
2093
+ "grad_norm": 0.1846824594193936,
2094
+ "learning_rate": 6.967068959497376e-05,
2095
+ "loss": 0.0895,
2096
+ "step": 297
2097
+ },
2098
+ {
2099
+ "epoch": 1.9225806451612903,
2100
+ "grad_norm": 0.17646276082900025,
2101
+ "learning_rate": 6.895537705033108e-05,
2102
+ "loss": 0.0996,
2103
+ "step": 298
2104
+ },
2105
+ {
2106
+ "epoch": 1.9290322580645163,
2107
+ "grad_norm": 0.15604696338212207,
2108
+ "learning_rate": 6.824181810968675e-05,
2109
+ "loss": 0.087,
2110
+ "step": 299
2111
+ },
2112
+ {
2113
+ "epoch": 1.935483870967742,
2114
+ "grad_norm": 0.15478000466177547,
2115
+ "learning_rate": 6.753005307953167e-05,
2116
+ "loss": 0.0831,
2117
+ "step": 300
2118
+ },
2119
+ {
2120
+ "epoch": 1.9419354838709677,
2121
+ "grad_norm": 0.19642059718505833,
2122
+ "learning_rate": 6.682012216502484e-05,
2123
+ "loss": 0.1073,
2124
+ "step": 301
2125
+ },
2126
+ {
2127
+ "epoch": 1.9483870967741934,
2128
+ "grad_norm": 0.17255606883063224,
2129
+ "learning_rate": 6.611206546772237e-05,
2130
+ "loss": 0.1018,
2131
+ "step": 302
2132
+ },
2133
+ {
2134
+ "epoch": 1.9548387096774194,
2135
+ "grad_norm": 0.1393602083174125,
2136
+ "learning_rate": 6.54059229833124e-05,
2137
+ "loss": 0.0859,
2138
+ "step": 303
2139
+ },
2140
+ {
2141
+ "epoch": 1.9612903225806453,
2142
+ "grad_norm": 0.16652643955266602,
2143
+ "learning_rate": 6.47017345993556e-05,
2144
+ "loss": 0.0899,
2145
+ "step": 304
2146
+ },
2147
+ {
2148
+ "epoch": 1.967741935483871,
2149
+ "grad_norm": 0.16878660937501272,
2150
+ "learning_rate": 6.39995400930324e-05,
2151
+ "loss": 0.0998,
2152
+ "step": 305
2153
+ },
2154
+ {
2155
+ "epoch": 1.9741935483870967,
2156
+ "grad_norm": 0.12969061293334938,
2157
+ "learning_rate": 6.329937912889582e-05,
2158
+ "loss": 0.0706,
2159
+ "step": 306
2160
+ },
2161
+ {
2162
+ "epoch": 1.9806451612903224,
2163
+ "grad_norm": 0.15739894009886643,
2164
+ "learning_rate": 6.260129125663106e-05,
2165
+ "loss": 0.0888,
2166
+ "step": 307
2167
+ },
2168
+ {
2169
+ "epoch": 1.9870967741935484,
2170
+ "grad_norm": 0.1752067977727585,
2171
+ "learning_rate": 6.190531590882159e-05,
2172
+ "loss": 0.0826,
2173
+ "step": 308
2174
+ },
2175
+ {
2176
+ "epoch": 1.9935483870967743,
2177
+ "grad_norm": 0.21002280616145647,
2178
+ "learning_rate": 6.121149239872151e-05,
2179
+ "loss": 0.123,
2180
+ "step": 309
2181
+ },
2182
+ {
2183
+ "epoch": 2.0,
2184
+ "grad_norm": 0.13850366944373244,
2185
+ "learning_rate": 6.051985991803517e-05,
2186
+ "loss": 0.073,
2187
+ "step": 310
2188
+ },
2189
+ {
2190
+ "epoch": 2.0,
2191
+ "eval_loss": 0.16690203547477722,
2192
+ "eval_runtime": 25.4682,
2193
+ "eval_samples_per_second": 5.144,
2194
+ "eval_steps_per_second": 0.668,
2195
+ "step": 310
2196
+ },
2197
+ {
2198
+ "epoch": 2.0064516129032257,
2199
+ "grad_norm": 0.1124990090834071,
2200
+ "learning_rate": 5.983045753470308e-05,
2201
+ "loss": 0.0485,
2202
+ "step": 311
2203
+ },
2204
+ {
2205
+ "epoch": 2.0129032258064514,
2206
+ "grad_norm": 0.08246086368829486,
2207
+ "learning_rate": 5.9143324190695196e-05,
2208
+ "loss": 0.0411,
2209
+ "step": 312
2210
+ },
2211
+ {
2212
+ "epoch": 2.0193548387096776,
2213
+ "grad_norm": 0.11824209839228844,
2214
+ "learning_rate": 5.845849869981137e-05,
2215
+ "loss": 0.0578,
2216
+ "step": 313
2217
+ },
2218
+ {
2219
+ "epoch": 2.0258064516129033,
2220
+ "grad_norm": 0.09183702414760068,
2221
+ "learning_rate": 5.777601974548866e-05,
2222
+ "loss": 0.0405,
2223
+ "step": 314
2224
+ },
2225
+ {
2226
+ "epoch": 2.032258064516129,
2227
+ "grad_norm": 0.10138990147374953,
2228
+ "learning_rate": 5.709592587861637e-05,
2229
+ "loss": 0.045,
2230
+ "step": 315
2231
+ },
2232
+ {
2233
+ "epoch": 2.0387096774193547,
2234
+ "grad_norm": 0.13174518232765414,
2235
+ "learning_rate": 5.6418255515358486e-05,
2236
+ "loss": 0.0417,
2237
+ "step": 316
2238
+ },
2239
+ {
2240
+ "epoch": 2.0451612903225804,
2241
+ "grad_norm": 0.11134581768568716,
2242
+ "learning_rate": 5.574304693498346e-05,
2243
+ "loss": 0.0351,
2244
+ "step": 317
2245
+ },
2246
+ {
2247
+ "epoch": 2.0516129032258066,
2248
+ "grad_norm": 0.10372734844639428,
2249
+ "learning_rate": 5.507033827770225e-05,
2250
+ "loss": 0.0458,
2251
+ "step": 318
2252
+ },
2253
+ {
2254
+ "epoch": 2.0580645161290323,
2255
+ "grad_norm": 0.09893496819685892,
2256
+ "learning_rate": 5.4400167542513636e-05,
2257
+ "loss": 0.0421,
2258
+ "step": 319
2259
+ },
2260
+ {
2261
+ "epoch": 2.064516129032258,
2262
+ "grad_norm": 0.1544849048513997,
2263
+ "learning_rate": 5.3732572585057974e-05,
2264
+ "loss": 0.0449,
2265
+ "step": 320
2266
+ },
2267
+ {
2268
+ "epoch": 2.0709677419354837,
2269
+ "grad_norm": 0.12211629106983518,
2270
+ "learning_rate": 5.306759111547881e-05,
2271
+ "loss": 0.0341,
2272
+ "step": 321
2273
+ },
2274
+ {
2275
+ "epoch": 2.07741935483871,
2276
+ "grad_norm": 0.1519039459170261,
2277
+ "learning_rate": 5.240526069629265e-05,
2278
+ "loss": 0.0477,
2279
+ "step": 322
2280
+ },
2281
+ {
2282
+ "epoch": 2.0838709677419356,
2283
+ "grad_norm": 0.10882973801143421,
2284
+ "learning_rate": 5.174561874026741e-05,
2285
+ "loss": 0.0376,
2286
+ "step": 323
2287
+ },
2288
+ {
2289
+ "epoch": 2.0903225806451613,
2290
+ "grad_norm": 0.09785322895617321,
2291
+ "learning_rate": 5.108870250830882e-05,
2292
+ "loss": 0.0305,
2293
+ "step": 324
2294
+ },
2295
+ {
2296
+ "epoch": 2.096774193548387,
2297
+ "grad_norm": 0.14990301799413153,
2298
+ "learning_rate": 5.0434549107355944e-05,
2299
+ "loss": 0.0409,
2300
+ "step": 325
2301
+ },
2302
+ {
2303
+ "epoch": 2.1032258064516127,
2304
+ "grad_norm": 0.1915279670852206,
2305
+ "learning_rate": 4.978319548828504e-05,
2306
+ "loss": 0.045,
2307
+ "step": 326
2308
+ },
2309
+ {
2310
+ "epoch": 2.109677419354839,
2311
+ "grad_norm": 0.15445162243894608,
2312
+ "learning_rate": 4.9134678443822166e-05,
2313
+ "loss": 0.0334,
2314
+ "step": 327
2315
+ },
2316
+ {
2317
+ "epoch": 2.1161290322580646,
2318
+ "grad_norm": 0.34562522599625123,
2319
+ "learning_rate": 4.8489034606465225e-05,
2320
+ "loss": 0.0395,
2321
+ "step": 328
2322
+ },
2323
+ {
2324
+ "epoch": 2.1225806451612903,
2325
+ "grad_norm": 0.3183911745576579,
2326
+ "learning_rate": 4.784630044641435e-05,
2327
+ "loss": 0.0546,
2328
+ "step": 329
2329
+ },
2330
+ {
2331
+ "epoch": 2.129032258064516,
2332
+ "grad_norm": 0.1619196710614726,
2333
+ "learning_rate": 4.7206512269512124e-05,
2334
+ "loss": 0.0446,
2335
+ "step": 330
2336
+ },
2337
+ {
2338
+ "epoch": 2.135483870967742,
2339
+ "grad_norm": 0.24657637060341897,
2340
+ "learning_rate": 4.65697062151927e-05,
2341
+ "loss": 0.0349,
2342
+ "step": 331
2343
+ },
2344
+ {
2345
+ "epoch": 2.141935483870968,
2346
+ "grad_norm": 0.11723613581448042,
2347
+ "learning_rate": 4.593591825444028e-05,
2348
+ "loss": 0.0337,
2349
+ "step": 332
2350
+ },
2351
+ {
2352
+ "epoch": 2.1483870967741936,
2353
+ "grad_norm": 0.12413977056977685,
2354
+ "learning_rate": 4.530518418775733e-05,
2355
+ "loss": 0.0355,
2356
+ "step": 333
2357
+ },
2358
+ {
2359
+ "epoch": 2.1548387096774193,
2360
+ "grad_norm": 0.1368012687546921,
2361
+ "learning_rate": 4.4677539643142454e-05,
2362
+ "loss": 0.0369,
2363
+ "step": 334
2364
+ },
2365
+ {
2366
+ "epoch": 2.161290322580645,
2367
+ "grad_norm": 0.132092425970093,
2368
+ "learning_rate": 4.40530200740777e-05,
2369
+ "loss": 0.0346,
2370
+ "step": 335
2371
+ },
2372
+ {
2373
+ "epoch": 2.167741935483871,
2374
+ "grad_norm": 0.17255652388608525,
2375
+ "learning_rate": 4.343166075752605e-05,
2376
+ "loss": 0.0425,
2377
+ "step": 336
2378
+ },
2379
+ {
2380
+ "epoch": 2.174193548387097,
2381
+ "grad_norm": 0.10537625462278236,
2382
+ "learning_rate": 4.281349679193861e-05,
2383
+ "loss": 0.0363,
2384
+ "step": 337
2385
+ },
2386
+ {
2387
+ "epoch": 2.1806451612903226,
2388
+ "grad_norm": 0.08446560264535163,
2389
+ "learning_rate": 4.2198563095272116e-05,
2390
+ "loss": 0.0303,
2391
+ "step": 338
2392
+ },
2393
+ {
2394
+ "epoch": 2.1870967741935483,
2395
+ "grad_norm": 0.11155624490505092,
2396
+ "learning_rate": 4.158689440301657e-05,
2397
+ "loss": 0.0424,
2398
+ "step": 339
2399
+ },
2400
+ {
2401
+ "epoch": 2.193548387096774,
2402
+ "grad_norm": 0.10614591478252769,
2403
+ "learning_rate": 4.097852526623307e-05,
2404
+ "loss": 0.0374,
2405
+ "step": 340
2406
+ },
2407
+ {
2408
+ "epoch": 2.2,
2409
+ "grad_norm": 0.15380955207075353,
2410
+ "learning_rate": 4.0373490049602204e-05,
2411
+ "loss": 0.0506,
2412
+ "step": 341
2413
+ },
2414
+ {
2415
+ "epoch": 2.206451612903226,
2416
+ "grad_norm": 0.11905414571153279,
2417
+ "learning_rate": 3.977182292948283e-05,
2418
+ "loss": 0.0517,
2419
+ "step": 342
2420
+ },
2421
+ {
2422
+ "epoch": 2.2129032258064516,
2423
+ "grad_norm": 0.14425425935781702,
2424
+ "learning_rate": 3.9173557891981573e-05,
2425
+ "loss": 0.0467,
2426
+ "step": 343
2427
+ },
2428
+ {
2429
+ "epoch": 2.2193548387096773,
2430
+ "grad_norm": 0.12453230757386329,
2431
+ "learning_rate": 3.857872873103322e-05,
2432
+ "loss": 0.0435,
2433
+ "step": 344
2434
+ },
2435
+ {
2436
+ "epoch": 2.225806451612903,
2437
+ "grad_norm": 0.10038267160538758,
2438
+ "learning_rate": 3.7987369046491684e-05,
2439
+ "loss": 0.0387,
2440
+ "step": 345
2441
+ },
2442
+ {
2443
+ "epoch": 2.232258064516129,
2444
+ "grad_norm": 0.1438025015993235,
2445
+ "learning_rate": 3.7399512242231995e-05,
2446
+ "loss": 0.0346,
2447
+ "step": 346
2448
+ },
2449
+ {
2450
+ "epoch": 2.238709677419355,
2451
+ "grad_norm": 0.26072179652296745,
2452
+ "learning_rate": 3.6815191524263624e-05,
2453
+ "loss": 0.0545,
2454
+ "step": 347
2455
+ },
2456
+ {
2457
+ "epoch": 2.2451612903225806,
2458
+ "grad_norm": 0.08770511437142381,
2459
+ "learning_rate": 3.623443989885462e-05,
2460
+ "loss": 0.0327,
2461
+ "step": 348
2462
+ },
2463
+ {
2464
+ "epoch": 2.2516129032258063,
2465
+ "grad_norm": 0.12301181296016188,
2466
+ "learning_rate": 3.565729017066729e-05,
2467
+ "loss": 0.039,
2468
+ "step": 349
2469
+ },
2470
+ {
2471
+ "epoch": 2.258064516129032,
2472
+ "grad_norm": 0.13814667341858822,
2473
+ "learning_rate": 3.508377494090521e-05,
2474
+ "loss": 0.0356,
2475
+ "step": 350
2476
+ },
2477
+ {
2478
+ "epoch": 2.264516129032258,
2479
+ "grad_norm": 0.12413533495298362,
2480
+ "learning_rate": 3.45139266054715e-05,
2481
+ "loss": 0.0415,
2482
+ "step": 351
2483
+ },
2484
+ {
2485
+ "epoch": 2.270967741935484,
2486
+ "grad_norm": 0.11031185879435731,
2487
+ "learning_rate": 3.394777735313919e-05,
2488
+ "loss": 0.0363,
2489
+ "step": 352
2490
+ },
2491
+ {
2492
+ "epoch": 2.2774193548387096,
2493
+ "grad_norm": 0.11353520726841541,
2494
+ "learning_rate": 3.338535916373266e-05,
2495
+ "loss": 0.0376,
2496
+ "step": 353
2497
+ },
2498
+ {
2499
+ "epoch": 2.2838709677419353,
2500
+ "grad_norm": 0.23000368159173218,
2501
+ "learning_rate": 3.2826703806321525e-05,
2502
+ "loss": 0.0444,
2503
+ "step": 354
2504
+ },
2505
+ {
2506
+ "epoch": 2.2903225806451615,
2507
+ "grad_norm": 0.10390022981327145,
2508
+ "learning_rate": 3.227184283742591e-05,
2509
+ "loss": 0.0308,
2510
+ "step": 355
2511
+ },
2512
+ {
2513
+ "epoch": 2.296774193548387,
2514
+ "grad_norm": 0.14881153611607173,
2515
+ "learning_rate": 3.17208075992339e-05,
2516
+ "loss": 0.0428,
2517
+ "step": 356
2518
+ },
2519
+ {
2520
+ "epoch": 2.303225806451613,
2521
+ "grad_norm": 0.22847373170988944,
2522
+ "learning_rate": 3.117362921783134e-05,
2523
+ "loss": 0.0449,
2524
+ "step": 357
2525
+ },
2526
+ {
2527
+ "epoch": 2.3096774193548386,
2528
+ "grad_norm": 0.1261660214676178,
2529
+ "learning_rate": 3.063033860144339e-05,
2530
+ "loss": 0.0354,
2531
+ "step": 358
2532
+ },
2533
+ {
2534
+ "epoch": 2.3161290322580643,
2535
+ "grad_norm": 0.16508383182402034,
2536
+ "learning_rate": 3.0090966438688772e-05,
2537
+ "loss": 0.0404,
2538
+ "step": 359
2539
+ },
2540
+ {
2541
+ "epoch": 2.3225806451612905,
2542
+ "grad_norm": 0.14003607495149023,
2543
+ "learning_rate": 2.9555543196846292e-05,
2544
+ "loss": 0.0417,
2545
+ "step": 360
2546
+ },
2547
+ {
2548
+ "epoch": 2.329032258064516,
2549
+ "grad_norm": 0.14067522061651452,
2550
+ "learning_rate": 2.9024099120133673e-05,
2551
+ "loss": 0.0325,
2552
+ "step": 361
2553
+ },
2554
+ {
2555
+ "epoch": 2.335483870967742,
2556
+ "grad_norm": 0.17575236098692995,
2557
+ "learning_rate": 2.8496664227999415e-05,
2558
+ "loss": 0.0533,
2559
+ "step": 362
2560
+ },
2561
+ {
2562
+ "epoch": 2.3419354838709676,
2563
+ "grad_norm": 0.11116834491408094,
2564
+ "learning_rate": 2.7973268313426837e-05,
2565
+ "loss": 0.0347,
2566
+ "step": 363
2567
+ },
2568
+ {
2569
+ "epoch": 2.3483870967741938,
2570
+ "grad_norm": 0.16113939577201203,
2571
+ "learning_rate": 2.745394094125141e-05,
2572
+ "loss": 0.0472,
2573
+ "step": 364
2574
+ },
2575
+ {
2576
+ "epoch": 2.3548387096774195,
2577
+ "grad_norm": 0.10955543396615161,
2578
+ "learning_rate": 2.6938711446490606e-05,
2579
+ "loss": 0.0357,
2580
+ "step": 365
2581
+ },
2582
+ {
2583
+ "epoch": 2.361290322580645,
2584
+ "grad_norm": 0.17969798691111394,
2585
+ "learning_rate": 2.6427608932686843e-05,
2586
+ "loss": 0.0584,
2587
+ "step": 366
2588
+ },
2589
+ {
2590
+ "epoch": 2.367741935483871,
2591
+ "grad_norm": 0.08542932983952008,
2592
+ "learning_rate": 2.5920662270263653e-05,
2593
+ "loss": 0.032,
2594
+ "step": 367
2595
+ },
2596
+ {
2597
+ "epoch": 2.3741935483870966,
2598
+ "grad_norm": 0.14296192462496796,
2599
+ "learning_rate": 2.5417900094894744e-05,
2600
+ "loss": 0.0463,
2601
+ "step": 368
2602
+ },
2603
+ {
2604
+ "epoch": 2.3806451612903228,
2605
+ "grad_norm": 0.11857064948287055,
2606
+ "learning_rate": 2.4919350805886577e-05,
2607
+ "loss": 0.0328,
2608
+ "step": 369
2609
+ },
2610
+ {
2611
+ "epoch": 2.3870967741935485,
2612
+ "grad_norm": 0.1614783419773078,
2613
+ "learning_rate": 2.4425042564574184e-05,
2614
+ "loss": 0.0398,
2615
+ "step": 370
2616
+ },
2617
+ {
2618
+ "epoch": 2.393548387096774,
2619
+ "grad_norm": 0.12389155943230613,
2620
+ "learning_rate": 2.3935003292730296e-05,
2621
+ "loss": 0.0389,
2622
+ "step": 371
2623
+ },
2624
+ {
2625
+ "epoch": 2.4,
2626
+ "grad_norm": 0.11380344182842446,
2627
+ "learning_rate": 2.344926067098836e-05,
2628
+ "loss": 0.0412,
2629
+ "step": 372
2630
+ },
2631
+ {
2632
+ "epoch": 2.4064516129032256,
2633
+ "grad_norm": 0.09336252258103142,
2634
+ "learning_rate": 2.2967842137278706e-05,
2635
+ "loss": 0.0311,
2636
+ "step": 373
2637
+ },
2638
+ {
2639
+ "epoch": 2.412903225806452,
2640
+ "grad_norm": 0.1312469591783424,
2641
+ "learning_rate": 2.2490774885278908e-05,
2642
+ "loss": 0.0363,
2643
+ "step": 374
2644
+ },
2645
+ {
2646
+ "epoch": 2.4193548387096775,
2647
+ "grad_norm": 0.1928829483525128,
2648
+ "learning_rate": 2.201808586287757e-05,
2649
+ "loss": 0.0447,
2650
+ "step": 375
2651
+ },
2652
+ {
2653
+ "epoch": 2.425806451612903,
2654
+ "grad_norm": 0.1407497782508695,
2655
+ "learning_rate": 2.15498017706521e-05,
2656
+ "loss": 0.0425,
2657
+ "step": 376
2658
+ },
2659
+ {
2660
+ "epoch": 2.432258064516129,
2661
+ "grad_norm": 0.12625194439970722,
2662
+ "learning_rate": 2.1085949060360654e-05,
2663
+ "loss": 0.0394,
2664
+ "step": 377
2665
+ },
2666
+ {
2667
+ "epoch": 2.4387096774193546,
2668
+ "grad_norm": 0.1650711686265322,
2669
+ "learning_rate": 2.0626553933447734e-05,
2670
+ "loss": 0.0356,
2671
+ "step": 378
2672
+ },
2673
+ {
2674
+ "epoch": 2.445161290322581,
2675
+ "grad_norm": 0.203794329158885,
2676
+ "learning_rate": 2.01716423395644e-05,
2677
+ "loss": 0.046,
2678
+ "step": 379
2679
+ },
2680
+ {
2681
+ "epoch": 2.4516129032258065,
2682
+ "grad_norm": 0.0983865374506401,
2683
+ "learning_rate": 1.9721239975102313e-05,
2684
+ "loss": 0.0383,
2685
+ "step": 380
2686
+ },
2687
+ {
2688
+ "epoch": 2.458064516129032,
2689
+ "grad_norm": 0.11475237817508949,
2690
+ "learning_rate": 1.9275372281742242e-05,
2691
+ "loss": 0.0341,
2692
+ "step": 381
2693
+ },
2694
+ {
2695
+ "epoch": 2.464516129032258,
2696
+ "grad_norm": 0.11696076741124051,
2697
+ "learning_rate": 1.8834064445016953e-05,
2698
+ "loss": 0.0351,
2699
+ "step": 382
2700
+ },
2701
+ {
2702
+ "epoch": 2.4709677419354836,
2703
+ "grad_norm": 0.11440255447742229,
2704
+ "learning_rate": 1.839734139288868e-05,
2705
+ "loss": 0.0344,
2706
+ "step": 383
2707
+ },
2708
+ {
2709
+ "epoch": 2.47741935483871,
2710
+ "grad_norm": 0.12722166866147971,
2711
+ "learning_rate": 1.7965227794340877e-05,
2712
+ "loss": 0.0327,
2713
+ "step": 384
2714
+ },
2715
+ {
2716
+ "epoch": 2.4838709677419355,
2717
+ "grad_norm": 0.11977054711252778,
2718
+ "learning_rate": 1.753774805798486e-05,
2719
+ "loss": 0.0374,
2720
+ "step": 385
2721
+ },
2722
+ {
2723
+ "epoch": 2.490322580645161,
2724
+ "grad_norm": 0.19041811914083892,
2725
+ "learning_rate": 1.7114926330680957e-05,
2726
+ "loss": 0.0448,
2727
+ "step": 386
2728
+ },
2729
+ {
2730
+ "epoch": 2.496774193548387,
2731
+ "grad_norm": 0.12908385372034334,
2732
+ "learning_rate": 1.6696786496174578e-05,
2733
+ "loss": 0.0421,
2734
+ "step": 387
2735
+ },
2736
+ {
2737
+ "epoch": 2.5032258064516126,
2738
+ "grad_norm": 0.11345958947234494,
2739
+ "learning_rate": 1.6283352173747145e-05,
2740
+ "loss": 0.0337,
2741
+ "step": 388
2742
+ },
2743
+ {
2744
+ "epoch": 2.509677419354839,
2745
+ "grad_norm": 0.13882462080577593,
2746
+ "learning_rate": 1.587464671688187e-05,
2747
+ "loss": 0.0399,
2748
+ "step": 389
2749
+ },
2750
+ {
2751
+ "epoch": 2.5161290322580645,
2752
+ "grad_norm": 0.15241110627485502,
2753
+ "learning_rate": 1.5470693211944643e-05,
2754
+ "loss": 0.0331,
2755
+ "step": 390
2756
+ },
2757
+ {
2758
+ "epoch": 2.52258064516129,
2759
+ "grad_norm": 0.10975692065298487,
2760
+ "learning_rate": 1.5071514476879878e-05,
2761
+ "loss": 0.0379,
2762
+ "step": 391
2763
+ },
2764
+ {
2765
+ "epoch": 2.5290322580645164,
2766
+ "grad_norm": 0.1379096296948562,
2767
+ "learning_rate": 1.4677133059921632e-05,
2768
+ "loss": 0.0362,
2769
+ "step": 392
2770
+ },
2771
+ {
2772
+ "epoch": 2.535483870967742,
2773
+ "grad_norm": 0.10190107251103887,
2774
+ "learning_rate": 1.4287571238320053e-05,
2775
+ "loss": 0.0371,
2776
+ "step": 393
2777
+ },
2778
+ {
2779
+ "epoch": 2.541935483870968,
2780
+ "grad_norm": 0.0875699618751271,
2781
+ "learning_rate": 1.3902851017082864e-05,
2782
+ "loss": 0.0335,
2783
+ "step": 394
2784
+ },
2785
+ {
2786
+ "epoch": 2.5483870967741935,
2787
+ "grad_norm": 0.13655405710076232,
2788
+ "learning_rate": 1.3522994127732414e-05,
2789
+ "loss": 0.0388,
2790
+ "step": 395
2791
+ },
2792
+ {
2793
+ "epoch": 2.554838709677419,
2794
+ "grad_norm": 0.11073272357568731,
2795
+ "learning_rate": 1.3148022027078222e-05,
2796
+ "loss": 0.0366,
2797
+ "step": 396
2798
+ },
2799
+ {
2800
+ "epoch": 2.5612903225806454,
2801
+ "grad_norm": 0.11393589351391524,
2802
+ "learning_rate": 1.2777955896004812e-05,
2803
+ "loss": 0.0375,
2804
+ "step": 397
2805
+ },
2806
+ {
2807
+ "epoch": 2.567741935483871,
2808
+ "grad_norm": 0.1294793091961239,
2809
+ "learning_rate": 1.2412816638275404e-05,
2810
+ "loss": 0.0447,
2811
+ "step": 398
2812
+ },
2813
+ {
2814
+ "epoch": 2.574193548387097,
2815
+ "grad_norm": 0.12252957295031998,
2816
+ "learning_rate": 1.2052624879351104e-05,
2817
+ "loss": 0.036,
2818
+ "step": 399
2819
+ },
2820
+ {
2821
+ "epoch": 2.5806451612903225,
2822
+ "grad_norm": 0.10701768631052949,
2823
+ "learning_rate": 1.1697400965225747e-05,
2824
+ "loss": 0.0375,
2825
+ "step": 400
2826
+ },
2827
+ {
2828
+ "epoch": 2.587096774193548,
2829
+ "grad_norm": 0.1826126683217801,
2830
+ "learning_rate": 1.134716496127679e-05,
2831
+ "loss": 0.0398,
2832
+ "step": 401
2833
+ },
2834
+ {
2835
+ "epoch": 2.5935483870967744,
2836
+ "grad_norm": 0.12179126729794809,
2837
+ "learning_rate": 1.1001936651131717e-05,
2838
+ "loss": 0.0396,
2839
+ "step": 402
2840
+ },
2841
+ {
2842
+ "epoch": 2.6,
2843
+ "grad_norm": 0.11972903116479075,
2844
+ "learning_rate": 1.0661735535550666e-05,
2845
+ "loss": 0.0336,
2846
+ "step": 403
2847
+ },
2848
+ {
2849
+ "epoch": 2.606451612903226,
2850
+ "grad_norm": 0.09797391900877583,
2851
+ "learning_rate": 1.0326580831324817e-05,
2852
+ "loss": 0.0291,
2853
+ "step": 404
2854
+ },
2855
+ {
2856
+ "epoch": 2.6129032258064515,
2857
+ "grad_norm": 0.08807259670414254,
2858
+ "learning_rate": 9.996491470190917e-06,
2859
+ "loss": 0.0318,
2860
+ "step": 405
2861
+ },
2862
+ {
2863
+ "epoch": 2.6193548387096772,
2864
+ "grad_norm": 0.12986706205285126,
2865
+ "learning_rate": 9.671486097761917e-06,
2866
+ "loss": 0.0408,
2867
+ "step": 406
2868
+ },
2869
+ {
2870
+ "epoch": 2.6258064516129034,
2871
+ "grad_norm": 0.1331746828106328,
2872
+ "learning_rate": 9.351583072473713e-06,
2873
+ "loss": 0.0427,
2874
+ "step": 407
2875
+ },
2876
+ {
2877
+ "epoch": 2.632258064516129,
2878
+ "grad_norm": 0.14912986532560119,
2879
+ "learning_rate": 9.036800464548157e-06,
2880
+ "loss": 0.0464,
2881
+ "step": 408
2882
+ },
2883
+ {
2884
+ "epoch": 2.638709677419355,
2885
+ "grad_norm": 0.1440292521357826,
2886
+ "learning_rate": 8.727156054972374e-06,
2887
+ "loss": 0.0448,
2888
+ "step": 409
2889
+ },
2890
+ {
2891
+ "epoch": 2.6451612903225805,
2892
+ "grad_norm": 0.16571651133316453,
2893
+ "learning_rate": 8.422667334494249e-06,
2894
+ "loss": 0.0449,
2895
+ "step": 410
2896
+ },
2897
+ {
2898
+ "epoch": 2.6516129032258062,
2899
+ "grad_norm": 0.15006924502881824,
2900
+ "learning_rate": 8.123351502634625e-06,
2901
+ "loss": 0.0371,
2902
+ "step": 411
2903
+ },
2904
+ {
2905
+ "epoch": 2.6580645161290324,
2906
+ "grad_norm": 0.3766926409227814,
2907
+ "learning_rate": 7.82922546671555e-06,
2908
+ "loss": 0.0522,
2909
+ "step": 412
2910
+ },
2911
+ {
2912
+ "epoch": 2.664516129032258,
2913
+ "grad_norm": 0.1693245533307095,
2914
+ "learning_rate": 7.54030584090537e-06,
2915
+ "loss": 0.0523,
2916
+ "step": 413
2917
+ },
2918
+ {
2919
+ "epoch": 2.670967741935484,
2920
+ "grad_norm": 0.16933380856734512,
2921
+ "learning_rate": 7.256608945280319e-06,
2922
+ "loss": 0.0448,
2923
+ "step": 414
2924
+ },
2925
+ {
2926
+ "epoch": 2.6774193548387095,
2927
+ "grad_norm": 0.12372656470631721,
2928
+ "learning_rate": 6.97815080490245e-06,
2929
+ "loss": 0.041,
2930
+ "step": 415
2931
+ },
2932
+ {
2933
+ "epoch": 2.6838709677419352,
2934
+ "grad_norm": 0.1139014768011305,
2935
+ "learning_rate": 6.704947148914609e-06,
2936
+ "loss": 0.034,
2937
+ "step": 416
2938
+ },
2939
+ {
2940
+ "epoch": 2.6903225806451614,
2941
+ "grad_norm": 0.14509781428626975,
2942
+ "learning_rate": 6.437013409651849e-06,
2943
+ "loss": 0.0289,
2944
+ "step": 417
2945
+ },
2946
+ {
2947
+ "epoch": 2.696774193548387,
2948
+ "grad_norm": 0.1403482292705624,
2949
+ "learning_rate": 6.174364721769743e-06,
2950
+ "loss": 0.0493,
2951
+ "step": 418
2952
+ },
2953
+ {
2954
+ "epoch": 2.703225806451613,
2955
+ "grad_norm": 0.12152856591733673,
2956
+ "learning_rate": 5.917015921389568e-06,
2957
+ "loss": 0.0343,
2958
+ "step": 419
2959
+ },
2960
+ {
2961
+ "epoch": 2.709677419354839,
2962
+ "grad_norm": 0.10494471511565585,
2963
+ "learning_rate": 5.664981545260073e-06,
2964
+ "loss": 0.03,
2965
+ "step": 420
2966
+ },
2967
+ {
2968
+ "epoch": 2.7161290322580647,
2969
+ "grad_norm": 0.2176951472197835,
2970
+ "learning_rate": 5.418275829936537e-06,
2971
+ "loss": 0.0486,
2972
+ "step": 421
2973
+ },
2974
+ {
2975
+ "epoch": 2.7225806451612904,
2976
+ "grad_norm": 0.09677627092271344,
2977
+ "learning_rate": 5.176912710976467e-06,
2978
+ "loss": 0.0318,
2979
+ "step": 422
2980
+ },
2981
+ {
2982
+ "epoch": 2.729032258064516,
2983
+ "grad_norm": 0.14416553291024004,
2984
+ "learning_rate": 4.940905822152453e-06,
2985
+ "loss": 0.0356,
2986
+ "step": 423
2987
+ },
2988
+ {
2989
+ "epoch": 2.735483870967742,
2990
+ "grad_norm": 0.10141360651760384,
2991
+ "learning_rate": 4.710268494682146e-06,
2992
+ "loss": 0.0346,
2993
+ "step": 424
2994
+ },
2995
+ {
2996
+ "epoch": 2.741935483870968,
2997
+ "grad_norm": 0.13463566674635727,
2998
+ "learning_rate": 4.485013756475076e-06,
2999
+ "loss": 0.0443,
3000
+ "step": 425
3001
+ },
3002
+ {
3003
+ "epoch": 2.7483870967741937,
3004
+ "grad_norm": 0.26842778961550184,
3005
+ "learning_rate": 4.2651543313968145e-06,
3006
+ "loss": 0.0445,
3007
+ "step": 426
3008
+ },
3009
+ {
3010
+ "epoch": 2.7548387096774194,
3011
+ "grad_norm": 0.16014595507517537,
3012
+ "learning_rate": 4.050702638550275e-06,
3013
+ "loss": 0.0469,
3014
+ "step": 427
3015
+ },
3016
+ {
3017
+ "epoch": 2.761290322580645,
3018
+ "grad_norm": 0.2690022963645026,
3019
+ "learning_rate": 3.841670791574137e-06,
3020
+ "loss": 0.0423,
3021
+ "step": 428
3022
+ },
3023
+ {
3024
+ "epoch": 2.767741935483871,
3025
+ "grad_norm": 0.2323526833237967,
3026
+ "learning_rate": 3.638070597958665e-06,
3027
+ "loss": 0.035,
3028
+ "step": 429
3029
+ },
3030
+ {
3031
+ "epoch": 2.774193548387097,
3032
+ "grad_norm": 0.11643458974488918,
3033
+ "learning_rate": 3.4399135583787043e-06,
3034
+ "loss": 0.0401,
3035
+ "step": 430
3036
+ },
3037
+ {
3038
+ "epoch": 2.7806451612903227,
3039
+ "grad_norm": 0.12278976372135998,
3040
+ "learning_rate": 3.2472108660439706e-06,
3041
+ "loss": 0.04,
3042
+ "step": 431
3043
+ },
3044
+ {
3045
+ "epoch": 2.7870967741935484,
3046
+ "grad_norm": 0.11369002878299092,
3047
+ "learning_rate": 3.059973406066963e-06,
3048
+ "loss": 0.0335,
3049
+ "step": 432
3050
+ },
3051
+ {
3052
+ "epoch": 2.793548387096774,
3053
+ "grad_norm": 0.1426764505452139,
3054
+ "learning_rate": 2.878211754847926e-06,
3055
+ "loss": 0.0431,
3056
+ "step": 433
3057
+ },
3058
+ {
3059
+ "epoch": 2.8,
3060
+ "grad_norm": 0.17614309627774977,
3061
+ "learning_rate": 2.7019361794775156e-06,
3062
+ "loss": 0.0336,
3063
+ "step": 434
3064
+ },
3065
+ {
3066
+ "epoch": 2.806451612903226,
3067
+ "grad_norm": 0.13119646329419238,
3068
+ "learning_rate": 2.5311566371568507e-06,
3069
+ "loss": 0.0388,
3070
+ "step": 435
3071
+ },
3072
+ {
3073
+ "epoch": 2.8129032258064517,
3074
+ "grad_norm": 0.2274358694692015,
3075
+ "learning_rate": 2.365882774634998e-06,
3076
+ "loss": 0.0483,
3077
+ "step": 436
3078
+ },
3079
+ {
3080
+ "epoch": 2.8193548387096774,
3081
+ "grad_norm": 0.16809646480030987,
3082
+ "learning_rate": 2.206123927664161e-06,
3083
+ "loss": 0.0428,
3084
+ "step": 437
3085
+ },
3086
+ {
3087
+ "epoch": 2.825806451612903,
3088
+ "grad_norm": 0.08861174696327136,
3089
+ "learning_rate": 2.0518891204722168e-06,
3090
+ "loss": 0.0297,
3091
+ "step": 438
3092
+ },
3093
+ {
3094
+ "epoch": 2.832258064516129,
3095
+ "grad_norm": 0.1516310249747229,
3096
+ "learning_rate": 1.903187065253076e-06,
3097
+ "loss": 0.0486,
3098
+ "step": 439
3099
+ },
3100
+ {
3101
+ "epoch": 2.838709677419355,
3102
+ "grad_norm": 0.1154092981393085,
3103
+ "learning_rate": 1.7600261616745106e-06,
3104
+ "loss": 0.044,
3105
+ "step": 440
3106
+ },
3107
+ {
3108
+ "epoch": 2.8451612903225807,
3109
+ "grad_norm": 0.14626098217303432,
3110
+ "learning_rate": 1.6224144964036681e-06,
3111
+ "loss": 0.045,
3112
+ "step": 441
3113
+ },
3114
+ {
3115
+ "epoch": 2.8516129032258064,
3116
+ "grad_norm": 0.09272906884038755,
3117
+ "learning_rate": 1.4903598426503241e-06,
3118
+ "loss": 0.0305,
3119
+ "step": 442
3120
+ },
3121
+ {
3122
+ "epoch": 2.858064516129032,
3123
+ "grad_norm": 0.1688562089326058,
3124
+ "learning_rate": 1.3638696597277679e-06,
3125
+ "loss": 0.0402,
3126
+ "step": 443
3127
+ },
3128
+ {
3129
+ "epoch": 2.864516129032258,
3130
+ "grad_norm": 0.11628209549950047,
3131
+ "learning_rate": 1.2429510926314836e-06,
3132
+ "loss": 0.0309,
3133
+ "step": 444
3134
+ },
3135
+ {
3136
+ "epoch": 2.870967741935484,
3137
+ "grad_norm": 0.14018105443781761,
3138
+ "learning_rate": 1.1276109716355287e-06,
3139
+ "loss": 0.0466,
3140
+ "step": 445
3141
+ },
3142
+ {
3143
+ "epoch": 2.8774193548387097,
3144
+ "grad_norm": 0.12354234788520546,
3145
+ "learning_rate": 1.0178558119067315e-06,
3146
+ "loss": 0.0315,
3147
+ "step": 446
3148
+ },
3149
+ {
3150
+ "epoch": 2.8838709677419354,
3151
+ "grad_norm": 0.15472531322652747,
3152
+ "learning_rate": 9.136918131366412e-07,
3153
+ "loss": 0.0436,
3154
+ "step": 447
3155
+ },
3156
+ {
3157
+ "epoch": 2.8903225806451616,
3158
+ "grad_norm": 0.16727260037004013,
3159
+ "learning_rate": 8.151248591913518e-07,
3160
+ "loss": 0.0413,
3161
+ "step": 448
3162
+ },
3163
+ {
3164
+ "epoch": 2.896774193548387,
3165
+ "grad_norm": 0.15358557638143366,
3166
+ "learning_rate": 7.221605177791691e-07,
3167
+ "loss": 0.0477,
3168
+ "step": 449
3169
+ },
3170
+ {
3171
+ "epoch": 2.903225806451613,
3172
+ "grad_norm": 0.11899732193116695,
3173
+ "learning_rate": 6.348040401360833e-07,
3174
+ "loss": 0.0337,
3175
+ "step": 450
3176
+ },
3177
+ {
3178
+ "epoch": 2.9096774193548387,
3179
+ "grad_norm": 0.19561410636845064,
3180
+ "learning_rate": 5.530603607290851e-07,
3181
+ "loss": 0.0556,
3182
+ "step": 451
3183
+ },
3184
+ {
3185
+ "epoch": 2.9161290322580644,
3186
+ "grad_norm": 0.14981745610583072,
3187
+ "learning_rate": 4.76934096977566e-07,
3188
+ "loss": 0.0372,
3189
+ "step": 452
3190
+ },
3191
+ {
3192
+ "epoch": 2.9225806451612906,
3193
+ "grad_norm": 0.1039480982798509,
3194
+ "learning_rate": 4.0642954899238197e-07,
3195
+ "loss": 0.0343,
3196
+ "step": 453
3197
+ },
3198
+ {
3199
+ "epoch": 2.9290322580645163,
3200
+ "grad_norm": 0.11333580055218463,
3201
+ "learning_rate": 3.415506993330153e-07,
3202
+ "loss": 0.0388,
3203
+ "step": 454
3204
+ },
3205
+ {
3206
+ "epoch": 2.935483870967742,
3207
+ "grad_norm": 0.10481858385197364,
3208
+ "learning_rate": 2.8230121278257637e-07,
3209
+ "loss": 0.0313,
3210
+ "step": 455
3211
+ },
3212
+ {
3213
+ "epoch": 2.9419354838709677,
3214
+ "grad_norm": 0.15064675470229316,
3215
+ "learning_rate": 2.2868443614082469e-07,
3216
+ "loss": 0.0449,
3217
+ "step": 456
3218
+ },
3219
+ {
3220
+ "epoch": 2.9483870967741934,
3221
+ "grad_norm": 0.13918413557689208,
3222
+ "learning_rate": 1.8070339803509807e-07,
3223
+ "loss": 0.0414,
3224
+ "step": 457
3225
+ },
3226
+ {
3227
+ "epoch": 2.9548387096774196,
3228
+ "grad_norm": 0.15721864030858848,
3229
+ "learning_rate": 1.3836080874926049e-07,
3230
+ "loss": 0.0342,
3231
+ "step": 458
3232
+ },
3233
+ {
3234
+ "epoch": 2.9612903225806453,
3235
+ "grad_norm": 0.15411456561887094,
3236
+ "learning_rate": 1.0165906007056914e-07,
3237
+ "loss": 0.0418,
3238
+ "step": 459
3239
+ },
3240
+ {
3241
+ "epoch": 2.967741935483871,
3242
+ "grad_norm": 0.1513944041768792,
3243
+ "learning_rate": 7.060022515460451e-08,
3244
+ "loss": 0.0364,
3245
+ "step": 460
3246
+ },
3247
+ {
3248
+ "epoch": 2.9741935483870967,
3249
+ "grad_norm": 0.22512284396579382,
3250
+ "learning_rate": 4.518605840815315e-08,
3251
+ "loss": 0.0447,
3252
+ "step": 461
3253
+ },
3254
+ {
3255
+ "epoch": 2.9806451612903224,
3256
+ "grad_norm": 0.1529295717768871,
3257
+ "learning_rate": 2.5417995390086824e-08,
3258
+ "loss": 0.0449,
3259
+ "step": 462
3260
+ },
3261
+ {
3262
+ "epoch": 2.9870967741935486,
3263
+ "grad_norm": 0.13942712092352366,
3264
+ "learning_rate": 1.129715273033849e-08,
3265
+ "loss": 0.0367,
3266
+ "step": 463
3267
+ },
3268
+ {
3269
+ "epoch": 2.9935483870967743,
3270
+ "grad_norm": 0.13569899513050301,
3271
+ "learning_rate": 2.824328066730608e-09,
3272
+ "loss": 0.0398,
3273
+ "step": 464
3274
+ },
3275
+ {
3276
+ "epoch": 3.0,
3277
+ "grad_norm": 0.11004047385534296,
3278
+ "learning_rate": 0.0,
3279
+ "loss": 0.0305,
3280
+ "step": 465
3281
+ },
3282
+ {
3283
+ "epoch": 3.0,
3284
+ "eval_loss": 0.2107405662536621,
3285
+ "eval_runtime": 25.5157,
3286
+ "eval_samples_per_second": 5.134,
3287
+ "eval_steps_per_second": 0.666,
3288
+ "step": 465
3289
+ },
3290
+ {
3291
+ "epoch": 3.0,
3292
+ "step": 465,
3293
+ "total_flos": 261374226563072.0,
3294
+ "train_loss": 0.09038178783751304,
3295
+ "train_runtime": 3542.1658,
3296
+ "train_samples_per_second": 2.097,
3297
+ "train_steps_per_second": 0.131
3298
+ }
3299
+ ],
3300
+ "logging_steps": 1,
3301
+ "max_steps": 465,
3302
+ "num_input_tokens_seen": 0,
3303
+ "num_train_epochs": 3,
3304
+ "save_steps": 500,
3305
+ "stateful_callbacks": {
3306
+ "TrainerControl": {
3307
+ "args": {
3308
+ "should_epoch_stop": false,
3309
+ "should_evaluate": false,
3310
+ "should_log": false,
3311
+ "should_save": true,
3312
+ "should_training_stop": true
3313
+ },
3314
+ "attributes": {}
3315
+ }
3316
+ },
3317
+ "total_flos": 261374226563072.0,
3318
+ "train_batch_size": 2,
3319
+ "trial_name": null,
3320
+ "trial_params": null
3321
+ }