satvik-dixit commited on
Commit
6ecb0eb
·
verified ·
1 Parent(s): d9da042

Uploaded checkpoint-5000

Browse files
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:35de97360cef6ec797848e6a0e9589cc544ab4f3bcd2155bd188a64e5445847d
3
  size 119975656
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:824735e948c03e678177859f9849a37e15c4fd83e0e453393e1d5c9782d2baa5
3
  size 119975656
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b0896a288a5664ca74a6875a15d02eb360af6ee4f1dfda48b505b6df18b3ddce
3
  size 240145026
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:53610ac969c974531137ec779f45323de05fe29790b266788853b7da537cd956
3
  size 240145026
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4cdeaf244f5c3349bc9e7860569516b0be0184b29d90452ca6cabbb85b5603c9
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9d6f04c6310d20f843e0a99b18a42e7b8be1d02c04620625d150765e738c3bfa
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2be67f6aac8e482bb2022409709d8774ffb125292c0c9cf025c0ae747f3a6d57
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.01938004605472088,
3
  "best_model_checkpoint": "runs/deepseek_lora_/home/mac/air2/runs/deepseek_lora_20240422-141601/checkpoint-30000_20240423-210253/checkpoint-2000",
4
- "epoch": 1.2531328320802004,
5
  "eval_steps": 500,
6
- "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2871,6 +2871,722 @@
2871
  "eval_samples_per_second": 9.441,
2872
  "eval_steps_per_second": 9.441,
2873
  "step": 4000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2874
  }
2875
  ],
2876
  "logging_steps": 10,
@@ -2878,7 +3594,7 @@
2878
  "num_input_tokens_seen": 0,
2879
  "num_train_epochs": 2,
2880
  "save_steps": 1000,
2881
- "total_flos": 6.44044784444375e+16,
2882
  "train_batch_size": 4,
2883
  "trial_name": null,
2884
  "trial_params": null
 
1
  {
2
  "best_metric": 0.01938004605472088,
3
  "best_model_checkpoint": "runs/deepseek_lora_/home/mac/air2/runs/deepseek_lora_20240422-141601/checkpoint-30000_20240423-210253/checkpoint-2000",
4
+ "epoch": 1.5664160401002505,
5
  "eval_steps": 500,
6
+ "global_step": 5000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2871
  "eval_samples_per_second": 9.441,
2872
  "eval_steps_per_second": 9.441,
2873
  "step": 4000
2874
+ },
2875
+ {
2876
+ "epoch": 1.26,
2877
+ "grad_norm": 0.12713465094566345,
2878
+ "learning_rate": 4.4e-06,
2879
+ "loss": 0.0046,
2880
+ "step": 4010
2881
+ },
2882
+ {
2883
+ "epoch": 1.26,
2884
+ "grad_norm": 0.0022403071634471416,
2885
+ "learning_rate": 4.3555555555555555e-06,
2886
+ "loss": 0.0039,
2887
+ "step": 4020
2888
+ },
2889
+ {
2890
+ "epoch": 1.26,
2891
+ "grad_norm": 0.3125491738319397,
2892
+ "learning_rate": 4.3111111111111115e-06,
2893
+ "loss": 0.0147,
2894
+ "step": 4030
2895
+ },
2896
+ {
2897
+ "epoch": 1.27,
2898
+ "grad_norm": 0.0007740085129626095,
2899
+ "learning_rate": 4.266666666666668e-06,
2900
+ "loss": 0.0031,
2901
+ "step": 4040
2902
+ },
2903
+ {
2904
+ "epoch": 1.27,
2905
+ "grad_norm": 0.07295132428407669,
2906
+ "learning_rate": 4.222222222222223e-06,
2907
+ "loss": 0.0172,
2908
+ "step": 4050
2909
+ },
2910
+ {
2911
+ "epoch": 1.27,
2912
+ "grad_norm": 0.0005750702694058418,
2913
+ "learning_rate": 4.177777777777778e-06,
2914
+ "loss": 0.0021,
2915
+ "step": 4060
2916
+ },
2917
+ {
2918
+ "epoch": 1.28,
2919
+ "grad_norm": 0.008953329175710678,
2920
+ "learning_rate": 4.133333333333333e-06,
2921
+ "loss": 0.0019,
2922
+ "step": 4070
2923
+ },
2924
+ {
2925
+ "epoch": 1.28,
2926
+ "grad_norm": 0.00033226358937099576,
2927
+ "learning_rate": 4.088888888888889e-06,
2928
+ "loss": 0.0046,
2929
+ "step": 4080
2930
+ },
2931
+ {
2932
+ "epoch": 1.28,
2933
+ "grad_norm": 0.0006687557324767113,
2934
+ "learning_rate": 4.044444444444445e-06,
2935
+ "loss": 0.004,
2936
+ "step": 4090
2937
+ },
2938
+ {
2939
+ "epoch": 1.28,
2940
+ "grad_norm": 0.009847434237599373,
2941
+ "learning_rate": 4.000000000000001e-06,
2942
+ "loss": 0.0045,
2943
+ "step": 4100
2944
+ },
2945
+ {
2946
+ "epoch": 1.29,
2947
+ "grad_norm": 0.00036680695484392345,
2948
+ "learning_rate": 3.955555555555556e-06,
2949
+ "loss": 0.0036,
2950
+ "step": 4110
2951
+ },
2952
+ {
2953
+ "epoch": 1.29,
2954
+ "grad_norm": 0.2396153211593628,
2955
+ "learning_rate": 3.911111111111112e-06,
2956
+ "loss": 0.0092,
2957
+ "step": 4120
2958
+ },
2959
+ {
2960
+ "epoch": 1.29,
2961
+ "grad_norm": 0.40363165736198425,
2962
+ "learning_rate": 3.866666666666667e-06,
2963
+ "loss": 0.0051,
2964
+ "step": 4130
2965
+ },
2966
+ {
2967
+ "epoch": 1.3,
2968
+ "grad_norm": 0.058287497609853745,
2969
+ "learning_rate": 3.8222222222222224e-06,
2970
+ "loss": 0.0034,
2971
+ "step": 4140
2972
+ },
2973
+ {
2974
+ "epoch": 1.3,
2975
+ "grad_norm": 0.0005693346611224115,
2976
+ "learning_rate": 3.777777777777778e-06,
2977
+ "loss": 0.0089,
2978
+ "step": 4150
2979
+ },
2980
+ {
2981
+ "epoch": 1.3,
2982
+ "grad_norm": 0.1548708975315094,
2983
+ "learning_rate": 3.7333333333333337e-06,
2984
+ "loss": 0.0076,
2985
+ "step": 4160
2986
+ },
2987
+ {
2988
+ "epoch": 1.31,
2989
+ "grad_norm": 0.1720203459262848,
2990
+ "learning_rate": 3.688888888888889e-06,
2991
+ "loss": 0.0072,
2992
+ "step": 4170
2993
+ },
2994
+ {
2995
+ "epoch": 1.31,
2996
+ "grad_norm": 0.00042649006354622543,
2997
+ "learning_rate": 3.644444444444445e-06,
2998
+ "loss": 0.0049,
2999
+ "step": 4180
3000
+ },
3001
+ {
3002
+ "epoch": 1.31,
3003
+ "grad_norm": 0.015147966332733631,
3004
+ "learning_rate": 3.6000000000000003e-06,
3005
+ "loss": 0.0018,
3006
+ "step": 4190
3007
+ },
3008
+ {
3009
+ "epoch": 1.32,
3010
+ "grad_norm": 0.000541534333024174,
3011
+ "learning_rate": 3.555555555555556e-06,
3012
+ "loss": 0.0007,
3013
+ "step": 4200
3014
+ },
3015
+ {
3016
+ "epoch": 1.32,
3017
+ "grad_norm": 0.0003232716699130833,
3018
+ "learning_rate": 3.511111111111111e-06,
3019
+ "loss": 0.0003,
3020
+ "step": 4210
3021
+ },
3022
+ {
3023
+ "epoch": 1.32,
3024
+ "grad_norm": 0.00029635836835950613,
3025
+ "learning_rate": 3.4666666666666672e-06,
3026
+ "loss": 0.0059,
3027
+ "step": 4220
3028
+ },
3029
+ {
3030
+ "epoch": 1.33,
3031
+ "grad_norm": 0.000614231510553509,
3032
+ "learning_rate": 3.4222222222222224e-06,
3033
+ "loss": 0.0089,
3034
+ "step": 4230
3035
+ },
3036
+ {
3037
+ "epoch": 1.33,
3038
+ "grad_norm": 0.00032767339143902063,
3039
+ "learning_rate": 3.377777777777778e-06,
3040
+ "loss": 0.0039,
3041
+ "step": 4240
3042
+ },
3043
+ {
3044
+ "epoch": 1.33,
3045
+ "grad_norm": 0.00045120881986804307,
3046
+ "learning_rate": 3.3333333333333333e-06,
3047
+ "loss": 0.003,
3048
+ "step": 4250
3049
+ },
3050
+ {
3051
+ "epoch": 1.33,
3052
+ "grad_norm": 0.0003937460423912853,
3053
+ "learning_rate": 3.2888888888888894e-06,
3054
+ "loss": 0.0034,
3055
+ "step": 4260
3056
+ },
3057
+ {
3058
+ "epoch": 1.34,
3059
+ "grad_norm": 0.0006157084717415273,
3060
+ "learning_rate": 3.2444444444444446e-06,
3061
+ "loss": 0.0025,
3062
+ "step": 4270
3063
+ },
3064
+ {
3065
+ "epoch": 1.34,
3066
+ "grad_norm": 0.0005464738933369517,
3067
+ "learning_rate": 3.2000000000000003e-06,
3068
+ "loss": 0.0539,
3069
+ "step": 4280
3070
+ },
3071
+ {
3072
+ "epoch": 1.34,
3073
+ "grad_norm": 0.00032850648858584464,
3074
+ "learning_rate": 3.1555555555555555e-06,
3075
+ "loss": 0.0031,
3076
+ "step": 4290
3077
+ },
3078
+ {
3079
+ "epoch": 1.35,
3080
+ "grad_norm": 0.0006490522064268589,
3081
+ "learning_rate": 3.1111111111111116e-06,
3082
+ "loss": 0.0019,
3083
+ "step": 4300
3084
+ },
3085
+ {
3086
+ "epoch": 1.35,
3087
+ "grad_norm": 0.0008282049675472081,
3088
+ "learning_rate": 3.066666666666667e-06,
3089
+ "loss": 0.0019,
3090
+ "step": 4310
3091
+ },
3092
+ {
3093
+ "epoch": 1.35,
3094
+ "grad_norm": 0.0007463882211595774,
3095
+ "learning_rate": 3.0222222222222225e-06,
3096
+ "loss": 0.0173,
3097
+ "step": 4320
3098
+ },
3099
+ {
3100
+ "epoch": 1.36,
3101
+ "grad_norm": 0.10642620921134949,
3102
+ "learning_rate": 2.9777777777777777e-06,
3103
+ "loss": 0.0155,
3104
+ "step": 4330
3105
+ },
3106
+ {
3107
+ "epoch": 1.36,
3108
+ "grad_norm": 0.00021003976871725172,
3109
+ "learning_rate": 2.9333333333333338e-06,
3110
+ "loss": 0.0083,
3111
+ "step": 4340
3112
+ },
3113
+ {
3114
+ "epoch": 1.36,
3115
+ "grad_norm": 0.003369180951267481,
3116
+ "learning_rate": 2.888888888888889e-06,
3117
+ "loss": 0.0047,
3118
+ "step": 4350
3119
+ },
3120
+ {
3121
+ "epoch": 1.37,
3122
+ "grad_norm": 0.31446290016174316,
3123
+ "learning_rate": 2.8444444444444446e-06,
3124
+ "loss": 0.0158,
3125
+ "step": 4360
3126
+ },
3127
+ {
3128
+ "epoch": 1.37,
3129
+ "grad_norm": 0.4788835644721985,
3130
+ "learning_rate": 2.8000000000000003e-06,
3131
+ "loss": 0.0058,
3132
+ "step": 4370
3133
+ },
3134
+ {
3135
+ "epoch": 1.37,
3136
+ "grad_norm": 0.0008424910483881831,
3137
+ "learning_rate": 2.755555555555556e-06,
3138
+ "loss": 0.0035,
3139
+ "step": 4380
3140
+ },
3141
+ {
3142
+ "epoch": 1.38,
3143
+ "grad_norm": 0.0002819730725605041,
3144
+ "learning_rate": 2.7111111111111116e-06,
3145
+ "loss": 0.0061,
3146
+ "step": 4390
3147
+ },
3148
+ {
3149
+ "epoch": 1.38,
3150
+ "grad_norm": 0.14431558549404144,
3151
+ "learning_rate": 2.666666666666667e-06,
3152
+ "loss": 0.0021,
3153
+ "step": 4400
3154
+ },
3155
+ {
3156
+ "epoch": 1.38,
3157
+ "grad_norm": 0.00966221559792757,
3158
+ "learning_rate": 2.6222222222222225e-06,
3159
+ "loss": 0.0102,
3160
+ "step": 4410
3161
+ },
3162
+ {
3163
+ "epoch": 1.38,
3164
+ "grad_norm": 0.394972026348114,
3165
+ "learning_rate": 2.577777777777778e-06,
3166
+ "loss": 0.0035,
3167
+ "step": 4420
3168
+ },
3169
+ {
3170
+ "epoch": 1.39,
3171
+ "grad_norm": 0.0002667000226210803,
3172
+ "learning_rate": 2.5333333333333338e-06,
3173
+ "loss": 0.004,
3174
+ "step": 4430
3175
+ },
3176
+ {
3177
+ "epoch": 1.39,
3178
+ "grad_norm": 0.6008601784706116,
3179
+ "learning_rate": 2.488888888888889e-06,
3180
+ "loss": 0.0102,
3181
+ "step": 4440
3182
+ },
3183
+ {
3184
+ "epoch": 1.39,
3185
+ "grad_norm": 0.3898264765739441,
3186
+ "learning_rate": 2.4444444444444447e-06,
3187
+ "loss": 0.0069,
3188
+ "step": 4450
3189
+ },
3190
+ {
3191
+ "epoch": 1.4,
3192
+ "grad_norm": 0.0005270984838716686,
3193
+ "learning_rate": 2.4000000000000003e-06,
3194
+ "loss": 0.0046,
3195
+ "step": 4460
3196
+ },
3197
+ {
3198
+ "epoch": 1.4,
3199
+ "grad_norm": 0.5697627067565918,
3200
+ "learning_rate": 2.3555555555555555e-06,
3201
+ "loss": 0.0109,
3202
+ "step": 4470
3203
+ },
3204
+ {
3205
+ "epoch": 1.4,
3206
+ "grad_norm": 0.18540015816688538,
3207
+ "learning_rate": 2.311111111111111e-06,
3208
+ "loss": 0.0088,
3209
+ "step": 4480
3210
+ },
3211
+ {
3212
+ "epoch": 1.41,
3213
+ "grad_norm": 0.031030097976326942,
3214
+ "learning_rate": 2.266666666666667e-06,
3215
+ "loss": 0.0035,
3216
+ "step": 4490
3217
+ },
3218
+ {
3219
+ "epoch": 1.41,
3220
+ "grad_norm": 0.0005811112932860851,
3221
+ "learning_rate": 2.222222222222222e-06,
3222
+ "loss": 0.0019,
3223
+ "step": 4500
3224
+ },
3225
+ {
3226
+ "epoch": 1.41,
3227
+ "eval_loss": 0.017604324966669083,
3228
+ "eval_runtime": 105.8228,
3229
+ "eval_samples_per_second": 9.45,
3230
+ "eval_steps_per_second": 9.45,
3231
+ "step": 4500
3232
+ },
3233
+ {
3234
+ "epoch": 1.41,
3235
+ "grad_norm": 0.00042306468822062016,
3236
+ "learning_rate": 2.1777777777777777e-06,
3237
+ "loss": 0.0037,
3238
+ "step": 4510
3239
+ },
3240
+ {
3241
+ "epoch": 1.42,
3242
+ "grad_norm": 0.27694016695022583,
3243
+ "learning_rate": 2.133333333333334e-06,
3244
+ "loss": 0.0028,
3245
+ "step": 4520
3246
+ },
3247
+ {
3248
+ "epoch": 1.42,
3249
+ "grad_norm": 0.0005545311141759157,
3250
+ "learning_rate": 2.088888888888889e-06,
3251
+ "loss": 0.0078,
3252
+ "step": 4530
3253
+ },
3254
+ {
3255
+ "epoch": 1.42,
3256
+ "grad_norm": 0.000449089624453336,
3257
+ "learning_rate": 2.0444444444444447e-06,
3258
+ "loss": 0.0009,
3259
+ "step": 4540
3260
+ },
3261
+ {
3262
+ "epoch": 1.43,
3263
+ "grad_norm": 0.00020077303634025156,
3264
+ "learning_rate": 2.0000000000000003e-06,
3265
+ "loss": 0.0026,
3266
+ "step": 4550
3267
+ },
3268
+ {
3269
+ "epoch": 1.43,
3270
+ "grad_norm": 0.00046969045069999993,
3271
+ "learning_rate": 1.955555555555556e-06,
3272
+ "loss": 0.0025,
3273
+ "step": 4560
3274
+ },
3275
+ {
3276
+ "epoch": 1.43,
3277
+ "grad_norm": 0.00019804837938863784,
3278
+ "learning_rate": 1.9111111111111112e-06,
3279
+ "loss": 0.001,
3280
+ "step": 4570
3281
+ },
3282
+ {
3283
+ "epoch": 1.43,
3284
+ "grad_norm": 0.0003414790553506464,
3285
+ "learning_rate": 1.8666666666666669e-06,
3286
+ "loss": 0.0012,
3287
+ "step": 4580
3288
+ },
3289
+ {
3290
+ "epoch": 1.44,
3291
+ "grad_norm": 0.0005488083697855473,
3292
+ "learning_rate": 1.8222222222222225e-06,
3293
+ "loss": 0.0139,
3294
+ "step": 4590
3295
+ },
3296
+ {
3297
+ "epoch": 1.44,
3298
+ "grad_norm": 0.0003426743787713349,
3299
+ "learning_rate": 1.777777777777778e-06,
3300
+ "loss": 0.0132,
3301
+ "step": 4600
3302
+ },
3303
+ {
3304
+ "epoch": 1.44,
3305
+ "grad_norm": 0.0003723677364178002,
3306
+ "learning_rate": 1.7333333333333336e-06,
3307
+ "loss": 0.0047,
3308
+ "step": 4610
3309
+ },
3310
+ {
3311
+ "epoch": 1.45,
3312
+ "grad_norm": 0.00019281951244920492,
3313
+ "learning_rate": 1.688888888888889e-06,
3314
+ "loss": 0.0037,
3315
+ "step": 4620
3316
+ },
3317
+ {
3318
+ "epoch": 1.45,
3319
+ "grad_norm": 0.00028308393666520715,
3320
+ "learning_rate": 1.6444444444444447e-06,
3321
+ "loss": 0.0175,
3322
+ "step": 4630
3323
+ },
3324
+ {
3325
+ "epoch": 1.45,
3326
+ "grad_norm": 0.0002835668856278062,
3327
+ "learning_rate": 1.6000000000000001e-06,
3328
+ "loss": 0.0012,
3329
+ "step": 4640
3330
+ },
3331
+ {
3332
+ "epoch": 1.46,
3333
+ "grad_norm": 0.10114676505327225,
3334
+ "learning_rate": 1.5555555555555558e-06,
3335
+ "loss": 0.0067,
3336
+ "step": 4650
3337
+ },
3338
+ {
3339
+ "epoch": 1.46,
3340
+ "grad_norm": 0.10014703124761581,
3341
+ "learning_rate": 1.5111111111111112e-06,
3342
+ "loss": 0.0141,
3343
+ "step": 4660
3344
+ },
3345
+ {
3346
+ "epoch": 1.46,
3347
+ "grad_norm": 0.0002140298020094633,
3348
+ "learning_rate": 1.4666666666666669e-06,
3349
+ "loss": 0.004,
3350
+ "step": 4670
3351
+ },
3352
+ {
3353
+ "epoch": 1.47,
3354
+ "grad_norm": 0.00019562234228942543,
3355
+ "learning_rate": 1.4222222222222223e-06,
3356
+ "loss": 0.0019,
3357
+ "step": 4680
3358
+ },
3359
+ {
3360
+ "epoch": 1.47,
3361
+ "grad_norm": 1.0138946771621704,
3362
+ "learning_rate": 1.377777777777778e-06,
3363
+ "loss": 0.0105,
3364
+ "step": 4690
3365
+ },
3366
+ {
3367
+ "epoch": 1.47,
3368
+ "grad_norm": 0.06462077796459198,
3369
+ "learning_rate": 1.3333333333333334e-06,
3370
+ "loss": 0.0009,
3371
+ "step": 4700
3372
+ },
3373
+ {
3374
+ "epoch": 1.48,
3375
+ "grad_norm": 0.000309393391944468,
3376
+ "learning_rate": 1.288888888888889e-06,
3377
+ "loss": 0.0025,
3378
+ "step": 4710
3379
+ },
3380
+ {
3381
+ "epoch": 1.48,
3382
+ "grad_norm": 0.27942171692848206,
3383
+ "learning_rate": 1.2444444444444445e-06,
3384
+ "loss": 0.0037,
3385
+ "step": 4720
3386
+ },
3387
+ {
3388
+ "epoch": 1.48,
3389
+ "grad_norm": 0.21164338290691376,
3390
+ "learning_rate": 1.2000000000000002e-06,
3391
+ "loss": 0.0162,
3392
+ "step": 4730
3393
+ },
3394
+ {
3395
+ "epoch": 1.48,
3396
+ "grad_norm": 0.3361373841762543,
3397
+ "learning_rate": 1.1555555555555556e-06,
3398
+ "loss": 0.0077,
3399
+ "step": 4740
3400
+ },
3401
+ {
3402
+ "epoch": 1.49,
3403
+ "grad_norm": 0.0007883062935434282,
3404
+ "learning_rate": 1.111111111111111e-06,
3405
+ "loss": 0.0136,
3406
+ "step": 4750
3407
+ },
3408
+ {
3409
+ "epoch": 1.49,
3410
+ "grad_norm": 0.0004852807614952326,
3411
+ "learning_rate": 1.066666666666667e-06,
3412
+ "loss": 0.0004,
3413
+ "step": 4760
3414
+ },
3415
+ {
3416
+ "epoch": 1.49,
3417
+ "grad_norm": 0.37207266688346863,
3418
+ "learning_rate": 1.0222222222222223e-06,
3419
+ "loss": 0.0204,
3420
+ "step": 4770
3421
+ },
3422
+ {
3423
+ "epoch": 1.5,
3424
+ "grad_norm": 0.0012206656392663717,
3425
+ "learning_rate": 9.77777777777778e-07,
3426
+ "loss": 0.0265,
3427
+ "step": 4780
3428
+ },
3429
+ {
3430
+ "epoch": 1.5,
3431
+ "grad_norm": 0.000247218762524426,
3432
+ "learning_rate": 9.333333333333334e-07,
3433
+ "loss": 0.0021,
3434
+ "step": 4790
3435
+ },
3436
+ {
3437
+ "epoch": 1.5,
3438
+ "grad_norm": 0.19631250202655792,
3439
+ "learning_rate": 8.88888888888889e-07,
3440
+ "loss": 0.014,
3441
+ "step": 4800
3442
+ },
3443
+ {
3444
+ "epoch": 1.51,
3445
+ "grad_norm": 0.00041647368925623596,
3446
+ "learning_rate": 8.444444444444445e-07,
3447
+ "loss": 0.0027,
3448
+ "step": 4810
3449
+ },
3450
+ {
3451
+ "epoch": 1.51,
3452
+ "grad_norm": 0.0005213326658122241,
3453
+ "learning_rate": 8.000000000000001e-07,
3454
+ "loss": 0.0127,
3455
+ "step": 4820
3456
+ },
3457
+ {
3458
+ "epoch": 1.51,
3459
+ "grad_norm": 0.10857554525136948,
3460
+ "learning_rate": 7.555555555555556e-07,
3461
+ "loss": 0.0109,
3462
+ "step": 4830
3463
+ },
3464
+ {
3465
+ "epoch": 1.52,
3466
+ "grad_norm": 0.14191143214702606,
3467
+ "learning_rate": 7.111111111111112e-07,
3468
+ "loss": 0.0039,
3469
+ "step": 4840
3470
+ },
3471
+ {
3472
+ "epoch": 1.52,
3473
+ "grad_norm": 0.036222055554389954,
3474
+ "learning_rate": 6.666666666666667e-07,
3475
+ "loss": 0.0143,
3476
+ "step": 4850
3477
+ },
3478
+ {
3479
+ "epoch": 1.52,
3480
+ "grad_norm": 0.0002471502812113613,
3481
+ "learning_rate": 6.222222222222223e-07,
3482
+ "loss": 0.0029,
3483
+ "step": 4860
3484
+ },
3485
+ {
3486
+ "epoch": 1.53,
3487
+ "grad_norm": 0.0002270705153932795,
3488
+ "learning_rate": 5.777777777777778e-07,
3489
+ "loss": 0.0167,
3490
+ "step": 4870
3491
+ },
3492
+ {
3493
+ "epoch": 1.53,
3494
+ "grad_norm": 0.00021865036978852004,
3495
+ "learning_rate": 5.333333333333335e-07,
3496
+ "loss": 0.0023,
3497
+ "step": 4880
3498
+ },
3499
+ {
3500
+ "epoch": 1.53,
3501
+ "grad_norm": 0.002427297178655863,
3502
+ "learning_rate": 4.88888888888889e-07,
3503
+ "loss": 0.0012,
3504
+ "step": 4890
3505
+ },
3506
+ {
3507
+ "epoch": 1.54,
3508
+ "grad_norm": 0.00024957634741440415,
3509
+ "learning_rate": 4.444444444444445e-07,
3510
+ "loss": 0.0099,
3511
+ "step": 4900
3512
+ },
3513
+ {
3514
+ "epoch": 1.54,
3515
+ "grad_norm": 0.5699187517166138,
3516
+ "learning_rate": 4.0000000000000003e-07,
3517
+ "loss": 0.0316,
3518
+ "step": 4910
3519
+ },
3520
+ {
3521
+ "epoch": 1.54,
3522
+ "grad_norm": 0.000845414528157562,
3523
+ "learning_rate": 3.555555555555556e-07,
3524
+ "loss": 0.0032,
3525
+ "step": 4920
3526
+ },
3527
+ {
3528
+ "epoch": 1.54,
3529
+ "grad_norm": 0.00035873273736797273,
3530
+ "learning_rate": 3.111111111111111e-07,
3531
+ "loss": 0.0053,
3532
+ "step": 4930
3533
+ },
3534
+ {
3535
+ "epoch": 1.55,
3536
+ "grad_norm": 0.00040514240390621126,
3537
+ "learning_rate": 2.666666666666667e-07,
3538
+ "loss": 0.0015,
3539
+ "step": 4940
3540
+ },
3541
+ {
3542
+ "epoch": 1.55,
3543
+ "grad_norm": 0.0003163764195051044,
3544
+ "learning_rate": 2.2222222222222224e-07,
3545
+ "loss": 0.0031,
3546
+ "step": 4950
3547
+ },
3548
+ {
3549
+ "epoch": 1.55,
3550
+ "grad_norm": 0.0004442491626832634,
3551
+ "learning_rate": 1.777777777777778e-07,
3552
+ "loss": 0.0119,
3553
+ "step": 4960
3554
+ },
3555
+ {
3556
+ "epoch": 1.56,
3557
+ "grad_norm": 0.0004997169016860425,
3558
+ "learning_rate": 1.3333333333333336e-07,
3559
+ "loss": 0.0173,
3560
+ "step": 4970
3561
+ },
3562
+ {
3563
+ "epoch": 1.56,
3564
+ "grad_norm": 0.00029198831180110574,
3565
+ "learning_rate": 8.88888888888889e-08,
3566
+ "loss": 0.0056,
3567
+ "step": 4980
3568
+ },
3569
+ {
3570
+ "epoch": 1.56,
3571
+ "grad_norm": 0.0015217772452160716,
3572
+ "learning_rate": 4.444444444444445e-08,
3573
+ "loss": 0.0066,
3574
+ "step": 4990
3575
+ },
3576
+ {
3577
+ "epoch": 1.57,
3578
+ "grad_norm": 0.0002698723692446947,
3579
+ "learning_rate": 0.0,
3580
+ "loss": 0.0115,
3581
+ "step": 5000
3582
+ },
3583
+ {
3584
+ "epoch": 1.57,
3585
+ "eval_loss": 0.022028431296348572,
3586
+ "eval_runtime": 105.7251,
3587
+ "eval_samples_per_second": 9.458,
3588
+ "eval_steps_per_second": 9.458,
3589
+ "step": 5000
3590
  }
3591
  ],
3592
  "logging_steps": 10,
 
3594
  "num_input_tokens_seen": 0,
3595
  "num_train_epochs": 2,
3596
  "save_steps": 1000,
3597
+ "total_flos": 8.05066044384215e+16,
3598
  "train_batch_size": 4,
3599
  "trial_name": null,
3600
  "trial_params": null