File size: 2,206 Bytes
74733dc fa592aa eb478cc |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
{'loss': 1.3893, 'grad_norm': 1.0231168270111084, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18} {'loss': 1.3887, 'grad_norm': 0.603848934173584, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35} {'loss': 1.389, 'grad_norm': 0.6142033338546753, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53} {'loss': 1.3882, 'grad_norm': 0.6350305676460266, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7} {'loss': 1.388, 'grad_norm': 0.5414144396781921, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88} [0 1 0 ... 1 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862838745117188, 'eval_accuracy': 0.25842696629213485, 'eval_runtime': 28.4508, 'eval_samples_per_second': 147.026, 'eval_steps_per_second': 2.32, 'epoch': 1.0} {'loss': 1.3877, 'grad_norm': 0.5448923707008362, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05} {'loss': 1.3884, 'grad_norm': 0.935318648815155, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23} {'loss': 1.392, 'grad_norm': 0.72067791223526, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4} {'loss': 1.3902, 'grad_norm': 0.9271273612976074, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58} {'loss': 1.3895, 'grad_norm': 0.7880529165267944, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75} {'loss': 1.3891, 'grad_norm': 0.6999589800834656, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93} [1 2 1 ... 1 0 1] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862943649291992, 'eval_accuracy': 0.26081759502749224, 'eval_runtime': 28.4589, 'eval_samples_per_second': 146.984, 'eval_steps_per_second': 2.319, 'epoch': 2.0} {'loss': 1.3886, 'grad_norm': 0.6625175476074219, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1} {'loss': 1.388, 'grad_norm': 0.8636599779129028, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28} {'loss': 1.3887, 'grad_norm': 0.8152417540550232, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45} {'loss': 1.3881, 'grad_norm': 0.7401803731918335, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63} {'loss': 1.3883, 'grad_norm': 1.0317069292068481, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8} {'loss': 1.3882, 'grad_norm': 0.6923180818557739, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98} |