|
[2025-01-12 02:36:07,784] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:12,906] [WARNING] [runner.py:215:fetch_hostfile] Unable to find hostfile, will proceed with training with local resources only. |
|
[2025-01-12 02:36:12,907] [INFO] [runner.py:607:main] cmd = /home/juntao/Miniconda3/envs/safe-sora/bin/python -u -m deepspeed.launcher.launch --world_info=eyJsb2NhbGhvc3QiOiBbMCwgMSwgMiwgMywgNCwgNSwgNiwgN119 --master_addr=127.0.0.1 --master_port=61244 --enable_each_rank_log=None examples/reward_model/train_cost.py --deepspeed examples/scripts/ds_zero2.json --version v1 --run_name reward-harmlessness --model_name_or_path /home/juntao/Models/LanguageBind/Video-LLaVA-7B --train_data_path /home/juntao/Data/safe-sora/unsafe_pairs/config-train.json --eval_data_path /home/juntao/Data/safe-sora/unsafe_pairs/config-test.json --preference_dimension harmlessness --image_dir /home/juntao/Data/safe-sora/videos --video_dir /home/juntao/Data/safe-sora/videos --image_tower LanguageBind/LanguageBind_Image --video_tower LanguageBind/LanguageBind_Video_merge --mm_projector_type mlp2x_gelu --pretrain_mm_mlp_adapter /home/juntao/Models/LanguageBind/Video-LLaVA-Pretrain-7B/mm_projector.bin --mm_vision_select_layer -2 --mm_use_im_start_end False --mm_use_im_patch_token False --image_aspect_ratio pad --group_by_modality_length True --output_dir /data/sora/Projects/safe-sora/outputs/cost/reward-harmlessness --cache_dir ./models/cache_dir --num_train_epochs 4 --per_device_train_batch_size 8 --per_device_eval_batch_size 8 --gradient_accumulation_steps 1 --evaluation_strategy steps --eval_steps 0.0499 --load_best_model_at_end True --metric_for_best_model accuracy --greater_is_better True --logging_first_step True --save_strategy steps --save_steps 0.0499 --save_total_limit 1 --learning_rate 2e-5 --weight_decay 0.1 --warmup_ratio 0.03 --lr_scheduler_type cosine --logging_steps 1 --model_max_length 2048 --tokenizer_model_max_length 3072 --gradient_checkpointing True --dataloader_num_workers 8 --report_to wandb --bf16 True --tf32 True --num_frames 8 |
|
[2025-01-12 02:36:14,660] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:16,228] [INFO] [launch.py:146:main] WORLD INFO DICT: {'localhost': [0, 1, 2, 3, 4, 5, 6, 7]} |
|
[2025-01-12 02:36:16,228] [INFO] [launch.py:152:main] nnodes=1, num_local_procs=8, node_rank=0 |
|
[2025-01-12 02:36:16,228] [INFO] [launch.py:163:main] global_rank_mapping=defaultdict(<class 'list'>, {'localhost': [0, 1, 2, 3, 4, 5, 6, 7]}) |
|
[2025-01-12 02:36:16,228] [INFO] [launch.py:164:main] dist_world_size=8 |
|
[2025-01-12 02:36:16,228] [INFO] [launch.py:168:main] Setting CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 |
|
[2025-01-12 02:36:16,229] [INFO] [launch.py:256:main] process 1153309 spawned with command: ['/home/juntao/Miniconda3/envs/safe-sora/bin/python', '-u', 'examples/reward_model/train_cost.py', '--local_rank=0', '--deepspeed', 'examples/scripts/ds_zero2.json', '--version', 'v1', '--run_name', 'reward-harmlessness', '--model_name_or_path', '/home/juntao/Models/LanguageBind/Video-LLaVA-7B', '--train_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-train.json', '--eval_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-test.json', '--preference_dimension', 'harmlessness', '--image_dir', '/home/juntao/Data/safe-sora/videos', '--video_dir', '/home/juntao/Data/safe-sora/videos', '--image_tower', 'LanguageBind/LanguageBind_Image', '--video_tower', 'LanguageBind/LanguageBind_Video_merge', '--mm_projector_type', 'mlp2x_gelu', '--pretrain_mm_mlp_adapter', '/home/juntao/Models/LanguageBind/Video-LLaVA-Pretrain-7B/mm_projector.bin', '--mm_vision_select_layer', '-2', '--mm_use_im_start_end', 'False', '--mm_use_im_patch_token', 'False', '--image_aspect_ratio', 'pad', '--group_by_modality_length', 'True', '--output_dir', '/data/sora/Projects/safe-sora/outputs/cost/reward-harmlessness', '--cache_dir', './models/cache_dir', '--num_train_epochs', '4', '--per_device_train_batch_size', '8', '--per_device_eval_batch_size', '8', '--gradient_accumulation_steps', '1', '--evaluation_strategy', 'steps', '--eval_steps', '0.0499', '--load_best_model_at_end', 'True', '--metric_for_best_model', 'accuracy', '--greater_is_better', 'True', '--logging_first_step', 'True', '--save_strategy', 'steps', '--save_steps', '0.0499', '--save_total_limit', '1', '--learning_rate', '2e-5', '--weight_decay', '0.1', '--warmup_ratio', '0.03', '--lr_scheduler_type', 'cosine', '--logging_steps', '1', '--model_max_length', '2048', '--tokenizer_model_max_length', '3072', '--gradient_checkpointing', 'True', '--dataloader_num_workers', '8', '--report_to', 'wandb', '--bf16', 'True', '--tf32', 'True', '--num_frames', '8'] |
|
[2025-01-12 02:36:16,230] [INFO] [launch.py:256:main] process 1153310 spawned with command: ['/home/juntao/Miniconda3/envs/safe-sora/bin/python', '-u', 'examples/reward_model/train_cost.py', '--local_rank=1', '--deepspeed', 'examples/scripts/ds_zero2.json', '--version', 'v1', '--run_name', 'reward-harmlessness', '--model_name_or_path', '/home/juntao/Models/LanguageBind/Video-LLaVA-7B', '--train_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-train.json', '--eval_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-test.json', '--preference_dimension', 'harmlessness', '--image_dir', '/home/juntao/Data/safe-sora/videos', '--video_dir', '/home/juntao/Data/safe-sora/videos', '--image_tower', 'LanguageBind/LanguageBind_Image', '--video_tower', 'LanguageBind/LanguageBind_Video_merge', '--mm_projector_type', 'mlp2x_gelu', '--pretrain_mm_mlp_adapter', '/home/juntao/Models/LanguageBind/Video-LLaVA-Pretrain-7B/mm_projector.bin', '--mm_vision_select_layer', '-2', '--mm_use_im_start_end', 'False', '--mm_use_im_patch_token', 'False', '--image_aspect_ratio', 'pad', '--group_by_modality_length', 'True', '--output_dir', '/data/sora/Projects/safe-sora/outputs/cost/reward-harmlessness', '--cache_dir', './models/cache_dir', '--num_train_epochs', '4', '--per_device_train_batch_size', '8', '--per_device_eval_batch_size', '8', '--gradient_accumulation_steps', '1', '--evaluation_strategy', 'steps', '--eval_steps', '0.0499', '--load_best_model_at_end', 'True', '--metric_for_best_model', 'accuracy', '--greater_is_better', 'True', '--logging_first_step', 'True', '--save_strategy', 'steps', '--save_steps', '0.0499', '--save_total_limit', '1', '--learning_rate', '2e-5', '--weight_decay', '0.1', '--warmup_ratio', '0.03', '--lr_scheduler_type', 'cosine', '--logging_steps', '1', '--model_max_length', '2048', '--tokenizer_model_max_length', '3072', '--gradient_checkpointing', 'True', '--dataloader_num_workers', '8', '--report_to', 'wandb', '--bf16', 'True', '--tf32', 'True', '--num_frames', '8'] |
|
[2025-01-12 02:36:16,230] [INFO] [launch.py:256:main] process 1153311 spawned with command: ['/home/juntao/Miniconda3/envs/safe-sora/bin/python', '-u', 'examples/reward_model/train_cost.py', '--local_rank=2', '--deepspeed', 'examples/scripts/ds_zero2.json', '--version', 'v1', '--run_name', 'reward-harmlessness', '--model_name_or_path', '/home/juntao/Models/LanguageBind/Video-LLaVA-7B', '--train_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-train.json', '--eval_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-test.json', '--preference_dimension', 'harmlessness', '--image_dir', '/home/juntao/Data/safe-sora/videos', '--video_dir', '/home/juntao/Data/safe-sora/videos', '--image_tower', 'LanguageBind/LanguageBind_Image', '--video_tower', 'LanguageBind/LanguageBind_Video_merge', '--mm_projector_type', 'mlp2x_gelu', '--pretrain_mm_mlp_adapter', '/home/juntao/Models/LanguageBind/Video-LLaVA-Pretrain-7B/mm_projector.bin', '--mm_vision_select_layer', '-2', '--mm_use_im_start_end', 'False', '--mm_use_im_patch_token', 'False', '--image_aspect_ratio', 'pad', '--group_by_modality_length', 'True', '--output_dir', '/data/sora/Projects/safe-sora/outputs/cost/reward-harmlessness', '--cache_dir', './models/cache_dir', '--num_train_epochs', '4', '--per_device_train_batch_size', '8', '--per_device_eval_batch_size', '8', '--gradient_accumulation_steps', '1', '--evaluation_strategy', 'steps', '--eval_steps', '0.0499', '--load_best_model_at_end', 'True', '--metric_for_best_model', 'accuracy', '--greater_is_better', 'True', '--logging_first_step', 'True', '--save_strategy', 'steps', '--save_steps', '0.0499', '--save_total_limit', '1', '--learning_rate', '2e-5', '--weight_decay', '0.1', '--warmup_ratio', '0.03', '--lr_scheduler_type', 'cosine', '--logging_steps', '1', '--model_max_length', '2048', '--tokenizer_model_max_length', '3072', '--gradient_checkpointing', 'True', '--dataloader_num_workers', '8', '--report_to', 'wandb', '--bf16', 'True', '--tf32', 'True', '--num_frames', '8'] |
|
[2025-01-12 02:36:16,231] [INFO] [launch.py:256:main] process 1153312 spawned with command: ['/home/juntao/Miniconda3/envs/safe-sora/bin/python', '-u', 'examples/reward_model/train_cost.py', '--local_rank=3', '--deepspeed', 'examples/scripts/ds_zero2.json', '--version', 'v1', '--run_name', 'reward-harmlessness', '--model_name_or_path', '/home/juntao/Models/LanguageBind/Video-LLaVA-7B', '--train_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-train.json', '--eval_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-test.json', '--preference_dimension', 'harmlessness', '--image_dir', '/home/juntao/Data/safe-sora/videos', '--video_dir', '/home/juntao/Data/safe-sora/videos', '--image_tower', 'LanguageBind/LanguageBind_Image', '--video_tower', 'LanguageBind/LanguageBind_Video_merge', '--mm_projector_type', 'mlp2x_gelu', '--pretrain_mm_mlp_adapter', '/home/juntao/Models/LanguageBind/Video-LLaVA-Pretrain-7B/mm_projector.bin', '--mm_vision_select_layer', '-2', '--mm_use_im_start_end', 'False', '--mm_use_im_patch_token', 'False', '--image_aspect_ratio', 'pad', '--group_by_modality_length', 'True', '--output_dir', '/data/sora/Projects/safe-sora/outputs/cost/reward-harmlessness', '--cache_dir', './models/cache_dir', '--num_train_epochs', '4', '--per_device_train_batch_size', '8', '--per_device_eval_batch_size', '8', '--gradient_accumulation_steps', '1', '--evaluation_strategy', 'steps', '--eval_steps', '0.0499', '--load_best_model_at_end', 'True', '--metric_for_best_model', 'accuracy', '--greater_is_better', 'True', '--logging_first_step', 'True', '--save_strategy', 'steps', '--save_steps', '0.0499', '--save_total_limit', '1', '--learning_rate', '2e-5', '--weight_decay', '0.1', '--warmup_ratio', '0.03', '--lr_scheduler_type', 'cosine', '--logging_steps', '1', '--model_max_length', '2048', '--tokenizer_model_max_length', '3072', '--gradient_checkpointing', 'True', '--dataloader_num_workers', '8', '--report_to', 'wandb', '--bf16', 'True', '--tf32', 'True', '--num_frames', '8'] |
|
[2025-01-12 02:36:16,232] [INFO] [launch.py:256:main] process 1153313 spawned with command: ['/home/juntao/Miniconda3/envs/safe-sora/bin/python', '-u', 'examples/reward_model/train_cost.py', '--local_rank=4', '--deepspeed', 'examples/scripts/ds_zero2.json', '--version', 'v1', '--run_name', 'reward-harmlessness', '--model_name_or_path', '/home/juntao/Models/LanguageBind/Video-LLaVA-7B', '--train_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-train.json', '--eval_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-test.json', '--preference_dimension', 'harmlessness', '--image_dir', '/home/juntao/Data/safe-sora/videos', '--video_dir', '/home/juntao/Data/safe-sora/videos', '--image_tower', 'LanguageBind/LanguageBind_Image', '--video_tower', 'LanguageBind/LanguageBind_Video_merge', '--mm_projector_type', 'mlp2x_gelu', '--pretrain_mm_mlp_adapter', '/home/juntao/Models/LanguageBind/Video-LLaVA-Pretrain-7B/mm_projector.bin', '--mm_vision_select_layer', '-2', '--mm_use_im_start_end', 'False', '--mm_use_im_patch_token', 'False', '--image_aspect_ratio', 'pad', '--group_by_modality_length', 'True', '--output_dir', '/data/sora/Projects/safe-sora/outputs/cost/reward-harmlessness', '--cache_dir', './models/cache_dir', '--num_train_epochs', '4', '--per_device_train_batch_size', '8', '--per_device_eval_batch_size', '8', '--gradient_accumulation_steps', '1', '--evaluation_strategy', 'steps', '--eval_steps', '0.0499', '--load_best_model_at_end', 'True', '--metric_for_best_model', 'accuracy', '--greater_is_better', 'True', '--logging_first_step', 'True', '--save_strategy', 'steps', '--save_steps', '0.0499', '--save_total_limit', '1', '--learning_rate', '2e-5', '--weight_decay', '0.1', '--warmup_ratio', '0.03', '--lr_scheduler_type', 'cosine', '--logging_steps', '1', '--model_max_length', '2048', '--tokenizer_model_max_length', '3072', '--gradient_checkpointing', 'True', '--dataloader_num_workers', '8', '--report_to', 'wandb', '--bf16', 'True', '--tf32', 'True', '--num_frames', '8'] |
|
[2025-01-12 02:36:16,232] [INFO] [launch.py:256:main] process 1153314 spawned with command: ['/home/juntao/Miniconda3/envs/safe-sora/bin/python', '-u', 'examples/reward_model/train_cost.py', '--local_rank=5', '--deepspeed', 'examples/scripts/ds_zero2.json', '--version', 'v1', '--run_name', 'reward-harmlessness', '--model_name_or_path', '/home/juntao/Models/LanguageBind/Video-LLaVA-7B', '--train_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-train.json', '--eval_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-test.json', '--preference_dimension', 'harmlessness', '--image_dir', '/home/juntao/Data/safe-sora/videos', '--video_dir', '/home/juntao/Data/safe-sora/videos', '--image_tower', 'LanguageBind/LanguageBind_Image', '--video_tower', 'LanguageBind/LanguageBind_Video_merge', '--mm_projector_type', 'mlp2x_gelu', '--pretrain_mm_mlp_adapter', '/home/juntao/Models/LanguageBind/Video-LLaVA-Pretrain-7B/mm_projector.bin', '--mm_vision_select_layer', '-2', '--mm_use_im_start_end', 'False', '--mm_use_im_patch_token', 'False', '--image_aspect_ratio', 'pad', '--group_by_modality_length', 'True', '--output_dir', '/data/sora/Projects/safe-sora/outputs/cost/reward-harmlessness', '--cache_dir', './models/cache_dir', '--num_train_epochs', '4', '--per_device_train_batch_size', '8', '--per_device_eval_batch_size', '8', '--gradient_accumulation_steps', '1', '--evaluation_strategy', 'steps', '--eval_steps', '0.0499', '--load_best_model_at_end', 'True', '--metric_for_best_model', 'accuracy', '--greater_is_better', 'True', '--logging_first_step', 'True', '--save_strategy', 'steps', '--save_steps', '0.0499', '--save_total_limit', '1', '--learning_rate', '2e-5', '--weight_decay', '0.1', '--warmup_ratio', '0.03', '--lr_scheduler_type', 'cosine', '--logging_steps', '1', '--model_max_length', '2048', '--tokenizer_model_max_length', '3072', '--gradient_checkpointing', 'True', '--dataloader_num_workers', '8', '--report_to', 'wandb', '--bf16', 'True', '--tf32', 'True', '--num_frames', '8'] |
|
[2025-01-12 02:36:16,233] [INFO] [launch.py:256:main] process 1153315 spawned with command: ['/home/juntao/Miniconda3/envs/safe-sora/bin/python', '-u', 'examples/reward_model/train_cost.py', '--local_rank=6', '--deepspeed', 'examples/scripts/ds_zero2.json', '--version', 'v1', '--run_name', 'reward-harmlessness', '--model_name_or_path', '/home/juntao/Models/LanguageBind/Video-LLaVA-7B', '--train_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-train.json', '--eval_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-test.json', '--preference_dimension', 'harmlessness', '--image_dir', '/home/juntao/Data/safe-sora/videos', '--video_dir', '/home/juntao/Data/safe-sora/videos', '--image_tower', 'LanguageBind/LanguageBind_Image', '--video_tower', 'LanguageBind/LanguageBind_Video_merge', '--mm_projector_type', 'mlp2x_gelu', '--pretrain_mm_mlp_adapter', '/home/juntao/Models/LanguageBind/Video-LLaVA-Pretrain-7B/mm_projector.bin', '--mm_vision_select_layer', '-2', '--mm_use_im_start_end', 'False', '--mm_use_im_patch_token', 'False', '--image_aspect_ratio', 'pad', '--group_by_modality_length', 'True', '--output_dir', '/data/sora/Projects/safe-sora/outputs/cost/reward-harmlessness', '--cache_dir', './models/cache_dir', '--num_train_epochs', '4', '--per_device_train_batch_size', '8', '--per_device_eval_batch_size', '8', '--gradient_accumulation_steps', '1', '--evaluation_strategy', 'steps', '--eval_steps', '0.0499', '--load_best_model_at_end', 'True', '--metric_for_best_model', 'accuracy', '--greater_is_better', 'True', '--logging_first_step', 'True', '--save_strategy', 'steps', '--save_steps', '0.0499', '--save_total_limit', '1', '--learning_rate', '2e-5', '--weight_decay', '0.1', '--warmup_ratio', '0.03', '--lr_scheduler_type', 'cosine', '--logging_steps', '1', '--model_max_length', '2048', '--tokenizer_model_max_length', '3072', '--gradient_checkpointing', 'True', '--dataloader_num_workers', '8', '--report_to', 'wandb', '--bf16', 'True', '--tf32', 'True', '--num_frames', '8'] |
|
[2025-01-12 02:36:16,233] [INFO] [launch.py:256:main] process 1153316 spawned with command: ['/home/juntao/Miniconda3/envs/safe-sora/bin/python', '-u', 'examples/reward_model/train_cost.py', '--local_rank=7', '--deepspeed', 'examples/scripts/ds_zero2.json', '--version', 'v1', '--run_name', 'reward-harmlessness', '--model_name_or_path', '/home/juntao/Models/LanguageBind/Video-LLaVA-7B', '--train_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-train.json', '--eval_data_path', '/home/juntao/Data/safe-sora/unsafe_pairs/config-test.json', '--preference_dimension', 'harmlessness', '--image_dir', '/home/juntao/Data/safe-sora/videos', '--video_dir', '/home/juntao/Data/safe-sora/videos', '--image_tower', 'LanguageBind/LanguageBind_Image', '--video_tower', 'LanguageBind/LanguageBind_Video_merge', '--mm_projector_type', 'mlp2x_gelu', '--pretrain_mm_mlp_adapter', '/home/juntao/Models/LanguageBind/Video-LLaVA-Pretrain-7B/mm_projector.bin', '--mm_vision_select_layer', '-2', '--mm_use_im_start_end', 'False', '--mm_use_im_patch_token', 'False', '--image_aspect_ratio', 'pad', '--group_by_modality_length', 'True', '--output_dir', '/data/sora/Projects/safe-sora/outputs/cost/reward-harmlessness', '--cache_dir', './models/cache_dir', '--num_train_epochs', '4', '--per_device_train_batch_size', '8', '--per_device_eval_batch_size', '8', '--gradient_accumulation_steps', '1', '--evaluation_strategy', 'steps', '--eval_steps', '0.0499', '--load_best_model_at_end', 'True', '--metric_for_best_model', 'accuracy', '--greater_is_better', 'True', '--logging_first_step', 'True', '--save_strategy', 'steps', '--save_steps', '0.0499', '--save_total_limit', '1', '--learning_rate', '2e-5', '--weight_decay', '0.1', '--warmup_ratio', '0.03', '--lr_scheduler_type', 'cosine', '--logging_steps', '1', '--model_max_length', '2048', '--tokenizer_model_max_length', '3072', '--gradient_checkpointing', 'True', '--dataloader_num_workers', '8', '--report_to', 'wandb', '--bf16', 'True', '--tf32', 'True', '--num_frames', '8'] |
|
[2025-01-12 02:36:20,800] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:20,882] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:20,910] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:20,937] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:20,949] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:20,965] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:20,982] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:20,982] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect) |
|
[2025-01-12 02:36:23,010] [INFO] [comm.py:652:init_distributed] cdb=None |
|
[2025-01-12 02:36:23,010] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl |
|
[2025-01-12 02:36:23,016] [INFO] [comm.py:652:init_distributed] cdb=None |
|
[2025-01-12 02:36:23,023] [INFO] [comm.py:652:init_distributed] cdb=None |
|
[2025-01-12 02:36:23,024] [INFO] [comm.py:652:init_distributed] cdb=None |
|
[2025-01-12 02:36:23,026] [INFO] [comm.py:652:init_distributed] cdb=None |
|
[2025-01-12 02:36:23,038] [INFO] [comm.py:652:init_distributed] cdb=None |
|
[2025-01-12 02:36:23,056] [INFO] [comm.py:652:init_distributed] cdb=None |
|
[2025-01-12 02:36:23,080] [INFO] [comm.py:652:init_distributed] cdb=None |
|
Cost training begins!!!! |
|
{'train_accuracy': 0.4375, 'epoch': 0} |
|
{'loss': 2.3203, 'grad_norm': 82.71702575683594, 'learning_rate': 4.347826086956522e-07, 'epoch': 0.0} |
|
{'train_accuracy': 0.453125, 'epoch': 0.0} |
|
{'loss': 2.1104, 'grad_norm': 33.55039978027344, 'learning_rate': 8.695652173913044e-07, 'epoch': 0.01} |
|
{'train_accuracy': 0.40625, 'epoch': 0.01} |
|
{'loss': 2.4414, 'grad_norm': 120.34129333496094, 'learning_rate': 1.3043478260869566e-06, 'epoch': 0.01} |
|
{'train_accuracy': 0.3125, 'epoch': 0.01} |
|
{'loss': 2.4277, 'grad_norm': 75.6687240600586, 'learning_rate': 1.7391304347826088e-06, 'epoch': 0.01} |
|
{'train_accuracy': 0.46875, 'epoch': 0.01} |
|
{'loss': 2.3184, 'grad_norm': 60.28215026855469, 'learning_rate': 2.173913043478261e-06, 'epoch': 0.01} |
|
{'train_accuracy': 0.4375, 'epoch': 0.01} |
|
{'loss': 2.3105, 'grad_norm': 86.08032989501953, 'learning_rate': 2.6086956521739132e-06, 'epoch': 0.02} |
|
{'train_accuracy': 0.53125, 'epoch': 0.02} |
|
{'loss': 2.499, 'grad_norm': 243.07888793945312, 'learning_rate': 3.043478260869566e-06, 'epoch': 0.02} |
|
{'train_accuracy': 0.515625, 'epoch': 0.02} |
|
{'loss': 2.2891, 'grad_norm': 176.44801330566406, 'learning_rate': 3.4782608695652175e-06, 'epoch': 0.02} |
|
{'train_accuracy': 0.578125, 'epoch': 0.02} |
|
{'loss': 2.1494, 'grad_norm': 28.586137771606445, 'learning_rate': 3.91304347826087e-06, 'epoch': 0.02} |
|
{'train_accuracy': 0.59375, 'epoch': 0.02} |
|
{'loss': 1.9541, 'grad_norm': 21.67037582397461, 'learning_rate': 4.347826086956522e-06, 'epoch': 0.03} |
|
{'train_accuracy': 0.578125, 'epoch': 0.03} |
|
{'loss': 2.1279, 'grad_norm': 111.27401733398438, 'learning_rate': 4.782608695652174e-06, 'epoch': 0.03} |
|
{'train_accuracy': 0.640625, 'epoch': 0.03} |
|
{'loss': 2.0986, 'grad_norm': 106.67390441894531, 'learning_rate': 5.2173913043478265e-06, 'epoch': 0.03} |
|
{'train_accuracy': 0.59375, 'epoch': 0.03} |
|
{'loss': 1.8252, 'grad_norm': 58.74238586425781, 'learning_rate': 5.652173913043479e-06, 'epoch': 0.03} |
|
{'train_accuracy': 0.625, 'epoch': 0.03} |
|
{'loss': 1.8164, 'grad_norm': 78.9658203125, 'learning_rate': 6.086956521739132e-06, 'epoch': 0.04} |
|
{'train_accuracy': 0.625, 'epoch': 0.04} |
|
{'loss': 1.7021, 'grad_norm': 8.593488693237305, 'learning_rate': 6.521739130434783e-06, 'epoch': 0.04} |
|
{'train_accuracy': 0.65625, 'epoch': 0.04} |
|
{'loss': 2.0029, 'grad_norm': 91.2029037475586, 'learning_rate': 6.956521739130435e-06, 'epoch': 0.04} |
|
{'train_accuracy': 0.765625, 'epoch': 0.04} |
|
{'loss': 1.6465, 'grad_norm': 67.36499786376953, 'learning_rate': 7.391304347826087e-06, 'epoch': 0.04} |
|
{'train_accuracy': 0.625, 'epoch': 0.04} |
|
{'loss': 1.7539, 'grad_norm': 105.28680419921875, 'learning_rate': 7.82608695652174e-06, 'epoch': 0.05} |
|
{'train_accuracy': 0.640625, 'epoch': 0.05} |
|
{'loss': 1.7881, 'grad_norm': 9.923203468322754, 'learning_rate': 8.260869565217392e-06, 'epoch': 0.05} |
|
{'train_accuracy': 0.671875, 'epoch': 0.05} |
|
{'loss': 1.877, 'grad_norm': 58.246089935302734, 'learning_rate': 8.695652173913044e-06, 'epoch': 0.05} |
|
{'train_accuracy': 0.546875, 'epoch': 0.05} |
|
{'loss': 1.8271, 'grad_norm': 41.38032913208008, 'learning_rate': 9.130434782608697e-06, 'epoch': 0.06} |
|
{'train_accuracy': 0.640625, 'epoch': 0.06} |
|
{'loss': 1.9014, 'grad_norm': 67.59843444824219, 'learning_rate': 9.565217391304349e-06, 'epoch': 0.06} |
|
{'train_accuracy': 0.796875, 'epoch': 0.06} |
|
{'loss': 1.3848, 'grad_norm': 19.102436065673828, 'learning_rate': 1e-05, 'epoch': 0.06} |
|
{'train_accuracy': 0.546875, 'epoch': 0.06} |
|
{'loss': 1.7988, 'grad_norm': 9.836153984069824, 'learning_rate': 1.0434782608695653e-05, 'epoch': 0.06} |
|
{'train_accuracy': 0.59375, 'epoch': 0.06} |
|
{'loss': 1.5508, 'grad_norm': 18.77242088317871, 'learning_rate': 1.0869565217391305e-05, 'epoch': 0.07} |
|
{'train_accuracy': 0.6875, 'epoch': 0.07} |
|
{'loss': 1.7383, 'grad_norm': 33.33855438232422, 'learning_rate': 1.1304347826086957e-05, 'epoch': 0.07} |
|
{'train_accuracy': 0.78125, 'epoch': 0.07} |
|
{'loss': 1.5332, 'grad_norm': 27.66554832458496, 'learning_rate': 1.1739130434782611e-05, 'epoch': 0.07} |
|
{'train_accuracy': 0.578125, 'epoch': 0.07} |
|
{'loss': 1.7275, 'grad_norm': 47.21514892578125, 'learning_rate': 1.2173913043478263e-05, 'epoch': 0.07} |
|
{'train_accuracy': 0.640625, 'epoch': 0.07} |
|
{'loss': 1.6904, 'grad_norm': 5.483724594116211, 'learning_rate': 1.2608695652173915e-05, 'epoch': 0.08} |
|
{'train_accuracy': 0.59375, 'epoch': 0.08} |
|
{'loss': 1.6572, 'grad_norm': 20.393482208251953, 'learning_rate': 1.3043478260869566e-05, 'epoch': 0.08} |
|
{'train_accuracy': 0.640625, 'epoch': 0.08} |
|
{'loss': 1.8018, 'grad_norm': 47.08179473876953, 'learning_rate': 1.3478260869565218e-05, 'epoch': 0.08} |
|
{'train_accuracy': 0.71875, 'epoch': 0.08} |
|
{'loss': 1.5576, 'grad_norm': 28.04905891418457, 'learning_rate': 1.391304347826087e-05, 'epoch': 0.08} |
|
{'train_accuracy': 0.65625, 'epoch': 0.08} |
|
{'loss': 1.5527, 'grad_norm': 8.057256698608398, 'learning_rate': 1.4347826086956522e-05, 'epoch': 0.09} |
|
{'train_accuracy': 0.65625, 'epoch': 0.09} |
|
{'loss': 1.4678, 'grad_norm': 4.107302665710449, 'learning_rate': 1.4782608695652174e-05, 'epoch': 0.09} |
|
{'train_accuracy': 0.796875, 'epoch': 0.09} |
|
{'loss': 1.5107, 'grad_norm': 24.317855834960938, 'learning_rate': 1.5217391304347828e-05, 'epoch': 0.09} |
|
{'train_accuracy': 0.703125, 'epoch': 0.09} |
|
{'loss': 1.7305, 'grad_norm': 56.14430236816406, 'learning_rate': 1.565217391304348e-05, 'epoch': 0.09} |
|
{'train_accuracy': 0.75, 'epoch': 0.09} |
|
{'loss': 1.4668, 'grad_norm': 5.203139305114746, 'learning_rate': 1.6086956521739132e-05, 'epoch': 0.1} |
|
{'train_accuracy': 0.640625, 'epoch': 0.1} |
|
{'loss': 1.4746, 'grad_norm': 16.80422019958496, 'learning_rate': 1.6521739130434785e-05, 'epoch': 0.1} |
|
{'train_accuracy': 0.734375, 'epoch': 0.1} |
|
{'loss': 1.5713, 'grad_norm': 32.82760238647461, 'learning_rate': 1.6956521739130437e-05, 'epoch': 0.1} |
|
{'train_accuracy': 0.6875, 'epoch': 0.1} |
|
{'loss': 1.7637, 'grad_norm': 34.93852996826172, 'learning_rate': 1.739130434782609e-05, 'epoch': 0.11} |
|
{'train_accuracy': 0.734375, 'epoch': 0.11} |
|
{'loss': 1.4702, 'grad_norm': 6.973869800567627, 'learning_rate': 1.782608695652174e-05, 'epoch': 0.11} |
|
{'train_accuracy': 0.703125, 'epoch': 0.11} |
|
{'loss': 1.666, 'grad_norm': 9.916731834411621, 'learning_rate': 1.8260869565217393e-05, 'epoch': 0.11} |
|
{'train_accuracy': 0.640625, 'epoch': 0.11} |
|
{'loss': 1.7041, 'grad_norm': 28.54862403869629, 'learning_rate': 1.8695652173913045e-05, 'epoch': 0.11} |
|
{'train_accuracy': 0.734375, 'epoch': 0.11} |
|
{'loss': 1.4229, 'grad_norm': 13.393380165100098, 'learning_rate': 1.9130434782608697e-05, 'epoch': 0.12} |
|
{'train_accuracy': 0.71875, 'epoch': 0.12} |
|
{'loss': 1.5791, 'grad_norm': 8.206025123596191, 'learning_rate': 1.956521739130435e-05, 'epoch': 0.12} |
|
{'train_accuracy': 0.71875, 'epoch': 0.12} |
|
{'loss': 1.5811, 'grad_norm': 19.74668312072754, 'learning_rate': 2e-05, 'epoch': 0.12} |
|
{'train_accuracy': 0.609375, 'epoch': 0.12} |
|
{'loss': 1.6475, 'grad_norm': 17.365779876708984, 'learning_rate': 1.9999977286993863e-05, 'epoch': 0.12} |
|
{'train_accuracy': 0.734375, 'epoch': 0.12} |
|
{'loss': 1.5986, 'grad_norm': 15.396943092346191, 'learning_rate': 1.9999909148078624e-05, 'epoch': 0.13} |
|
{'train_accuracy': 0.6875, 'epoch': 0.13} |
|
{'loss': 1.4766, 'grad_norm': 4.93903923034668, 'learning_rate': 1.9999795583563814e-05, 'epoch': 0.13} |
|
{'train_accuracy': 0.734375, 'epoch': 0.13} |
|
{'loss': 1.5166, 'grad_norm': 24.193723678588867, 'learning_rate': 1.9999636593965306e-05, 'epoch': 0.13} |
|
{'train_accuracy': 0.78125, 'epoch': 0.13} |
|
{'loss': 1.4102, 'grad_norm': 14.069121360778809, 'learning_rate': 1.999943218000533e-05, 'epoch': 0.13} |
|
{'train_accuracy': 0.671875, 'epoch': 0.13} |
|
{'loss': 1.6113, 'grad_norm': 6.808143615722656, 'learning_rate': 1.999918234261246e-05, 'epoch': 0.14} |
|
{'train_accuracy': 0.765625, 'epoch': 0.14} |
|
{'loss': 1.5615, 'grad_norm': 19.879804611206055, 'learning_rate': 1.9998887082921605e-05, 'epoch': 0.14} |
|
{'train_accuracy': 0.71875, 'epoch': 0.14} |
|
{'loss': 1.3799, 'grad_norm': 11.96185302734375, 'learning_rate': 1.999854640227401e-05, 'epoch': 0.14} |
|
{'train_accuracy': 0.734375, 'epoch': 0.14} |
|
{'loss': 1.2549, 'grad_norm': 15.333646774291992, 'learning_rate': 1.9998160302217254e-05, 'epoch': 0.14} |
|
{'train_accuracy': 0.609375, 'epoch': 0.14} |
|
{'loss': 1.6514, 'grad_norm': 17.457860946655273, 'learning_rate': 1.9997728784505232e-05, 'epoch': 0.15} |
|
{'train_accuracy': 0.78125, 'epoch': 0.15} |
|
{'loss': 1.418, 'grad_norm': 37.52303695678711, 'learning_rate': 1.999725185109816e-05, 'epoch': 0.15} |
|
{'train_accuracy': 0.6875, 'epoch': 0.15} |
|
{'loss': 1.5928, 'grad_norm': 15.378766059875488, 'learning_rate': 1.999672950416256e-05, 'epoch': 0.15} |
|
{'train_accuracy': 0.640625, 'epoch': 0.15} |
|
{'loss': 1.3926, 'grad_norm': 22.888885498046875, 'learning_rate': 1.9996161746071238e-05, 'epoch': 0.16} |
|
{'train_accuracy': 0.6875, 'epoch': 0.16} |
|
{'loss': 2.126, 'grad_norm': 60.397743225097656, 'learning_rate': 1.9995548579403296e-05, 'epoch': 0.16} |
|
{'train_accuracy': 0.6875, 'epoch': 0.16} |
|
{'loss': 1.3906, 'grad_norm': 5.263916969299316, 'learning_rate': 1.9994890006944105e-05, 'epoch': 0.16} |
|
{'train_accuracy': 0.671875, 'epoch': 0.16} |
|
{'loss': 1.4248, 'grad_norm': 24.444305419921875, 'learning_rate': 1.99941860316853e-05, 'epoch': 0.16} |
|
{'train_accuracy': 0.640625, 'epoch': 0.16} |
|
{'loss': 1.6807, 'grad_norm': 30.14607048034668, 'learning_rate': 1.999343665682476e-05, 'epoch': 0.17} |
|
{'train_accuracy': 0.6875, 'epoch': 0.17} |
|
{'loss': 1.582, 'grad_norm': 5.177918910980225, 'learning_rate': 1.999264188576659e-05, 'epoch': 0.17} |
|
{'train_accuracy': 0.75, 'epoch': 0.17} |
|
{'loss': 1.4702, 'grad_norm': 3.7263214588165283, 'learning_rate': 1.9991801722121124e-05, 'epoch': 0.17} |
|
{'train_accuracy': 0.765625, 'epoch': 0.17} |
|
{'loss': 1.5986, 'grad_norm': 14.105743408203125, 'learning_rate': 1.9990916169704886e-05, 'epoch': 0.17} |
|
{'train_accuracy': 0.640625, 'epoch': 0.17} |
|
{'loss': 1.7539, 'grad_norm': 30.84016990661621, 'learning_rate': 1.9989985232540592e-05, 'epoch': 0.18} |
|
{'train_accuracy': 0.734375, 'epoch': 0.18} |
|
{'loss': 1.5361, 'grad_norm': 5.946470737457275, 'learning_rate': 1.9989008914857115e-05, 'epoch': 0.18} |
|
{'train_accuracy': 0.65625, 'epoch': 0.18} |
|
{'loss': 1.4482, 'grad_norm': 21.31287384033203, 'learning_rate': 1.998798722108948e-05, 'epoch': 0.18} |
|
{'train_accuracy': 0.71875, 'epoch': 0.18} |
|
{'loss': 1.4541, 'grad_norm': 8.728236198425293, 'learning_rate': 1.998692015587883e-05, 'epoch': 0.18} |
|
{'train_accuracy': 0.703125, 'epoch': 0.18} |
|
{'loss': 1.458, 'grad_norm': 24.142559051513672, 'learning_rate': 1.998580772407242e-05, 'epoch': 0.19} |
|
{'train_accuracy': 0.8125, 'epoch': 0.19} |
|
{'loss': 1.2969, 'grad_norm': 8.70908260345459, 'learning_rate': 1.9984649930723586e-05, 'epoch': 0.19} |
|
{'train_accuracy': 0.703125, 'epoch': 0.19} |
|
{'loss': 1.5898, 'grad_norm': 18.371227264404297, 'learning_rate': 1.9983446781091715e-05, 'epoch': 0.19} |
|
{'train_accuracy': 0.703125, 'epoch': 0.19} |
|
{'loss': 1.5381, 'grad_norm': 21.964420318603516, 'learning_rate': 1.9982198280642244e-05, 'epoch': 0.19} |
|
{'train_accuracy': 0.78125, 'epoch': 0.19} |
|
{'loss': 1.5513, 'grad_norm': 11.249500274658203, 'learning_rate': 1.9980904435046603e-05, 'epoch': 0.2} |
|
{'train_accuracy': 0.71875, 'epoch': 0.2} |
|
{'loss': 1.5552, 'grad_norm': 8.206984519958496, 'learning_rate': 1.9979565250182228e-05, 'epoch': 0.2} |
|
{'eval_accuracy': 0.6919280886650085, 'eval_max_score': 6.5, 'eval_min_score': -4.59375, 'eval_runtime': 151.8642, 'eval_samples_per_second': 18.681, 'eval_steps_per_second': 0.296, 'epoch': 0.2} |
|
{'train_accuracy': 0.703125, 'epoch': 0.2} |
|
{'loss': 1.5024, 'grad_norm': 29.587980270385742, 'learning_rate': 1.997818073213249e-05, 'epoch': 0.2} |
|
{'train_accuracy': 0.671875, 'epoch': 0.2} |
|
{'loss': 1.4014, 'grad_norm': 10.721640586853027, 'learning_rate': 1.9976750887186708e-05, 'epoch': 0.21} |
|
{'train_accuracy': 0.71875, 'epoch': 0.21} |
|
{'loss': 1.3784, 'grad_norm': 8.728314399719238, 'learning_rate': 1.9975275721840105e-05, 'epoch': 0.21} |
|
{'train_accuracy': 0.71875, 'epoch': 0.21} |
|
{'loss': 1.5894, 'grad_norm': 7.245014667510986, 'learning_rate': 1.9973755242793756e-05, 'epoch': 0.21} |
|
{'train_accuracy': 0.734375, 'epoch': 0.21} |
|
{'loss': 1.4492, 'grad_norm': 4.6964850425720215, 'learning_rate': 1.9972189456954595e-05, 'epoch': 0.21} |
|
{'train_accuracy': 0.75, 'epoch': 0.21} |
|
{'loss': 1.249, 'grad_norm': 5.349942207336426, 'learning_rate': 1.9970578371435367e-05, 'epoch': 0.22} |
|
{'train_accuracy': 0.625, 'epoch': 0.22} |
|
{'loss': 1.541, 'grad_norm': 4.20225715637207, 'learning_rate': 1.996892199355459e-05, 'epoch': 0.22} |
|
{'train_accuracy': 0.578125, 'epoch': 0.22} |
|
{'loss': 1.4404, 'grad_norm': 13.42335033416748, 'learning_rate': 1.996722033083652e-05, 'epoch': 0.22} |
|
{'train_accuracy': 0.75, 'epoch': 0.22} |
|
{'loss': 1.4155, 'grad_norm': 2.8606903553009033, 'learning_rate': 1.9965473391011144e-05, 'epoch': 0.22} |
|
{'train_accuracy': 0.6875, 'epoch': 0.22} |
|
{'loss': 1.3247, 'grad_norm': 14.601333618164062, 'learning_rate': 1.9963681182014107e-05, 'epoch': 0.23} |
|
{'train_accuracy': 0.765625, 'epoch': 0.23} |
|
{'loss': 1.4092, 'grad_norm': 11.857205390930176, 'learning_rate': 1.99618437119867e-05, 'epoch': 0.23} |
|
{'train_accuracy': 0.734375, 'epoch': 0.23} |
|
{'loss': 1.2725, 'grad_norm': 3.8118960857391357, 'learning_rate': 1.9959960989275816e-05, 'epoch': 0.23} |
|
{'train_accuracy': 0.703125, 'epoch': 0.23} |
|
{'loss': 1.4478, 'grad_norm': 24.30862045288086, 'learning_rate': 1.9958033022433916e-05, 'epoch': 0.23} |
|
{'train_accuracy': 0.71875, 'epoch': 0.23} |
|
{'loss': 1.415, 'grad_norm': 17.567001342773438, 'learning_rate': 1.9956059820218982e-05, 'epoch': 0.24} |
|
{'train_accuracy': 0.71875, 'epoch': 0.24} |
|
{'loss': 1.6006, 'grad_norm': 5.111862659454346, 'learning_rate': 1.9954041391594486e-05, 'epoch': 0.24} |
|
{'train_accuracy': 0.703125, 'epoch': 0.24} |
|
{'loss': 1.623, 'grad_norm': 19.393651962280273, 'learning_rate': 1.9951977745729343e-05, 'epoch': 0.24} |
|
{'train_accuracy': 0.734375, 'epoch': 0.24} |
|
{'loss': 1.8125, 'grad_norm': 28.0972843170166, 'learning_rate': 1.9949868891997877e-05, 'epoch': 0.24} |
|
{'train_accuracy': 0.71875, 'epoch': 0.24} |
|
{'loss': 1.3486, 'grad_norm': 5.5879106521606445, 'learning_rate': 1.9947714839979765e-05, 'epoch': 0.25} |
|
{'train_accuracy': 0.671875, 'epoch': 0.25} |
|
{'loss': 1.3794, 'grad_norm': 6.477169513702393, 'learning_rate': 1.994551559946001e-05, 'epoch': 0.25} |
|
{'train_accuracy': 0.71875, 'epoch': 0.25} |
|
{'loss': 1.4663, 'grad_norm': 25.532249450683594, 'learning_rate': 1.9943271180428883e-05, 'epoch': 0.25} |
|
{'train_accuracy': 0.71875, 'epoch': 0.25} |
|
{'loss': 1.4131, 'grad_norm': 4.028436660766602, 'learning_rate': 1.9940981593081884e-05, 'epoch': 0.26} |
|
{'train_accuracy': 0.734375, 'epoch': 0.26} |
|
{'loss': 1.208, 'grad_norm': 7.103154182434082, 'learning_rate': 1.9938646847819693e-05, 'epoch': 0.26} |
|
{'train_accuracy': 0.765625, 'epoch': 0.26} |
|
{'loss': 1.46, 'grad_norm': 18.36396026611328, 'learning_rate': 1.9936266955248133e-05, 'epoch': 0.26} |
|
{'train_accuracy': 0.71875, 'epoch': 0.26} |
|
{'loss': 1.4102, 'grad_norm': 2.634291648864746, 'learning_rate': 1.9933841926178104e-05, 'epoch': 0.26} |
|
{'train_accuracy': 0.84375, 'epoch': 0.26} |
|
{'loss': 1.1465, 'grad_norm': 4.079046249389648, 'learning_rate': 1.9931371771625545e-05, 'epoch': 0.27} |
|
{'train_accuracy': 0.71875, 'epoch': 0.27} |
|
{'loss': 1.3628, 'grad_norm': 4.469728469848633, 'learning_rate': 1.9928856502811383e-05, 'epoch': 0.27} |
|
{'train_accuracy': 0.640625, 'epoch': 0.27} |
|
{'loss': 1.7158, 'grad_norm': 11.426676750183105, 'learning_rate': 1.992629613116148e-05, 'epoch': 0.27} |
|
{'train_accuracy': 0.765625, 'epoch': 0.27} |
|
{'loss': 1.4443, 'grad_norm': 4.418765544891357, 'learning_rate': 1.992369066830659e-05, 'epoch': 0.27} |
|
{'train_accuracy': 0.75, 'epoch': 0.27} |
|
{'loss': 1.5762, 'grad_norm': 7.475268840789795, 'learning_rate': 1.992104012608228e-05, 'epoch': 0.28} |
|
{'train_accuracy': 0.640625, 'epoch': 0.28} |
|
{'loss': 1.4473, 'grad_norm': 10.006223678588867, 'learning_rate': 1.991834451652892e-05, 'epoch': 0.28} |
|
{'train_accuracy': 0.734375, 'epoch': 0.28} |
|
{'loss': 1.3716, 'grad_norm': 4.488539695739746, 'learning_rate': 1.9915603851891577e-05, 'epoch': 0.28} |
|
{'train_accuracy': 0.6875, 'epoch': 0.28} |
|
{'loss': 1.6162, 'grad_norm': 31.295486450195312, 'learning_rate': 1.991281814462001e-05, 'epoch': 0.28} |
|
{'train_accuracy': 0.75, 'epoch': 0.28} |
|
{'loss': 1.2925, 'grad_norm': 4.2928290367126465, 'learning_rate': 1.9909987407368565e-05, 'epoch': 0.29} |
|
{'train_accuracy': 0.609375, 'epoch': 0.29} |
|
{'loss': 1.6572, 'grad_norm': 33.315330505371094, 'learning_rate': 1.9907111652996156e-05, 'epoch': 0.29} |
|
{'train_accuracy': 0.75, 'epoch': 0.29} |
|
{'loss': 1.4414, 'grad_norm': 24.655488967895508, 'learning_rate': 1.9904190894566194e-05, 'epoch': 0.29} |
|
{'train_accuracy': 0.65625, 'epoch': 0.29} |
|
{'loss': 1.522, 'grad_norm': 15.197490692138672, 'learning_rate': 1.990122514534651e-05, 'epoch': 0.29} |
|
{'train_accuracy': 0.6875, 'epoch': 0.29} |
|
{'loss': 1.688, 'grad_norm': 28.140966415405273, 'learning_rate': 1.989821441880933e-05, 'epoch': 0.3} |
|
{'train_accuracy': 0.703125, 'epoch': 0.3} |
|
{'loss': 1.4038, 'grad_norm': 20.251832962036133, 'learning_rate': 1.9895158728631176e-05, 'epoch': 0.3} |
|
{'train_accuracy': 0.65625, 'epoch': 0.3} |
|
{'loss': 1.584, 'grad_norm': 4.522186279296875, 'learning_rate': 1.9892058088692834e-05, 'epoch': 0.3} |
|
{'train_accuracy': 0.75, 'epoch': 0.3} |
|
{'loss': 1.7578, 'grad_norm': 31.17378044128418, 'learning_rate': 1.9888912513079276e-05, 'epoch': 0.31} |
|
{'train_accuracy': 0.71875, 'epoch': 0.31} |
|
{'loss': 1.5654, 'grad_norm': 25.056249618530273, 'learning_rate': 1.9885722016079594e-05, 'epoch': 0.31} |
|
{'train_accuracy': 0.796875, 'epoch': 0.31} |
|
{'loss': 1.3105, 'grad_norm': 10.085057258605957, 'learning_rate': 1.9882486612186943e-05, 'epoch': 0.31} |
|
{'train_accuracy': 0.8125, 'epoch': 0.31} |
|
{'loss': 1.416, 'grad_norm': 11.358416557312012, 'learning_rate': 1.9879206316098477e-05, 'epoch': 0.31} |
|
{'train_accuracy': 0.734375, 'epoch': 0.31} |
|
{'loss': 1.3457, 'grad_norm': 13.83195972442627, 'learning_rate': 1.9875881142715272e-05, 'epoch': 0.32} |
|
{'train_accuracy': 0.71875, 'epoch': 0.32} |
|
{'loss': 1.4287, 'grad_norm': 23.987102508544922, 'learning_rate': 1.987251110714226e-05, 'epoch': 0.32} |
|
{'train_accuracy': 0.5625, 'epoch': 0.32} |
|
{'loss': 1.6104, 'grad_norm': 19.9754581451416, 'learning_rate': 1.986909622468818e-05, 'epoch': 0.32} |
|
{'train_accuracy': 0.609375, 'epoch': 0.32} |
|
{'loss': 1.3672, 'grad_norm': 10.121444702148438, 'learning_rate': 1.9865636510865466e-05, 'epoch': 0.32} |
|
{'train_accuracy': 0.71875, 'epoch': 0.32} |
|
{'loss': 1.5693, 'grad_norm': 14.994632720947266, 'learning_rate': 1.986213198139023e-05, 'epoch': 0.33} |
|
{'train_accuracy': 0.6875, 'epoch': 0.33} |
|
{'loss': 1.5337, 'grad_norm': 19.378555297851562, 'learning_rate': 1.9858582652182146e-05, 'epoch': 0.33} |
|
{'train_accuracy': 0.640625, 'epoch': 0.33} |
|
{'loss': 1.4336, 'grad_norm': 27.150787353515625, 'learning_rate': 1.9854988539364403e-05, 'epoch': 0.33} |
|
{'train_accuracy': 0.703125, 'epoch': 0.33} |
|
{'loss': 1.5127, 'grad_norm': 6.9245100021362305, 'learning_rate': 1.9851349659263624e-05, 'epoch': 0.33} |
|
{'train_accuracy': 0.71875, 'epoch': 0.33} |
|
{'loss': 1.3149, 'grad_norm': 15.940958976745605, 'learning_rate': 1.9847666028409787e-05, 'epoch': 0.34} |
|
{'train_accuracy': 0.671875, 'epoch': 0.34} |
|
{'loss': 1.5811, 'grad_norm': 27.410593032836914, 'learning_rate': 1.984393766353616e-05, 'epoch': 0.34} |
|
{'train_accuracy': 0.671875, 'epoch': 0.34} |
|
{'loss': 1.6299, 'grad_norm': 19.065568923950195, 'learning_rate': 1.9840164581579217e-05, 'epoch': 0.34} |
|
{'train_accuracy': 0.765625, 'epoch': 0.34} |
|
{'loss': 1.4824, 'grad_norm': 3.3670198917388916, 'learning_rate': 1.983634679967857e-05, 'epoch': 0.34} |
|
{'train_accuracy': 0.765625, 'epoch': 0.34} |
|
{'loss': 1.4312, 'grad_norm': 20.537992477416992, 'learning_rate': 1.9832484335176866e-05, 'epoch': 0.35} |
|
{'train_accuracy': 0.640625, 'epoch': 0.35} |
|
{'loss': 1.3296, 'grad_norm': 18.157855987548828, 'learning_rate': 1.9828577205619757e-05, 'epoch': 0.35} |
|
{'train_accuracy': 0.640625, 'epoch': 0.35} |
|
{'loss': 1.3745, 'grad_norm': 10.166598320007324, 'learning_rate': 1.982462542875576e-05, 'epoch': 0.35} |
|
{'train_accuracy': 0.71875, 'epoch': 0.35} |
|
{'loss': 1.416, 'grad_norm': 7.348676681518555, 'learning_rate': 1.9820629022536234e-05, 'epoch': 0.36} |
|
{'train_accuracy': 0.78125, 'epoch': 0.36} |
|
{'loss': 1.1729, 'grad_norm': 5.667979717254639, 'learning_rate': 1.9816588005115255e-05, 'epoch': 0.36} |
|
{'train_accuracy': 0.578125, 'epoch': 0.36} |
|
{'loss': 1.665, 'grad_norm': 18.713518142700195, 'learning_rate': 1.9812502394849554e-05, 'epoch': 0.36} |
|
{'train_accuracy': 0.65625, 'epoch': 0.36} |
|
{'loss': 1.645, 'grad_norm': 17.586336135864258, 'learning_rate': 1.9808372210298425e-05, 'epoch': 0.36} |
|
{'train_accuracy': 0.78125, 'epoch': 0.36} |
|
{'loss': 1.4297, 'grad_norm': 4.807186603546143, 'learning_rate': 1.980419747022365e-05, 'epoch': 0.37} |
|
{'train_accuracy': 0.765625, 'epoch': 0.37} |
|
{'loss': 1.5156, 'grad_norm': 11.270689010620117, 'learning_rate': 1.9799978193589407e-05, 'epoch': 0.37} |
|
{'train_accuracy': 0.765625, 'epoch': 0.37} |
|
{'loss': 1.4634, 'grad_norm': 6.3195343017578125, 'learning_rate': 1.9795714399562198e-05, 'epoch': 0.37} |
|
{'train_accuracy': 0.78125, 'epoch': 0.37} |
|
{'loss': 1.2305, 'grad_norm': 8.104639053344727, 'learning_rate': 1.979140610751073e-05, 'epoch': 0.37} |
|
{'train_accuracy': 0.625, 'epoch': 0.37} |
|
{'loss': 1.5098, 'grad_norm': 6.707549571990967, 'learning_rate': 1.9787053337005855e-05, 'epoch': 0.38} |
|
{'train_accuracy': 0.796875, 'epoch': 0.38} |
|
{'loss': 1.2354, 'grad_norm': 4.008877277374268, 'learning_rate': 1.9782656107820476e-05, 'epoch': 0.38} |
|
{'train_accuracy': 0.71875, 'epoch': 0.38} |
|
{'loss': 1.314, 'grad_norm': 16.74215316772461, 'learning_rate': 1.9778214439929453e-05, 'epoch': 0.38} |
|
{'train_accuracy': 0.71875, 'epoch': 0.38} |
|
{'loss': 1.3169, 'grad_norm': 6.672449111938477, 'learning_rate': 1.9773728353509512e-05, 'epoch': 0.38} |
|
{'train_accuracy': 0.8125, 'epoch': 0.38} |
|
{'loss': 1.1396, 'grad_norm': 3.9568095207214355, 'learning_rate': 1.9769197868939153e-05, 'epoch': 0.39} |
|
{'train_accuracy': 0.6875, 'epoch': 0.39} |
|
{'loss': 1.3745, 'grad_norm': 3.1683335304260254, 'learning_rate': 1.9764623006798554e-05, 'epoch': 0.39} |
|
{'train_accuracy': 0.78125, 'epoch': 0.39} |
|
{'loss': 1.4702, 'grad_norm': 5.442292213439941, 'learning_rate': 1.9760003787869504e-05, 'epoch': 0.39} |
|
{'train_accuracy': 0.65625, 'epoch': 0.39} |
|
{'loss': 1.5659, 'grad_norm': 3.1763217449188232, 'learning_rate': 1.9755340233135265e-05, 'epoch': 0.39} |
|
{'train_accuracy': 0.671875, 'epoch': 0.39} |
|
{'loss': 1.5723, 'grad_norm': 9.710025787353516, 'learning_rate': 1.9750632363780503e-05, 'epoch': 0.4} |
|
{'train_accuracy': 0.734375, 'epoch': 0.4} |
|
{'loss': 1.6113, 'grad_norm': 11.149826049804688, 'learning_rate': 1.9745880201191198e-05, 'epoch': 0.4} |
|
{'eval_accuracy': 0.6922805905342102, 'eval_max_score': 6.78125, 'eval_min_score': -4.21875, 'eval_runtime': 151.353, 'eval_samples_per_second': 18.744, 'eval_steps_per_second': 0.297, 'epoch': 0.4} |
|
{'train_accuracy': 0.6875, 'epoch': 0.4} |
|
{'loss': 1.4136, 'grad_norm': 17.558015823364258, 'learning_rate': 1.9741083766954527e-05, 'epoch': 0.4} |
|
{'train_accuracy': 0.71875, 'epoch': 0.4} |
|
{'loss': 1.4238, 'grad_norm': 6.4166178703308105, 'learning_rate': 1.9736243082858772e-05, 'epoch': 0.41} |
|
{'train_accuracy': 0.78125, 'epoch': 0.41} |
|
{'loss': 1.3569, 'grad_norm': 16.045656204223633, 'learning_rate': 1.973135817089324e-05, 'epoch': 0.41} |
|
{'train_accuracy': 0.609375, 'epoch': 0.41} |
|
{'loss': 1.7246, 'grad_norm': 11.161890983581543, 'learning_rate': 1.972642905324813e-05, 'epoch': 0.41} |
|
{'train_accuracy': 0.609375, 'epoch': 0.41} |
|
{'loss': 1.2827, 'grad_norm': 10.395303726196289, 'learning_rate': 1.9721455752314468e-05, 'epoch': 0.41} |
|
{'train_accuracy': 0.703125, 'epoch': 0.41} |
|
{'loss': 1.667, 'grad_norm': 6.473245143890381, 'learning_rate': 1.9716438290683964e-05, 'epoch': 0.42} |
|
{'train_accuracy': 0.6875, 'epoch': 0.42} |
|
{'loss': 1.5586, 'grad_norm': 26.937177658081055, 'learning_rate': 1.9711376691148958e-05, 'epoch': 0.42} |
|
{'train_accuracy': 0.703125, 'epoch': 0.42} |
|
{'loss': 1.4272, 'grad_norm': 8.536986351013184, 'learning_rate': 1.970627097670227e-05, 'epoch': 0.42} |
|
{'train_accuracy': 0.734375, 'epoch': 0.42} |
|
{'loss': 1.5605, 'grad_norm': 6.249920845031738, 'learning_rate': 1.9701121170537125e-05, 'epoch': 0.42} |
|
{'train_accuracy': 0.75, 'epoch': 0.42} |
|
{'loss': 1.3545, 'grad_norm': 20.86353302001953, 'learning_rate': 1.9695927296047044e-05, 'epoch': 0.43} |
|
{'train_accuracy': 0.625, 'epoch': 0.43} |
|
{'loss': 1.5581, 'grad_norm': 18.73291778564453, 'learning_rate': 1.969068937682572e-05, 'epoch': 0.43} |
|
{'train_accuracy': 0.75, 'epoch': 0.43} |
|
{'loss': 1.3638, 'grad_norm': 3.9674601554870605, 'learning_rate': 1.968540743666694e-05, 'epoch': 0.43} |
|
{'train_accuracy': 0.796875, 'epoch': 0.43} |
|
{'loss': 1.248, 'grad_norm': 10.880136489868164, 'learning_rate': 1.9680081499564446e-05, 'epoch': 0.43} |
|
{'train_accuracy': 0.6875, 'epoch': 0.43} |
|
{'loss': 1.4531, 'grad_norm': 23.13611602783203, 'learning_rate': 1.967471158971185e-05, 'epoch': 0.44} |
|
{'train_accuracy': 0.609375, 'epoch': 0.44} |
|
{'loss': 1.3369, 'grad_norm': 8.650835990905762, 'learning_rate': 1.966929773150251e-05, 'epoch': 0.44} |
|
{'train_accuracy': 0.765625, 'epoch': 0.44} |
|
{'loss': 1.2661, 'grad_norm': 4.803102493286133, 'learning_rate': 1.966383994952942e-05, 'epoch': 0.44} |
|
{'train_accuracy': 0.703125, 'epoch': 0.44} |
|
{'loss': 1.4502, 'grad_norm': 16.57624053955078, 'learning_rate': 1.9658338268585113e-05, 'epoch': 0.44} |
|
{'train_accuracy': 0.65625, 'epoch': 0.44} |
|
{'loss': 1.3433, 'grad_norm': 11.971793174743652, 'learning_rate': 1.965279271366153e-05, 'epoch': 0.45} |
|
{'train_accuracy': 0.65625, 'epoch': 0.45} |
|
{'loss': 1.5737, 'grad_norm': 5.445674419403076, 'learning_rate': 1.9647203309949913e-05, 'epoch': 0.45} |
|
{'train_accuracy': 0.6875, 'epoch': 0.45} |
|
{'loss': 1.3804, 'grad_norm': 10.206953048706055, 'learning_rate': 1.96415700828407e-05, 'epoch': 0.45} |
|
{'train_accuracy': 0.765625, 'epoch': 0.45} |
|
{'loss': 1.2734, 'grad_norm': 11.522626876831055, 'learning_rate': 1.963589305792339e-05, 'epoch': 0.46} |
|
{'train_accuracy': 0.65625, 'epoch': 0.46} |
|
{'loss': 1.4268, 'grad_norm': 4.055401802062988, 'learning_rate': 1.9630172260986447e-05, 'epoch': 0.46} |
|
{'train_accuracy': 0.71875, 'epoch': 0.46} |
|
{'loss': 1.3555, 'grad_norm': 8.796987533569336, 'learning_rate': 1.9624407718017165e-05, 'epoch': 0.46} |
|
{'train_accuracy': 0.734375, 'epoch': 0.46} |
|
{'loss': 1.2656, 'grad_norm': 3.7710328102111816, 'learning_rate': 1.961859945520157e-05, 'epoch': 0.46} |
|
{'train_accuracy': 0.734375, 'epoch': 0.46} |
|
{'loss': 1.2974, 'grad_norm': 5.011978626251221, 'learning_rate': 1.961274749892428e-05, 'epoch': 0.47} |
|
{'train_accuracy': 0.65625, 'epoch': 0.47} |
|
{'loss': 1.5273, 'grad_norm': 6.948405742645264, 'learning_rate': 1.9606851875768404e-05, 'epoch': 0.47} |
|
{'train_accuracy': 0.640625, 'epoch': 0.47} |
|
{'loss': 1.7246, 'grad_norm': 14.704864501953125, 'learning_rate': 1.96009126125154e-05, 'epoch': 0.47} |
|
{'train_accuracy': 0.640625, 'epoch': 0.47} |
|
{'loss': 1.4385, 'grad_norm': 4.491285800933838, 'learning_rate': 1.9594929736144978e-05, 'epoch': 0.47} |
|
{'train_accuracy': 0.65625, 'epoch': 0.47} |
|
{'loss': 1.4521, 'grad_norm': 6.6391401290893555, 'learning_rate': 1.9588903273834954e-05, 'epoch': 0.48} |
|
{'train_accuracy': 0.71875, 'epoch': 0.48} |
|
{'loss': 1.334, 'grad_norm': 8.603846549987793, 'learning_rate': 1.9582833252961143e-05, 'epoch': 0.48} |
|
{'train_accuracy': 0.625, 'epoch': 0.48} |
|
{'loss': 1.2568, 'grad_norm': 5.131749153137207, 'learning_rate': 1.9576719701097238e-05, 'epoch': 0.48} |
|
{'train_accuracy': 0.578125, 'epoch': 0.48} |
|
{'loss': 1.394, 'grad_norm': 4.089670658111572, 'learning_rate': 1.957056264601466e-05, 'epoch': 0.48} |
|
{'train_accuracy': 0.703125, 'epoch': 0.48} |
|
{'loss': 1.4531, 'grad_norm': 2.8140037059783936, 'learning_rate': 1.956436211568246e-05, 'epoch': 0.49} |
|
{'train_accuracy': 0.71875, 'epoch': 0.49} |
|
{'loss': 1.3413, 'grad_norm': 19.234317779541016, 'learning_rate': 1.9558118138267166e-05, 'epoch': 0.49} |
|
{'train_accuracy': 0.6875, 'epoch': 0.49} |
|
{'loss': 1.4771, 'grad_norm': 3.8546056747436523, 'learning_rate': 1.9551830742132684e-05, 'epoch': 0.49} |
|
{'train_accuracy': 0.671875, 'epoch': 0.49} |
|
{'loss': 1.3462, 'grad_norm': 6.853395462036133, 'learning_rate': 1.9545499955840145e-05, 'epoch': 0.49} |
|
{'train_accuracy': 0.703125, 'epoch': 0.49} |
|
{'loss': 1.3135, 'grad_norm': 2.805311918258667, 'learning_rate': 1.953912580814779e-05, 'epoch': 0.5} |
|
{'train_accuracy': 0.765625, 'epoch': 0.5} |
|
{'loss': 1.2954, 'grad_norm': 7.851466178894043, 'learning_rate': 1.953270832801083e-05, 'epoch': 0.5} |
|
{'train_accuracy': 0.71875, 'epoch': 0.5} |
|
{'loss': 1.3569, 'grad_norm': 19.671802520751953, 'learning_rate': 1.9526247544581315e-05, 'epoch': 0.5} |
|
{'train_accuracy': 0.59375, 'epoch': 0.5} |
|
{'loss': 1.4355, 'grad_norm': 4.735298156738281, 'learning_rate': 1.9519743487208008e-05, 'epoch': 0.51} |
|
{'train_accuracy': 0.8125, 'epoch': 0.51} |
|
{'loss': 1.439, 'grad_norm': 6.873162269592285, 'learning_rate': 1.9513196185436248e-05, 'epoch': 0.51} |
|
{'train_accuracy': 0.75, 'epoch': 0.51} |
|
{'loss': 1.584, 'grad_norm': 13.055280685424805, 'learning_rate': 1.9506605669007815e-05, 'epoch': 0.51} |
|
{'train_accuracy': 0.671875, 'epoch': 0.51} |
|
{'loss': 1.4561, 'grad_norm': 6.923583030700684, 'learning_rate': 1.94999719678608e-05, 'epoch': 0.51} |
|
{'train_accuracy': 0.703125, 'epoch': 0.51} |
|
{'loss': 1.6006, 'grad_norm': 4.102768421173096, 'learning_rate': 1.9493295112129464e-05, 'epoch': 0.52} |
|
{'train_accuracy': 0.6875, 'epoch': 0.52} |
|
{'loss': 1.4302, 'grad_norm': 9.221837997436523, 'learning_rate': 1.9486575132144095e-05, 'epoch': 0.52} |
|
{'train_accuracy': 0.71875, 'epoch': 0.52} |
|
{'loss': 1.3184, 'grad_norm': 3.7125375270843506, 'learning_rate': 1.9479812058430886e-05, 'epoch': 0.52} |
|
{'train_accuracy': 0.71875, 'epoch': 0.52} |
|
{'loss': 1.3823, 'grad_norm': 6.4270243644714355, 'learning_rate': 1.9473005921711778e-05, 'epoch': 0.52} |
|
{'train_accuracy': 0.6875, 'epoch': 0.52} |
|
{'loss': 1.4551, 'grad_norm': 4.891445159912109, 'learning_rate': 1.9466156752904344e-05, 'epoch': 0.53} |
|
{'train_accuracy': 0.859375, 'epoch': 0.53} |
|
{'loss': 1.2012, 'grad_norm': 10.10925006866455, 'learning_rate': 1.945926458312162e-05, 'epoch': 0.53} |
|
{'train_accuracy': 0.78125, 'epoch': 0.53} |
|
{'loss': 1.3965, 'grad_norm': 17.743282318115234, 'learning_rate': 1.945232944367199e-05, 'epoch': 0.53} |
|
{'train_accuracy': 0.671875, 'epoch': 0.53} |
|
{'loss': 1.3765, 'grad_norm': 5.660726547241211, 'learning_rate': 1.9445351366059025e-05, 'epoch': 0.53} |
|
{'train_accuracy': 0.6875, 'epoch': 0.53} |
|
{'loss': 1.291, 'grad_norm': 17.128097534179688, 'learning_rate': 1.9438330381981348e-05, 'epoch': 0.54} |
|
{'train_accuracy': 0.734375, 'epoch': 0.54} |
|
{'loss': 1.7031, 'grad_norm': 5.735154151916504, 'learning_rate': 1.9431266523332488e-05, 'epoch': 0.54} |
|
{'train_accuracy': 0.703125, 'epoch': 0.54} |
|
{'loss': 1.3916, 'grad_norm': 8.40402603149414, 'learning_rate': 1.9424159822200744e-05, 'epoch': 0.54} |
|
{'train_accuracy': 0.828125, 'epoch': 0.54} |
|
{'loss': 1.3877, 'grad_norm': 8.66818618774414, 'learning_rate': 1.941701031086902e-05, 'epoch': 0.54} |
|
{'train_accuracy': 0.6875, 'epoch': 0.54} |
|
{'loss': 1.4619, 'grad_norm': 16.262784957885742, 'learning_rate': 1.9409818021814698e-05, 'epoch': 0.55} |
|
{'train_accuracy': 0.796875, 'epoch': 0.55} |
|
{'loss': 1.3452, 'grad_norm': 2.998375177383423, 'learning_rate': 1.9402582987709477e-05, 'epoch': 0.55} |
|
{'train_accuracy': 0.8125, 'epoch': 0.55} |
|
{'loss': 1.3125, 'grad_norm': 2.688655138015747, 'learning_rate': 1.9395305241419234e-05, 'epoch': 0.55} |
|
{'train_accuracy': 0.71875, 'epoch': 0.55} |
|
{'loss': 1.3271, 'grad_norm': 9.62772274017334, 'learning_rate': 1.9387984816003868e-05, 'epoch': 0.56} |
|
{'train_accuracy': 0.640625, 'epoch': 0.56} |
|
{'loss': 1.3545, 'grad_norm': 4.155248165130615, 'learning_rate': 1.9380621744717144e-05, 'epoch': 0.56} |
|
{'train_accuracy': 0.65625, 'epoch': 0.56} |
|
{'loss': 1.4141, 'grad_norm': 12.761597633361816, 'learning_rate': 1.9373216061006576e-05, 'epoch': 0.56} |
|
{'train_accuracy': 0.703125, 'epoch': 0.56} |
|
{'loss': 1.2588, 'grad_norm': 7.922176837921143, 'learning_rate': 1.9365767798513216e-05, 'epoch': 0.56} |
|
{'train_accuracy': 0.765625, 'epoch': 0.56} |
|
{'loss': 1.3638, 'grad_norm': 6.710723876953125, 'learning_rate': 1.9358276991071556e-05, 'epoch': 0.57} |
|
{'train_accuracy': 0.734375, 'epoch': 0.57} |
|
{'loss': 1.2544, 'grad_norm': 3.7787835597991943, 'learning_rate': 1.935074367270935e-05, 'epoch': 0.57} |
|
{'train_accuracy': 0.671875, 'epoch': 0.57} |
|
{'loss': 1.3369, 'grad_norm': 7.387803554534912, 'learning_rate': 1.9343167877647457e-05, 'epoch': 0.57} |
|
{'train_accuracy': 0.875, 'epoch': 0.57} |
|
{'loss': 1.2944, 'grad_norm': 3.0733940601348877, 'learning_rate': 1.9335549640299688e-05, 'epoch': 0.57} |
|
{'train_accuracy': 0.734375, 'epoch': 0.57} |
|
{'loss': 1.1758, 'grad_norm': 16.344900131225586, 'learning_rate': 1.9327888995272667e-05, 'epoch': 0.58} |
|
{'train_accuracy': 0.71875, 'epoch': 0.58} |
|
{'loss': 1.3555, 'grad_norm': 6.135222434997559, 'learning_rate': 1.9320185977365643e-05, 'epoch': 0.58} |
|
{'train_accuracy': 0.75, 'epoch': 0.58} |
|
{'loss': 1.4307, 'grad_norm': 5.324588298797607, 'learning_rate': 1.9312440621570355e-05, 'epoch': 0.58} |
|
{'train_accuracy': 0.703125, 'epoch': 0.58} |
|
{'loss': 1.2983, 'grad_norm': 4.523622512817383, 'learning_rate': 1.9304652963070868e-05, 'epoch': 0.58} |
|
{'train_accuracy': 0.765625, 'epoch': 0.58} |
|
{'loss': 1.3501, 'grad_norm': 4.101083278656006, 'learning_rate': 1.9296823037243406e-05, 'epoch': 0.59} |
|
{'train_accuracy': 0.75, 'epoch': 0.59} |
|
{'loss': 1.2852, 'grad_norm': 8.83919620513916, 'learning_rate': 1.9288950879656205e-05, 'epoch': 0.59} |
|
{'train_accuracy': 0.65625, 'epoch': 0.59} |
|
{'loss': 1.3491, 'grad_norm': 9.160242080688477, 'learning_rate': 1.9281036526069333e-05, 'epoch': 0.59} |
|
{'train_accuracy': 0.71875, 'epoch': 0.59} |
|
{'loss': 1.3047, 'grad_norm': 10.763931274414062, 'learning_rate': 1.927308001243454e-05, 'epoch': 0.59} |
|
{'train_accuracy': 0.671875, 'epoch': 0.59} |
|
{'loss': 1.4458, 'grad_norm': 9.965821266174316, 'learning_rate': 1.92650813748951e-05, 'epoch': 0.6} |
|
{'train_accuracy': 0.71875, 'epoch': 0.6} |
|
{'loss': 1.4888, 'grad_norm': 3.940614938735962, 'learning_rate': 1.9257040649785633e-05, 'epoch': 0.6} |
|
{'eval_accuracy': 0.7053225040435791, 'eval_max_score': 5.4375, 'eval_min_score': -5.0, 'eval_runtime': 151.3974, 'eval_samples_per_second': 18.739, 'eval_steps_per_second': 0.297, 'epoch': 0.6} |
|
{'train_accuracy': 0.703125, 'epoch': 0.6} |
|
{'loss': 1.4258, 'grad_norm': 12.34426498413086, 'learning_rate': 1.9248957873631947e-05, 'epoch': 0.6} |
|
{'train_accuracy': 0.65625, 'epoch': 0.6} |
|
{'loss': 1.5156, 'grad_norm': 13.6069917678833, 'learning_rate': 1.9240833083150864e-05, 'epoch': 0.61} |
|
{'train_accuracy': 0.6875, 'epoch': 0.61} |
|
{'loss': 1.3008, 'grad_norm': 4.457098484039307, 'learning_rate': 1.9232666315250078e-05, 'epoch': 0.61} |
|
{'train_accuracy': 0.734375, 'epoch': 0.61} |
|
{'loss': 1.3384, 'grad_norm': 6.309927463531494, 'learning_rate': 1.922445760702795e-05, 'epoch': 0.61} |
|
{'train_accuracy': 0.796875, 'epoch': 0.61} |
|
{'loss': 1.2866, 'grad_norm': 7.830813407897949, 'learning_rate': 1.9216206995773373e-05, 'epoch': 0.61} |
|
{'train_accuracy': 0.671875, 'epoch': 0.61} |
|
{'loss': 1.4932, 'grad_norm': 10.779923439025879, 'learning_rate': 1.9207914518965585e-05, 'epoch': 0.62} |
|
{'train_accuracy': 0.640625, 'epoch': 0.62} |
|
{'loss': 1.3242, 'grad_norm': 2.9620766639709473, 'learning_rate': 1.9199580214274e-05, 'epoch': 0.62} |
|
{'train_accuracy': 0.71875, 'epoch': 0.62} |
|
{'loss': 1.3672, 'grad_norm': 8.38760757446289, 'learning_rate': 1.9191204119558034e-05, 'epoch': 0.62} |
|
{'train_accuracy': 0.703125, 'epoch': 0.62} |
|
{'loss': 1.3555, 'grad_norm': 5.167934417724609, 'learning_rate': 1.9182786272866955e-05, 'epoch': 0.62} |
|
{'train_accuracy': 0.75, 'epoch': 0.62} |
|
{'loss': 1.6484, 'grad_norm': 12.282572746276855, 'learning_rate': 1.9174326712439674e-05, 'epoch': 0.63} |
|
{'train_accuracy': 0.78125, 'epoch': 0.63} |
|
{'loss': 1.4004, 'grad_norm': 14.087172508239746, 'learning_rate': 1.916582547670461e-05, 'epoch': 0.63} |
|
{'train_accuracy': 0.703125, 'epoch': 0.63} |
|
{'loss': 1.3779, 'grad_norm': 3.8323986530303955, 'learning_rate': 1.9157282604279482e-05, 'epoch': 0.63} |
|
{'train_accuracy': 0.8125, 'epoch': 0.63} |
|
{'loss': 1.4463, 'grad_norm': 9.426977157592773, 'learning_rate': 1.9148698133971156e-05, 'epoch': 0.63} |
|
{'train_accuracy': 0.640625, 'epoch': 0.63} |
|
{'loss': 1.3521, 'grad_norm': 6.784728527069092, 'learning_rate': 1.914007210477545e-05, 'epoch': 0.64} |
|
{'train_accuracy': 0.734375, 'epoch': 0.64} |
|
{'loss': 1.4111, 'grad_norm': 7.3046650886535645, 'learning_rate': 1.913140455587698e-05, 'epoch': 0.64} |
|
{'train_accuracy': 0.6875, 'epoch': 0.64} |
|
{'loss': 1.5938, 'grad_norm': 18.1398983001709, 'learning_rate': 1.9122695526648968e-05, 'epoch': 0.64} |
|
{'train_accuracy': 0.734375, 'epoch': 0.64} |
|
{'loss': 1.3379, 'grad_norm': 4.717808246612549, 'learning_rate': 1.911394505665306e-05, 'epoch': 0.64} |
|
{'train_accuracy': 0.71875, 'epoch': 0.64} |
|
{'loss': 1.2539, 'grad_norm': 5.125016212463379, 'learning_rate': 1.9105153185639142e-05, 'epoch': 0.65} |
|
{'train_accuracy': 0.828125, 'epoch': 0.65} |
|
{'loss': 1.374, 'grad_norm': 5.333531856536865, 'learning_rate': 1.9096319953545186e-05, 'epoch': 0.65} |
|
{'train_accuracy': 0.703125, 'epoch': 0.65} |
|
{'loss': 1.4688, 'grad_norm': 11.1005220413208, 'learning_rate': 1.908744540049704e-05, 'epoch': 0.65} |
|
{'train_accuracy': 0.734375, 'epoch': 0.65} |
|
{'loss': 1.5732, 'grad_norm': 18.011417388916016, 'learning_rate': 1.9078529566808265e-05, 'epoch': 0.66} |
|
{'train_accuracy': 0.78125, 'epoch': 0.66} |
|
{'loss': 1.1738, 'grad_norm': 9.390484809875488, 'learning_rate': 1.9069572492979933e-05, 'epoch': 0.66} |
|
{'train_accuracy': 0.71875, 'epoch': 0.66} |
|
{'loss': 1.5244, 'grad_norm': 21.22768211364746, 'learning_rate': 1.906057421970046e-05, 'epoch': 0.66} |
|
{'train_accuracy': 0.703125, 'epoch': 0.66} |
|
{'loss': 1.5396, 'grad_norm': 3.9320061206817627, 'learning_rate': 1.9051534787845414e-05, 'epoch': 0.66} |
|
{'train_accuracy': 0.65625, 'epoch': 0.66} |
|
{'loss': 1.4902, 'grad_norm': 16.053037643432617, 'learning_rate': 1.9042454238477326e-05, 'epoch': 0.67} |
|
{'train_accuracy': 0.71875, 'epoch': 0.67} |
|
{'loss': 1.3354, 'grad_norm': 3.7904529571533203, 'learning_rate': 1.9033332612845516e-05, 'epoch': 0.67} |
|
{'train_accuracy': 0.625, 'epoch': 0.67} |
|
{'loss': 1.5967, 'grad_norm': 3.9885382652282715, 'learning_rate': 1.9024169952385887e-05, 'epoch': 0.67} |
|
{'train_accuracy': 0.734375, 'epoch': 0.67} |
|
{'loss': 1.5703, 'grad_norm': 5.4799885749816895, 'learning_rate': 1.9014966298720752e-05, 'epoch': 0.67} |
|
{'train_accuracy': 0.71875, 'epoch': 0.67} |
|
{'loss': 1.2104, 'grad_norm': 3.2502963542938232, 'learning_rate': 1.9005721693658642e-05, 'epoch': 0.68} |
|
{'train_accuracy': 0.578125, 'epoch': 0.68} |
|
{'loss': 1.519, 'grad_norm': 10.936656951904297, 'learning_rate': 1.899643617919411e-05, 'epoch': 0.68} |
|
{'train_accuracy': 0.796875, 'epoch': 0.68} |
|
{'loss': 1.3594, 'grad_norm': 3.5721821784973145, 'learning_rate': 1.898710979750755e-05, 'epoch': 0.68} |
|
{'train_accuracy': 0.765625, 'epoch': 0.68} |
|
{'loss': 1.3838, 'grad_norm': 2.8655872344970703, 'learning_rate': 1.8977742590964985e-05, 'epoch': 0.68} |
|
{'train_accuracy': 0.796875, 'epoch': 0.68} |
|
{'loss': 1.168, 'grad_norm': 4.112249374389648, 'learning_rate': 1.8968334602117906e-05, 'epoch': 0.69} |
|
{'train_accuracy': 0.71875, 'epoch': 0.69} |
|
{'loss': 1.5669, 'grad_norm': 23.64423370361328, 'learning_rate': 1.8958885873703055e-05, 'epoch': 0.69} |
|
{'train_accuracy': 0.765625, 'epoch': 0.69} |
|
{'loss': 1.1182, 'grad_norm': 9.901530265808105, 'learning_rate': 1.8949396448642233e-05, 'epoch': 0.69} |
|
{'train_accuracy': 0.734375, 'epoch': 0.69} |
|
{'loss': 1.4614, 'grad_norm': 8.222607612609863, 'learning_rate': 1.8939866370042116e-05, 'epoch': 0.69} |
|
{'train_accuracy': 0.796875, 'epoch': 0.69} |
|
{'loss': 1.2705, 'grad_norm': 3.2499775886535645, 'learning_rate': 1.8930295681194054e-05, 'epoch': 0.7} |
|
{'train_accuracy': 0.734375, 'epoch': 0.7} |
|
{'loss': 1.4531, 'grad_norm': 21.207712173461914, 'learning_rate': 1.8920684425573865e-05, 'epoch': 0.7} |
|
{'train_accuracy': 0.75, 'epoch': 0.7} |
|
{'loss': 1.3164, 'grad_norm': 3.7196009159088135, 'learning_rate': 1.8911032646841657e-05, 'epoch': 0.7} |
|
{'train_accuracy': 0.796875, 'epoch': 0.7} |
|
{'loss': 1.251, 'grad_norm': 3.2149417400360107, 'learning_rate': 1.8901340388841602e-05, 'epoch': 0.71} |
|
{'train_accuracy': 0.703125, 'epoch': 0.71} |
|
{'loss': 1.5195, 'grad_norm': 5.346362113952637, 'learning_rate': 1.889160769560177e-05, 'epoch': 0.71} |
|
{'train_accuracy': 0.734375, 'epoch': 0.71} |
|
{'loss': 1.3813, 'grad_norm': 19.827333450317383, 'learning_rate': 1.8881834611333906e-05, 'epoch': 0.71} |
|
{'train_accuracy': 0.671875, 'epoch': 0.71} |
|
{'loss': 1.3633, 'grad_norm': 3.6186683177948, 'learning_rate': 1.887202118043323e-05, 'epoch': 0.71} |
|
{'train_accuracy': 0.6875, 'epoch': 0.71} |
|
{'loss': 1.3379, 'grad_norm': 7.749443531036377, 'learning_rate': 1.886216744747825e-05, 'epoch': 0.72} |
|
{'train_accuracy': 0.734375, 'epoch': 0.72} |
|
{'loss': 1.7515, 'grad_norm': 18.11931610107422, 'learning_rate': 1.885227345723054e-05, 'epoch': 0.72} |
|
{'train_accuracy': 0.75, 'epoch': 0.72} |
|
{'loss': 1.3262, 'grad_norm': 4.238664627075195, 'learning_rate': 1.8842339254634558e-05, 'epoch': 0.72} |
|
{'train_accuracy': 0.8125, 'epoch': 0.72} |
|
{'loss': 1.3804, 'grad_norm': 5.915544033050537, 'learning_rate': 1.8832364884817424e-05, 'epoch': 0.72} |
|
{'train_accuracy': 0.765625, 'epoch': 0.72} |
|
{'loss': 1.1641, 'grad_norm': 4.206833839416504, 'learning_rate': 1.8822350393088717e-05, 'epoch': 0.73} |
|
{'train_accuracy': 0.703125, 'epoch': 0.73} |
|
{'loss': 1.3164, 'grad_norm': 15.429242134094238, 'learning_rate': 1.8812295824940284e-05, 'epoch': 0.73} |
|
{'train_accuracy': 0.71875, 'epoch': 0.73} |
|
{'loss': 1.208, 'grad_norm': 4.126450061798096, 'learning_rate': 1.8802201226046023e-05, 'epoch': 0.73} |
|
{'train_accuracy': 0.765625, 'epoch': 0.73} |
|
{'loss': 1.333, 'grad_norm': 5.984684944152832, 'learning_rate': 1.879206664226166e-05, 'epoch': 0.73} |
|
{'train_accuracy': 0.578125, 'epoch': 0.73} |
|
{'loss': 1.499, 'grad_norm': 3.0508310794830322, 'learning_rate': 1.8781892119624578e-05, 'epoch': 0.74} |
|
{'train_accuracy': 0.734375, 'epoch': 0.74} |
|
{'loss': 1.3906, 'grad_norm': 5.437434673309326, 'learning_rate': 1.877167770435357e-05, 'epoch': 0.74} |
|
{'train_accuracy': 0.71875, 'epoch': 0.74} |
|
{'loss': 1.4321, 'grad_norm': 14.601706504821777, 'learning_rate': 1.8761423442848655e-05, 'epoch': 0.74} |
|
{'train_accuracy': 0.703125, 'epoch': 0.74} |
|
{'loss': 1.4238, 'grad_norm': 5.646981716156006, 'learning_rate': 1.875112938169085e-05, 'epoch': 0.74} |
|
{'train_accuracy': 0.703125, 'epoch': 0.74} |
|
{'loss': 1.1875, 'grad_norm': 3.7609148025512695, 'learning_rate': 1.874079556764197e-05, 'epoch': 0.75} |
|
{'train_accuracy': 0.703125, 'epoch': 0.75} |
|
{'loss': 1.5713, 'grad_norm': 3.995249032974243, 'learning_rate': 1.8730422047644417e-05, 'epoch': 0.75} |
|
{'train_accuracy': 0.703125, 'epoch': 0.75} |
|
{'loss': 1.4902, 'grad_norm': 13.330533027648926, 'learning_rate': 1.8720008868820954e-05, 'epoch': 0.75} |
|
{'train_accuracy': 0.78125, 'epoch': 0.75} |
|
{'loss': 1.2695, 'grad_norm': 9.846002578735352, 'learning_rate': 1.8709556078474497e-05, 'epoch': 0.76} |
|
{'train_accuracy': 0.734375, 'epoch': 0.76} |
|
{'loss': 1.1797, 'grad_norm': 2.9425392150878906, 'learning_rate': 1.8699063724087905e-05, 'epoch': 0.76} |
|
{'train_accuracy': 0.625, 'epoch': 0.76} |
|
{'loss': 1.5898, 'grad_norm': 9.827260971069336, 'learning_rate': 1.868853185332376e-05, 'epoch': 0.76} |
|
{'train_accuracy': 0.71875, 'epoch': 0.76} |
|
{'loss': 1.3945, 'grad_norm': 6.012570858001709, 'learning_rate': 1.867796051402415e-05, 'epoch': 0.76} |
|
{'train_accuracy': 0.75, 'epoch': 0.76} |
|
{'loss': 1.1934, 'grad_norm': 12.465781211853027, 'learning_rate': 1.8667349754210456e-05, 'epoch': 0.77} |
|
{'train_accuracy': 0.75, 'epoch': 0.77} |
|
{'loss': 1.2749, 'grad_norm': 11.289711952209473, 'learning_rate': 1.865669962208313e-05, 'epoch': 0.77} |
|
{'train_accuracy': 0.671875, 'epoch': 0.77} |
|
{'loss': 1.3511, 'grad_norm': 9.718608856201172, 'learning_rate': 1.864601016602147e-05, 'epoch': 0.77} |
|
{'train_accuracy': 0.6875, 'epoch': 0.77} |
|
{'loss': 1.3115, 'grad_norm': 14.851384162902832, 'learning_rate': 1.863528143458342e-05, 'epoch': 0.77} |
|
{'train_accuracy': 0.578125, 'epoch': 0.77} |
|
{'loss': 1.9219, 'grad_norm': 27.674755096435547, 'learning_rate': 1.8624513476505316e-05, 'epoch': 0.78} |
|
{'train_accuracy': 0.671875, 'epoch': 0.78} |
|
{'loss': 1.5938, 'grad_norm': 3.874488115310669, 'learning_rate': 1.861370634070171e-05, 'epoch': 0.78} |
|
{'train_accuracy': 0.671875, 'epoch': 0.78} |
|
{'loss': 1.2485, 'grad_norm': 12.267851829528809, 'learning_rate': 1.8602860076265107e-05, 'epoch': 0.78} |
|
{'train_accuracy': 0.75, 'epoch': 0.78} |
|
{'loss': 1.4756, 'grad_norm': 10.122313499450684, 'learning_rate': 1.859197473246576e-05, 'epoch': 0.78} |
|
{'train_accuracy': 0.6875, 'epoch': 0.78} |
|
{'loss': 1.2676, 'grad_norm': 11.50515079498291, 'learning_rate': 1.8581050358751444e-05, 'epoch': 0.79} |
|
{'train_accuracy': 0.765625, 'epoch': 0.79} |
|
{'loss': 1.1899, 'grad_norm': 12.21772289276123, 'learning_rate': 1.857008700474723e-05, 'epoch': 0.79} |
|
{'train_accuracy': 0.71875, 'epoch': 0.79} |
|
{'loss': 1.418, 'grad_norm': 8.307805061340332, 'learning_rate': 1.8559084720255276e-05, 'epoch': 0.79} |
|
{'train_accuracy': 0.640625, 'epoch': 0.79} |
|
{'loss': 1.4775, 'grad_norm': 4.6956610679626465, 'learning_rate': 1.8548043555254556e-05, 'epoch': 0.79} |
|
{'train_accuracy': 0.703125, 'epoch': 0.79} |
|
{'loss': 1.665, 'grad_norm': 11.48013687133789, 'learning_rate': 1.853696355990069e-05, 'epoch': 0.8} |
|
{'train_accuracy': 0.828125, 'epoch': 0.8} |
|
{'loss': 1.2144, 'grad_norm': 15.654217720031738, 'learning_rate': 1.852584478452568e-05, 'epoch': 0.8} |
|
{'eval_accuracy': 0.7014451622962952, 'eval_max_score': 4.8125, 'eval_min_score': -5.15625, 'eval_runtime': 151.0436, 'eval_samples_per_second': 18.783, 'eval_steps_per_second': 0.298, 'epoch': 0.8} |
|
{'train_accuracy': 0.6875, 'epoch': 0.8} |
|
{'loss': 1.1758, 'grad_norm': 6.716573238372803, 'learning_rate': 1.8514687279637677e-05, 'epoch': 0.8} |
|
{'train_accuracy': 0.765625, 'epoch': 0.8} |
|
{'loss': 1.5117, 'grad_norm': 12.827051162719727, 'learning_rate': 1.8503491095920788e-05, 'epoch': 0.81} |
|
{'train_accuracy': 0.78125, 'epoch': 0.81} |
|
{'loss': 1.377, 'grad_norm': 15.274651527404785, 'learning_rate': 1.849225628423481e-05, 'epoch': 0.81} |
|
{'train_accuracy': 0.703125, 'epoch': 0.81} |
|
{'loss': 1.2598, 'grad_norm': 12.7550048828125, 'learning_rate': 1.8480982895615005e-05, 'epoch': 0.81} |
|
{'train_accuracy': 0.59375, 'epoch': 0.81} |
|
{'loss': 1.3872, 'grad_norm': 12.460929870605469, 'learning_rate': 1.846967098127189e-05, 'epoch': 0.81} |
|
{'train_accuracy': 0.640625, 'epoch': 0.81} |
|
{'loss': 1.4429, 'grad_norm': 21.332063674926758, 'learning_rate': 1.8458320592590976e-05, 'epoch': 0.82} |
|
{'train_accuracy': 0.734375, 'epoch': 0.82} |
|
{'loss': 1.7881, 'grad_norm': 27.87535285949707, 'learning_rate': 1.8446931781132553e-05, 'epoch': 0.82} |
|
{'train_accuracy': 0.671875, 'epoch': 0.82} |
|
{'loss': 1.417, 'grad_norm': 3.5377941131591797, 'learning_rate': 1.843550459863145e-05, 'epoch': 0.82} |
|
{'train_accuracy': 0.5625, 'epoch': 0.82} |
|
{'loss': 1.6807, 'grad_norm': 21.97355842590332, 'learning_rate': 1.8424039096996804e-05, 'epoch': 0.82} |
|
{'train_accuracy': 0.6875, 'epoch': 0.82} |
|
{'loss': 1.5273, 'grad_norm': 27.53736686706543, 'learning_rate': 1.8412535328311813e-05, 'epoch': 0.83} |
|
{'train_accuracy': 0.671875, 'epoch': 0.83} |
|
{'loss': 1.3857, 'grad_norm': 15.879623413085938, 'learning_rate': 1.8400993344833513e-05, 'epoch': 0.83} |
|
{'train_accuracy': 0.734375, 'epoch': 0.83} |
|
{'loss': 1.4648, 'grad_norm': 4.012557029724121, 'learning_rate': 1.8389413198992528e-05, 'epoch': 0.83} |
|
{'train_accuracy': 0.78125, 'epoch': 0.83} |
|
{'loss': 1.3896, 'grad_norm': 11.08835220336914, 'learning_rate': 1.8377794943392848e-05, 'epoch': 0.83} |
|
{'train_accuracy': 0.765625, 'epoch': 0.83} |
|
{'loss': 1.4434, 'grad_norm': 24.538671493530273, 'learning_rate': 1.8366138630811573e-05, 'epoch': 0.84} |
|
{'train_accuracy': 0.625, 'epoch': 0.84} |
|
{'loss': 1.7217, 'grad_norm': 29.274654388427734, 'learning_rate': 1.835444431419868e-05, 'epoch': 0.84} |
|
{'train_accuracy': 0.6875, 'epoch': 0.84} |
|
{'loss': 1.459, 'grad_norm': 12.992687225341797, 'learning_rate': 1.834271204667679e-05, 'epoch': 0.84} |
|
{'train_accuracy': 0.78125, 'epoch': 0.84} |
|
{'loss': 1.4219, 'grad_norm': 14.843409538269043, 'learning_rate': 1.8330941881540917e-05, 'epoch': 0.84} |
|
{'train_accuracy': 0.71875, 'epoch': 0.84} |
|
{'loss': 1.7939, 'grad_norm': 35.8585319519043, 'learning_rate': 1.8319133872258224e-05, 'epoch': 0.85} |
|
{'train_accuracy': 0.609375, 'epoch': 0.85} |
|
{'loss': 1.4526, 'grad_norm': 30.27836036682129, 'learning_rate': 1.830728807246779e-05, 'epoch': 0.85} |
|
{'train_accuracy': 0.71875, 'epoch': 0.85} |
|
{'loss': 1.4277, 'grad_norm': 13.607982635498047, 'learning_rate': 1.8295404535980357e-05, 'epoch': 0.85} |
|
{'train_accuracy': 0.640625, 'epoch': 0.85} |
|
{'loss': 1.2144, 'grad_norm': 2.9818201065063477, 'learning_rate': 1.8283483316778097e-05, 'epoch': 0.86} |
|
{'train_accuracy': 0.625, 'epoch': 0.86} |
|
{'loss': 1.6626, 'grad_norm': 26.039756774902344, 'learning_rate': 1.827152446901435e-05, 'epoch': 0.86} |
|
{'train_accuracy': 0.78125, 'epoch': 0.86} |
|
{'loss': 1.8359, 'grad_norm': 34.77094268798828, 'learning_rate': 1.82595280470134e-05, 'epoch': 0.86} |
|
{'train_accuracy': 0.703125, 'epoch': 0.86} |
|
{'loss': 1.5605, 'grad_norm': 22.246620178222656, 'learning_rate': 1.8247494105270198e-05, 'epoch': 0.86} |
|
{'train_accuracy': 0.703125, 'epoch': 0.86} |
|
{'loss': 1.3169, 'grad_norm': 3.848651885986328, 'learning_rate': 1.8235422698450153e-05, 'epoch': 0.87} |
|
{'train_accuracy': 0.671875, 'epoch': 0.87} |
|
{'loss': 1.5996, 'grad_norm': 15.153877258300781, 'learning_rate': 1.8223313881388845e-05, 'epoch': 0.87} |
|
{'train_accuracy': 0.6875, 'epoch': 0.87} |
|
{'loss': 1.2954, 'grad_norm': 9.871405601501465, 'learning_rate': 1.8211167709091805e-05, 'epoch': 0.87} |
|
{'train_accuracy': 0.703125, 'epoch': 0.87} |
|
{'loss': 1.7251, 'grad_norm': 30.780324935913086, 'learning_rate': 1.8198984236734246e-05, 'epoch': 0.87} |
|
{'train_accuracy': 0.765625, 'epoch': 0.87} |
|
{'loss': 1.5273, 'grad_norm': 21.378108978271484, 'learning_rate': 1.818676351966083e-05, 'epoch': 0.88} |
|
{'train_accuracy': 0.640625, 'epoch': 0.88} |
|
{'loss': 1.3877, 'grad_norm': 5.893415451049805, 'learning_rate': 1.81745056133854e-05, 'epoch': 0.88} |
|
{'train_accuracy': 0.734375, 'epoch': 0.88} |
|
{'loss': 1.4844, 'grad_norm': 12.588119506835938, 'learning_rate': 1.8162210573590733e-05, 'epoch': 0.88} |
|
{'train_accuracy': 0.78125, 'epoch': 0.88} |
|
{'loss': 1.4629, 'grad_norm': 19.006074905395508, 'learning_rate': 1.8149878456128296e-05, 'epoch': 0.88} |
|
{'train_accuracy': 0.75, 'epoch': 0.88} |
|
{'loss': 1.5322, 'grad_norm': 15.575494766235352, 'learning_rate': 1.8137509317017976e-05, 'epoch': 0.89} |
|
{'train_accuracy': 0.53125, 'epoch': 0.89} |
|
{'loss': 1.6191, 'grad_norm': 8.873583793640137, 'learning_rate': 1.8125103212447842e-05, 'epoch': 0.89} |
|
{'train_accuracy': 0.703125, 'epoch': 0.89} |
|
{'loss': 1.4995, 'grad_norm': 3.71246337890625, 'learning_rate': 1.8112660198773883e-05, 'epoch': 0.89} |
|
{'train_accuracy': 0.75, 'epoch': 0.89} |
|
{'loss': 1.2642, 'grad_norm': 10.060272216796875, 'learning_rate': 1.8100180332519746e-05, 'epoch': 0.89} |
|
{'train_accuracy': 0.671875, 'epoch': 0.89} |
|
{'loss': 1.5645, 'grad_norm': 15.318142890930176, 'learning_rate': 1.8087663670376483e-05, 'epoch': 0.9} |
|
{'train_accuracy': 0.640625, 'epoch': 0.9} |
|
{'loss': 1.6025, 'grad_norm': 18.948949813842773, 'learning_rate': 1.80751102692023e-05, 'epoch': 0.9} |
|
{'train_accuracy': 0.796875, 'epoch': 0.9} |
|
{'loss': 1.4634, 'grad_norm': 5.428231716156006, 'learning_rate': 1.80625201860223e-05, 'epoch': 0.9} |
|
{'train_accuracy': 0.78125, 'epoch': 0.9} |
|
{'loss': 1.5166, 'grad_norm': 4.9712934494018555, 'learning_rate': 1.8049893478028203e-05, 'epoch': 0.91} |
|
{'train_accuracy': 0.828125, 'epoch': 0.91} |
|
{'loss': 1.4326, 'grad_norm': 15.7850341796875, 'learning_rate': 1.803723020257811e-05, 'epoch': 0.91} |
|
{'train_accuracy': 0.6875, 'epoch': 0.91} |
|
{'loss': 1.5503, 'grad_norm': 14.186681747436523, 'learning_rate': 1.8024530417196228e-05, 'epoch': 0.91} |
|
{'train_accuracy': 0.65625, 'epoch': 0.91} |
|
{'loss': 1.2954, 'grad_norm': 2.5712296962738037, 'learning_rate': 1.8011794179572628e-05, 'epoch': 0.91} |
|
{'train_accuracy': 0.71875, 'epoch': 0.91} |
|
{'loss': 1.4614, 'grad_norm': 3.0300934314727783, 'learning_rate': 1.7999021547562943e-05, 'epoch': 0.92} |
|
{'train_accuracy': 0.71875, 'epoch': 0.92} |
|
{'loss': 1.312, 'grad_norm': 11.72201156616211, 'learning_rate': 1.7986212579188163e-05, 'epoch': 0.92} |
|
{'train_accuracy': 0.6875, 'epoch': 0.92} |
|
{'loss': 1.3076, 'grad_norm': 2.3370659351348877, 'learning_rate': 1.7973367332634314e-05, 'epoch': 0.92} |
|
{'train_accuracy': 0.703125, 'epoch': 0.92} |
|
{'loss': 1.2827, 'grad_norm': 7.042386531829834, 'learning_rate': 1.796048586625223e-05, 'epoch': 0.92} |
|
{'train_accuracy': 0.671875, 'epoch': 0.92} |
|
{'loss': 1.6367, 'grad_norm': 3.6882100105285645, 'learning_rate': 1.7947568238557282e-05, 'epoch': 0.93} |
|
{'train_accuracy': 0.671875, 'epoch': 0.93} |
|
{'loss': 1.3926, 'grad_norm': 2.304743766784668, 'learning_rate': 1.793461450822909e-05, 'epoch': 0.93} |
|
{'train_accuracy': 0.75, 'epoch': 0.93} |
|
{'loss': 1.3057, 'grad_norm': 8.389480590820312, 'learning_rate': 1.7921624734111292e-05, 'epoch': 0.93} |
|
{'train_accuracy': 0.8125, 'epoch': 0.93} |
|
{'loss': 1.3267, 'grad_norm': 7.985996246337891, 'learning_rate': 1.7908598975211256e-05, 'epoch': 0.93} |
|
{'train_accuracy': 0.59375, 'epoch': 0.93} |
|
{'loss': 1.4209, 'grad_norm': 9.184244155883789, 'learning_rate': 1.7895537290699806e-05, 'epoch': 0.94} |
|
{'train_accuracy': 0.796875, 'epoch': 0.94} |
|
{'loss': 1.3384, 'grad_norm': 13.210733413696289, 'learning_rate': 1.7882439739910964e-05, 'epoch': 0.94} |
|
{'train_accuracy': 0.71875, 'epoch': 0.94} |
|
{'loss': 1.4727, 'grad_norm': 7.19890832901001, 'learning_rate': 1.7869306382341682e-05, 'epoch': 0.94} |
|
{'train_accuracy': 0.703125, 'epoch': 0.94} |
|
{'loss': 1.395, 'grad_norm': 4.545177936553955, 'learning_rate': 1.7856137277651567e-05, 'epoch': 0.94} |
|
{'train_accuracy': 0.703125, 'epoch': 0.94} |
|
{'loss': 1.3652, 'grad_norm': 14.59473991394043, 'learning_rate': 1.784293248566261e-05, 'epoch': 0.95} |
|
{'train_accuracy': 0.703125, 'epoch': 0.95} |
|
{'loss': 1.2046, 'grad_norm': 3.9617745876312256, 'learning_rate': 1.7829692066358914e-05, 'epoch': 0.95} |
|
{'train_accuracy': 0.71875, 'epoch': 0.95} |
|
{'loss': 1.4561, 'grad_norm': 12.78911018371582, 'learning_rate': 1.7816416079886427e-05, 'epoch': 0.95} |
|
{'train_accuracy': 0.75, 'epoch': 0.95} |
|
{'loss': 1.2793, 'grad_norm': 2.799234628677368, 'learning_rate': 1.780310458655266e-05, 'epoch': 0.96} |
|
{'train_accuracy': 0.6875, 'epoch': 0.96} |
|
{'loss': 1.5762, 'grad_norm': 4.567415714263916, 'learning_rate': 1.7789757646826416e-05, 'epoch': 0.96} |
|
{'train_accuracy': 0.765625, 'epoch': 0.96} |
|
{'loss': 1.4688, 'grad_norm': 2.880171775817871, 'learning_rate': 1.7776375321337523e-05, 'epoch': 0.96} |
|
{'train_accuracy': 0.71875, 'epoch': 0.96} |
|
{'loss': 1.25, 'grad_norm': 4.474959373474121, 'learning_rate': 1.7762957670876547e-05, 'epoch': 0.96} |
|
{'train_accuracy': 0.671875, 'epoch': 0.96} |
|
{'loss': 1.5176, 'grad_norm': 4.31421422958374, 'learning_rate': 1.7749504756394528e-05, 'epoch': 0.97} |
|
{'train_accuracy': 0.625, 'epoch': 0.97} |
|
{'loss': 1.3076, 'grad_norm': 3.9677927494049072, 'learning_rate': 1.7736016639002683e-05, 'epoch': 0.97} |
|
{'train_accuracy': 0.671875, 'epoch': 0.97} |
|
{'loss': 1.4307, 'grad_norm': 2.26666522026062, 'learning_rate': 1.7722493379972163e-05, 'epoch': 0.97} |
|
{'train_accuracy': 0.703125, 'epoch': 0.97} |
|
{'loss': 1.4111, 'grad_norm': 6.098262310028076, 'learning_rate': 1.770893504073373e-05, 'epoch': 0.97} |
|
{'train_accuracy': 0.734375, 'epoch': 0.97} |
|
{'loss': 1.4824, 'grad_norm': 8.281463623046875, 'learning_rate': 1.769534168287752e-05, 'epoch': 0.98} |
|
{'train_accuracy': 0.6875, 'epoch': 0.98} |
|
{'loss': 1.4072, 'grad_norm': 6.954835891723633, 'learning_rate': 1.7681713368152733e-05, 'epoch': 0.98} |
|
{'train_accuracy': 0.6875, 'epoch': 0.98} |
|
{'loss': 1.5469, 'grad_norm': 5.460451126098633, 'learning_rate': 1.7668050158467367e-05, 'epoch': 0.98} |
|
{'train_accuracy': 0.765625, 'epoch': 0.98} |
|
{'loss': 1.2954, 'grad_norm': 2.4143896102905273, 'learning_rate': 1.765435211588794e-05, 'epoch': 0.98} |
|
{'train_accuracy': 0.71875, 'epoch': 0.98} |
|
{'loss': 1.2959, 'grad_norm': 3.317214012145996, 'learning_rate': 1.7640619302639194e-05, 'epoch': 0.99} |
|
{'train_accuracy': 0.65625, 'epoch': 0.99} |
|
{'loss': 1.5464, 'grad_norm': 10.918193817138672, 'learning_rate': 1.762685178110382e-05, 'epoch': 0.99} |
|
{'train_accuracy': 0.734375, 'epoch': 0.99} |
|
{'loss': 1.1704, 'grad_norm': 5.174256801605225, 'learning_rate': 1.7613049613822188e-05, 'epoch': 0.99} |
|
{'train_accuracy': 0.65625, 'epoch': 0.99} |
|
{'loss': 1.2808, 'grad_norm': 4.161032199859619, 'learning_rate': 1.759921286349203e-05, 'epoch': 0.99} |
|
{'train_accuracy': 0.625, 'epoch': 0.99} |
|
{'loss': 1.1694, 'grad_norm': 8.024152755737305, 'learning_rate': 1.7585341592968188e-05, 'epoch': 1.0} |
|
{'train_accuracy': 0.65625, 'epoch': 1.0} |
|
{'loss': 1.3779, 'grad_norm': 6.739095687866211, 'learning_rate': 1.7571435865262314e-05, 'epoch': 1.0} |
|
{'eval_accuracy': 0.7010927200317383, 'eval_max_score': 5.375, 'eval_min_score': -5.71875, 'eval_runtime': 151.0289, 'eval_samples_per_second': 18.784, 'eval_steps_per_second': 0.298, 'epoch': 1.0} |
|
{'train_accuracy': 0.828125, 'epoch': 1.0} |
|
{'loss': 1.0659, 'grad_norm': 4.438934326171875, 'learning_rate': 1.7557495743542586e-05, 'epoch': 1.0} |
|
{'train_accuracy': 0.796875, 'epoch': 1.0} |
|
{'loss': 1.2104, 'grad_norm': 8.325281143188477, 'learning_rate': 1.7543521291133413e-05, 'epoch': 1.01} |
|
{'train_accuracy': 0.765625, 'epoch': 1.01} |
|
{'loss': 1.2192, 'grad_norm': 4.250606536865234, 'learning_rate': 1.752951257151516e-05, 'epoch': 1.01} |
|
{'train_accuracy': 0.71875, 'epoch': 1.01} |
|
{'loss': 1.2773, 'grad_norm': 8.005126953125, 'learning_rate': 1.751546964832386e-05, 'epoch': 1.01} |
|
{'train_accuracy': 0.765625, 'epoch': 1.01} |
|
{'loss': 1.1494, 'grad_norm': 3.093712329864502, 'learning_rate': 1.7501392585350903e-05, 'epoch': 1.01} |
|
{'train_accuracy': 0.78125, 'epoch': 1.01} |
|
{'loss': 1.1475, 'grad_norm': 4.209375381469727, 'learning_rate': 1.7487281446542782e-05, 'epoch': 1.02} |
|
{'train_accuracy': 0.703125, 'epoch': 1.02} |
|
{'loss': 1.4062, 'grad_norm': 11.179862022399902, 'learning_rate': 1.747313629600077e-05, 'epoch': 1.02} |
|
{'train_accuracy': 0.71875, 'epoch': 1.02} |
|
{'loss': 1.2676, 'grad_norm': 2.9365897178649902, 'learning_rate': 1.745895719798065e-05, 'epoch': 1.02} |
|
{'train_accuracy': 0.859375, 'epoch': 1.02} |
|
{'loss': 1.1021, 'grad_norm': 6.062369346618652, 'learning_rate': 1.74447442168924e-05, 'epoch': 1.02} |
|
{'train_accuracy': 0.703125, 'epoch': 1.02} |
|
{'loss': 1.2554, 'grad_norm': 4.148881435394287, 'learning_rate': 1.743049741729993e-05, 'epoch': 1.03} |
|
{'train_accuracy': 0.78125, 'epoch': 1.03} |
|
{'loss': 1.1567, 'grad_norm': 4.890829563140869, 'learning_rate': 1.741621686392077e-05, 'epoch': 1.03} |
|
{'train_accuracy': 0.71875, 'epoch': 1.03} |
|
{'loss': 1.2739, 'grad_norm': 5.793519973754883, 'learning_rate': 1.740190262162578e-05, 'epoch': 1.03} |
|
{'train_accuracy': 0.765625, 'epoch': 1.03} |
|
{'loss': 1.3457, 'grad_norm': 9.222723960876465, 'learning_rate': 1.7387554755438857e-05, 'epoch': 1.03} |
|
{'train_accuracy': 0.796875, 'epoch': 1.03} |
|
{'loss': 1.4707, 'grad_norm': 6.217665195465088, 'learning_rate': 1.7373173330536628e-05, 'epoch': 1.04} |
|
{'train_accuracy': 0.734375, 'epoch': 1.04} |
|
{'loss': 1.1362, 'grad_norm': 3.183716058731079, 'learning_rate': 1.7358758412248176e-05, 'epoch': 1.04} |
|
{'train_accuracy': 0.703125, 'epoch': 1.04} |
|
{'loss': 1.3467, 'grad_norm': 8.913907051086426, 'learning_rate': 1.734431006605473e-05, 'epoch': 1.04} |
|
{'train_accuracy': 0.765625, 'epoch': 1.04} |
|
{'loss': 1.3984, 'grad_norm': 14.859869003295898, 'learning_rate': 1.7329828357589356e-05, 'epoch': 1.04} |
|
{'train_accuracy': 0.75, 'epoch': 1.04} |
|
{'loss': 1.27, 'grad_norm': 6.55880880355835, 'learning_rate': 1.731531335263669e-05, 'epoch': 1.05} |
|
{'train_accuracy': 0.71875, 'epoch': 1.05} |
|
{'loss': 1.2803, 'grad_norm': 3.913179874420166, 'learning_rate': 1.7300765117132608e-05, 'epoch': 1.05} |
|
{'train_accuracy': 0.828125, 'epoch': 1.05} |
|
{'loss': 1.2852, 'grad_norm': 15.469132423400879, 'learning_rate': 1.7286183717163942e-05, 'epoch': 1.05} |
|
{'train_accuracy': 0.734375, 'epoch': 1.05} |
|
{'loss': 1.4697, 'grad_norm': 17.792240142822266, 'learning_rate': 1.7271569218968175e-05, 'epoch': 1.06} |
|
{'train_accuracy': 0.71875, 'epoch': 1.06} |
|
{'loss': 1.5859, 'grad_norm': 8.638894081115723, 'learning_rate': 1.7256921688933145e-05, 'epoch': 1.06} |
|
{'train_accuracy': 0.75, 'epoch': 1.06} |
|
{'loss': 1.2485, 'grad_norm': 4.139883995056152, 'learning_rate': 1.7242241193596747e-05, 'epoch': 1.06} |
|
{'train_accuracy': 0.734375, 'epoch': 1.06} |
|
{'loss': 1.2969, 'grad_norm': 5.416935443878174, 'learning_rate': 1.722752779964661e-05, 'epoch': 1.06} |
|
{'train_accuracy': 0.6875, 'epoch': 1.06} |
|
{'loss': 1.2886, 'grad_norm': 18.150854110717773, 'learning_rate': 1.7212781573919818e-05, 'epoch': 1.07} |
|
{'train_accuracy': 0.734375, 'epoch': 1.07} |
|
{'loss': 1.4951, 'grad_norm': 17.88170623779297, 'learning_rate': 1.7198002583402588e-05, 'epoch': 1.07} |
|
{'train_accuracy': 0.734375, 'epoch': 1.07} |
|
{'loss': 1.2217, 'grad_norm': 7.877701759338379, 'learning_rate': 1.718319089522999e-05, 'epoch': 1.07} |
|
{'train_accuracy': 0.828125, 'epoch': 1.07} |
|
{'loss': 1.1587, 'grad_norm': 3.5272531509399414, 'learning_rate': 1.7168346576685616e-05, 'epoch': 1.07} |
|
{'train_accuracy': 0.75, 'epoch': 1.07} |
|
{'loss': 1.2354, 'grad_norm': 4.579117298126221, 'learning_rate': 1.7153469695201278e-05, 'epoch': 1.08} |
|
{'train_accuracy': 0.78125, 'epoch': 1.08} |
|
{'loss': 1.374, 'grad_norm': 14.453102111816406, 'learning_rate': 1.713856031835672e-05, 'epoch': 1.08} |
|
{'train_accuracy': 0.875, 'epoch': 1.08} |
|
{'loss': 1.0933, 'grad_norm': 7.408053874969482, 'learning_rate': 1.7123618513879296e-05, 'epoch': 1.08} |
|
{'train_accuracy': 0.8125, 'epoch': 1.08} |
|
{'loss': 1.127, 'grad_norm': 5.875626564025879, 'learning_rate': 1.710864434964367e-05, 'epoch': 1.08} |
|
{'train_accuracy': 0.734375, 'epoch': 1.08} |
|
{'loss': 1.2173, 'grad_norm': 3.377965211868286, 'learning_rate': 1.709363789367149e-05, 'epoch': 1.09} |
|
{'train_accuracy': 0.6875, 'epoch': 1.09} |
|
{'loss': 1.3379, 'grad_norm': 3.2645585536956787, 'learning_rate': 1.7078599214131105e-05, 'epoch': 1.09} |
|
{'train_accuracy': 0.765625, 'epoch': 1.09} |
|
{'loss': 1.272, 'grad_norm': 5.091524124145508, 'learning_rate': 1.7063528379337238e-05, 'epoch': 1.09} |
|
{'train_accuracy': 0.75, 'epoch': 1.09} |
|
{'loss': 1.272, 'grad_norm': 5.960602283477783, 'learning_rate': 1.7048425457750685e-05, 'epoch': 1.09} |
|
{'train_accuracy': 0.765625, 'epoch': 1.09} |
|
{'loss': 1.1245, 'grad_norm': 4.821347713470459, 'learning_rate': 1.7033290517977996e-05, 'epoch': 1.1} |
|
{'train_accuracy': 0.71875, 'epoch': 1.1} |
|
{'loss': 1.2695, 'grad_norm': 3.2067134380340576, 'learning_rate': 1.7018123628771166e-05, 'epoch': 1.1} |
|
{'train_accuracy': 0.734375, 'epoch': 1.1} |
|
{'loss': 1.0884, 'grad_norm': 3.3393802642822266, 'learning_rate': 1.7002924859027322e-05, 'epoch': 1.1} |
|
{'train_accuracy': 0.84375, 'epoch': 1.1} |
|
{'loss': 0.9609, 'grad_norm': 4.24766731262207, 'learning_rate': 1.698769427778842e-05, 'epoch': 1.11} |
|
{'train_accuracy': 0.75, 'epoch': 1.11} |
|
{'loss': 1.1318, 'grad_norm': 13.302772521972656, 'learning_rate': 1.6972431954240906e-05, 'epoch': 1.11} |
|
{'train_accuracy': 0.75, 'epoch': 1.11} |
|
{'loss': 1.2275, 'grad_norm': 3.8378937244415283, 'learning_rate': 1.6957137957715442e-05, 'epoch': 1.11} |
|
{'train_accuracy': 0.765625, 'epoch': 1.11} |
|
{'loss': 1.3276, 'grad_norm': 5.301788806915283, 'learning_rate': 1.6941812357686547e-05, 'epoch': 1.11} |
|
{'train_accuracy': 0.71875, 'epoch': 1.11} |
|
{'loss': 1.2417, 'grad_norm': 3.5003018379211426, 'learning_rate': 1.6926455223772317e-05, 'epoch': 1.12} |
|
{'train_accuracy': 0.796875, 'epoch': 1.12} |
|
{'loss': 1.1333, 'grad_norm': 7.428293704986572, 'learning_rate': 1.6911066625734082e-05, 'epoch': 1.12} |
|
{'train_accuracy': 0.765625, 'epoch': 1.12} |
|
{'loss': 1.251, 'grad_norm': 5.929080009460449, 'learning_rate': 1.689564663347611e-05, 'epoch': 1.12} |
|
{'train_accuracy': 0.625, 'epoch': 1.12} |
|
{'loss': 1.4849, 'grad_norm': 4.198963165283203, 'learning_rate': 1.6880195317045274e-05, 'epoch': 1.12} |
|
{'train_accuracy': 0.8125, 'epoch': 1.12} |
|
{'loss': 1.4326, 'grad_norm': 5.26378059387207, 'learning_rate': 1.6864712746630745e-05, 'epoch': 1.13} |
|
{'train_accuracy': 0.671875, 'epoch': 1.13} |
|
{'loss': 1.3887, 'grad_norm': 9.662724494934082, 'learning_rate': 1.6849198992563666e-05, 'epoch': 1.13} |
|
{'train_accuracy': 0.640625, 'epoch': 1.13} |
|
{'loss': 1.2671, 'grad_norm': 3.6311473846435547, 'learning_rate': 1.6833654125316832e-05, 'epoch': 1.13} |
|
{'train_accuracy': 0.734375, 'epoch': 1.13} |
|
{'loss': 1.4048, 'grad_norm': 4.167621612548828, 'learning_rate': 1.681807821550438e-05, 'epoch': 1.13} |
|
{'train_accuracy': 0.734375, 'epoch': 1.13} |
|
{'loss': 1.2554, 'grad_norm': 2.69230318069458, 'learning_rate': 1.6802471333881456e-05, 'epoch': 1.14} |
|
{'train_accuracy': 0.8125, 'epoch': 1.14} |
|
{'loss': 1.1846, 'grad_norm': 3.8613479137420654, 'learning_rate': 1.6786833551343896e-05, 'epoch': 1.14} |
|
{'train_accuracy': 0.8125, 'epoch': 1.14} |
|
{'loss': 1.3999, 'grad_norm': 3.424915075302124, 'learning_rate': 1.677116493892792e-05, 'epoch': 1.14} |
|
{'train_accuracy': 0.765625, 'epoch': 1.14} |
|
{'loss': 1.2183, 'grad_norm': 6.499844551086426, 'learning_rate': 1.6755465567809776e-05, 'epoch': 1.14} |
|
{'train_accuracy': 0.78125, 'epoch': 1.14} |
|
{'loss': 1.1621, 'grad_norm': 8.367511749267578, 'learning_rate': 1.6739735509305452e-05, 'epoch': 1.15} |
|
{'train_accuracy': 0.703125, 'epoch': 1.15} |
|
{'loss': 1.2539, 'grad_norm': 3.175813913345337, 'learning_rate': 1.6723974834870327e-05, 'epoch': 1.15} |
|
{'train_accuracy': 0.71875, 'epoch': 1.15} |
|
{'loss': 1.1562, 'grad_norm': 2.990525245666504, 'learning_rate': 1.6708183616098864e-05, 'epoch': 1.15} |
|
{'train_accuracy': 0.78125, 'epoch': 1.15} |
|
{'loss': 1.1377, 'grad_norm': 2.673862934112549, 'learning_rate': 1.669236192472427e-05, 'epoch': 1.16} |
|
{'train_accuracy': 0.765625, 'epoch': 1.16} |
|
{'loss': 1.2139, 'grad_norm': 3.241729497909546, 'learning_rate': 1.667650983261818e-05, 'epoch': 1.16} |
|
{'train_accuracy': 0.71875, 'epoch': 1.16} |
|
{'loss': 1.3027, 'grad_norm': 3.701186418533325, 'learning_rate': 1.6660627411790327e-05, 'epoch': 1.16} |
|
{'train_accuracy': 0.75, 'epoch': 1.16} |
|
{'loss': 1.1738, 'grad_norm': 3.050072431564331, 'learning_rate': 1.664471473438822e-05, 'epoch': 1.16} |
|
{'train_accuracy': 0.703125, 'epoch': 1.16} |
|
{'loss': 1.2134, 'grad_norm': 8.023958206176758, 'learning_rate': 1.66287718726968e-05, 'epoch': 1.17} |
|
{'train_accuracy': 0.71875, 'epoch': 1.17} |
|
{'loss': 1.145, 'grad_norm': 7.616509914398193, 'learning_rate': 1.6612798899138134e-05, 'epoch': 1.17} |
|
{'train_accuracy': 0.71875, 'epoch': 1.17} |
|
{'loss': 1.0767, 'grad_norm': 8.092353820800781, 'learning_rate': 1.6596795886271067e-05, 'epoch': 1.17} |
|
{'train_accuracy': 0.765625, 'epoch': 1.17} |
|
{'loss': 1.1504, 'grad_norm': 9.653562545776367, 'learning_rate': 1.6580762906790913e-05, 'epoch': 1.17} |
|
{'train_accuracy': 0.671875, 'epoch': 1.17} |
|
{'loss': 1.2695, 'grad_norm': 4.4737067222595215, 'learning_rate': 1.65647000335291e-05, 'epoch': 1.18} |
|
{'train_accuracy': 0.71875, 'epoch': 1.18} |
|
{'loss': 1.3516, 'grad_norm': 5.050171375274658, 'learning_rate': 1.6548607339452853e-05, 'epoch': 1.18} |
|
{'train_accuracy': 0.8125, 'epoch': 1.18} |
|
{'loss': 1.0137, 'grad_norm': 3.861908197402954, 'learning_rate': 1.6532484897664868e-05, 'epoch': 1.18} |
|
{'train_accuracy': 0.78125, 'epoch': 1.18} |
|
{'loss': 1.1274, 'grad_norm': 3.3620777130126953, 'learning_rate': 1.6516332781402965e-05, 'epoch': 1.18} |
|
{'train_accuracy': 0.78125, 'epoch': 1.18} |
|
{'loss': 1.1787, 'grad_norm': 3.629772186279297, 'learning_rate': 1.6500151064039768e-05, 'epoch': 1.19} |
|
{'train_accuracy': 0.765625, 'epoch': 1.19} |
|
{'loss': 1.1567, 'grad_norm': 6.909435749053955, 'learning_rate': 1.6483939819082368e-05, 'epoch': 1.19} |
|
{'train_accuracy': 0.796875, 'epoch': 1.19} |
|
{'loss': 1.3823, 'grad_norm': 8.454055786132812, 'learning_rate': 1.646769912017199e-05, 'epoch': 1.19} |
|
{'train_accuracy': 0.6875, 'epoch': 1.19} |
|
{'loss': 1.1353, 'grad_norm': 4.320656776428223, 'learning_rate': 1.645142904108364e-05, 'epoch': 1.19} |
|
{'train_accuracy': 0.65625, 'epoch': 1.19} |
|
{'loss': 1.4482, 'grad_norm': 12.18797779083252, 'learning_rate': 1.6435129655725813e-05, 'epoch': 1.2} |
|
{'train_accuracy': 0.71875, 'epoch': 1.2} |
|
{'loss': 1.1245, 'grad_norm': 3.5705020427703857, 'learning_rate': 1.6418801038140114e-05, 'epoch': 1.2} |
|
{'eval_accuracy': 0.7049700617790222, 'eval_max_score': 5.6875, 'eval_min_score': -7.0, 'eval_runtime': 151.3491, 'eval_samples_per_second': 18.745, 'eval_steps_per_second': 0.297, 'epoch': 1.2} |
|
{'train_accuracy': 0.828125, 'epoch': 1.2} |
|
{'loss': 1.3506, 'grad_norm': 9.271757125854492, 'learning_rate': 1.6402443262500936e-05, 'epoch': 1.2} |
|
{'train_accuracy': 0.765625, 'epoch': 1.2} |
|
{'loss': 1.3022, 'grad_norm': 6.957113265991211, 'learning_rate': 1.6386056403115135e-05, 'epoch': 1.21} |
|
{'train_accuracy': 0.75, 'epoch': 1.21} |
|
{'loss': 1.1992, 'grad_norm': 3.5725152492523193, 'learning_rate': 1.6369640534421675e-05, 'epoch': 1.21} |
|
{'train_accuracy': 0.765625, 'epoch': 1.21} |
|
{'loss': 1.2861, 'grad_norm': 11.582955360412598, 'learning_rate': 1.6353195730991308e-05, 'epoch': 1.21} |
|
{'train_accuracy': 0.75, 'epoch': 1.21} |
|
{'loss': 1.4482, 'grad_norm': 6.4823527336120605, 'learning_rate': 1.633672206752621e-05, 'epoch': 1.21} |
|
{'train_accuracy': 0.671875, 'epoch': 1.21} |
|
{'loss': 1.2925, 'grad_norm': 15.534878730773926, 'learning_rate': 1.6320219618859668e-05, 'epoch': 1.22} |
|
{'train_accuracy': 0.8125, 'epoch': 1.22} |
|
{'loss': 1.2837, 'grad_norm': 4.061946868896484, 'learning_rate': 1.6303688459955728e-05, 'epoch': 1.22} |
|
{'train_accuracy': 0.78125, 'epoch': 1.22} |
|
{'loss': 1.188, 'grad_norm': 2.7848575115203857, 'learning_rate': 1.628712866590885e-05, 'epoch': 1.22} |
|
{'train_accuracy': 0.8125, 'epoch': 1.22} |
|
{'loss': 1.2993, 'grad_norm': 9.240684509277344, 'learning_rate': 1.627054031194358e-05, 'epoch': 1.22} |
|
{'train_accuracy': 0.703125, 'epoch': 1.22} |
|
{'loss': 1.3467, 'grad_norm': 3.1299266815185547, 'learning_rate': 1.6253923473414185e-05, 'epoch': 1.23} |
|
{'train_accuracy': 0.78125, 'epoch': 1.23} |
|
{'loss': 1.1733, 'grad_norm': 4.89497184753418, 'learning_rate': 1.623727822580434e-05, 'epoch': 1.23} |
|
{'train_accuracy': 0.78125, 'epoch': 1.23} |
|
{'loss': 1.0483, 'grad_norm': 3.6426620483398438, 'learning_rate': 1.6220604644726778e-05, 'epoch': 1.23} |
|
{'train_accuracy': 0.6875, 'epoch': 1.23} |
|
{'loss': 1.3164, 'grad_norm': 4.336991786956787, 'learning_rate': 1.620390280592291e-05, 'epoch': 1.23} |
|
{'train_accuracy': 0.75, 'epoch': 1.23} |
|
{'loss': 1.2285, 'grad_norm': 9.696093559265137, 'learning_rate': 1.6187172785262544e-05, 'epoch': 1.24} |
|
{'train_accuracy': 0.84375, 'epoch': 1.24} |
|
{'loss': 1.2935, 'grad_norm': 10.798023223876953, 'learning_rate': 1.6170414658743488e-05, 'epoch': 1.24} |
|
{'train_accuracy': 0.828125, 'epoch': 1.24} |
|
{'loss': 1.0566, 'grad_norm': 6.651049613952637, 'learning_rate': 1.6153628502491228e-05, 'epoch': 1.24} |
|
{'train_accuracy': 0.703125, 'epoch': 1.24} |
|
{'loss': 1.4531, 'grad_norm': 15.750227928161621, 'learning_rate': 1.613681439275858e-05, 'epoch': 1.24} |
|
{'train_accuracy': 0.703125, 'epoch': 1.24} |
|
{'loss': 1.3672, 'grad_norm': 12.205035209655762, 'learning_rate': 1.6119972405925332e-05, 'epoch': 1.25} |
|
{'train_accuracy': 0.71875, 'epoch': 1.25} |
|
{'loss': 1.3491, 'grad_norm': 4.43392276763916, 'learning_rate': 1.6103102618497922e-05, 'epoch': 1.25} |
|
{'train_accuracy': 0.71875, 'epoch': 1.25} |
|
{'loss': 1.165, 'grad_norm': 4.819791793823242, 'learning_rate': 1.6086205107109067e-05, 'epoch': 1.25} |
|
{'train_accuracy': 0.734375, 'epoch': 1.25} |
|
{'loss': 1.146, 'grad_norm': 4.512659549713135, 'learning_rate': 1.6069279948517416e-05, 'epoch': 1.26} |
|
{'train_accuracy': 0.765625, 'epoch': 1.26} |
|
{'loss': 1.207, 'grad_norm': 11.076248168945312, 'learning_rate': 1.6052327219607223e-05, 'epoch': 1.26} |
|
{'train_accuracy': 0.71875, 'epoch': 1.26} |
|
{'loss': 1.3438, 'grad_norm': 13.904632568359375, 'learning_rate': 1.603534699738797e-05, 'epoch': 1.26} |
|
{'train_accuracy': 0.671875, 'epoch': 1.26} |
|
{'loss': 1.1997, 'grad_norm': 4.511821746826172, 'learning_rate': 1.601833935899404e-05, 'epoch': 1.26} |
|
{'train_accuracy': 0.765625, 'epoch': 1.26} |
|
{'loss': 1.2031, 'grad_norm': 5.979182243347168, 'learning_rate': 1.600130438168435e-05, 'epoch': 1.27} |
|
{'train_accuracy': 0.671875, 'epoch': 1.27} |
|
{'loss': 1.293, 'grad_norm': 10.593663215637207, 'learning_rate': 1.5984242142842003e-05, 'epoch': 1.27} |
|
{'train_accuracy': 0.6875, 'epoch': 1.27} |
|
{'loss': 1.4736, 'grad_norm': 16.006187438964844, 'learning_rate': 1.5967152719973954e-05, 'epoch': 1.27} |
|
{'train_accuracy': 0.78125, 'epoch': 1.27} |
|
{'loss': 1.3931, 'grad_norm': 7.199328899383545, 'learning_rate': 1.5950036190710637e-05, 'epoch': 1.27} |
|
{'train_accuracy': 0.671875, 'epoch': 1.27} |
|
{'loss': 1.2217, 'grad_norm': 12.612074851989746, 'learning_rate': 1.593289263280561e-05, 'epoch': 1.28} |
|
{'train_accuracy': 0.8125, 'epoch': 1.28} |
|
{'loss': 1.4404, 'grad_norm': 13.020115852355957, 'learning_rate': 1.5915722124135227e-05, 'epoch': 1.28} |
|
{'train_accuracy': 0.734375, 'epoch': 1.28} |
|
{'loss': 1.627, 'grad_norm': 15.411005020141602, 'learning_rate': 1.5898524742698257e-05, 'epoch': 1.28} |
|
{'train_accuracy': 0.703125, 'epoch': 1.28} |
|
{'loss': 1.2729, 'grad_norm': 2.5929243564605713, 'learning_rate': 1.5881300566615555e-05, 'epoch': 1.28} |
|
{'train_accuracy': 0.796875, 'epoch': 1.28} |
|
{'loss': 1.6582, 'grad_norm': 19.66521644592285, 'learning_rate': 1.5864049674129677e-05, 'epoch': 1.29} |
|
{'train_accuracy': 0.765625, 'epoch': 1.29} |
|
{'loss': 1.2085, 'grad_norm': 7.616007328033447, 'learning_rate': 1.584677214360455e-05, 'epoch': 1.29} |
|
{'train_accuracy': 0.65625, 'epoch': 1.29} |
|
{'loss': 1.3672, 'grad_norm': 3.8917739391326904, 'learning_rate': 1.5829468053525104e-05, 'epoch': 1.29} |
|
{'train_accuracy': 0.75, 'epoch': 1.29} |
|
{'loss': 1.4292, 'grad_norm': 9.001242637634277, 'learning_rate': 1.5812137482496925e-05, 'epoch': 1.29} |
|
{'train_accuracy': 0.78125, 'epoch': 1.29} |
|
{'loss': 1.2676, 'grad_norm': 3.5048999786376953, 'learning_rate': 1.5794780509245876e-05, 'epoch': 1.3} |
|
{'train_accuracy': 0.765625, 'epoch': 1.3} |
|
{'loss': 1.4194, 'grad_norm': 17.744800567626953, 'learning_rate': 1.5777397212617776e-05, 'epoch': 1.3} |
|
{'train_accuracy': 0.703125, 'epoch': 1.3} |
|
{'loss': 1.2896, 'grad_norm': 15.553146362304688, 'learning_rate': 1.5759987671578007e-05, 'epoch': 1.3} |
|
{'train_accuracy': 0.734375, 'epoch': 1.3} |
|
{'loss': 1.1895, 'grad_norm': 8.133227348327637, 'learning_rate': 1.5742551965211167e-05, 'epoch': 1.31} |
|
{'train_accuracy': 0.734375, 'epoch': 1.31} |
|
{'loss': 1.4629, 'grad_norm': 3.2711598873138428, 'learning_rate': 1.572509017272072e-05, 'epoch': 1.31} |
|
{'train_accuracy': 0.75, 'epoch': 1.31} |
|
{'loss': 1.3159, 'grad_norm': 8.634398460388184, 'learning_rate': 1.5707602373428628e-05, 'epoch': 1.31} |
|
{'train_accuracy': 0.6875, 'epoch': 1.31} |
|
{'loss': 1.3647, 'grad_norm': 7.313762664794922, 'learning_rate': 1.5690088646774983e-05, 'epoch': 1.31} |
|
{'train_accuracy': 0.78125, 'epoch': 1.31} |
|
{'loss': 1.1221, 'grad_norm': 6.731086730957031, 'learning_rate': 1.5672549072317667e-05, 'epoch': 1.32} |
|
{'train_accuracy': 0.609375, 'epoch': 1.32} |
|
{'loss': 1.2764, 'grad_norm': 6.832492351531982, 'learning_rate': 1.5654983729731978e-05, 'epoch': 1.32} |
|
{'train_accuracy': 0.765625, 'epoch': 1.32} |
|
{'loss': 1.2837, 'grad_norm': 3.859423875808716, 'learning_rate': 1.5637392698810247e-05, 'epoch': 1.32} |
|
{'train_accuracy': 0.828125, 'epoch': 1.32} |
|
{'loss': 1.1621, 'grad_norm': 7.8143534660339355, 'learning_rate': 1.5619776059461523e-05, 'epoch': 1.32} |
|
{'train_accuracy': 0.765625, 'epoch': 1.32} |
|
{'loss': 1.4302, 'grad_norm': 4.160390853881836, 'learning_rate': 1.5602133891711175e-05, 'epoch': 1.33} |
|
{'train_accuracy': 0.734375, 'epoch': 1.33} |
|
{'loss': 1.1064, 'grad_norm': 2.8057210445404053, 'learning_rate': 1.558446627570053e-05, 'epoch': 1.33} |
|
{'train_accuracy': 0.59375, 'epoch': 1.33} |
|
{'loss': 1.4414, 'grad_norm': 5.990983009338379, 'learning_rate': 1.5566773291686527e-05, 'epoch': 1.33} |
|
{'train_accuracy': 0.671875, 'epoch': 1.33} |
|
{'loss': 1.3325, 'grad_norm': 8.961088180541992, 'learning_rate': 1.554905502004133e-05, 'epoch': 1.33} |
|
{'train_accuracy': 0.75, 'epoch': 1.33} |
|
{'loss': 1.248, 'grad_norm': 5.393622875213623, 'learning_rate': 1.5531311541251995e-05, 'epoch': 1.34} |
|
{'train_accuracy': 0.640625, 'epoch': 1.34} |
|
{'loss': 1.3818, 'grad_norm': 6.529601097106934, 'learning_rate': 1.5513542935920058e-05, 'epoch': 1.34} |
|
{'train_accuracy': 0.796875, 'epoch': 1.34} |
|
{'loss': 1.5435, 'grad_norm': 13.529115676879883, 'learning_rate': 1.5495749284761213e-05, 'epoch': 1.34} |
|
{'train_accuracy': 0.6875, 'epoch': 1.34} |
|
{'loss': 1.2622, 'grad_norm': 5.483336925506592, 'learning_rate': 1.5477930668604917e-05, 'epoch': 1.34} |
|
{'train_accuracy': 0.6875, 'epoch': 1.34} |
|
{'loss': 1.1821, 'grad_norm': 3.2029190063476562, 'learning_rate': 1.5460087168394042e-05, 'epoch': 1.35} |
|
{'train_accuracy': 0.890625, 'epoch': 1.35} |
|
{'loss': 1.0308, 'grad_norm': 15.539850234985352, 'learning_rate': 1.5442218865184493e-05, 'epoch': 1.35} |
|
{'train_accuracy': 0.796875, 'epoch': 1.35} |
|
{'loss': 1.2207, 'grad_norm': 5.350340366363525, 'learning_rate': 1.5424325840144847e-05, 'epoch': 1.35} |
|
{'train_accuracy': 0.796875, 'epoch': 1.35} |
|
{'loss': 1.29, 'grad_norm': 8.735867500305176, 'learning_rate': 1.5406408174555978e-05, 'epoch': 1.36} |
|
{'train_accuracy': 0.78125, 'epoch': 1.36} |
|
{'loss': 1.0488, 'grad_norm': 4.313580513000488, 'learning_rate': 1.53884659498107e-05, 'epoch': 1.36} |
|
{'train_accuracy': 0.734375, 'epoch': 1.36} |
|
{'loss': 1.1738, 'grad_norm': 5.2027387619018555, 'learning_rate': 1.537049924741338e-05, 'epoch': 1.36} |
|
{'train_accuracy': 0.6875, 'epoch': 1.36} |
|
{'loss': 1.5806, 'grad_norm': 7.884912967681885, 'learning_rate': 1.5352508148979585e-05, 'epoch': 1.36} |
|
{'train_accuracy': 0.6875, 'epoch': 1.36} |
|
{'loss': 1.144, 'grad_norm': 3.1361117362976074, 'learning_rate': 1.5334492736235703e-05, 'epoch': 1.37} |
|
{'train_accuracy': 0.75, 'epoch': 1.37} |
|
{'loss': 1.0537, 'grad_norm': 8.120806694030762, 'learning_rate': 1.5316453091018572e-05, 'epoch': 1.37} |
|
{'train_accuracy': 0.6875, 'epoch': 1.37} |
|
{'loss': 1.0972, 'grad_norm': 3.6984429359436035, 'learning_rate': 1.5298389295275098e-05, 'epoch': 1.37} |
|
{'train_accuracy': 0.75, 'epoch': 1.37} |
|
{'loss': 1.4058, 'grad_norm': 4.505008220672607, 'learning_rate': 1.5280301431061907e-05, 'epoch': 1.37} |
|
{'train_accuracy': 0.734375, 'epoch': 1.37} |
|
{'loss': 1.2212, 'grad_norm': 3.8629140853881836, 'learning_rate': 1.5262189580544955e-05, 'epoch': 1.38} |
|
{'train_accuracy': 0.6875, 'epoch': 1.38} |
|
{'loss': 1.3076, 'grad_norm': 6.1243109703063965, 'learning_rate': 1.5244053825999152e-05, 'epoch': 1.38} |
|
{'train_accuracy': 0.828125, 'epoch': 1.38} |
|
{'loss': 1.2031, 'grad_norm': 13.835949897766113, 'learning_rate': 1.5225894249808005e-05, 'epoch': 1.38} |
|
{'train_accuracy': 0.765625, 'epoch': 1.38} |
|
{'loss': 1.3672, 'grad_norm': 5.034552097320557, 'learning_rate': 1.5207710934463218e-05, 'epoch': 1.38} |
|
{'train_accuracy': 0.71875, 'epoch': 1.38} |
|
{'loss': 1.1841, 'grad_norm': 10.014500617980957, 'learning_rate': 1.5189503962564347e-05, 'epoch': 1.39} |
|
{'train_accuracy': 0.8125, 'epoch': 1.39} |
|
{'loss': 1.3545, 'grad_norm': 14.438556671142578, 'learning_rate': 1.5171273416818406e-05, 'epoch': 1.39} |
|
{'train_accuracy': 0.6875, 'epoch': 1.39} |
|
{'loss': 1.3281, 'grad_norm': 4.237582206726074, 'learning_rate': 1.5153019380039493e-05, 'epoch': 1.39} |
|
{'train_accuracy': 0.640625, 'epoch': 1.39} |
|
{'loss': 1.4199, 'grad_norm': 13.250812530517578, 'learning_rate': 1.513474193514842e-05, 'epoch': 1.39} |
|
{'train_accuracy': 0.734375, 'epoch': 1.39} |
|
{'loss': 1.4917, 'grad_norm': 9.62955379486084, 'learning_rate': 1.5116441165172328e-05, 'epoch': 1.4} |
|
{'train_accuracy': 0.703125, 'epoch': 1.4} |
|
{'loss': 1.293, 'grad_norm': 3.8189797401428223, 'learning_rate': 1.5098117153244317e-05, 'epoch': 1.4} |
|
{'eval_accuracy': 0.7084949016571045, 'eval_max_score': 5.59375, 'eval_min_score': -5.59375, 'eval_runtime': 151.3104, 'eval_samples_per_second': 18.75, 'eval_steps_per_second': 0.297, 'epoch': 1.4} |
|
{'train_accuracy': 0.703125, 'epoch': 1.4} |
|
{'loss': 1.3726, 'grad_norm': 7.4259843826293945, 'learning_rate': 1.5079769982603067e-05, 'epoch': 1.4} |
|
{'train_accuracy': 0.75, 'epoch': 1.4} |
|
{'loss': 1.2163, 'grad_norm': 3.3982386589050293, 'learning_rate': 1.5061399736592457e-05, 'epoch': 1.41} |
|
{'train_accuracy': 0.703125, 'epoch': 1.41} |
|
{'loss': 1.1636, 'grad_norm': 17.446184158325195, 'learning_rate': 1.504300649866119e-05, 'epoch': 1.41} |
|
{'train_accuracy': 0.703125, 'epoch': 1.41} |
|
{'loss': 1.5947, 'grad_norm': 9.651148796081543, 'learning_rate': 1.5024590352362412e-05, 'epoch': 1.41} |
|
{'train_accuracy': 0.71875, 'epoch': 1.41} |
|
{'loss': 1.353, 'grad_norm': 4.520640850067139, 'learning_rate': 1.5006151381353328e-05, 'epoch': 1.41} |
|
{'train_accuracy': 0.75, 'epoch': 1.41} |
|
{'loss': 1.0796, 'grad_norm': 4.592413902282715, 'learning_rate': 1.4987689669394836e-05, 'epoch': 1.42} |
|
{'train_accuracy': 0.703125, 'epoch': 1.42} |
|
{'loss': 1.2051, 'grad_norm': 8.244244575500488, 'learning_rate': 1.4969205300351128e-05, 'epoch': 1.42} |
|
{'train_accuracy': 0.78125, 'epoch': 1.42} |
|
{'loss': 1.6543, 'grad_norm': 22.695865631103516, 'learning_rate': 1.4950698358189322e-05, 'epoch': 1.42} |
|
{'train_accuracy': 0.671875, 'epoch': 1.42} |
|
{'loss': 1.354, 'grad_norm': 14.040301322937012, 'learning_rate': 1.4932168926979074e-05, 'epoch': 1.42} |
|
{'train_accuracy': 0.796875, 'epoch': 1.42} |
|
{'loss': 1.3936, 'grad_norm': 12.0126314163208, 'learning_rate': 1.4913617090892206e-05, 'epoch': 1.43} |
|
{'train_accuracy': 0.8125, 'epoch': 1.43} |
|
{'loss': 1.1978, 'grad_norm': 9.563346862792969, 'learning_rate': 1.4895042934202306e-05, 'epoch': 1.43} |
|
{'train_accuracy': 0.6875, 'epoch': 1.43} |
|
{'loss': 1.3774, 'grad_norm': 15.859170913696289, 'learning_rate': 1.4876446541284365e-05, 'epoch': 1.43} |
|
{'train_accuracy': 0.859375, 'epoch': 1.43} |
|
{'loss': 1.2646, 'grad_norm': 17.58700942993164, 'learning_rate': 1.485782799661438e-05, 'epoch': 1.43} |
|
{'train_accuracy': 0.65625, 'epoch': 1.43} |
|
{'loss': 1.2417, 'grad_norm': 8.851125717163086, 'learning_rate': 1.4839187384768971e-05, 'epoch': 1.44} |
|
{'train_accuracy': 0.71875, 'epoch': 1.44} |
|
{'loss': 1.2793, 'grad_norm': 3.8548920154571533, 'learning_rate': 1.4820524790425007e-05, 'epoch': 1.44} |
|
{'train_accuracy': 0.703125, 'epoch': 1.44} |
|
{'loss': 1.314, 'grad_norm': 9.304672241210938, 'learning_rate': 1.4801840298359216e-05, 'epoch': 1.44} |
|
{'train_accuracy': 0.765625, 'epoch': 1.44} |
|
{'loss': 1.3345, 'grad_norm': 10.30390453338623, 'learning_rate': 1.4783133993447789e-05, 'epoch': 1.44} |
|
{'train_accuracy': 0.71875, 'epoch': 1.44} |
|
{'loss': 1.374, 'grad_norm': 10.108946800231934, 'learning_rate': 1.4764405960666011e-05, 'epoch': 1.45} |
|
{'train_accuracy': 0.71875, 'epoch': 1.45} |
|
{'loss': 1.2256, 'grad_norm': 4.669325351715088, 'learning_rate': 1.4745656285087866e-05, 'epoch': 1.45} |
|
{'train_accuracy': 0.8125, 'epoch': 1.45} |
|
{'loss': 1.3486, 'grad_norm': 6.70346736907959, 'learning_rate': 1.4726885051885654e-05, 'epoch': 1.45} |
|
{'train_accuracy': 0.84375, 'epoch': 1.45} |
|
{'loss': 1.147, 'grad_norm': 3.9752542972564697, 'learning_rate': 1.4708092346329604e-05, 'epoch': 1.46} |
|
{'train_accuracy': 0.8125, 'epoch': 1.46} |
|
{'loss': 1.3594, 'grad_norm': 8.792821884155273, 'learning_rate': 1.468927825378748e-05, 'epoch': 1.46} |
|
{'train_accuracy': 0.6875, 'epoch': 1.46} |
|
{'loss': 1.0762, 'grad_norm': 5.539193153381348, 'learning_rate': 1.4670442859724204e-05, 'epoch': 1.46} |
|
{'train_accuracy': 0.78125, 'epoch': 1.46} |
|
{'loss': 1.2529, 'grad_norm': 9.367209434509277, 'learning_rate': 1.4651586249701458e-05, 'epoch': 1.46} |
|
{'train_accuracy': 0.75, 'epoch': 1.46} |
|
{'loss': 1.3589, 'grad_norm': 13.890340805053711, 'learning_rate': 1.4632708509377305e-05, 'epoch': 1.47} |
|
{'train_accuracy': 0.75, 'epoch': 1.47} |
|
{'loss': 1.1621, 'grad_norm': 3.0693435668945312, 'learning_rate': 1.461380972450579e-05, 'epoch': 1.47} |
|
{'train_accuracy': 0.78125, 'epoch': 1.47} |
|
{'loss': 1.3843, 'grad_norm': 9.083732604980469, 'learning_rate': 1.4594889980936554e-05, 'epoch': 1.47} |
|
{'train_accuracy': 0.6875, 'epoch': 1.47} |
|
{'loss': 1.2578, 'grad_norm': 8.28622055053711, 'learning_rate': 1.4575949364614453e-05, 'epoch': 1.47} |
|
{'train_accuracy': 0.703125, 'epoch': 1.47} |
|
{'loss': 1.5986, 'grad_norm': 10.74136734008789, 'learning_rate': 1.4556987961579148e-05, 'epoch': 1.48} |
|
{'train_accuracy': 0.640625, 'epoch': 1.48} |
|
{'loss': 1.5508, 'grad_norm': 5.316714763641357, 'learning_rate': 1.4538005857964735e-05, 'epoch': 1.48} |
|
{'train_accuracy': 0.671875, 'epoch': 1.48} |
|
{'loss': 1.332, 'grad_norm': 3.3459677696228027, 'learning_rate': 1.451900313999934e-05, 'epoch': 1.48} |
|
{'train_accuracy': 0.8125, 'epoch': 1.48} |
|
{'loss': 1.001, 'grad_norm': 8.240880012512207, 'learning_rate': 1.4499979894004733e-05, 'epoch': 1.48} |
|
{'train_accuracy': 0.65625, 'epoch': 1.48} |
|
{'loss': 1.436, 'grad_norm': 8.606131553649902, 'learning_rate': 1.4480936206395936e-05, 'epoch': 1.49} |
|
{'train_accuracy': 0.765625, 'epoch': 1.49} |
|
{'loss': 1.1348, 'grad_norm': 3.6511523723602295, 'learning_rate': 1.4461872163680826e-05, 'epoch': 1.49} |
|
{'train_accuracy': 0.671875, 'epoch': 1.49} |
|
{'loss': 1.1343, 'grad_norm': 5.405193328857422, 'learning_rate': 1.4442787852459748e-05, 'epoch': 1.49} |
|
{'train_accuracy': 0.65625, 'epoch': 1.49} |
|
{'loss': 1.4219, 'grad_norm': 5.214520454406738, 'learning_rate': 1.4423683359425118e-05, 'epoch': 1.49} |
|
{'train_accuracy': 0.640625, 'epoch': 1.49} |
|
{'loss': 1.3423, 'grad_norm': 2.837728500366211, 'learning_rate': 1.4404558771361027e-05, 'epoch': 1.5} |
|
{'train_accuracy': 0.8125, 'epoch': 1.5} |
|
{'loss': 1.1948, 'grad_norm': 3.266947031021118, 'learning_rate': 1.4385414175142855e-05, 'epoch': 1.5} |
|
{'train_accuracy': 0.671875, 'epoch': 1.5} |
|
{'loss': 1.3867, 'grad_norm': 12.204270362854004, 'learning_rate': 1.4366249657736866e-05, 'epoch': 1.5} |
|
{'train_accuracy': 0.828125, 'epoch': 1.5} |
|
{'loss': 1.2837, 'grad_norm': 6.56190299987793, 'learning_rate': 1.4347065306199823e-05, 'epoch': 1.51} |
|
{'train_accuracy': 0.8125, 'epoch': 1.51} |
|
{'loss': 1.2783, 'grad_norm': 5.147476673126221, 'learning_rate': 1.4327861207678581e-05, 'epoch': 1.51} |
|
{'train_accuracy': 0.6875, 'epoch': 1.51} |
|
{'loss': 1.3105, 'grad_norm': 3.911860704421997, 'learning_rate': 1.4308637449409705e-05, 'epoch': 1.51} |
|
{'train_accuracy': 0.71875, 'epoch': 1.51} |
|
{'loss': 1.4072, 'grad_norm': 4.936273097991943, 'learning_rate': 1.4289394118719061e-05, 'epoch': 1.51} |
|
{'train_accuracy': 0.703125, 'epoch': 1.51} |
|
{'loss': 1.4307, 'grad_norm': 4.839917182922363, 'learning_rate': 1.4270131303021431e-05, 'epoch': 1.52} |
|
{'train_accuracy': 0.671875, 'epoch': 1.52} |
|
{'loss': 1.3818, 'grad_norm': 9.490140914916992, 'learning_rate': 1.4250849089820095e-05, 'epoch': 1.52} |
|
{'train_accuracy': 0.734375, 'epoch': 1.52} |
|
{'loss': 1.0977, 'grad_norm': 3.4175305366516113, 'learning_rate': 1.423154756670647e-05, 'epoch': 1.52} |
|
{'train_accuracy': 0.75, 'epoch': 1.52} |
|
{'loss': 1.1333, 'grad_norm': 7.429515838623047, 'learning_rate': 1.4212226821359672e-05, 'epoch': 1.52} |
|
{'train_accuracy': 0.796875, 'epoch': 1.52} |
|
{'loss': 0.9233, 'grad_norm': 4.309225559234619, 'learning_rate': 1.4192886941546141e-05, 'epoch': 1.53} |
|
{'train_accuracy': 0.765625, 'epoch': 1.53} |
|
{'loss': 1.4473, 'grad_norm': 15.609049797058105, 'learning_rate': 1.4173528015119247e-05, 'epoch': 1.53} |
|
{'train_accuracy': 0.640625, 'epoch': 1.53} |
|
{'loss': 1.293, 'grad_norm': 8.803685188293457, 'learning_rate': 1.4154150130018867e-05, 'epoch': 1.53} |
|
{'train_accuracy': 0.8125, 'epoch': 1.53} |
|
{'loss': 1.0322, 'grad_norm': 3.669485092163086, 'learning_rate': 1.4134753374271003e-05, 'epoch': 1.53} |
|
{'train_accuracy': 0.734375, 'epoch': 1.53} |
|
{'loss': 1.4111, 'grad_norm': 6.106133460998535, 'learning_rate': 1.4115337835987388e-05, 'epoch': 1.54} |
|
{'train_accuracy': 0.828125, 'epoch': 1.54} |
|
{'loss': 1.21, 'grad_norm': 5.285925388336182, 'learning_rate': 1.4095903603365067e-05, 'epoch': 1.54} |
|
{'train_accuracy': 0.734375, 'epoch': 1.54} |
|
{'loss': 1.2734, 'grad_norm': 7.868580341339111, 'learning_rate': 1.4076450764686005e-05, 'epoch': 1.54} |
|
{'train_accuracy': 0.828125, 'epoch': 1.54} |
|
{'loss': 1.1172, 'grad_norm': 9.833069801330566, 'learning_rate': 1.40569794083167e-05, 'epoch': 1.54} |
|
{'train_accuracy': 0.71875, 'epoch': 1.54} |
|
{'loss': 1.4414, 'grad_norm': 12.843183517456055, 'learning_rate': 1.4037489622707749e-05, 'epoch': 1.55} |
|
{'train_accuracy': 0.703125, 'epoch': 1.55} |
|
{'loss': 1.186, 'grad_norm': 4.2173662185668945, 'learning_rate': 1.4017981496393484e-05, 'epoch': 1.55} |
|
{'train_accuracy': 0.734375, 'epoch': 1.55} |
|
{'loss': 1.1289, 'grad_norm': 9.550527572631836, 'learning_rate': 1.3998455117991542e-05, 'epoch': 1.55} |
|
{'train_accuracy': 0.671875, 'epoch': 1.55} |
|
{'loss': 1.9341, 'grad_norm': 17.769779205322266, 'learning_rate': 1.3978910576202472e-05, 'epoch': 1.56} |
|
{'train_accuracy': 0.6875, 'epoch': 1.56} |
|
{'loss': 1.4902, 'grad_norm': 11.969633102416992, 'learning_rate': 1.395934795980933e-05, 'epoch': 1.56} |
|
{'train_accuracy': 0.71875, 'epoch': 1.56} |
|
{'loss': 1.1899, 'grad_norm': 2.4993820190429688, 'learning_rate': 1.3939767357677287e-05, 'epoch': 1.56} |
|
{'train_accuracy': 0.796875, 'epoch': 1.56} |
|
{'loss': 1.2163, 'grad_norm': 6.35914421081543, 'learning_rate': 1.3920168858753208e-05, 'epoch': 1.56} |
|
{'train_accuracy': 0.703125, 'epoch': 1.56} |
|
{'loss': 1.3228, 'grad_norm': 9.9996337890625, 'learning_rate': 1.3900552552065259e-05, 'epoch': 1.57} |
|
{'train_accuracy': 0.6875, 'epoch': 1.57} |
|
{'loss': 1.5107, 'grad_norm': 8.151016235351562, 'learning_rate': 1.3880918526722497e-05, 'epoch': 1.57} |
|
{'train_accuracy': 0.78125, 'epoch': 1.57} |
|
{'loss': 1.4619, 'grad_norm': 5.698625564575195, 'learning_rate': 1.3861266871914473e-05, 'epoch': 1.57} |
|
{'train_accuracy': 0.734375, 'epoch': 1.57} |
|
{'loss': 1.3984, 'grad_norm': 10.527148246765137, 'learning_rate': 1.3841597676910816e-05, 'epoch': 1.57} |
|
{'train_accuracy': 0.78125, 'epoch': 1.57} |
|
{'loss': 1.3779, 'grad_norm': 4.670735836029053, 'learning_rate': 1.3821911031060834e-05, 'epoch': 1.58} |
|
{'train_accuracy': 0.640625, 'epoch': 1.58} |
|
{'loss': 1.3438, 'grad_norm': 5.227207183837891, 'learning_rate': 1.3802207023793112e-05, 'epoch': 1.58} |
|
{'train_accuracy': 0.75, 'epoch': 1.58} |
|
{'loss': 1.3682, 'grad_norm': 7.337916851043701, 'learning_rate': 1.3782485744615098e-05, 'epoch': 1.58} |
|
{'train_accuracy': 0.703125, 'epoch': 1.58} |
|
{'loss': 1.3521, 'grad_norm': 9.321327209472656, 'learning_rate': 1.3762747283112692e-05, 'epoch': 1.58} |
|
{'train_accuracy': 0.625, 'epoch': 1.58} |
|
{'loss': 1.252, 'grad_norm': 2.6610355377197266, 'learning_rate': 1.3742991728949862e-05, 'epoch': 1.59} |
|
{'train_accuracy': 0.78125, 'epoch': 1.59} |
|
{'loss': 1.1855, 'grad_norm': 4.487646102905273, 'learning_rate': 1.3723219171868207e-05, 'epoch': 1.59} |
|
{'train_accuracy': 0.734375, 'epoch': 1.59} |
|
{'loss': 1.3052, 'grad_norm': 2.9246814250946045, 'learning_rate': 1.370342970168657e-05, 'epoch': 1.59} |
|
{'train_accuracy': 0.8125, 'epoch': 1.59} |
|
{'loss': 1.2334, 'grad_norm': 11.696772575378418, 'learning_rate': 1.3683623408300626e-05, 'epoch': 1.59} |
|
{'train_accuracy': 0.828125, 'epoch': 1.59} |
|
{'loss': 1.1255, 'grad_norm': 10.42992115020752, 'learning_rate': 1.3663800381682465e-05, 'epoch': 1.6} |
|
{'train_accuracy': 0.8125, 'epoch': 1.6} |
|
{'loss': 1.1284, 'grad_norm': 8.260746955871582, 'learning_rate': 1.3643960711880191e-05, 'epoch': 1.6} |
|
{'eval_accuracy': 0.7060275077819824, 'eval_max_score': 5.46875, 'eval_min_score': -6.65625, 'eval_runtime': 151.2596, 'eval_samples_per_second': 18.756, 'eval_steps_per_second': 0.298, 'epoch': 1.6} |
|
{'train_accuracy': 0.703125, 'epoch': 1.6} |
|
{'loss': 1.2915, 'grad_norm': 3.6682422161102295, 'learning_rate': 1.3624104489017513e-05, 'epoch': 1.6} |
|
{'train_accuracy': 0.859375, 'epoch': 1.6} |
|
{'loss': 1.1611, 'grad_norm': 7.5316596031188965, 'learning_rate': 1.3604231803293336e-05, 'epoch': 1.61} |
|
{'train_accuracy': 0.765625, 'epoch': 1.61} |
|
{'loss': 1.2471, 'grad_norm': 10.11808967590332, 'learning_rate': 1.3584342744981343e-05, 'epoch': 1.61} |
|
{'train_accuracy': 0.703125, 'epoch': 1.61} |
|
{'loss': 1.5654, 'grad_norm': 5.6028242111206055, 'learning_rate': 1.3564437404429595e-05, 'epoch': 1.61} |
|
{'train_accuracy': 0.703125, 'epoch': 1.61} |
|
{'loss': 1.1572, 'grad_norm': 4.102721691131592, 'learning_rate': 1.3544515872060118e-05, 'epoch': 1.61} |
|
{'train_accuracy': 0.671875, 'epoch': 1.61} |
|
{'loss': 1.3301, 'grad_norm': 3.3373892307281494, 'learning_rate': 1.3524578238368489e-05, 'epoch': 1.62} |
|
{'train_accuracy': 0.75, 'epoch': 1.62} |
|
{'loss': 1.3608, 'grad_norm': 19.588586807250977, 'learning_rate': 1.350462459392343e-05, 'epoch': 1.62} |
|
{'train_accuracy': 0.6875, 'epoch': 1.62} |
|
{'loss': 1.4072, 'grad_norm': 4.01005220413208, 'learning_rate': 1.3484655029366387e-05, 'epoch': 1.62} |
|
{'train_accuracy': 0.734375, 'epoch': 1.62} |
|
{'loss': 1.3027, 'grad_norm': 3.243781566619873, 'learning_rate': 1.3464669635411127e-05, 'epoch': 1.62} |
|
{'train_accuracy': 0.75, 'epoch': 1.62} |
|
{'loss': 1.209, 'grad_norm': 6.2855753898620605, 'learning_rate': 1.344466850284333e-05, 'epoch': 1.63} |
|
{'train_accuracy': 0.734375, 'epoch': 1.63} |
|
{'loss': 1.543, 'grad_norm': 8.140256881713867, 'learning_rate': 1.3424651722520164e-05, 'epoch': 1.63} |
|
{'train_accuracy': 0.71875, 'epoch': 1.63} |
|
{'loss': 1.3579, 'grad_norm': 4.431771278381348, 'learning_rate': 1.3404619385369876e-05, 'epoch': 1.63} |
|
{'train_accuracy': 0.78125, 'epoch': 1.63} |
|
{'loss': 1.1875, 'grad_norm': 11.76955509185791, 'learning_rate': 1.3384571582391392e-05, 'epoch': 1.63} |
|
{'train_accuracy': 0.625, 'epoch': 1.63} |
|
{'loss': 1.5352, 'grad_norm': 6.960719585418701, 'learning_rate': 1.3364508404653879e-05, 'epoch': 1.64} |
|
{'train_accuracy': 0.78125, 'epoch': 1.64} |
|
{'loss': 1.3037, 'grad_norm': 4.3750762939453125, 'learning_rate': 1.3344429943296358e-05, 'epoch': 1.64} |
|
{'train_accuracy': 0.8125, 'epoch': 1.64} |
|
{'loss': 1.4268, 'grad_norm': 11.1054105758667, 'learning_rate': 1.3324336289527272e-05, 'epoch': 1.64} |
|
{'train_accuracy': 0.609375, 'epoch': 1.64} |
|
{'loss': 1.4775, 'grad_norm': 14.030521392822266, 'learning_rate': 1.3304227534624072e-05, 'epoch': 1.64} |
|
{'train_accuracy': 0.75, 'epoch': 1.64} |
|
{'loss': 1.2598, 'grad_norm': 12.589299201965332, 'learning_rate': 1.328410376993282e-05, 'epoch': 1.65} |
|
{'train_accuracy': 0.625, 'epoch': 1.65} |
|
{'loss': 1.4551, 'grad_norm': 4.208714962005615, 'learning_rate': 1.3263965086867752e-05, 'epoch': 1.65} |
|
{'train_accuracy': 0.875, 'epoch': 1.65} |
|
{'loss': 1.1475, 'grad_norm': 8.422722816467285, 'learning_rate': 1.3243811576910873e-05, 'epoch': 1.65} |
|
{'train_accuracy': 0.765625, 'epoch': 1.65} |
|
{'loss': 1.2666, 'grad_norm': 11.778885841369629, 'learning_rate': 1.3223643331611538e-05, 'epoch': 1.66} |
|
{'train_accuracy': 0.765625, 'epoch': 1.66} |
|
{'loss': 1.1436, 'grad_norm': 3.499476432800293, 'learning_rate': 1.3203460442586052e-05, 'epoch': 1.66} |
|
{'train_accuracy': 0.796875, 'epoch': 1.66} |
|
{'loss': 1.2021, 'grad_norm': 9.276093482971191, 'learning_rate': 1.3183263001517224e-05, 'epoch': 1.66} |
|
{'train_accuracy': 0.875, 'epoch': 1.66} |
|
{'loss': 0.9712, 'grad_norm': 5.010464668273926, 'learning_rate': 1.3163051100153979e-05, 'epoch': 1.66} |
|
{'train_accuracy': 0.71875, 'epoch': 1.66} |
|
{'loss': 1.3379, 'grad_norm': 4.382296085357666, 'learning_rate': 1.314282483031092e-05, 'epoch': 1.67} |
|
{'train_accuracy': 0.765625, 'epoch': 1.67} |
|
{'loss': 1.3179, 'grad_norm': 8.575241088867188, 'learning_rate': 1.3122584283867932e-05, 'epoch': 1.67} |
|
{'train_accuracy': 0.71875, 'epoch': 1.67} |
|
{'loss': 1.1982, 'grad_norm': 9.079877853393555, 'learning_rate': 1.3102329552769742e-05, 'epoch': 1.67} |
|
{'train_accuracy': 0.6875, 'epoch': 1.67} |
|
{'loss': 1.3408, 'grad_norm': 4.818666458129883, 'learning_rate': 1.3082060729025515e-05, 'epoch': 1.67} |
|
{'train_accuracy': 0.75, 'epoch': 1.67} |
|
{'loss': 1.3608, 'grad_norm': 4.9298601150512695, 'learning_rate': 1.3061777904708437e-05, 'epoch': 1.68} |
|
{'train_accuracy': 0.734375, 'epoch': 1.68} |
|
{'loss': 1.2104, 'grad_norm': 3.88163685798645, 'learning_rate': 1.3041481171955293e-05, 'epoch': 1.68} |
|
{'train_accuracy': 0.796875, 'epoch': 1.68} |
|
{'loss': 1.3003, 'grad_norm': 3.570984125137329, 'learning_rate': 1.3021170622966039e-05, 'epoch': 1.68} |
|
{'train_accuracy': 0.671875, 'epoch': 1.68} |
|
{'loss': 1.293, 'grad_norm': 3.3834519386291504, 'learning_rate': 1.300084635000341e-05, 'epoch': 1.68} |
|
{'train_accuracy': 0.75, 'epoch': 1.68} |
|
{'loss': 1.3428, 'grad_norm': 6.387214660644531, 'learning_rate': 1.298050844539246e-05, 'epoch': 1.69} |
|
{'train_accuracy': 0.6875, 'epoch': 1.69} |
|
{'loss': 1.0625, 'grad_norm': 5.291227340698242, 'learning_rate': 1.2960157001520193e-05, 'epoch': 1.69} |
|
{'train_accuracy': 0.703125, 'epoch': 1.69} |
|
{'loss': 1.2295, 'grad_norm': 8.750785827636719, 'learning_rate': 1.2939792110835094e-05, 'epoch': 1.69} |
|
{'train_accuracy': 0.671875, 'epoch': 1.69} |
|
{'loss': 1.4746, 'grad_norm': 5.106113910675049, 'learning_rate': 1.2919413865846744e-05, 'epoch': 1.69} |
|
{'train_accuracy': 0.703125, 'epoch': 1.69} |
|
{'loss': 1.3691, 'grad_norm': 3.0670228004455566, 'learning_rate': 1.2899022359125381e-05, 'epoch': 1.7} |
|
{'train_accuracy': 0.765625, 'epoch': 1.7} |
|
{'loss': 1.3296, 'grad_norm': 11.231282234191895, 'learning_rate': 1.2878617683301493e-05, 'epoch': 1.7} |
|
{'train_accuracy': 0.78125, 'epoch': 1.7} |
|
{'loss': 1.2363, 'grad_norm': 4.981436252593994, 'learning_rate': 1.2858199931065382e-05, 'epoch': 1.7} |
|
{'train_accuracy': 0.65625, 'epoch': 1.7} |
|
{'loss': 1.2451, 'grad_norm': 5.563715934753418, 'learning_rate': 1.2837769195166757e-05, 'epoch': 1.71} |
|
{'train_accuracy': 0.65625, 'epoch': 1.71} |
|
{'loss': 1.4819, 'grad_norm': 4.0916972160339355, 'learning_rate': 1.2817325568414299e-05, 'epoch': 1.71} |
|
{'train_accuracy': 0.734375, 'epoch': 1.71} |
|
{'loss': 1.3257, 'grad_norm': 2.385584831237793, 'learning_rate': 1.2796869143675254e-05, 'epoch': 1.71} |
|
{'train_accuracy': 0.828125, 'epoch': 1.71} |
|
{'loss': 1.145, 'grad_norm': 6.606967926025391, 'learning_rate': 1.2776400013875006e-05, 'epoch': 1.71} |
|
{'train_accuracy': 0.671875, 'epoch': 1.71} |
|
{'loss': 1.3477, 'grad_norm': 6.199295520782471, 'learning_rate': 1.2755918271996645e-05, 'epoch': 1.72} |
|
{'train_accuracy': 0.734375, 'epoch': 1.72} |
|
{'loss': 1.2456, 'grad_norm': 3.354233980178833, 'learning_rate': 1.2735424011080562e-05, 'epoch': 1.72} |
|
{'train_accuracy': 0.75, 'epoch': 1.72} |
|
{'loss': 1.3369, 'grad_norm': 2.5530078411102295, 'learning_rate': 1.2714917324224003e-05, 'epoch': 1.72} |
|
{'train_accuracy': 0.703125, 'epoch': 1.72} |
|
{'loss': 1.2271, 'grad_norm': 2.3354504108428955, 'learning_rate': 1.2694398304580677e-05, 'epoch': 1.72} |
|
{'train_accuracy': 0.71875, 'epoch': 1.72} |
|
{'loss': 1.3633, 'grad_norm': 4.240665435791016, 'learning_rate': 1.2673867045360304e-05, 'epoch': 1.73} |
|
{'train_accuracy': 0.71875, 'epoch': 1.73} |
|
{'loss': 1.3408, 'grad_norm': 2.5598838329315186, 'learning_rate': 1.2653323639828208e-05, 'epoch': 1.73} |
|
{'train_accuracy': 0.796875, 'epoch': 1.73} |
|
{'loss': 1.3018, 'grad_norm': 4.531867027282715, 'learning_rate': 1.2632768181304888e-05, 'epoch': 1.73} |
|
{'train_accuracy': 0.828125, 'epoch': 1.73} |
|
{'loss': 1.3086, 'grad_norm': 2.8843955993652344, 'learning_rate': 1.2612200763165597e-05, 'epoch': 1.73} |
|
{'train_accuracy': 0.78125, 'epoch': 1.73} |
|
{'loss': 1.231, 'grad_norm': 2.640134572982788, 'learning_rate': 1.2591621478839911e-05, 'epoch': 1.74} |
|
{'train_accuracy': 0.703125, 'epoch': 1.74} |
|
{'loss': 1.3301, 'grad_norm': 2.6228537559509277, 'learning_rate': 1.2571030421811314e-05, 'epoch': 1.74} |
|
{'train_accuracy': 0.734375, 'epoch': 1.74} |
|
{'loss': 1.3125, 'grad_norm': 4.74251127243042, 'learning_rate': 1.2550427685616767e-05, 'epoch': 1.74} |
|
{'train_accuracy': 0.75, 'epoch': 1.74} |
|
{'loss': 1.3848, 'grad_norm': 8.167641639709473, 'learning_rate': 1.2529813363846284e-05, 'epoch': 1.74} |
|
{'train_accuracy': 0.625, 'epoch': 1.74} |
|
{'loss': 1.2764, 'grad_norm': 3.8640027046203613, 'learning_rate': 1.2509187550142507e-05, 'epoch': 1.75} |
|
{'train_accuracy': 0.703125, 'epoch': 1.75} |
|
{'loss': 1.3896, 'grad_norm': 3.9919190406799316, 'learning_rate': 1.2488550338200285e-05, 'epoch': 1.75} |
|
{'train_accuracy': 0.75, 'epoch': 1.75} |
|
{'loss': 1.0601, 'grad_norm': 6.61153507232666, 'learning_rate': 1.2467901821766241e-05, 'epoch': 1.75} |
|
{'train_accuracy': 0.671875, 'epoch': 1.75} |
|
{'loss': 1.3569, 'grad_norm': 3.031205892562866, 'learning_rate': 1.2447242094638349e-05, 'epoch': 1.76} |
|
{'train_accuracy': 0.71875, 'epoch': 1.76} |
|
{'loss': 1.1152, 'grad_norm': 5.902942657470703, 'learning_rate': 1.2426571250665517e-05, 'epoch': 1.76} |
|
{'train_accuracy': 0.734375, 'epoch': 1.76} |
|
{'loss': 1.3159, 'grad_norm': 2.655332326889038, 'learning_rate': 1.2405889383747144e-05, 'epoch': 1.76} |
|
{'train_accuracy': 0.71875, 'epoch': 1.76} |
|
{'loss': 1.2368, 'grad_norm': 5.942189693450928, 'learning_rate': 1.2385196587832702e-05, 'epoch': 1.76} |
|
{'train_accuracy': 0.71875, 'epoch': 1.76} |
|
{'loss': 1.2134, 'grad_norm': 5.477725028991699, 'learning_rate': 1.236449295692131e-05, 'epoch': 1.77} |
|
{'train_accuracy': 0.734375, 'epoch': 1.77} |
|
{'loss': 1.3511, 'grad_norm': 3.354971408843994, 'learning_rate': 1.234377858506131e-05, 'epoch': 1.77} |
|
{'train_accuracy': 0.71875, 'epoch': 1.77} |
|
{'loss': 1.2578, 'grad_norm': 3.9351298809051514, 'learning_rate': 1.2323053566349834e-05, 'epoch': 1.77} |
|
{'train_accuracy': 0.75, 'epoch': 1.77} |
|
{'loss': 1.3262, 'grad_norm': 4.374091148376465, 'learning_rate': 1.2302317994932373e-05, 'epoch': 1.77} |
|
{'train_accuracy': 0.734375, 'epoch': 1.77} |
|
{'loss': 1.0754, 'grad_norm': 7.173335552215576, 'learning_rate': 1.2281571965002363e-05, 'epoch': 1.78} |
|
{'train_accuracy': 0.75, 'epoch': 1.78} |
|
{'loss': 1.3569, 'grad_norm': 6.442569732666016, 'learning_rate': 1.2260815570800743e-05, 'epoch': 1.78} |
|
{'train_accuracy': 0.671875, 'epoch': 1.78} |
|
{'loss': 1.373, 'grad_norm': 3.3768608570098877, 'learning_rate': 1.2240048906615536e-05, 'epoch': 1.78} |
|
{'train_accuracy': 0.703125, 'epoch': 1.78} |
|
{'loss': 1.3501, 'grad_norm': 8.247380256652832, 'learning_rate': 1.2219272066781416e-05, 'epoch': 1.78} |
|
{'train_accuracy': 0.796875, 'epoch': 1.78} |
|
{'loss': 1.167, 'grad_norm': 3.1177291870117188, 'learning_rate': 1.219848514567928e-05, 'epoch': 1.79} |
|
{'train_accuracy': 0.84375, 'epoch': 1.79} |
|
{'loss': 1.4126, 'grad_norm': 3.9514224529266357, 'learning_rate': 1.2177688237735823e-05, 'epoch': 1.79} |
|
{'train_accuracy': 0.765625, 'epoch': 1.79} |
|
{'loss': 1.3857, 'grad_norm': 5.616189002990723, 'learning_rate': 1.2156881437423103e-05, 'epoch': 1.79} |
|
{'train_accuracy': 0.8125, 'epoch': 1.79} |
|
{'loss': 1.3823, 'grad_norm': 12.491791725158691, 'learning_rate': 1.2136064839258119e-05, 'epoch': 1.79} |
|
{'train_accuracy': 0.875, 'epoch': 1.79} |
|
{'loss': 1.3481, 'grad_norm': 5.0712504386901855, 'learning_rate': 1.2115238537802371e-05, 'epoch': 1.8} |
|
{'train_accuracy': 0.875, 'epoch': 1.8} |
|
{'loss': 1.0576, 'grad_norm': 2.5290355682373047, 'learning_rate': 1.2094402627661447e-05, 'epoch': 1.8} |
|
{'eval_accuracy': 0.7134296894073486, 'eval_max_score': 5.09375, 'eval_min_score': -5.46875, 'eval_runtime': 151.5395, 'eval_samples_per_second': 18.721, 'eval_steps_per_second': 0.297, 'epoch': 1.8} |
|
{'train_accuracy': 0.875, 'epoch': 1.8} |
|
{'loss': 1.0898, 'grad_norm': 4.08900260925293, 'learning_rate': 1.2073557203484571e-05, 'epoch': 1.8} |
|
{'train_accuracy': 0.796875, 'epoch': 1.8} |
|
{'loss': 1.27, 'grad_norm': 3.661402940750122, 'learning_rate': 1.2052702359964201e-05, 'epoch': 1.81} |
|
{'train_accuracy': 0.734375, 'epoch': 1.81} |
|
{'loss': 1.416, 'grad_norm': 3.4118309020996094, 'learning_rate': 1.2031838191835569e-05, 'epoch': 1.81} |
|
{'train_accuracy': 0.78125, 'epoch': 1.81} |
|
{'loss': 1.2495, 'grad_norm': 7.626739978790283, 'learning_rate': 1.2010964793876274e-05, 'epoch': 1.81} |
|
{'train_accuracy': 0.6875, 'epoch': 1.81} |
|
{'loss': 1.4053, 'grad_norm': 3.9986813068389893, 'learning_rate': 1.1990082260905836e-05, 'epoch': 1.81} |
|
{'train_accuracy': 0.828125, 'epoch': 1.81} |
|
{'loss': 1.1636, 'grad_norm': 5.343590259552002, 'learning_rate': 1.1969190687785278e-05, 'epoch': 1.82} |
|
{'train_accuracy': 0.671875, 'epoch': 1.82} |
|
{'loss': 1.3369, 'grad_norm': 3.1849772930145264, 'learning_rate': 1.1948290169416682e-05, 'epoch': 1.82} |
|
{'train_accuracy': 0.71875, 'epoch': 1.82} |
|
{'loss': 1.2246, 'grad_norm': 8.547561645507812, 'learning_rate': 1.1927380800742772e-05, 'epoch': 1.82} |
|
{'train_accuracy': 0.84375, 'epoch': 1.82} |
|
{'loss': 1.1265, 'grad_norm': 4.1838202476501465, 'learning_rate': 1.1906462676746471e-05, 'epoch': 1.82} |
|
{'train_accuracy': 0.71875, 'epoch': 1.82} |
|
{'loss': 1.1968, 'grad_norm': 3.1758480072021484, 'learning_rate': 1.1885535892450473e-05, 'epoch': 1.83} |
|
{'train_accuracy': 0.75, 'epoch': 1.83} |
|
{'loss': 1.4497, 'grad_norm': 3.9789164066314697, 'learning_rate': 1.1864600542916813e-05, 'epoch': 1.83} |
|
{'train_accuracy': 0.71875, 'epoch': 1.83} |
|
{'loss': 1.4697, 'grad_norm': 3.6292474269866943, 'learning_rate': 1.1843656723246442e-05, 'epoch': 1.83} |
|
{'train_accuracy': 0.8125, 'epoch': 1.83} |
|
{'loss': 1.2129, 'grad_norm': 4.709868907928467, 'learning_rate': 1.1822704528578771e-05, 'epoch': 1.83} |
|
{'train_accuracy': 0.75, 'epoch': 1.83} |
|
{'loss': 1.2881, 'grad_norm': 2.8560163974761963, 'learning_rate': 1.1801744054091275e-05, 'epoch': 1.84} |
|
{'train_accuracy': 0.765625, 'epoch': 1.84} |
|
{'loss': 1.2056, 'grad_norm': 3.929037094116211, 'learning_rate': 1.1780775394999026e-05, 'epoch': 1.84} |
|
{'train_accuracy': 0.6875, 'epoch': 1.84} |
|
{'loss': 1.5181, 'grad_norm': 4.683406352996826, 'learning_rate': 1.1759798646554284e-05, 'epoch': 1.84} |
|
{'train_accuracy': 0.71875, 'epoch': 1.84} |
|
{'loss': 1.3506, 'grad_norm': 8.26242733001709, 'learning_rate': 1.1738813904046044e-05, 'epoch': 1.84} |
|
{'train_accuracy': 0.703125, 'epoch': 1.84} |
|
{'loss': 1.2554, 'grad_norm': 4.075243949890137, 'learning_rate': 1.1717821262799633e-05, 'epoch': 1.85} |
|
{'train_accuracy': 0.640625, 'epoch': 1.85} |
|
{'loss': 1.2778, 'grad_norm': 3.1833837032318115, 'learning_rate': 1.1696820818176242e-05, 'epoch': 1.85} |
|
{'train_accuracy': 0.734375, 'epoch': 1.85} |
|
{'loss': 1.1284, 'grad_norm': 7.329124450683594, 'learning_rate': 1.1675812665572522e-05, 'epoch': 1.85} |
|
{'train_accuracy': 0.765625, 'epoch': 1.85} |
|
{'loss': 1.3296, 'grad_norm': 13.962849617004395, 'learning_rate': 1.165479690042013e-05, 'epoch': 1.86} |
|
{'train_accuracy': 0.8125, 'epoch': 1.86} |
|
{'loss': 1.2402, 'grad_norm': 5.744749069213867, 'learning_rate': 1.1633773618185302e-05, 'epoch': 1.86} |
|
{'train_accuracy': 0.8125, 'epoch': 1.86} |
|
{'loss': 1.2944, 'grad_norm': 3.8666727542877197, 'learning_rate': 1.1612742914368436e-05, 'epoch': 1.86} |
|
{'train_accuracy': 0.671875, 'epoch': 1.86} |
|
{'loss': 1.4844, 'grad_norm': 4.552417278289795, 'learning_rate': 1.1591704884503625e-05, 'epoch': 1.86} |
|
{'train_accuracy': 0.78125, 'epoch': 1.86} |
|
{'loss': 1.1055, 'grad_norm': 6.385856628417969, 'learning_rate': 1.1570659624158252e-05, 'epoch': 1.87} |
|
{'train_accuracy': 0.828125, 'epoch': 1.87} |
|
{'loss': 1.3003, 'grad_norm': 9.559865951538086, 'learning_rate': 1.154960722893254e-05, 'epoch': 1.87} |
|
{'train_accuracy': 0.75, 'epoch': 1.87} |
|
{'loss': 1.314, 'grad_norm': 7.753382205963135, 'learning_rate': 1.1528547794459128e-05, 'epoch': 1.87} |
|
{'train_accuracy': 0.703125, 'epoch': 1.87} |
|
{'loss': 1.2871, 'grad_norm': 6.830855369567871, 'learning_rate': 1.1507481416402631e-05, 'epoch': 1.87} |
|
{'train_accuracy': 0.703125, 'epoch': 1.87} |
|
{'loss': 1.4844, 'grad_norm': 9.252273559570312, 'learning_rate': 1.14864081904592e-05, 'epoch': 1.88} |
|
{'train_accuracy': 0.6875, 'epoch': 1.88} |
|
{'loss': 1.2153, 'grad_norm': 3.4712741374969482, 'learning_rate': 1.1465328212356096e-05, 'epoch': 1.88} |
|
{'train_accuracy': 0.703125, 'epoch': 1.88} |
|
{'loss': 1.3228, 'grad_norm': 10.48102855682373, 'learning_rate': 1.1444241577851259e-05, 'epoch': 1.88} |
|
{'train_accuracy': 0.75, 'epoch': 1.88} |
|
{'loss': 1.3706, 'grad_norm': 13.115138053894043, 'learning_rate': 1.1423148382732854e-05, 'epoch': 1.88} |
|
{'train_accuracy': 0.703125, 'epoch': 1.88} |
|
{'loss': 1.3506, 'grad_norm': 12.306279182434082, 'learning_rate': 1.1402048722818862e-05, 'epoch': 1.89} |
|
{'train_accuracy': 0.75, 'epoch': 1.89} |
|
{'loss': 1.3467, 'grad_norm': 5.738865375518799, 'learning_rate': 1.1380942693956616e-05, 'epoch': 1.89} |
|
{'train_accuracy': 0.71875, 'epoch': 1.89} |
|
{'loss': 1.3203, 'grad_norm': 11.618247032165527, 'learning_rate': 1.1359830392022397e-05, 'epoch': 1.89} |
|
{'train_accuracy': 0.71875, 'epoch': 1.89} |
|
{'loss': 1.2524, 'grad_norm': 10.782801628112793, 'learning_rate': 1.1338711912920966e-05, 'epoch': 1.89} |
|
{'train_accuracy': 0.796875, 'epoch': 1.89} |
|
{'loss': 1.1309, 'grad_norm': 10.74484920501709, 'learning_rate': 1.1317587352585158e-05, 'epoch': 1.9} |
|
{'train_accuracy': 0.734375, 'epoch': 1.9} |
|
{'loss': 1.2578, 'grad_norm': 10.578213691711426, 'learning_rate': 1.1296456806975425e-05, 'epoch': 1.9} |
|
{'train_accuracy': 0.796875, 'epoch': 1.9} |
|
{'loss': 1.0459, 'grad_norm': 6.203153610229492, 'learning_rate': 1.1275320372079409e-05, 'epoch': 1.9} |
|
{'train_accuracy': 0.75, 'epoch': 1.9} |
|
{'loss': 1.2227, 'grad_norm': 3.5795280933380127, 'learning_rate': 1.1254178143911505e-05, 'epoch': 1.91} |
|
{'train_accuracy': 0.734375, 'epoch': 1.91} |
|
{'loss': 1.1079, 'grad_norm': 3.7006609439849854, 'learning_rate': 1.1233030218512424e-05, 'epoch': 1.91} |
|
{'train_accuracy': 0.71875, 'epoch': 1.91} |
|
{'loss': 1.1953, 'grad_norm': 7.2685418128967285, 'learning_rate': 1.121187669194876e-05, 'epoch': 1.91} |
|
{'train_accuracy': 0.734375, 'epoch': 1.91} |
|
{'loss': 1.4414, 'grad_norm': 10.036980628967285, 'learning_rate': 1.1190717660312546e-05, 'epoch': 1.91} |
|
{'train_accuracy': 0.703125, 'epoch': 1.91} |
|
{'loss': 1.5098, 'grad_norm': 18.515457153320312, 'learning_rate': 1.1169553219720828e-05, 'epoch': 1.92} |
|
{'train_accuracy': 0.640625, 'epoch': 1.92} |
|
{'loss': 1.2827, 'grad_norm': 10.847208023071289, 'learning_rate': 1.1148383466315215e-05, 'epoch': 1.92} |
|
{'train_accuracy': 0.828125, 'epoch': 1.92} |
|
{'loss': 1.2183, 'grad_norm': 2.8338921070098877, 'learning_rate': 1.112720849626146e-05, 'epoch': 1.92} |
|
{'train_accuracy': 0.71875, 'epoch': 1.92} |
|
{'loss': 1.228, 'grad_norm': 2.897954225540161, 'learning_rate': 1.1106028405749005e-05, 'epoch': 1.92} |
|
{'train_accuracy': 0.65625, 'epoch': 1.92} |
|
{'loss': 1.2529, 'grad_norm': 4.838603973388672, 'learning_rate': 1.108484329099056e-05, 'epoch': 1.93} |
|
{'train_accuracy': 0.796875, 'epoch': 1.93} |
|
{'loss': 1.1182, 'grad_norm': 15.432750701904297, 'learning_rate': 1.1063653248221647e-05, 'epoch': 1.93} |
|
{'train_accuracy': 0.703125, 'epoch': 1.93} |
|
{'loss': 1.8174, 'grad_norm': 24.764320373535156, 'learning_rate': 1.1042458373700182e-05, 'epoch': 1.93} |
|
{'train_accuracy': 0.75, 'epoch': 1.93} |
|
{'loss': 1.25, 'grad_norm': 7.018698692321777, 'learning_rate': 1.102125876370603e-05, 'epoch': 1.93} |
|
{'train_accuracy': 0.875, 'epoch': 1.93} |
|
{'loss': 1.3584, 'grad_norm': 6.331981658935547, 'learning_rate': 1.1000054514540563e-05, 'epoch': 1.94} |
|
{'train_accuracy': 0.703125, 'epoch': 1.94} |
|
{'loss': 0.9893, 'grad_norm': 4.260552406311035, 'learning_rate': 1.0978845722526233e-05, 'epoch': 1.94} |
|
{'train_accuracy': 0.828125, 'epoch': 1.94} |
|
{'loss': 1.2583, 'grad_norm': 7.735119342803955, 'learning_rate': 1.095763248400612e-05, 'epoch': 1.94} |
|
{'train_accuracy': 0.75, 'epoch': 1.94} |
|
{'loss': 1.2437, 'grad_norm': 8.540193557739258, 'learning_rate': 1.093641489534351e-05, 'epoch': 1.94} |
|
{'train_accuracy': 0.71875, 'epoch': 1.94} |
|
{'loss': 1.6079, 'grad_norm': 22.239505767822266, 'learning_rate': 1.0915193052921444e-05, 'epoch': 1.95} |
|
{'train_accuracy': 0.796875, 'epoch': 1.95} |
|
{'loss': 1.0818, 'grad_norm': 2.21054744720459, 'learning_rate': 1.0893967053142296e-05, 'epoch': 1.95} |
|
{'train_accuracy': 0.796875, 'epoch': 1.95} |
|
{'loss': 1.3613, 'grad_norm': 7.5065131187438965, 'learning_rate': 1.0872736992427313e-05, 'epoch': 1.95} |
|
{'train_accuracy': 0.78125, 'epoch': 1.95} |
|
{'loss': 1.2324, 'grad_norm': 3.3990285396575928, 'learning_rate': 1.0851502967216199e-05, 'epoch': 1.96} |
|
{'train_accuracy': 0.6875, 'epoch': 1.96} |
|
{'loss': 1.4365, 'grad_norm': 5.191620826721191, 'learning_rate': 1.0830265073966659e-05, 'epoch': 1.96} |
|
{'train_accuracy': 0.8125, 'epoch': 1.96} |
|
{'loss': 1.3271, 'grad_norm': 12.306520462036133, 'learning_rate': 1.0809023409153975e-05, 'epoch': 1.96} |
|
{'train_accuracy': 0.71875, 'epoch': 1.96} |
|
{'loss': 1.5117, 'grad_norm': 18.141544342041016, 'learning_rate': 1.078777806927056e-05, 'epoch': 1.96} |
|
{'train_accuracy': 0.71875, 'epoch': 1.96} |
|
{'loss': 1.5439, 'grad_norm': 17.377368927001953, 'learning_rate': 1.076652915082552e-05, 'epoch': 1.97} |
|
{'train_accuracy': 0.84375, 'epoch': 1.97} |
|
{'loss': 1.1499, 'grad_norm': 7.152597427368164, 'learning_rate': 1.0745276750344217e-05, 'epoch': 1.97} |
|
{'train_accuracy': 0.640625, 'epoch': 1.97} |
|
{'loss': 1.4727, 'grad_norm': 9.160234451293945, 'learning_rate': 1.0724020964367836e-05, 'epoch': 1.97} |
|
{'train_accuracy': 0.796875, 'epoch': 1.97} |
|
{'loss': 1.5566, 'grad_norm': 12.51110553741455, 'learning_rate': 1.070276188945293e-05, 'epoch': 1.97} |
|
{'train_accuracy': 0.78125, 'epoch': 1.97} |
|
{'loss': 1.2637, 'grad_norm': 14.964673042297363, 'learning_rate': 1.0681499622171006e-05, 'epoch': 1.98} |
|
{'train_accuracy': 0.8125, 'epoch': 1.98} |
|
{'loss': 1.0046, 'grad_norm': 7.775798797607422, 'learning_rate': 1.0660234259108058e-05, 'epoch': 1.98} |
|
{'train_accuracy': 0.78125, 'epoch': 1.98} |
|
{'loss': 1.1677, 'grad_norm': 6.908376216888428, 'learning_rate': 1.0638965896864155e-05, 'epoch': 1.98} |
|
{'train_accuracy': 0.8125, 'epoch': 1.98} |
|
{'loss': 1.3921, 'grad_norm': 4.5304975509643555, 'learning_rate': 1.0617694632052985e-05, 'epoch': 1.98} |
|
{'train_accuracy': 0.78125, 'epoch': 1.98} |
|
{'loss': 1.2329, 'grad_norm': 3.6965484619140625, 'learning_rate': 1.0596420561301421e-05, 'epoch': 1.99} |
|
{'train_accuracy': 0.6875, 'epoch': 1.99} |
|
{'loss': 1.3174, 'grad_norm': 10.095308303833008, 'learning_rate': 1.0575143781249085e-05, 'epoch': 1.99} |
|
{'train_accuracy': 0.71875, 'epoch': 1.99} |
|
{'loss': 1.417, 'grad_norm': 18.230331420898438, 'learning_rate': 1.0553864388547898e-05, 'epoch': 1.99} |
|
{'train_accuracy': 0.796875, 'epoch': 1.99} |
|
{'loss': 1.2627, 'grad_norm': 15.718420028686523, 'learning_rate': 1.0532582479861661e-05, 'epoch': 1.99} |
|
{'train_accuracy': 0.671875, 'epoch': 1.99} |
|
{'loss': 1.3433, 'grad_norm': 5.491973400115967, 'learning_rate': 1.05112981518656e-05, 'epoch': 2.0} |
|
{'train_accuracy': 0.875, 'epoch': 2.0} |
|
{'loss': 0.9978, 'grad_norm': 3.911191701889038, 'learning_rate': 1.0490011501245922e-05, 'epoch': 2.0} |
|
{'eval_accuracy': 0.7095523476600647, 'eval_max_score': 5.4375, 'eval_min_score': -7.53125, 'eval_runtime': 151.3191, 'eval_samples_per_second': 18.748, 'eval_steps_per_second': 0.297, 'epoch': 2.0} |
|
{'train_accuracy': 0.703125, 'epoch': 2.0} |
|
{'loss': 1.1938, 'grad_norm': 11.913331985473633, 'learning_rate': 1.0468722624699401e-05, 'epoch': 2.0} |
|
{'train_accuracy': 0.796875, 'epoch': 2.0} |
|
{'loss': 0.9375, 'grad_norm': 3.7143356800079346, 'learning_rate': 1.0447431618932908e-05, 'epoch': 2.01} |
|
{'train_accuracy': 0.6875, 'epoch': 2.01} |
|
{'loss': 1.0718, 'grad_norm': 11.733597755432129, 'learning_rate': 1.0426138580662994e-05, 'epoch': 2.01} |
|
{'train_accuracy': 0.765625, 'epoch': 2.01} |
|
{'loss': 0.9795, 'grad_norm': 5.847121715545654, 'learning_rate': 1.040484360661544e-05, 'epoch': 2.01} |
|
{'train_accuracy': 0.78125, 'epoch': 2.01} |
|
{'loss': 1.1621, 'grad_norm': 10.243609428405762, 'learning_rate': 1.0383546793524821e-05, 'epoch': 2.01} |
|
{'train_accuracy': 0.828125, 'epoch': 2.01} |
|
{'loss': 1.2065, 'grad_norm': 4.13088846206665, 'learning_rate': 1.0362248238134069e-05, 'epoch': 2.02} |
|
{'train_accuracy': 0.78125, 'epoch': 2.02} |
|
{'loss': 1.1763, 'grad_norm': 13.116296768188477, 'learning_rate': 1.0340948037194022e-05, 'epoch': 2.02} |
|
{'train_accuracy': 0.875, 'epoch': 2.02} |
|
{'loss': 0.9854, 'grad_norm': 9.769474983215332, 'learning_rate': 1.0319646287463007e-05, 'epoch': 2.02} |
|
{'train_accuracy': 0.734375, 'epoch': 2.02} |
|
{'loss': 1.1587, 'grad_norm': 5.3271870613098145, 'learning_rate': 1.0298343085706373e-05, 'epoch': 2.02} |
|
{'train_accuracy': 0.765625, 'epoch': 2.02} |
|
{'loss': 1.1216, 'grad_norm': 5.8491339683532715, 'learning_rate': 1.0277038528696069e-05, 'epoch': 2.03} |
|
{'train_accuracy': 0.859375, 'epoch': 2.03} |
|
{'loss': 0.8696, 'grad_norm': 4.986546516418457, 'learning_rate': 1.0255732713210207e-05, 'epoch': 2.03} |
|
{'train_accuracy': 0.828125, 'epoch': 2.03} |
|
{'loss': 0.8853, 'grad_norm': 6.160093784332275, 'learning_rate': 1.0234425736032607e-05, 'epoch': 2.03} |
|
{'train_accuracy': 0.859375, 'epoch': 2.03} |
|
{'loss': 1.061, 'grad_norm': 5.357452869415283, 'learning_rate': 1.021311769395237e-05, 'epoch': 2.03} |
|
{'train_accuracy': 0.78125, 'epoch': 2.03} |
|
{'loss': 1.1689, 'grad_norm': 4.175728797912598, 'learning_rate': 1.0191808683763435e-05, 'epoch': 2.04} |
|
{'train_accuracy': 0.84375, 'epoch': 2.04} |
|
{'loss': 1.2319, 'grad_norm': 12.665717124938965, 'learning_rate': 1.0170498802264137e-05, 'epoch': 2.04} |
|
{'train_accuracy': 0.78125, 'epoch': 2.04} |
|
{'loss': 1.1147, 'grad_norm': 3.677302360534668, 'learning_rate': 1.0149188146256772e-05, 'epoch': 2.04} |
|
{'train_accuracy': 0.734375, 'epoch': 2.04} |
|
{'loss': 1.4141, 'grad_norm': 9.071887016296387, 'learning_rate': 1.012787681254715e-05, 'epoch': 2.04} |
|
{'train_accuracy': 0.796875, 'epoch': 2.04} |
|
{'loss': 1.2603, 'grad_norm': 4.74293327331543, 'learning_rate': 1.0106564897944161e-05, 'epoch': 2.05} |
|
{'train_accuracy': 0.796875, 'epoch': 2.05} |
|
{'loss': 1.2246, 'grad_norm': 6.72886323928833, 'learning_rate': 1.0085252499259339e-05, 'epoch': 2.05} |
|
{'train_accuracy': 0.875, 'epoch': 2.05} |
|
{'loss': 1.0317, 'grad_norm': 7.605119705200195, 'learning_rate': 1.0063939713306408e-05, 'epoch': 2.05} |
|
{'train_accuracy': 0.890625, 'epoch': 2.05} |
|
{'loss': 0.8687, 'grad_norm': 3.3540549278259277, 'learning_rate': 1.0042626636900857e-05, 'epoch': 2.06} |
|
{'train_accuracy': 0.765625, 'epoch': 2.06} |
|
{'loss': 0.9585, 'grad_norm': 3.413945436477661, 'learning_rate': 1.0021313366859492e-05, 'epoch': 2.06} |
|
{'train_accuracy': 0.859375, 'epoch': 2.06} |
|
{'loss': 0.9995, 'grad_norm': 8.70964527130127, 'learning_rate': 1e-05, 'epoch': 2.06} |
|
{'train_accuracy': 0.75, 'epoch': 2.06} |
|
{'loss': 1.1606, 'grad_norm': 3.214557409286499, 'learning_rate': 9.97868663314051e-06, 'epoch': 2.06} |
|
{'train_accuracy': 0.765625, 'epoch': 2.06} |
|
{'loss': 1.1567, 'grad_norm': 3.9605302810668945, 'learning_rate': 9.957373363099145e-06, 'epoch': 2.07} |
|
{'train_accuracy': 0.875, 'epoch': 2.07} |
|
{'loss': 1.2017, 'grad_norm': 4.05962610244751, 'learning_rate': 9.936060286693592e-06, 'epoch': 2.07} |
|
{'train_accuracy': 0.78125, 'epoch': 2.07} |
|
{'loss': 1.1226, 'grad_norm': 5.312036991119385, 'learning_rate': 9.914747500740664e-06, 'epoch': 2.07} |
|
{'train_accuracy': 0.890625, 'epoch': 2.07} |
|
{'loss': 0.9087, 'grad_norm': 3.9408695697784424, 'learning_rate': 9.893435102055837e-06, 'epoch': 2.07} |
|
{'train_accuracy': 0.859375, 'epoch': 2.07} |
|
{'loss': 0.832, 'grad_norm': 7.020488739013672, 'learning_rate': 9.872123187452853e-06, 'epoch': 2.08} |
|
{'train_accuracy': 0.765625, 'epoch': 2.08} |
|
{'loss': 0.9893, 'grad_norm': 11.928730964660645, 'learning_rate': 9.850811853743228e-06, 'epoch': 2.08} |
|
{'train_accuracy': 0.859375, 'epoch': 2.08} |
|
{'loss': 1.0938, 'grad_norm': 3.8629775047302246, 'learning_rate': 9.829501197735866e-06, 'epoch': 2.08} |
|
{'train_accuracy': 0.84375, 'epoch': 2.08} |
|
{'loss': 1.0854, 'grad_norm': 5.992745876312256, 'learning_rate': 9.808191316236567e-06, 'epoch': 2.08} |
|
{'train_accuracy': 0.8125, 'epoch': 2.08} |
|
{'loss': 1.1436, 'grad_norm': 13.866453170776367, 'learning_rate': 9.786882306047634e-06, 'epoch': 2.09} |
|
{'train_accuracy': 0.796875, 'epoch': 2.09} |
|
{'loss': 0.9795, 'grad_norm': 6.951359748840332, 'learning_rate': 9.765574263967397e-06, 'epoch': 2.09} |
|
{'train_accuracy': 0.78125, 'epoch': 2.09} |
|
{'loss': 0.9082, 'grad_norm': 3.920224666595459, 'learning_rate': 9.7442672867898e-06, 'epoch': 2.09} |
|
{'train_accuracy': 0.765625, 'epoch': 2.09} |
|
{'loss': 1.0391, 'grad_norm': 9.016509056091309, 'learning_rate': 9.722961471303933e-06, 'epoch': 2.09} |
|
{'train_accuracy': 0.765625, 'epoch': 2.09} |
|
{'loss': 1.0806, 'grad_norm': 4.021119594573975, 'learning_rate': 9.701656914293633e-06, 'epoch': 2.1} |
|
{'train_accuracy': 0.765625, 'epoch': 2.1} |
|
{'loss': 1.2656, 'grad_norm': 10.586660385131836, 'learning_rate': 9.680353712536996e-06, 'epoch': 2.1} |
|
{'train_accuracy': 0.71875, 'epoch': 2.1} |
|
{'loss': 1.4502, 'grad_norm': 8.6112699508667, 'learning_rate': 9.659051962805981e-06, 'epoch': 2.1} |
|
{'train_accuracy': 0.78125, 'epoch': 2.1} |
|
{'loss': 1.4658, 'grad_norm': 11.76105785369873, 'learning_rate': 9.637751761865935e-06, 'epoch': 2.11} |
|
{'train_accuracy': 0.90625, 'epoch': 2.11} |
|
{'loss': 0.8423, 'grad_norm': 3.611421823501587, 'learning_rate': 9.616453206475179e-06, 'epoch': 2.11} |
|
{'train_accuracy': 0.828125, 'epoch': 2.11} |
|
{'loss': 1.0503, 'grad_norm': 7.084579944610596, 'learning_rate': 9.595156393384563e-06, 'epoch': 2.11} |
|
{'train_accuracy': 0.6875, 'epoch': 2.11} |
|
{'loss': 1.0415, 'grad_norm': 7.71038293838501, 'learning_rate': 9.573861419337006e-06, 'epoch': 2.11} |
|
{'train_accuracy': 0.828125, 'epoch': 2.11} |
|
{'loss': 1.0215, 'grad_norm': 3.812354564666748, 'learning_rate': 9.552568381067094e-06, 'epoch': 2.12} |
|
{'train_accuracy': 0.78125, 'epoch': 2.12} |
|
{'loss': 0.9658, 'grad_norm': 5.703183650970459, 'learning_rate': 9.531277375300599e-06, 'epoch': 2.12} |
|
{'train_accuracy': 0.84375, 'epoch': 2.12} |
|
{'loss': 1.0361, 'grad_norm': 4.764461517333984, 'learning_rate': 9.50998849875408e-06, 'epoch': 2.12} |
|
{'train_accuracy': 0.859375, 'epoch': 2.12} |
|
{'loss': 1.1016, 'grad_norm': 3.6121408939361572, 'learning_rate': 9.488701848134402e-06, 'epoch': 2.12} |
|
{'train_accuracy': 0.84375, 'epoch': 2.12} |
|
{'loss': 1.1719, 'grad_norm': 5.072896480560303, 'learning_rate': 9.467417520138342e-06, 'epoch': 2.13} |
|
{'train_accuracy': 0.84375, 'epoch': 2.13} |
|
{'loss': 1.0371, 'grad_norm': 7.073615550994873, 'learning_rate': 9.446135611452104e-06, 'epoch': 2.13} |
|
{'train_accuracy': 0.84375, 'epoch': 2.13} |
|
{'loss': 1.1528, 'grad_norm': 4.111389636993408, 'learning_rate': 9.42485621875092e-06, 'epoch': 2.13} |
|
{'train_accuracy': 0.6875, 'epoch': 2.13} |
|
{'loss': 1.2002, 'grad_norm': 5.092117786407471, 'learning_rate': 9.40357943869858e-06, 'epoch': 2.13} |
|
{'train_accuracy': 0.78125, 'epoch': 2.13} |
|
{'loss': 1.1992, 'grad_norm': 6.998875617980957, 'learning_rate': 9.382305367947018e-06, 'epoch': 2.14} |
|
{'train_accuracy': 0.78125, 'epoch': 2.14} |
|
{'loss': 0.8735, 'grad_norm': 4.185628890991211, 'learning_rate': 9.361034103135847e-06, 'epoch': 2.14} |
|
{'train_accuracy': 0.8125, 'epoch': 2.14} |
|
{'loss': 1.0894, 'grad_norm': 5.1156325340271, 'learning_rate': 9.339765740891946e-06, 'epoch': 2.14} |
|
{'train_accuracy': 0.875, 'epoch': 2.14} |
|
{'loss': 0.9214, 'grad_norm': 7.7576189041137695, 'learning_rate': 9.318500377828998e-06, 'epoch': 2.14} |
|
{'train_accuracy': 0.765625, 'epoch': 2.14} |
|
{'loss': 1.2227, 'grad_norm': 4.9661126136779785, 'learning_rate': 9.297238110547075e-06, 'epoch': 2.15} |
|
{'train_accuracy': 0.828125, 'epoch': 2.15} |
|
{'loss': 0.9333, 'grad_norm': 3.897723913192749, 'learning_rate': 9.275979035632167e-06, 'epoch': 2.15} |
|
{'train_accuracy': 0.828125, 'epoch': 2.15} |
|
{'loss': 1.1143, 'grad_norm': 13.26174545288086, 'learning_rate': 9.254723249655784e-06, 'epoch': 2.15} |
|
{'train_accuracy': 0.75, 'epoch': 2.15} |
|
{'loss': 1.2188, 'grad_norm': 7.426464557647705, 'learning_rate': 9.233470849174484e-06, 'epoch': 2.16} |
|
{'train_accuracy': 0.921875, 'epoch': 2.16} |
|
{'loss': 1.075, 'grad_norm': 5.145357608795166, 'learning_rate': 9.212221930729442e-06, 'epoch': 2.16} |
|
{'train_accuracy': 0.859375, 'epoch': 2.16} |
|
{'loss': 1.3589, 'grad_norm': 13.33061695098877, 'learning_rate': 9.190976590846028e-06, 'epoch': 2.16} |
|
{'train_accuracy': 0.75, 'epoch': 2.16} |
|
{'loss': 1.6045, 'grad_norm': 15.381673812866211, 'learning_rate': 9.169734926033343e-06, 'epoch': 2.16} |
|
{'train_accuracy': 0.8125, 'epoch': 2.16} |
|
{'loss': 1.2603, 'grad_norm': 5.126620769500732, 'learning_rate': 9.148497032783804e-06, 'epoch': 2.17} |
|
{'train_accuracy': 0.78125, 'epoch': 2.17} |
|
{'loss': 1.0527, 'grad_norm': 6.827272891998291, 'learning_rate': 9.127263007572688e-06, 'epoch': 2.17} |
|
{'train_accuracy': 0.78125, 'epoch': 2.17} |
|
{'loss': 1.0391, 'grad_norm': 11.240569114685059, 'learning_rate': 9.106032946857708e-06, 'epoch': 2.17} |
|
{'train_accuracy': 0.78125, 'epoch': 2.17} |
|
{'loss': 0.9722, 'grad_norm': 5.50578498840332, 'learning_rate': 9.084806947078558e-06, 'epoch': 2.17} |
|
{'train_accuracy': 0.796875, 'epoch': 2.17} |
|
{'loss': 1.0566, 'grad_norm': 6.608829021453857, 'learning_rate': 9.063585104656494e-06, 'epoch': 2.18} |
|
{'train_accuracy': 0.796875, 'epoch': 2.18} |
|
{'loss': 1.0808, 'grad_norm': 7.2398176193237305, 'learning_rate': 9.042367515993884e-06, 'epoch': 2.18} |
|
{'train_accuracy': 0.828125, 'epoch': 2.18} |
|
{'loss': 1.063, 'grad_norm': 5.127984046936035, 'learning_rate': 9.021154277473772e-06, 'epoch': 2.18} |
|
{'train_accuracy': 0.78125, 'epoch': 2.18} |
|
{'loss': 1.0215, 'grad_norm': 5.692725658416748, 'learning_rate': 8.999945485459439e-06, 'epoch': 2.18} |
|
{'train_accuracy': 0.8125, 'epoch': 2.18} |
|
{'loss': 1.0005, 'grad_norm': 9.340150833129883, 'learning_rate': 8.978741236293972e-06, 'epoch': 2.19} |
|
{'train_accuracy': 0.765625, 'epoch': 2.19} |
|
{'loss': 1.3848, 'grad_norm': 16.168376922607422, 'learning_rate': 8.957541626299821e-06, 'epoch': 2.19} |
|
{'train_accuracy': 0.859375, 'epoch': 2.19} |
|
{'loss': 1.1753, 'grad_norm': 12.331050872802734, 'learning_rate': 8.936346751778358e-06, 'epoch': 2.19} |
|
{'train_accuracy': 0.78125, 'epoch': 2.19} |
|
{'loss': 1.0239, 'grad_norm': 5.23305082321167, 'learning_rate': 8.915156709009445e-06, 'epoch': 2.19} |
|
{'train_accuracy': 0.796875, 'epoch': 2.19} |
|
{'loss': 1.105, 'grad_norm': 4.159104347229004, 'learning_rate': 8.893971594250998e-06, 'epoch': 2.2} |
|
{'train_accuracy': 0.765625, 'epoch': 2.2} |
|
{'loss': 1.5513, 'grad_norm': 9.729438781738281, 'learning_rate': 8.872791503738543e-06, 'epoch': 2.2} |
|
{'eval_accuracy': 0.7173070311546326, 'eval_max_score': 8.125, 'eval_min_score': -8.625, 'eval_runtime': 151.7446, 'eval_samples_per_second': 18.696, 'eval_steps_per_second': 0.297, 'epoch': 2.2} |
|
{'train_accuracy': 0.90625, 'epoch': 2.2} |
|
{'loss': 0.9358, 'grad_norm': 6.211835861206055, 'learning_rate': 8.851616533684788e-06, 'epoch': 2.2} |
|
{'train_accuracy': 0.78125, 'epoch': 2.2} |
|
{'loss': 1.1157, 'grad_norm': 4.620204448699951, 'learning_rate': 8.830446780279175e-06, 'epoch': 2.21} |
|
{'train_accuracy': 0.765625, 'epoch': 2.21} |
|
{'loss': 1.0879, 'grad_norm': 11.254515647888184, 'learning_rate': 8.809282339687457e-06, 'epoch': 2.21} |
|
{'train_accuracy': 0.8125, 'epoch': 2.21} |
|
{'loss': 1.0962, 'grad_norm': 4.592057704925537, 'learning_rate': 8.788123308051244e-06, 'epoch': 2.21} |
|
{'train_accuracy': 0.796875, 'epoch': 2.21} |
|
{'loss': 1.0967, 'grad_norm': 7.248822212219238, 'learning_rate': 8.766969781487579e-06, 'epoch': 2.21} |
|
{'train_accuracy': 0.796875, 'epoch': 2.21} |
|
{'loss': 1.0249, 'grad_norm': 4.9665985107421875, 'learning_rate': 8.7458218560885e-06, 'epoch': 2.22} |
|
{'train_accuracy': 0.84375, 'epoch': 2.22} |
|
{'loss': 1.2192, 'grad_norm': 7.975915431976318, 'learning_rate': 8.724679627920595e-06, 'epoch': 2.22} |
|
{'train_accuracy': 0.765625, 'epoch': 2.22} |
|
{'loss': 1.0068, 'grad_norm': 3.6533076763153076, 'learning_rate': 8.703543193024578e-06, 'epoch': 2.22} |
|
{'train_accuracy': 0.859375, 'epoch': 2.22} |
|
{'loss': 0.9976, 'grad_norm': 4.886638164520264, 'learning_rate': 8.682412647414845e-06, 'epoch': 2.22} |
|
{'train_accuracy': 0.84375, 'epoch': 2.22} |
|
{'loss': 1.0015, 'grad_norm': 8.30583381652832, 'learning_rate': 8.661288087079038e-06, 'epoch': 2.23} |
|
{'train_accuracy': 0.890625, 'epoch': 2.23} |
|
{'loss': 1.2681, 'grad_norm': 16.96817970275879, 'learning_rate': 8.640169607977606e-06, 'epoch': 2.23} |
|
{'train_accuracy': 0.84375, 'epoch': 2.23} |
|
{'loss': 1.1211, 'grad_norm': 8.309298515319824, 'learning_rate': 8.619057306043388e-06, 'epoch': 2.23} |
|
{'train_accuracy': 0.75, 'epoch': 2.23} |
|
{'loss': 0.9634, 'grad_norm': 4.597687244415283, 'learning_rate': 8.597951277181143e-06, 'epoch': 2.23} |
|
{'train_accuracy': 0.890625, 'epoch': 2.23} |
|
{'loss': 1.0137, 'grad_norm': 6.457274436950684, 'learning_rate': 8.576851617267151e-06, 'epoch': 2.24} |
|
{'train_accuracy': 0.796875, 'epoch': 2.24} |
|
{'loss': 1.0164, 'grad_norm': 9.658507347106934, 'learning_rate': 8.555758422148746e-06, 'epoch': 2.24} |
|
{'train_accuracy': 0.8125, 'epoch': 2.24} |
|
{'loss': 1.1245, 'grad_norm': 12.8440580368042, 'learning_rate': 8.534671787643909e-06, 'epoch': 2.24} |
|
{'train_accuracy': 0.765625, 'epoch': 2.24} |
|
{'loss': 1.1011, 'grad_norm': 9.525819778442383, 'learning_rate': 8.513591809540804e-06, 'epoch': 2.24} |
|
{'train_accuracy': 0.828125, 'epoch': 2.24} |
|
{'loss': 1.0659, 'grad_norm': 10.477482795715332, 'learning_rate': 8.492518583597374e-06, 'epoch': 2.25} |
|
{'train_accuracy': 0.828125, 'epoch': 2.25} |
|
{'loss': 1.1631, 'grad_norm': 5.5181708335876465, 'learning_rate': 8.471452205540873e-06, 'epoch': 2.25} |
|
{'train_accuracy': 0.84375, 'epoch': 2.25} |
|
{'loss': 0.8623, 'grad_norm': 4.574328422546387, 'learning_rate': 8.450392771067463e-06, 'epoch': 2.25} |
|
{'train_accuracy': 0.796875, 'epoch': 2.25} |
|
{'loss': 1.3433, 'grad_norm': 16.64838981628418, 'learning_rate': 8.429340375841753e-06, 'epoch': 2.26} |
|
{'train_accuracy': 0.796875, 'epoch': 2.26} |
|
{'loss': 1.147, 'grad_norm': 7.746898174285889, 'learning_rate': 8.408295115496376e-06, 'epoch': 2.26} |
|
{'train_accuracy': 0.734375, 'epoch': 2.26} |
|
{'loss': 1.0591, 'grad_norm': 4.429878234863281, 'learning_rate': 8.387257085631567e-06, 'epoch': 2.26} |
|
{'train_accuracy': 0.796875, 'epoch': 2.26} |
|
{'loss': 1.0776, 'grad_norm': 8.77043342590332, 'learning_rate': 8.366226381814698e-06, 'epoch': 2.26} |
|
{'train_accuracy': 0.765625, 'epoch': 2.26} |
|
{'loss': 1.1587, 'grad_norm': 11.112512588500977, 'learning_rate': 8.345203099579874e-06, 'epoch': 2.27} |
|
{'train_accuracy': 0.8125, 'epoch': 2.27} |
|
{'loss': 0.9067, 'grad_norm': 3.823777914047241, 'learning_rate': 8.32418733442748e-06, 'epoch': 2.27} |
|
{'train_accuracy': 0.75, 'epoch': 2.27} |
|
{'loss': 1.3232, 'grad_norm': 5.121189117431641, 'learning_rate': 8.30317918182376e-06, 'epoch': 2.27} |
|
{'train_accuracy': 0.796875, 'epoch': 2.27} |
|
{'loss': 1.1323, 'grad_norm': 13.663050651550293, 'learning_rate': 8.282178737200369e-06, 'epoch': 2.27} |
|
{'train_accuracy': 0.71875, 'epoch': 2.27} |
|
{'loss': 1.2798, 'grad_norm': 11.7109956741333, 'learning_rate': 8.261186095953959e-06, 'epoch': 2.28} |
|
{'train_accuracy': 0.734375, 'epoch': 2.28} |
|
{'loss': 1.0508, 'grad_norm': 3.7948272228240967, 'learning_rate': 8.240201353445721e-06, 'epoch': 2.28} |
|
{'train_accuracy': 0.765625, 'epoch': 2.28} |
|
{'loss': 1.1313, 'grad_norm': 4.340938568115234, 'learning_rate': 8.219224605000979e-06, 'epoch': 2.28} |
|
{'train_accuracy': 0.75, 'epoch': 2.28} |
|
{'loss': 1.1665, 'grad_norm': 9.902191162109375, 'learning_rate': 8.198255945908727e-06, 'epoch': 2.28} |
|
{'train_accuracy': 0.78125, 'epoch': 2.28} |
|
{'loss': 1.2061, 'grad_norm': 3.9820899963378906, 'learning_rate': 8.177295471421232e-06, 'epoch': 2.29} |
|
{'train_accuracy': 0.71875, 'epoch': 2.29} |
|
{'loss': 1.2837, 'grad_norm': 11.108955383300781, 'learning_rate': 8.156343276753563e-06, 'epoch': 2.29} |
|
{'train_accuracy': 0.796875, 'epoch': 2.29} |
|
{'loss': 1.0798, 'grad_norm': 10.159497261047363, 'learning_rate': 8.13539945708319e-06, 'epoch': 2.29} |
|
{'train_accuracy': 0.90625, 'epoch': 2.29} |
|
{'loss': 0.9238, 'grad_norm': 5.310483932495117, 'learning_rate': 8.114464107549532e-06, 'epoch': 2.29} |
|
{'train_accuracy': 0.84375, 'epoch': 2.29} |
|
{'loss': 1.0635, 'grad_norm': 3.798041582107544, 'learning_rate': 8.09353732325353e-06, 'epoch': 2.3} |
|
{'train_accuracy': 0.859375, 'epoch': 2.3} |
|
{'loss': 1.1836, 'grad_norm': 7.455261707305908, 'learning_rate': 8.072619199257232e-06, 'epoch': 2.3} |
|
{'train_accuracy': 0.765625, 'epoch': 2.3} |
|
{'loss': 1.064, 'grad_norm': 5.471553325653076, 'learning_rate': 8.05170983058332e-06, 'epoch': 2.3} |
|
{'train_accuracy': 0.765625, 'epoch': 2.3} |
|
{'loss': 1.1958, 'grad_norm': 4.1305694580078125, 'learning_rate': 8.030809312214726e-06, 'epoch': 2.31} |
|
{'train_accuracy': 0.75, 'epoch': 2.31} |
|
{'loss': 1.1851, 'grad_norm': 5.602186679840088, 'learning_rate': 8.009917739094164e-06, 'epoch': 2.31} |
|
{'train_accuracy': 0.6875, 'epoch': 2.31} |
|
{'loss': 1.2207, 'grad_norm': 6.608561038970947, 'learning_rate': 7.98903520612373e-06, 'epoch': 2.31} |
|
{'train_accuracy': 0.796875, 'epoch': 2.31} |
|
{'loss': 1.1006, 'grad_norm': 7.152756214141846, 'learning_rate': 7.968161808164431e-06, 'epoch': 2.31} |
|
{'train_accuracy': 0.75, 'epoch': 2.31} |
|
{'loss': 1.2261, 'grad_norm': 4.266940593719482, 'learning_rate': 7.9472976400358e-06, 'epoch': 2.32} |
|
{'train_accuracy': 0.734375, 'epoch': 2.32} |
|
{'loss': 1.501, 'grad_norm': 11.65020751953125, 'learning_rate': 7.926442796515429e-06, 'epoch': 2.32} |
|
{'train_accuracy': 0.84375, 'epoch': 2.32} |
|
{'loss': 1.0825, 'grad_norm': 4.304981708526611, 'learning_rate': 7.905597372338558e-06, 'epoch': 2.32} |
|
{'train_accuracy': 0.765625, 'epoch': 2.32} |
|
{'loss': 1.0073, 'grad_norm': 4.352926731109619, 'learning_rate': 7.88476146219763e-06, 'epoch': 2.32} |
|
{'train_accuracy': 0.828125, 'epoch': 2.32} |
|
{'loss': 1.2544, 'grad_norm': 5.145933628082275, 'learning_rate': 7.863935160741886e-06, 'epoch': 2.33} |
|
{'train_accuracy': 0.859375, 'epoch': 2.33} |
|
{'loss': 0.916, 'grad_norm': 4.757798194885254, 'learning_rate': 7.843118562576899e-06, 'epoch': 2.33} |
|
{'train_accuracy': 0.765625, 'epoch': 2.33} |
|
{'loss': 1.3086, 'grad_norm': 5.980506896972656, 'learning_rate': 7.822311762264182e-06, 'epoch': 2.33} |
|
{'train_accuracy': 0.765625, 'epoch': 2.33} |
|
{'loss': 1.1172, 'grad_norm': 4.120883941650391, 'learning_rate': 7.801514854320724e-06, 'epoch': 2.33} |
|
{'train_accuracy': 0.734375, 'epoch': 2.33} |
|
{'loss': 1.0269, 'grad_norm': 3.8416996002197266, 'learning_rate': 7.780727933218589e-06, 'epoch': 2.34} |
|
{'train_accuracy': 0.765625, 'epoch': 2.34} |
|
{'loss': 1.3921, 'grad_norm': 4.1616597175598145, 'learning_rate': 7.759951093384467e-06, 'epoch': 2.34} |
|
{'train_accuracy': 0.765625, 'epoch': 2.34} |
|
{'loss': 1.0664, 'grad_norm': 7.139702796936035, 'learning_rate': 7.739184429199262e-06, 'epoch': 2.34} |
|
{'train_accuracy': 0.828125, 'epoch': 2.34} |
|
{'loss': 1.0742, 'grad_norm': 3.5956788063049316, 'learning_rate': 7.71842803499764e-06, 'epoch': 2.34} |
|
{'train_accuracy': 0.84375, 'epoch': 2.34} |
|
{'loss': 1.0059, 'grad_norm': 5.877930164337158, 'learning_rate': 7.697682005067627e-06, 'epoch': 2.35} |
|
{'train_accuracy': 0.8125, 'epoch': 2.35} |
|
{'loss': 0.9917, 'grad_norm': 8.738607406616211, 'learning_rate': 7.67694643365017e-06, 'epoch': 2.35} |
|
{'train_accuracy': 0.796875, 'epoch': 2.35} |
|
{'loss': 1.3345, 'grad_norm': 5.848970413208008, 'learning_rate': 7.65622141493869e-06, 'epoch': 2.35} |
|
{'train_accuracy': 0.765625, 'epoch': 2.35} |
|
{'loss': 1.1919, 'grad_norm': 8.351785659790039, 'learning_rate': 7.635507043078692e-06, 'epoch': 2.36} |
|
{'train_accuracy': 0.75, 'epoch': 2.36} |
|
{'loss': 1.0029, 'grad_norm': 7.921352386474609, 'learning_rate': 7.614803412167299e-06, 'epoch': 2.36} |
|
{'train_accuracy': 0.8125, 'epoch': 2.36} |
|
{'loss': 0.9062, 'grad_norm': 4.196382522583008, 'learning_rate': 7.594110616252859e-06, 'epoch': 2.36} |
|
{'train_accuracy': 0.75, 'epoch': 2.36} |
|
{'loss': 1.1943, 'grad_norm': 5.209059238433838, 'learning_rate': 7.573428749334482e-06, 'epoch': 2.36} |
|
{'train_accuracy': 0.875, 'epoch': 2.36} |
|
{'loss': 0.8054, 'grad_norm': 3.660780191421509, 'learning_rate': 7.552757905361652e-06, 'epoch': 2.37} |
|
{'train_accuracy': 0.75, 'epoch': 2.37} |
|
{'loss': 1.1636, 'grad_norm': 6.490506172180176, 'learning_rate': 7.532098178233761e-06, 'epoch': 2.37} |
|
{'train_accuracy': 0.84375, 'epoch': 2.37} |
|
{'loss': 1.1226, 'grad_norm': 4.385256767272949, 'learning_rate': 7.5114496617997205e-06, 'epoch': 2.37} |
|
{'train_accuracy': 0.890625, 'epoch': 2.37} |
|
{'loss': 0.855, 'grad_norm': 5.040467262268066, 'learning_rate': 7.4908124498574964e-06, 'epoch': 2.37} |
|
{'train_accuracy': 0.859375, 'epoch': 2.37} |
|
{'loss': 1.1592, 'grad_norm': 8.077067375183105, 'learning_rate': 7.470186636153722e-06, 'epoch': 2.38} |
|
{'train_accuracy': 0.734375, 'epoch': 2.38} |
|
{'loss': 1.1375, 'grad_norm': 4.04118537902832, 'learning_rate': 7.449572314383237e-06, 'epoch': 2.38} |
|
{'train_accuracy': 0.671875, 'epoch': 2.38} |
|
{'loss': 1.1167, 'grad_norm': 6.724638938903809, 'learning_rate': 7.428969578188692e-06, 'epoch': 2.38} |
|
{'train_accuracy': 0.765625, 'epoch': 2.38} |
|
{'loss': 1.064, 'grad_norm': 8.281147003173828, 'learning_rate': 7.408378521160091e-06, 'epoch': 2.38} |
|
{'train_accuracy': 0.84375, 'epoch': 2.38} |
|
{'loss': 0.96, 'grad_norm': 5.431487083435059, 'learning_rate': 7.387799236834408e-06, 'epoch': 2.39} |
|
{'train_accuracy': 0.75, 'epoch': 2.39} |
|
{'loss': 1.0693, 'grad_norm': 5.093214511871338, 'learning_rate': 7.367231818695113e-06, 'epoch': 2.39} |
|
{'train_accuracy': 0.78125, 'epoch': 2.39} |
|
{'loss': 1.4072, 'grad_norm': 7.53461217880249, 'learning_rate': 7.346676360171792e-06, 'epoch': 2.39} |
|
{'train_accuracy': 0.703125, 'epoch': 2.39} |
|
{'loss': 0.9409, 'grad_norm': 7.927123069763184, 'learning_rate': 7.326132954639699e-06, 'epoch': 2.39} |
|
{'train_accuracy': 0.796875, 'epoch': 2.39} |
|
{'loss': 1.1978, 'grad_norm': 4.111649513244629, 'learning_rate': 7.3056016954193235e-06, 'epoch': 2.4} |
|
{'train_accuracy': 0.875, 'epoch': 2.4} |
|
{'loss': 0.9675, 'grad_norm': 8.101927757263184, 'learning_rate': 7.285082675775998e-06, 'epoch': 2.4} |
|
{'eval_accuracy': 0.709199845790863, 'eval_max_score': 7.4375, 'eval_min_score': -9.75, 'eval_runtime': 151.321, 'eval_samples_per_second': 18.748, 'eval_steps_per_second': 0.297, 'epoch': 2.4} |
|
{'train_accuracy': 0.78125, 'epoch': 2.4} |
|
{'loss': 1.0269, 'grad_norm': 6.553269386291504, 'learning_rate': 7.26457598891944e-06, 'epoch': 2.4} |
|
{'train_accuracy': 0.703125, 'epoch': 2.4} |
|
{'loss': 1.3179, 'grad_norm': 11.197577476501465, 'learning_rate': 7.2440817280033555e-06, 'epoch': 2.41} |
|
{'train_accuracy': 0.78125, 'epoch': 2.41} |
|
{'loss': 1.3213, 'grad_norm': 12.725153923034668, 'learning_rate': 7.223599986124994e-06, 'epoch': 2.41} |
|
{'train_accuracy': 0.875, 'epoch': 2.41} |
|
{'loss': 0.9346, 'grad_norm': 3.8353846073150635, 'learning_rate': 7.20313085632475e-06, 'epoch': 2.41} |
|
{'train_accuracy': 0.859375, 'epoch': 2.41} |
|
{'loss': 1.0293, 'grad_norm': 4.217707633972168, 'learning_rate': 7.182674431585703e-06, 'epoch': 2.41} |
|
{'train_accuracy': 0.828125, 'epoch': 2.41} |
|
{'loss': 1.249, 'grad_norm': 3.886138916015625, 'learning_rate': 7.162230804833249e-06, 'epoch': 2.42} |
|
{'train_accuracy': 0.734375, 'epoch': 2.42} |
|
{'loss': 1.1792, 'grad_norm': 4.176194190979004, 'learning_rate': 7.14180006893462e-06, 'epoch': 2.42} |
|
{'train_accuracy': 0.796875, 'epoch': 2.42} |
|
{'loss': 1.1738, 'grad_norm': 4.922031402587891, 'learning_rate': 7.121382316698511e-06, 'epoch': 2.42} |
|
{'train_accuracy': 0.828125, 'epoch': 2.42} |
|
{'loss': 1.0972, 'grad_norm': 10.639328002929688, 'learning_rate': 7.1009776408746205e-06, 'epoch': 2.42} |
|
{'train_accuracy': 0.875, 'epoch': 2.42} |
|
{'loss': 1.1309, 'grad_norm': 4.55307149887085, 'learning_rate': 7.08058613415326e-06, 'epoch': 2.43} |
|
{'train_accuracy': 0.78125, 'epoch': 2.43} |
|
{'loss': 1.1821, 'grad_norm': 3.423119306564331, 'learning_rate': 7.060207889164909e-06, 'epoch': 2.43} |
|
{'train_accuracy': 0.75, 'epoch': 2.43} |
|
{'loss': 1.1514, 'grad_norm': 3.477151870727539, 'learning_rate': 7.03984299847981e-06, 'epoch': 2.43} |
|
{'train_accuracy': 0.875, 'epoch': 2.43} |
|
{'loss': 0.8901, 'grad_norm': 3.4678921699523926, 'learning_rate': 7.01949155460754e-06, 'epoch': 2.43} |
|
{'train_accuracy': 0.796875, 'epoch': 2.43} |
|
{'loss': 1.0435, 'grad_norm': 3.4634525775909424, 'learning_rate': 6.999153649996595e-06, 'epoch': 2.44} |
|
{'train_accuracy': 0.8125, 'epoch': 2.44} |
|
{'loss': 1.0676, 'grad_norm': 8.086597442626953, 'learning_rate': 6.978829377033962e-06, 'epoch': 2.44} |
|
{'train_accuracy': 0.765625, 'epoch': 2.44} |
|
{'loss': 1.2402, 'grad_norm': 6.657654762268066, 'learning_rate': 6.9585188280447094e-06, 'epoch': 2.44} |
|
{'train_accuracy': 0.734375, 'epoch': 2.44} |
|
{'loss': 1.1038, 'grad_norm': 7.919809818267822, 'learning_rate': 6.938222095291565e-06, 'epoch': 2.44} |
|
{'train_accuracy': 0.8125, 'epoch': 2.44} |
|
{'loss': 1.0713, 'grad_norm': 5.626051425933838, 'learning_rate': 6.917939270974485e-06, 'epoch': 2.45} |
|
{'train_accuracy': 0.765625, 'epoch': 2.45} |
|
{'loss': 1.041, 'grad_norm': 3.9721519947052, 'learning_rate': 6.897670447230263e-06, 'epoch': 2.45} |
|
{'train_accuracy': 0.78125, 'epoch': 2.45} |
|
{'loss': 1.2671, 'grad_norm': 5.174097061157227, 'learning_rate': 6.87741571613207e-06, 'epoch': 2.45} |
|
{'train_accuracy': 0.859375, 'epoch': 2.45} |
|
{'loss': 1.0227, 'grad_norm': 8.099953651428223, 'learning_rate': 6.8571751696890835e-06, 'epoch': 2.46} |
|
{'train_accuracy': 0.84375, 'epoch': 2.46} |
|
{'loss': 1.146, 'grad_norm': 11.488319396972656, 'learning_rate': 6.836948899846024e-06, 'epoch': 2.46} |
|
{'train_accuracy': 0.78125, 'epoch': 2.46} |
|
{'loss': 1.0474, 'grad_norm': 8.036605834960938, 'learning_rate': 6.816736998482778e-06, 'epoch': 2.46} |
|
{'train_accuracy': 0.859375, 'epoch': 2.46} |
|
{'loss': 1.1514, 'grad_norm': 5.297451019287109, 'learning_rate': 6.796539557413951e-06, 'epoch': 2.46} |
|
{'train_accuracy': 0.8125, 'epoch': 2.46} |
|
{'loss': 1.0708, 'grad_norm': 5.096290111541748, 'learning_rate': 6.776356668388464e-06, 'epoch': 2.47} |
|
{'train_accuracy': 0.734375, 'epoch': 2.47} |
|
{'loss': 1.1162, 'grad_norm': 4.746647834777832, 'learning_rate': 6.756188423089131e-06, 'epoch': 2.47} |
|
{'train_accuracy': 0.828125, 'epoch': 2.47} |
|
{'loss': 0.9243, 'grad_norm': 4.6044158935546875, 'learning_rate': 6.736034913132253e-06, 'epoch': 2.47} |
|
{'train_accuracy': 0.875, 'epoch': 2.47} |
|
{'loss': 0.9922, 'grad_norm': 5.2404866218566895, 'learning_rate': 6.715896230067183e-06, 'epoch': 2.47} |
|
{'train_accuracy': 0.859375, 'epoch': 2.47} |
|
{'loss': 1.0859, 'grad_norm': 4.998322010040283, 'learning_rate': 6.695772465375929e-06, 'epoch': 2.48} |
|
{'train_accuracy': 0.84375, 'epoch': 2.48} |
|
{'loss': 0.8792, 'grad_norm': 6.812887668609619, 'learning_rate': 6.675663710472733e-06, 'epoch': 2.48} |
|
{'train_accuracy': 0.78125, 'epoch': 2.48} |
|
{'loss': 1.3091, 'grad_norm': 10.387646675109863, 'learning_rate': 6.655570056703646e-06, 'epoch': 2.48} |
|
{'train_accuracy': 0.75, 'epoch': 2.48} |
|
{'loss': 1.2109, 'grad_norm': 5.717840194702148, 'learning_rate': 6.635491595346122e-06, 'epoch': 2.48} |
|
{'train_accuracy': 0.75, 'epoch': 2.48} |
|
{'loss': 1.2695, 'grad_norm': 8.672900199890137, 'learning_rate': 6.615428417608611e-06, 'epoch': 2.49} |
|
{'train_accuracy': 0.796875, 'epoch': 2.49} |
|
{'loss': 1.0244, 'grad_norm': 4.839511871337891, 'learning_rate': 6.5953806146301245e-06, 'epoch': 2.49} |
|
{'train_accuracy': 0.75, 'epoch': 2.49} |
|
{'loss': 1.0557, 'grad_norm': 4.422204971313477, 'learning_rate': 6.575348277479838e-06, 'epoch': 2.49} |
|
{'train_accuracy': 0.828125, 'epoch': 2.49} |
|
{'loss': 1.1226, 'grad_norm': 11.49475383758545, 'learning_rate': 6.555331497156671e-06, 'epoch': 2.49} |
|
{'train_accuracy': 0.875, 'epoch': 2.49} |
|
{'loss': 1.0649, 'grad_norm': 6.345265865325928, 'learning_rate': 6.535330364588875e-06, 'epoch': 2.5} |
|
{'train_accuracy': 0.734375, 'epoch': 2.5} |
|
{'loss': 1.3809, 'grad_norm': 7.858110427856445, 'learning_rate': 6.515344970633617e-06, 'epoch': 2.5} |
|
{'train_accuracy': 0.84375, 'epoch': 2.5} |
|
{'loss': 0.9399, 'grad_norm': 9.39013957977295, 'learning_rate': 6.495375406076574e-06, 'epoch': 2.5} |
|
{'train_accuracy': 0.71875, 'epoch': 2.5} |
|
{'loss': 1.1304, 'grad_norm': 4.707727432250977, 'learning_rate': 6.4754217616315125e-06, 'epoch': 2.51} |
|
{'train_accuracy': 0.8125, 'epoch': 2.51} |
|
{'loss': 0.9111, 'grad_norm': 3.284626007080078, 'learning_rate': 6.455484127939885e-06, 'epoch': 2.51} |
|
{'train_accuracy': 0.859375, 'epoch': 2.51} |
|
{'loss': 1.1851, 'grad_norm': 11.840646743774414, 'learning_rate': 6.4355625955704096e-06, 'epoch': 2.51} |
|
{'train_accuracy': 0.765625, 'epoch': 2.51} |
|
{'loss': 1.3726, 'grad_norm': 6.086373329162598, 'learning_rate': 6.415657255018662e-06, 'epoch': 2.51} |
|
{'train_accuracy': 0.703125, 'epoch': 2.51} |
|
{'loss': 1.5376, 'grad_norm': 10.698202133178711, 'learning_rate': 6.3957681967066695e-06, 'epoch': 2.52} |
|
{'train_accuracy': 0.8125, 'epoch': 2.52} |
|
{'loss': 0.9751, 'grad_norm': 3.7446768283843994, 'learning_rate': 6.375895510982491e-06, 'epoch': 2.52} |
|
{'train_accuracy': 0.921875, 'epoch': 2.52} |
|
{'loss': 0.9243, 'grad_norm': 4.004354953765869, 'learning_rate': 6.356039288119815e-06, 'epoch': 2.52} |
|
{'train_accuracy': 0.765625, 'epoch': 2.52} |
|
{'loss': 1.0728, 'grad_norm': 4.783187389373779, 'learning_rate': 6.336199618317538e-06, 'epoch': 2.52} |
|
{'train_accuracy': 0.84375, 'epoch': 2.52} |
|
{'loss': 0.9634, 'grad_norm': 4.596762180328369, 'learning_rate': 6.316376591699378e-06, 'epoch': 2.53} |
|
{'train_accuracy': 0.828125, 'epoch': 2.53} |
|
{'loss': 1.0088, 'grad_norm': 5.435537815093994, 'learning_rate': 6.2965702983134314e-06, 'epoch': 2.53} |
|
{'train_accuracy': 0.8125, 'epoch': 2.53} |
|
{'loss': 1.0698, 'grad_norm': 6.328050136566162, 'learning_rate': 6.276780828131798e-06, 'epoch': 2.53} |
|
{'train_accuracy': 0.8125, 'epoch': 2.53} |
|
{'loss': 0.9053, 'grad_norm': 5.2449798583984375, 'learning_rate': 6.257008271050141e-06, 'epoch': 2.53} |
|
{'train_accuracy': 0.703125, 'epoch': 2.53} |
|
{'loss': 1.2451, 'grad_norm': 4.180750370025635, 'learning_rate': 6.237252716887307e-06, 'epoch': 2.54} |
|
{'train_accuracy': 0.78125, 'epoch': 2.54} |
|
{'loss': 1.1162, 'grad_norm': 7.252860069274902, 'learning_rate': 6.217514255384907e-06, 'epoch': 2.54} |
|
{'train_accuracy': 0.765625, 'epoch': 2.54} |
|
{'loss': 1.0415, 'grad_norm': 7.941829681396484, 'learning_rate': 6.197792976206887e-06, 'epoch': 2.54} |
|
{'train_accuracy': 0.71875, 'epoch': 2.54} |
|
{'loss': 1.0444, 'grad_norm': 5.3874359130859375, 'learning_rate': 6.178088968939166e-06, 'epoch': 2.54} |
|
{'train_accuracy': 0.8125, 'epoch': 2.54} |
|
{'loss': 1.0552, 'grad_norm': 3.811061382293701, 'learning_rate': 6.158402323089184e-06, 'epoch': 2.55} |
|
{'train_accuracy': 0.828125, 'epoch': 2.55} |
|
{'loss': 0.958, 'grad_norm': 4.76802921295166, 'learning_rate': 6.138733128085529e-06, 'epoch': 2.55} |
|
{'train_accuracy': 0.90625, 'epoch': 2.55} |
|
{'loss': 0.9478, 'grad_norm': 5.948366165161133, 'learning_rate': 6.119081473277502e-06, 'epoch': 2.55} |
|
{'train_accuracy': 0.875, 'epoch': 2.55} |
|
{'loss': 1.0188, 'grad_norm': 8.939352989196777, 'learning_rate': 6.0994474479347435e-06, 'epoch': 2.56} |
|
{'train_accuracy': 0.796875, 'epoch': 2.56} |
|
{'loss': 1.0972, 'grad_norm': 4.726570129394531, 'learning_rate': 6.079831141246792e-06, 'epoch': 2.56} |
|
{'train_accuracy': 0.703125, 'epoch': 2.56} |
|
{'loss': 1.1201, 'grad_norm': 6.62232780456543, 'learning_rate': 6.060232642322717e-06, 'epoch': 2.56} |
|
{'train_accuracy': 0.90625, 'epoch': 2.56} |
|
{'loss': 1.063, 'grad_norm': 6.835370063781738, 'learning_rate': 6.040652040190672e-06, 'epoch': 2.56} |
|
{'train_accuracy': 0.75, 'epoch': 2.56} |
|
{'loss': 1.2314, 'grad_norm': 9.736258506774902, 'learning_rate': 6.021089423797535e-06, 'epoch': 2.57} |
|
{'train_accuracy': 0.8125, 'epoch': 2.57} |
|
{'loss': 1.0264, 'grad_norm': 4.367083549499512, 'learning_rate': 6.001544882008461e-06, 'epoch': 2.57} |
|
{'train_accuracy': 0.828125, 'epoch': 2.57} |
|
{'loss': 1.5303, 'grad_norm': 6.833847522735596, 'learning_rate': 5.982018503606519e-06, 'epoch': 2.57} |
|
{'train_accuracy': 0.84375, 'epoch': 2.57} |
|
{'loss': 1.0857, 'grad_norm': 4.34575080871582, 'learning_rate': 5.962510377292252e-06, 'epoch': 2.57} |
|
{'train_accuracy': 0.734375, 'epoch': 2.57} |
|
{'loss': 1.2573, 'grad_norm': 4.48021125793457, 'learning_rate': 5.943020591683306e-06, 'epoch': 2.58} |
|
{'train_accuracy': 0.78125, 'epoch': 2.58} |
|
{'loss': 1.3081, 'grad_norm': 7.216438293457031, 'learning_rate': 5.923549235313997e-06, 'epoch': 2.58} |
|
{'train_accuracy': 0.875, 'epoch': 2.58} |
|
{'loss': 0.9727, 'grad_norm': 5.685892105102539, 'learning_rate': 5.904096396634935e-06, 'epoch': 2.58} |
|
{'train_accuracy': 0.8125, 'epoch': 2.58} |
|
{'loss': 1.0112, 'grad_norm': 3.4921514987945557, 'learning_rate': 5.884662164012616e-06, 'epoch': 2.58} |
|
{'train_accuracy': 0.828125, 'epoch': 2.58} |
|
{'loss': 0.9966, 'grad_norm': 3.5595004558563232, 'learning_rate': 5.8652466257289974e-06, 'epoch': 2.59} |
|
{'train_accuracy': 0.734375, 'epoch': 2.59} |
|
{'loss': 1.2466, 'grad_norm': 10.218847274780273, 'learning_rate': 5.845849869981137e-06, 'epoch': 2.59} |
|
{'train_accuracy': 0.765625, 'epoch': 2.59} |
|
{'loss': 0.9751, 'grad_norm': 6.644645690917969, 'learning_rate': 5.826471984880754e-06, 'epoch': 2.59} |
|
{'train_accuracy': 0.78125, 'epoch': 2.59} |
|
{'loss': 1.2002, 'grad_norm': 7.35904598236084, 'learning_rate': 5.807113058453862e-06, 'epoch': 2.59} |
|
{'train_accuracy': 0.703125, 'epoch': 2.59} |
|
{'loss': 1.1816, 'grad_norm': 5.091441631317139, 'learning_rate': 5.7877731786403304e-06, 'epoch': 2.6} |
|
{'train_accuracy': 0.734375, 'epoch': 2.6} |
|
{'loss': 1.1782, 'grad_norm': 10.243165969848633, 'learning_rate': 5.768452433293532e-06, 'epoch': 2.6} |
|
{'eval_accuracy': 0.7113147974014282, 'eval_max_score': 5.84375, 'eval_min_score': -10.25, 'eval_runtime': 151.3594, 'eval_samples_per_second': 18.743, 'eval_steps_per_second': 0.297, 'epoch': 2.6} |
|
{'train_accuracy': 0.765625, 'epoch': 2.6} |
|
{'loss': 1.0269, 'grad_norm': 3.4999477863311768, 'learning_rate': 5.7491509101799055e-06, 'epoch': 2.6} |
|
{'train_accuracy': 0.765625, 'epoch': 2.6} |
|
{'loss': 1.1133, 'grad_norm': 3.9146370887756348, 'learning_rate': 5.729868696978574e-06, 'epoch': 2.61} |
|
{'train_accuracy': 0.8125, 'epoch': 2.61} |
|
{'loss': 1.1978, 'grad_norm': 7.038024425506592, 'learning_rate': 5.710605881280939e-06, 'epoch': 2.61} |
|
{'train_accuracy': 0.71875, 'epoch': 2.61} |
|
{'loss': 1.0557, 'grad_norm': 4.451397895812988, 'learning_rate': 5.6913625505902966e-06, 'epoch': 2.61} |
|
{'train_accuracy': 0.796875, 'epoch': 2.61} |
|
{'loss': 1.23, 'grad_norm': 4.300213813781738, 'learning_rate': 5.6721387923214215e-06, 'epoch': 2.61} |
|
{'train_accuracy': 0.71875, 'epoch': 2.61} |
|
{'loss': 1.144, 'grad_norm': 3.7951157093048096, 'learning_rate': 5.65293469380018e-06, 'epoch': 2.62} |
|
{'train_accuracy': 0.71875, 'epoch': 2.62} |
|
{'loss': 1.3882, 'grad_norm': 4.785224437713623, 'learning_rate': 5.633750342263136e-06, 'epoch': 2.62} |
|
{'train_accuracy': 0.796875, 'epoch': 2.62} |
|
{'loss': 1.2593, 'grad_norm': 15.803621292114258, 'learning_rate': 5.614585824857148e-06, 'epoch': 2.62} |
|
{'train_accuracy': 0.8125, 'epoch': 2.62} |
|
{'loss': 0.9116, 'grad_norm': 4.082406997680664, 'learning_rate': 5.595441228638976e-06, 'epoch': 2.62} |
|
{'train_accuracy': 0.84375, 'epoch': 2.62} |
|
{'loss': 1.2944, 'grad_norm': 9.289669036865234, 'learning_rate': 5.576316640574886e-06, 'epoch': 2.63} |
|
{'train_accuracy': 0.796875, 'epoch': 2.63} |
|
{'loss': 1.1318, 'grad_norm': 6.445914268493652, 'learning_rate': 5.557212147540254e-06, 'epoch': 2.63} |
|
{'train_accuracy': 0.796875, 'epoch': 2.63} |
|
{'loss': 1.1318, 'grad_norm': 11.213533401489258, 'learning_rate': 5.538127836319176e-06, 'epoch': 2.63} |
|
{'train_accuracy': 0.8125, 'epoch': 2.63} |
|
{'loss': 1.2778, 'grad_norm': 15.603263854980469, 'learning_rate': 5.519063793604067e-06, 'epoch': 2.63} |
|
{'train_accuracy': 0.84375, 'epoch': 2.63} |
|
{'loss': 1.126, 'grad_norm': 10.475622177124023, 'learning_rate': 5.50002010599527e-06, 'epoch': 2.64} |
|
{'train_accuracy': 0.8125, 'epoch': 2.64} |
|
{'loss': 1.2539, 'grad_norm': 5.916659832000732, 'learning_rate': 5.480996860000664e-06, 'epoch': 2.64} |
|
{'train_accuracy': 0.859375, 'epoch': 2.64} |
|
{'loss': 1.0186, 'grad_norm': 6.055222511291504, 'learning_rate': 5.461994142035269e-06, 'epoch': 2.64} |
|
{'train_accuracy': 0.828125, 'epoch': 2.64} |
|
{'loss': 1.2661, 'grad_norm': 17.587617874145508, 'learning_rate': 5.443012038420856e-06, 'epoch': 2.64} |
|
{'train_accuracy': 0.859375, 'epoch': 2.64} |
|
{'loss': 1.0176, 'grad_norm': 4.647197246551514, 'learning_rate': 5.424050635385552e-06, 'epoch': 2.65} |
|
{'train_accuracy': 0.78125, 'epoch': 2.65} |
|
{'loss': 0.9331, 'grad_norm': 3.68725323677063, 'learning_rate': 5.405110019063449e-06, 'epoch': 2.65} |
|
{'train_accuracy': 0.828125, 'epoch': 2.65} |
|
{'loss': 0.8833, 'grad_norm': 5.881679534912109, 'learning_rate': 5.3861902754942104e-06, 'epoch': 2.65} |
|
{'train_accuracy': 0.78125, 'epoch': 2.65} |
|
{'loss': 1.2524, 'grad_norm': 10.934441566467285, 'learning_rate': 5.367291490622699e-06, 'epoch': 2.66} |
|
{'train_accuracy': 0.796875, 'epoch': 2.66} |
|
{'loss': 1.1841, 'grad_norm': 4.606790542602539, 'learning_rate': 5.348413750298542e-06, 'epoch': 2.66} |
|
{'train_accuracy': 0.765625, 'epoch': 2.66} |
|
{'loss': 1.4224, 'grad_norm': 9.060807228088379, 'learning_rate': 5.329557140275802e-06, 'epoch': 2.66} |
|
{'train_accuracy': 0.75, 'epoch': 2.66} |
|
{'loss': 1.0898, 'grad_norm': 3.719575881958008, 'learning_rate': 5.310721746212522e-06, 'epoch': 2.66} |
|
{'train_accuracy': 0.828125, 'epoch': 2.66} |
|
{'loss': 1.2852, 'grad_norm': 4.574690341949463, 'learning_rate': 5.291907653670402e-06, 'epoch': 2.67} |
|
{'train_accuracy': 0.765625, 'epoch': 2.67} |
|
{'loss': 1.0542, 'grad_norm': 5.748828411102295, 'learning_rate': 5.273114948114346e-06, 'epoch': 2.67} |
|
{'train_accuracy': 0.84375, 'epoch': 2.67} |
|
{'loss': 1.1528, 'grad_norm': 3.7456870079040527, 'learning_rate': 5.254343714912139e-06, 'epoch': 2.67} |
|
{'train_accuracy': 0.671875, 'epoch': 2.67} |
|
{'loss': 1.3657, 'grad_norm': 4.605350494384766, 'learning_rate': 5.2355940393339914e-06, 'epoch': 2.67} |
|
{'train_accuracy': 0.84375, 'epoch': 2.67} |
|
{'loss': 1.1028, 'grad_norm': 9.041370391845703, 'learning_rate': 5.216866006552213e-06, 'epoch': 2.68} |
|
{'train_accuracy': 0.71875, 'epoch': 2.68} |
|
{'loss': 1.1343, 'grad_norm': 4.867583274841309, 'learning_rate': 5.198159701640784e-06, 'epoch': 2.68} |
|
{'train_accuracy': 0.78125, 'epoch': 2.68} |
|
{'loss': 1.0972, 'grad_norm': 8.326457977294922, 'learning_rate': 5.179475209574991e-06, 'epoch': 2.68} |
|
{'train_accuracy': 0.75, 'epoch': 2.68} |
|
{'loss': 1.0972, 'grad_norm': 3.207512140274048, 'learning_rate': 5.1608126152310286e-06, 'epoch': 2.68} |
|
{'train_accuracy': 0.828125, 'epoch': 2.68} |
|
{'loss': 1.1665, 'grad_norm': 9.606292724609375, 'learning_rate': 5.142172003385622e-06, 'epoch': 2.69} |
|
{'train_accuracy': 0.71875, 'epoch': 2.69} |
|
{'loss': 1.2441, 'grad_norm': 8.760821342468262, 'learning_rate': 5.123553458715635e-06, 'epoch': 2.69} |
|
{'train_accuracy': 0.765625, 'epoch': 2.69} |
|
{'loss': 1.0542, 'grad_norm': 4.255366802215576, 'learning_rate': 5.104957065797696e-06, 'epoch': 2.69} |
|
{'train_accuracy': 0.75, 'epoch': 2.69} |
|
{'loss': 0.8862, 'grad_norm': 3.35002064704895, 'learning_rate': 5.086382909107797e-06, 'epoch': 2.69} |
|
{'train_accuracy': 0.859375, 'epoch': 2.69} |
|
{'loss': 1.1333, 'grad_norm': 7.932205677032471, 'learning_rate': 5.067831073020928e-06, 'epoch': 2.7} |
|
{'train_accuracy': 0.796875, 'epoch': 2.7} |
|
{'loss': 1.0669, 'grad_norm': 8.935729026794434, 'learning_rate': 5.049301641810682e-06, 'epoch': 2.7} |
|
{'train_accuracy': 0.84375, 'epoch': 2.7} |
|
{'loss': 1.1006, 'grad_norm': 4.217672348022461, 'learning_rate': 5.030794699648875e-06, 'epoch': 2.7} |
|
{'train_accuracy': 0.765625, 'epoch': 2.7} |
|
{'loss': 1.3882, 'grad_norm': 17.088626861572266, 'learning_rate': 5.012310330605167e-06, 'epoch': 2.71} |
|
{'train_accuracy': 0.8125, 'epoch': 2.71} |
|
{'loss': 1.0659, 'grad_norm': 6.726995944976807, 'learning_rate': 4.9938486186466736e-06, 'epoch': 2.71} |
|
{'train_accuracy': 0.859375, 'epoch': 2.71} |
|
{'loss': 0.9692, 'grad_norm': 3.387362241744995, 'learning_rate': 4.975409647637591e-06, 'epoch': 2.71} |
|
{'train_accuracy': 0.84375, 'epoch': 2.71} |
|
{'loss': 1.2466, 'grad_norm': 5.338740825653076, 'learning_rate': 4.9569935013388125e-06, 'epoch': 2.71} |
|
{'train_accuracy': 0.796875, 'epoch': 2.71} |
|
{'loss': 1.0942, 'grad_norm': 10.06348705291748, 'learning_rate': 4.938600263407546e-06, 'epoch': 2.72} |
|
{'train_accuracy': 0.78125, 'epoch': 2.72} |
|
{'loss': 1.2822, 'grad_norm': 12.942997932434082, 'learning_rate': 4.9202300173969364e-06, 'epoch': 2.72} |
|
{'train_accuracy': 0.796875, 'epoch': 2.72} |
|
{'loss': 1.0498, 'grad_norm': 7.932915687561035, 'learning_rate': 4.901882846755687e-06, 'epoch': 2.72} |
|
{'train_accuracy': 0.6875, 'epoch': 2.72} |
|
{'loss': 1.2739, 'grad_norm': 7.6717352867126465, 'learning_rate': 4.883558834827675e-06, 'epoch': 2.72} |
|
{'train_accuracy': 0.765625, 'epoch': 2.72} |
|
{'loss': 1.208, 'grad_norm': 6.054356575012207, 'learning_rate': 4.865258064851579e-06, 'epoch': 2.73} |
|
{'train_accuracy': 0.796875, 'epoch': 2.73} |
|
{'loss': 1.1011, 'grad_norm': 4.3364362716674805, 'learning_rate': 4.846980619960509e-06, 'epoch': 2.73} |
|
{'train_accuracy': 0.765625, 'epoch': 2.73} |
|
{'loss': 1.0205, 'grad_norm': 3.8560869693756104, 'learning_rate': 4.8287265831815924e-06, 'epoch': 2.73} |
|
{'train_accuracy': 0.796875, 'epoch': 2.73} |
|
{'loss': 1.1133, 'grad_norm': 5.655264377593994, 'learning_rate': 4.810496037435654e-06, 'epoch': 2.73} |
|
{'train_accuracy': 0.890625, 'epoch': 2.73} |
|
{'loss': 0.8828, 'grad_norm': 4.983482360839844, 'learning_rate': 4.792289065536783e-06, 'epoch': 2.74} |
|
{'train_accuracy': 0.796875, 'epoch': 2.74} |
|
{'loss': 1.0684, 'grad_norm': 3.325807809829712, 'learning_rate': 4.774105750192001e-06, 'epoch': 2.74} |
|
{'train_accuracy': 0.75, 'epoch': 2.74} |
|
{'loss': 1.2109, 'grad_norm': 4.7382893562316895, 'learning_rate': 4.7559461740008475e-06, 'epoch': 2.74} |
|
{'train_accuracy': 0.75, 'epoch': 2.74} |
|
{'loss': 1.2959, 'grad_norm': 5.645082950592041, 'learning_rate': 4.7378104194550485e-06, 'epoch': 2.74} |
|
{'train_accuracy': 0.71875, 'epoch': 2.74} |
|
{'loss': 1.25, 'grad_norm': 4.51600456237793, 'learning_rate': 4.719698568938092e-06, 'epoch': 2.75} |
|
{'train_accuracy': 0.78125, 'epoch': 2.75} |
|
{'loss': 1.1694, 'grad_norm': 5.984616756439209, 'learning_rate': 4.701610704724906e-06, 'epoch': 2.75} |
|
{'train_accuracy': 0.9375, 'epoch': 2.75} |
|
{'loss': 0.8899, 'grad_norm': 5.485406398773193, 'learning_rate': 4.6835469089814304e-06, 'epoch': 2.75} |
|
{'train_accuracy': 0.796875, 'epoch': 2.75} |
|
{'loss': 1.2178, 'grad_norm': 4.4941534996032715, 'learning_rate': 4.665507263764299e-06, 'epoch': 2.76} |
|
{'train_accuracy': 0.859375, 'epoch': 2.76} |
|
{'loss': 1.0352, 'grad_norm': 6.920727252960205, 'learning_rate': 4.6474918510204145e-06, 'epoch': 2.76} |
|
{'train_accuracy': 0.796875, 'epoch': 2.76} |
|
{'loss': 1.0195, 'grad_norm': 5.5470356941223145, 'learning_rate': 4.629500752586625e-06, 'epoch': 2.76} |
|
{'train_accuracy': 0.75, 'epoch': 2.76} |
|
{'loss': 1.0259, 'grad_norm': 5.659350872039795, 'learning_rate': 4.611534050189304e-06, 'epoch': 2.76} |
|
{'train_accuracy': 0.828125, 'epoch': 2.76} |
|
{'loss': 1.1479, 'grad_norm': 8.783293724060059, 'learning_rate': 4.593591825444028e-06, 'epoch': 2.77} |
|
{'train_accuracy': 0.75, 'epoch': 2.77} |
|
{'loss': 1.0312, 'grad_norm': 3.798257827758789, 'learning_rate': 4.575674159855156e-06, 'epoch': 2.77} |
|
{'train_accuracy': 0.8125, 'epoch': 2.77} |
|
{'loss': 0.9458, 'grad_norm': 5.9507155418396, 'learning_rate': 4.557781134815509e-06, 'epoch': 2.77} |
|
{'train_accuracy': 0.796875, 'epoch': 2.77} |
|
{'loss': 1.3091, 'grad_norm': 8.45976448059082, 'learning_rate': 4.539912831605959e-06, 'epoch': 2.77} |
|
{'train_accuracy': 0.765625, 'epoch': 2.77} |
|
{'loss': 1.127, 'grad_norm': 9.173246383666992, 'learning_rate': 4.522069331395085e-06, 'epoch': 2.78} |
|
{'train_accuracy': 0.78125, 'epoch': 2.78} |
|
{'loss': 1.0767, 'grad_norm': 5.204906940460205, 'learning_rate': 4.504250715238791e-06, 'epoch': 2.78} |
|
{'train_accuracy': 0.75, 'epoch': 2.78} |
|
{'loss': 1.1562, 'grad_norm': 5.059564113616943, 'learning_rate': 4.486457064079943e-06, 'epoch': 2.78} |
|
{'train_accuracy': 0.734375, 'epoch': 2.78} |
|
{'loss': 1.0962, 'grad_norm': 3.4430267810821533, 'learning_rate': 4.468688458748006e-06, 'epoch': 2.78} |
|
{'train_accuracy': 0.75, 'epoch': 2.78} |
|
{'loss': 1.3589, 'grad_norm': 10.936015129089355, 'learning_rate': 4.450944979958668e-06, 'epoch': 2.79} |
|
{'train_accuracy': 0.8125, 'epoch': 2.79} |
|
{'loss': 1.1372, 'grad_norm': 3.82942533493042, 'learning_rate': 4.433226708313475e-06, 'epoch': 2.79} |
|
{'train_accuracy': 0.8125, 'epoch': 2.79} |
|
{'loss': 0.9639, 'grad_norm': 2.9924509525299072, 'learning_rate': 4.415533724299471e-06, 'epoch': 2.79} |
|
{'train_accuracy': 0.8125, 'epoch': 2.79} |
|
{'loss': 1.1021, 'grad_norm': 8.909473419189453, 'learning_rate': 4.397866108288828e-06, 'epoch': 2.79} |
|
{'train_accuracy': 0.890625, 'epoch': 2.79} |
|
{'loss': 1.1138, 'grad_norm': 9.16897201538086, 'learning_rate': 4.380223940538478e-06, 'epoch': 2.8} |
|
{'train_accuracy': 0.8125, 'epoch': 2.8} |
|
{'loss': 1.0015, 'grad_norm': 4.704495906829834, 'learning_rate': 4.362607301189756e-06, 'epoch': 2.8} |
|
{'eval_accuracy': 0.7099048495292664, 'eval_max_score': 7.96875, 'eval_min_score': -8.875, 'eval_runtime': 151.1898, 'eval_samples_per_second': 18.764, 'eval_steps_per_second': 0.298, 'epoch': 2.8} |
|
{'train_accuracy': 0.703125, 'epoch': 2.8} |
|
{'loss': 1.1904, 'grad_norm': 5.374510765075684, 'learning_rate': 4.345016270268029e-06, 'epoch': 2.8} |
|
{'train_accuracy': 0.78125, 'epoch': 2.8} |
|
{'loss': 1.1279, 'grad_norm': 6.463529586791992, 'learning_rate': 4.327450927682334e-06, 'epoch': 2.81} |
|
{'train_accuracy': 0.875, 'epoch': 2.81} |
|
{'loss': 0.9233, 'grad_norm': 4.455600738525391, 'learning_rate': 4.309911353225019e-06, 'epoch': 2.81} |
|
{'train_accuracy': 0.84375, 'epoch': 2.81} |
|
{'loss': 0.8882, 'grad_norm': 7.1986589431762695, 'learning_rate': 4.2923976265713765e-06, 'epoch': 2.81} |
|
{'train_accuracy': 0.75, 'epoch': 2.81} |
|
{'loss': 1.2251, 'grad_norm': 4.7391462326049805, 'learning_rate': 4.274909827279283e-06, 'epoch': 2.81} |
|
{'train_accuracy': 0.796875, 'epoch': 2.81} |
|
{'loss': 1.0859, 'grad_norm': 4.475101470947266, 'learning_rate': 4.257448034788837e-06, 'epoch': 2.82} |
|
{'train_accuracy': 0.8125, 'epoch': 2.82} |
|
{'loss': 0.9385, 'grad_norm': 5.544163703918457, 'learning_rate': 4.240012328421998e-06, 'epoch': 2.82} |
|
{'train_accuracy': 0.875, 'epoch': 2.82} |
|
{'loss': 0.8945, 'grad_norm': 3.5065155029296875, 'learning_rate': 4.222602787382223e-06, 'epoch': 2.82} |
|
{'train_accuracy': 0.75, 'epoch': 2.82} |
|
{'loss': 1.311, 'grad_norm': 5.043632507324219, 'learning_rate': 4.2052194907541255e-06, 'epoch': 2.82} |
|
{'train_accuracy': 0.796875, 'epoch': 2.82} |
|
{'loss': 0.9697, 'grad_norm': 3.5553743839263916, 'learning_rate': 4.187862517503077e-06, 'epoch': 2.83} |
|
{'train_accuracy': 0.828125, 'epoch': 2.83} |
|
{'loss': 1.0498, 'grad_norm': 3.987929344177246, 'learning_rate': 4.1705319464749e-06, 'epoch': 2.83} |
|
{'train_accuracy': 0.78125, 'epoch': 2.83} |
|
{'loss': 1.2754, 'grad_norm': 5.27581262588501, 'learning_rate': 4.153227856395452e-06, 'epoch': 2.83} |
|
{'train_accuracy': 0.75, 'epoch': 2.83} |
|
{'loss': 0.9639, 'grad_norm': 4.249098300933838, 'learning_rate': 4.135950325870328e-06, 'epoch': 2.83} |
|
{'train_accuracy': 0.78125, 'epoch': 2.83} |
|
{'loss': 0.7979, 'grad_norm': 3.359182357788086, 'learning_rate': 4.118699433384446e-06, 'epoch': 2.84} |
|
{'train_accuracy': 0.875, 'epoch': 2.84} |
|
{'loss': 1.0815, 'grad_norm': 5.7397589683532715, 'learning_rate': 4.101475257301746e-06, 'epoch': 2.84} |
|
{'train_accuracy': 0.734375, 'epoch': 2.84} |
|
{'loss': 1.0981, 'grad_norm': 3.884835720062256, 'learning_rate': 4.084277875864776e-06, 'epoch': 2.84} |
|
{'train_accuracy': 0.796875, 'epoch': 2.84} |
|
{'loss': 1.2388, 'grad_norm': 5.433359622955322, 'learning_rate': 4.067107367194397e-06, 'epoch': 2.84} |
|
{'train_accuracy': 0.765625, 'epoch': 2.84} |
|
{'loss': 1.3252, 'grad_norm': 6.485168933868408, 'learning_rate': 4.049963809289368e-06, 'epoch': 2.85} |
|
{'train_accuracy': 0.8125, 'epoch': 2.85} |
|
{'loss': 1.1392, 'grad_norm': 3.8819828033447266, 'learning_rate': 4.032847280026051e-06, 'epoch': 2.85} |
|
{'train_accuracy': 0.71875, 'epoch': 2.85} |
|
{'loss': 1.2705, 'grad_norm': 4.981328964233398, 'learning_rate': 4.015757857157999e-06, 'epoch': 2.85} |
|
{'train_accuracy': 0.703125, 'epoch': 2.85} |
|
{'loss': 1.02, 'grad_norm': 7.025356769561768, 'learning_rate': 3.998695618315655e-06, 'epoch': 2.86} |
|
{'train_accuracy': 0.796875, 'epoch': 2.86} |
|
{'loss': 1.2275, 'grad_norm': 6.157021522521973, 'learning_rate': 3.9816606410059625e-06, 'epoch': 2.86} |
|
{'train_accuracy': 0.75, 'epoch': 2.86} |
|
{'loss': 0.9609, 'grad_norm': 4.282430648803711, 'learning_rate': 3.964653002612031e-06, 'epoch': 2.86} |
|
{'train_accuracy': 0.796875, 'epoch': 2.86} |
|
{'loss': 1.103, 'grad_norm': 3.4297397136688232, 'learning_rate': 3.94767278039278e-06, 'epoch': 2.86} |
|
{'train_accuracy': 0.8125, 'epoch': 2.86} |
|
{'loss': 0.9619, 'grad_norm': 3.6751058101654053, 'learning_rate': 3.930720051482585e-06, 'epoch': 2.87} |
|
{'train_accuracy': 0.765625, 'epoch': 2.87} |
|
{'loss': 1.3232, 'grad_norm': 4.563840389251709, 'learning_rate': 3.9137948928909374e-06, 'epoch': 2.87} |
|
{'train_accuracy': 0.78125, 'epoch': 2.87} |
|
{'loss': 1.0767, 'grad_norm': 4.432309150695801, 'learning_rate': 3.896897381502081e-06, 'epoch': 2.87} |
|
{'train_accuracy': 0.65625, 'epoch': 2.87} |
|
{'loss': 1.2344, 'grad_norm': 7.510792255401611, 'learning_rate': 3.880027594074671e-06, 'epoch': 2.87} |
|
{'train_accuracy': 0.8125, 'epoch': 2.87} |
|
{'loss': 0.9473, 'grad_norm': 3.3003294467926025, 'learning_rate': 3.863185607241425e-06, 'epoch': 2.88} |
|
{'train_accuracy': 0.78125, 'epoch': 2.88} |
|
{'loss': 1.1001, 'grad_norm': 4.405003547668457, 'learning_rate': 3.846371497508775e-06, 'epoch': 2.88} |
|
{'train_accuracy': 0.75, 'epoch': 2.88} |
|
{'loss': 1.0273, 'grad_norm': 4.802317142486572, 'learning_rate': 3.829585341256515e-06, 'epoch': 2.88} |
|
{'train_accuracy': 0.875, 'epoch': 2.88} |
|
{'loss': 0.9351, 'grad_norm': 3.6775407791137695, 'learning_rate': 3.812827214737459e-06, 'epoch': 2.88} |
|
{'train_accuracy': 0.75, 'epoch': 2.88} |
|
{'loss': 1.1362, 'grad_norm': 3.8660459518432617, 'learning_rate': 3.796097194077093e-06, 'epoch': 2.89} |
|
{'train_accuracy': 0.765625, 'epoch': 2.89} |
|
{'loss': 1.2524, 'grad_norm': 9.875020027160645, 'learning_rate': 3.77939535527323e-06, 'epoch': 2.89} |
|
{'train_accuracy': 0.71875, 'epoch': 2.89} |
|
{'loss': 1.0151, 'grad_norm': 3.817460298538208, 'learning_rate': 3.7627217741956625e-06, 'epoch': 2.89} |
|
{'train_accuracy': 0.6875, 'epoch': 2.89} |
|
{'loss': 1.1729, 'grad_norm': 7.155078411102295, 'learning_rate': 3.7460765265858213e-06, 'epoch': 2.89} |
|
{'train_accuracy': 0.796875, 'epoch': 2.89} |
|
{'loss': 0.9888, 'grad_norm': 5.495885848999023, 'learning_rate': 3.729459688056427e-06, 'epoch': 2.9} |
|
{'train_accuracy': 0.71875, 'epoch': 2.9} |
|
{'loss': 1.239, 'grad_norm': 5.324273586273193, 'learning_rate': 3.712871334091154e-06, 'epoch': 2.9} |
|
{'train_accuracy': 0.78125, 'epoch': 2.9} |
|
{'loss': 1.0537, 'grad_norm': 4.5909905433654785, 'learning_rate': 3.696311540044276e-06, 'epoch': 2.9} |
|
{'train_accuracy': 0.828125, 'epoch': 2.9} |
|
{'loss': 1.0264, 'grad_norm': 3.9828968048095703, 'learning_rate': 3.6797803811403354e-06, 'epoch': 2.91} |
|
{'train_accuracy': 0.859375, 'epoch': 2.91} |
|
{'loss': 0.9209, 'grad_norm': 4.042853355407715, 'learning_rate': 3.663277932473791e-06, 'epoch': 2.91} |
|
{'train_accuracy': 0.84375, 'epoch': 2.91} |
|
{'loss': 1.2104, 'grad_norm': 6.130189418792725, 'learning_rate': 3.646804269008697e-06, 'epoch': 2.91} |
|
{'train_accuracy': 0.84375, 'epoch': 2.91} |
|
{'loss': 1.2646, 'grad_norm': 6.112072944641113, 'learning_rate': 3.630359465578324e-06, 'epoch': 2.91} |
|
{'train_accuracy': 0.78125, 'epoch': 2.91} |
|
{'loss': 1.1348, 'grad_norm': 8.988405227661133, 'learning_rate': 3.613943596884865e-06, 'epoch': 2.92} |
|
{'train_accuracy': 0.65625, 'epoch': 2.92} |
|
{'loss': 1.3979, 'grad_norm': 7.373897552490234, 'learning_rate': 3.597556737499064e-06, 'epoch': 2.92} |
|
{'train_accuracy': 0.84375, 'epoch': 2.92} |
|
{'loss': 0.8975, 'grad_norm': 4.439242839813232, 'learning_rate': 3.5811989618598863e-06, 'epoch': 2.92} |
|
{'train_accuracy': 0.703125, 'epoch': 2.92} |
|
{'loss': 1.2334, 'grad_norm': 8.199309349060059, 'learning_rate': 3.564870344274185e-06, 'epoch': 2.92} |
|
{'train_accuracy': 0.8125, 'epoch': 2.92} |
|
{'loss': 1.2168, 'grad_norm': 4.312633037567139, 'learning_rate': 3.5485709589163576e-06, 'epoch': 2.93} |
|
{'train_accuracy': 0.828125, 'epoch': 2.93} |
|
{'loss': 1.0327, 'grad_norm': 3.521815776824951, 'learning_rate': 3.532300879828013e-06, 'epoch': 2.93} |
|
{'train_accuracy': 0.875, 'epoch': 2.93} |
|
{'loss': 1.041, 'grad_norm': 5.077023983001709, 'learning_rate': 3.516060180917632e-06, 'epoch': 2.93} |
|
{'train_accuracy': 0.8125, 'epoch': 2.93} |
|
{'loss': 1.0889, 'grad_norm': 4.366433143615723, 'learning_rate': 3.499848935960234e-06, 'epoch': 2.93} |
|
{'train_accuracy': 0.734375, 'epoch': 2.93} |
|
{'loss': 1.4038, 'grad_norm': 5.330564498901367, 'learning_rate': 3.483667218597039e-06, 'epoch': 2.94} |
|
{'train_accuracy': 0.828125, 'epoch': 2.94} |
|
{'loss': 0.8452, 'grad_norm': 3.7983169555664062, 'learning_rate': 3.467515102335136e-06, 'epoch': 2.94} |
|
{'train_accuracy': 0.765625, 'epoch': 2.94} |
|
{'loss': 0.9983, 'grad_norm': 4.798806667327881, 'learning_rate': 3.4513926605471504e-06, 'epoch': 2.94} |
|
{'train_accuracy': 0.765625, 'epoch': 2.94} |
|
{'loss': 0.957, 'grad_norm': 3.3308746814727783, 'learning_rate': 3.435299966470903e-06, 'epoch': 2.94} |
|
{'train_accuracy': 0.78125, 'epoch': 2.94} |
|
{'loss': 1.1567, 'grad_norm': 5.4025044441223145, 'learning_rate': 3.4192370932090892e-06, 'epoch': 2.95} |
|
{'train_accuracy': 0.8125, 'epoch': 2.95} |
|
{'loss': 1.1982, 'grad_norm': 12.746258735656738, 'learning_rate': 3.4032041137289327e-06, 'epoch': 2.95} |
|
{'train_accuracy': 0.765625, 'epoch': 2.95} |
|
{'loss': 1.1455, 'grad_norm': 4.749011039733887, 'learning_rate': 3.387201100861869e-06, 'epoch': 2.95} |
|
{'train_accuracy': 0.765625, 'epoch': 2.95} |
|
{'loss': 1.1035, 'grad_norm': 4.1148200035095215, 'learning_rate': 3.371228127303203e-06, 'epoch': 2.96} |
|
{'train_accuracy': 0.8125, 'epoch': 2.96} |
|
{'loss': 0.9458, 'grad_norm': 3.990781545639038, 'learning_rate': 3.355285265611784e-06, 'epoch': 2.96} |
|
{'train_accuracy': 0.796875, 'epoch': 2.96} |
|
{'loss': 0.979, 'grad_norm': 4.621012210845947, 'learning_rate': 3.339372588209672e-06, 'epoch': 2.96} |
|
{'train_accuracy': 0.828125, 'epoch': 2.96} |
|
{'loss': 1.2349, 'grad_norm': 4.63665771484375, 'learning_rate': 3.323490167381823e-06, 'epoch': 2.96} |
|
{'train_accuracy': 0.84375, 'epoch': 2.96} |
|
{'loss': 0.9976, 'grad_norm': 3.3280749320983887, 'learning_rate': 3.307638075275731e-06, 'epoch': 2.97} |
|
{'train_accuracy': 0.828125, 'epoch': 2.97} |
|
{'loss': 1.0435, 'grad_norm': 3.5311524868011475, 'learning_rate': 3.2918163839011408e-06, 'epoch': 2.97} |
|
{'train_accuracy': 0.828125, 'epoch': 2.97} |
|
{'loss': 1.1294, 'grad_norm': 6.561064720153809, 'learning_rate': 3.2760251651296737e-06, 'epoch': 2.97} |
|
{'train_accuracy': 0.734375, 'epoch': 2.97} |
|
{'loss': 1.168, 'grad_norm': 3.985593318939209, 'learning_rate': 3.2602644906945536e-06, 'epoch': 2.97} |
|
{'train_accuracy': 0.75, 'epoch': 2.97} |
|
{'loss': 1.1406, 'grad_norm': 3.7214221954345703, 'learning_rate': 3.244534432190225e-06, 'epoch': 2.98} |
|
{'train_accuracy': 0.84375, 'epoch': 2.98} |
|
{'loss': 1.1328, 'grad_norm': 5.923731327056885, 'learning_rate': 3.228835061072084e-06, 'epoch': 2.98} |
|
{'train_accuracy': 0.703125, 'epoch': 2.98} |
|
{'loss': 1.0903, 'grad_norm': 4.362364768981934, 'learning_rate': 3.2131664486561022e-06, 'epoch': 2.98} |
|
{'train_accuracy': 0.8125, 'epoch': 2.98} |
|
{'loss': 1.1641, 'grad_norm': 3.981119155883789, 'learning_rate': 3.197528666118549e-06, 'epoch': 2.98} |
|
{'train_accuracy': 0.765625, 'epoch': 2.98} |
|
{'loss': 1.1636, 'grad_norm': 7.54674768447876, 'learning_rate': 3.1819217844956216e-06, 'epoch': 2.99} |
|
{'train_accuracy': 0.8125, 'epoch': 2.99} |
|
{'loss': 1.1372, 'grad_norm': 7.682521820068359, 'learning_rate': 3.1663458746831734e-06, 'epoch': 2.99} |
|
{'train_accuracy': 0.828125, 'epoch': 2.99} |
|
{'loss': 0.9878, 'grad_norm': 6.8332672119140625, 'learning_rate': 3.1508010074363384e-06, 'epoch': 2.99} |
|
{'train_accuracy': 0.765625, 'epoch': 2.99} |
|
{'loss': 1.1616, 'grad_norm': 10.780973434448242, 'learning_rate': 3.1352872533692603e-06, 'epoch': 2.99} |
|
{'train_accuracy': 0.859375, 'epoch': 2.99} |
|
{'loss': 1.1758, 'grad_norm': 6.914345741271973, 'learning_rate': 3.119804682954728e-06, 'epoch': 3.0} |
|
{'train_accuracy': 0.796875, 'epoch': 3.0} |
|
{'loss': 0.9897, 'grad_norm': 28.889413833618164, 'learning_rate': 3.1043533665238944e-06, 'epoch': 3.0} |
|
{'eval_accuracy': 0.7127246856689453, 'eval_max_score': 6.8125, 'eval_min_score': -8.25, 'eval_runtime': 151.4052, 'eval_samples_per_second': 18.738, 'eval_steps_per_second': 0.297, 'epoch': 3.0} |
|
{'train_accuracy': 0.890625, 'epoch': 3.0} |
|
{'loss': 0.9707, 'grad_norm': 91.07470703125, 'learning_rate': 3.0889333742659187e-06, 'epoch': 3.0} |
|
{'train_accuracy': 0.84375, 'epoch': 3.0} |
|
{'loss': 1.0366, 'grad_norm': 6.031994819641113, 'learning_rate': 3.0735447762276872e-06, 'epoch': 3.01} |
|
{'train_accuracy': 0.859375, 'epoch': 3.01} |
|
{'loss': 0.7954, 'grad_norm': 4.031905651092529, 'learning_rate': 3.0581876423134527e-06, 'epoch': 3.01} |
|
{'train_accuracy': 0.921875, 'epoch': 3.01} |
|
{'loss': 0.7837, 'grad_norm': 7.002809047698975, 'learning_rate': 3.042862042284559e-06, 'epoch': 3.01} |
|
{'train_accuracy': 0.828125, 'epoch': 3.01} |
|
{'loss': 1.0454, 'grad_norm': 4.162775039672852, 'learning_rate': 3.027568045759094e-06, 'epoch': 3.01} |
|
{'train_accuracy': 0.859375, 'epoch': 3.01} |
|
{'loss': 1.0654, 'grad_norm': 6.396974086761475, 'learning_rate': 3.0123057222115835e-06, 'epoch': 3.02} |
|
{'train_accuracy': 0.859375, 'epoch': 3.02} |
|
{'loss': 0.886, 'grad_norm': 3.9046335220336914, 'learning_rate': 2.9970751409726785e-06, 'epoch': 3.02} |
|
{'train_accuracy': 0.8125, 'epoch': 3.02} |
|
{'loss': 1.019, 'grad_norm': 7.014838218688965, 'learning_rate': 2.981876371228836e-06, 'epoch': 3.02} |
|
{'train_accuracy': 0.90625, 'epoch': 3.02} |
|
{'loss': 0.873, 'grad_norm': 6.357172012329102, 'learning_rate': 2.9667094820220044e-06, 'epoch': 3.02} |
|
{'train_accuracy': 0.859375, 'epoch': 3.02} |
|
{'loss': 0.958, 'grad_norm': 3.373042583465576, 'learning_rate': 2.951574542249315e-06, 'epoch': 3.03} |
|
{'train_accuracy': 0.875, 'epoch': 3.03} |
|
{'loss': 0.8518, 'grad_norm': 4.8992743492126465, 'learning_rate': 2.936471620662763e-06, 'epoch': 3.03} |
|
{'train_accuracy': 0.90625, 'epoch': 3.03} |
|
{'loss': 0.9675, 'grad_norm': 3.5850627422332764, 'learning_rate': 2.9214007858688986e-06, 'epoch': 3.03} |
|
{'train_accuracy': 0.828125, 'epoch': 3.03} |
|
{'loss': 0.9331, 'grad_norm': 9.761622428894043, 'learning_rate': 2.906362106328515e-06, 'epoch': 3.03} |
|
{'train_accuracy': 0.8125, 'epoch': 3.03} |
|
{'loss': 1.0645, 'grad_norm': 4.369013786315918, 'learning_rate': 2.8913556503563356e-06, 'epoch': 3.04} |
|
{'train_accuracy': 0.921875, 'epoch': 3.04} |
|
{'loss': 0.8364, 'grad_norm': 3.727263927459717, 'learning_rate': 2.876381486120706e-06, 'epoch': 3.04} |
|
{'train_accuracy': 0.859375, 'epoch': 3.04} |
|
{'loss': 0.853, 'grad_norm': 3.8516135215759277, 'learning_rate': 2.861439681643283e-06, 'epoch': 3.04} |
|
{'train_accuracy': 0.84375, 'epoch': 3.04} |
|
{'loss': 1.0015, 'grad_norm': 4.059918403625488, 'learning_rate': 2.846530304798727e-06, 'epoch': 3.04} |
|
{'train_accuracy': 0.890625, 'epoch': 3.04} |
|
{'loss': 0.7947, 'grad_norm': 4.983440399169922, 'learning_rate': 2.831653423314389e-06, 'epoch': 3.05} |
|
{'train_accuracy': 0.875, 'epoch': 3.05} |
|
{'loss': 0.9277, 'grad_norm': 7.605556011199951, 'learning_rate': 2.816809104770012e-06, 'epoch': 3.05} |
|
{'train_accuracy': 0.921875, 'epoch': 3.05} |
|
{'loss': 0.9189, 'grad_norm': 3.867741584777832, 'learning_rate': 2.8019974165974127e-06, 'epoch': 3.05} |
|
{'train_accuracy': 0.9375, 'epoch': 3.05} |
|
{'loss': 0.7227, 'grad_norm': 5.580239772796631, 'learning_rate': 2.787218426080184e-06, 'epoch': 3.06} |
|
{'train_accuracy': 0.921875, 'epoch': 3.06} |
|
{'loss': 0.9521, 'grad_norm': 4.5618672370910645, 'learning_rate': 2.7724722003533945e-06, 'epoch': 3.06} |
|
{'train_accuracy': 0.921875, 'epoch': 3.06} |
|
{'loss': 0.7461, 'grad_norm': 7.543132305145264, 'learning_rate': 2.7577588064032533e-06, 'epoch': 3.06} |
|
{'train_accuracy': 0.859375, 'epoch': 3.06} |
|
{'loss': 0.9336, 'grad_norm': 4.477904319763184, 'learning_rate': 2.7430783110668557e-06, 'epoch': 3.06} |
|
{'train_accuracy': 0.828125, 'epoch': 3.06} |
|
{'loss': 0.8987, 'grad_norm': 4.662795543670654, 'learning_rate': 2.7284307810318257e-06, 'epoch': 3.07} |
|
{'train_accuracy': 0.921875, 'epoch': 3.07} |
|
{'loss': 0.7316, 'grad_norm': 5.89164400100708, 'learning_rate': 2.7138162828360628e-06, 'epoch': 3.07} |
|
{'train_accuracy': 0.875, 'epoch': 3.07} |
|
{'loss': 1.0649, 'grad_norm': 10.350142478942871, 'learning_rate': 2.699234882867393e-06, 'epoch': 3.07} |
|
{'train_accuracy': 0.8125, 'epoch': 3.07} |
|
{'loss': 0.8745, 'grad_norm': 4.684883117675781, 'learning_rate': 2.6846866473633126e-06, 'epoch': 3.07} |
|
{'train_accuracy': 0.90625, 'epoch': 3.07} |
|
{'loss': 0.8135, 'grad_norm': 6.489368915557861, 'learning_rate': 2.6701716424106425e-06, 'epoch': 3.08} |
|
{'train_accuracy': 0.828125, 'epoch': 3.08} |
|
{'loss': 0.8262, 'grad_norm': 5.5763702392578125, 'learning_rate': 2.6556899339452757e-06, 'epoch': 3.08} |
|
{'train_accuracy': 0.828125, 'epoch': 3.08} |
|
{'loss': 0.8428, 'grad_norm': 4.210776329040527, 'learning_rate': 2.641241587751824e-06, 'epoch': 3.08} |
|
{'train_accuracy': 0.765625, 'epoch': 3.08} |
|
{'loss': 0.9688, 'grad_norm': 5.931998252868652, 'learning_rate': 2.626826669463377e-06, 'epoch': 3.08} |
|
{'train_accuracy': 0.9375, 'epoch': 3.08} |
|
{'loss': 0.7803, 'grad_norm': 4.297722816467285, 'learning_rate': 2.6124452445611458e-06, 'epoch': 3.09} |
|
{'train_accuracy': 0.921875, 'epoch': 3.09} |
|
{'loss': 0.7305, 'grad_norm': 4.3388495445251465, 'learning_rate': 2.5980973783742236e-06, 'epoch': 3.09} |
|
{'train_accuracy': 0.859375, 'epoch': 3.09} |
|
{'loss': 0.8511, 'grad_norm': 6.159016132354736, 'learning_rate': 2.583783136079231e-06, 'epoch': 3.09} |
|
{'train_accuracy': 0.78125, 'epoch': 3.09} |
|
{'loss': 0.9966, 'grad_norm': 7.548987865447998, 'learning_rate': 2.5695025827000752e-06, 'epoch': 3.09} |
|
{'train_accuracy': 0.90625, 'epoch': 3.09} |
|
{'loss': 0.8833, 'grad_norm': 8.062982559204102, 'learning_rate': 2.555255783107603e-06, 'epoch': 3.1} |
|
{'train_accuracy': 0.921875, 'epoch': 3.1} |
|
{'loss': 0.7385, 'grad_norm': 6.597980976104736, 'learning_rate': 2.5410428020193568e-06, 'epoch': 3.1} |
|
{'train_accuracy': 0.875, 'epoch': 3.1} |
|
{'loss': 1.0493, 'grad_norm': 11.51430892944336, 'learning_rate': 2.5268637039992296e-06, 'epoch': 3.1} |
|
{'train_accuracy': 0.859375, 'epoch': 3.1} |
|
{'loss': 0.938, 'grad_norm': 9.351119041442871, 'learning_rate': 2.5127185534572173e-06, 'epoch': 3.11} |
|
{'train_accuracy': 0.90625, 'epoch': 3.11} |
|
{'loss': 0.8232, 'grad_norm': 7.316296577453613, 'learning_rate': 2.4986074146490967e-06, 'epoch': 3.11} |
|
{'train_accuracy': 0.78125, 'epoch': 3.11} |
|
{'loss': 0.9543, 'grad_norm': 6.263866424560547, 'learning_rate': 2.4845303516761442e-06, 'epoch': 3.11} |
|
{'train_accuracy': 0.890625, 'epoch': 3.11} |
|
{'loss': 0.9771, 'grad_norm': 6.839787006378174, 'learning_rate': 2.4704874284848425e-06, 'epoch': 3.11} |
|
{'train_accuracy': 0.8125, 'epoch': 3.11} |
|
{'loss': 0.8281, 'grad_norm': 6.001226902008057, 'learning_rate': 2.456478708866591e-06, 'epoch': 3.12} |
|
{'train_accuracy': 0.84375, 'epoch': 3.12} |
|
{'loss': 0.7673, 'grad_norm': 5.544653415679932, 'learning_rate': 2.4425042564574186e-06, 'epoch': 3.12} |
|
{'train_accuracy': 0.8125, 'epoch': 3.12} |
|
{'loss': 0.8721, 'grad_norm': 11.175527572631836, 'learning_rate': 2.4285641347376887e-06, 'epoch': 3.12} |
|
{'train_accuracy': 0.765625, 'epoch': 3.12} |
|
{'loss': 0.9204, 'grad_norm': 6.080649375915527, 'learning_rate': 2.4146584070318145e-06, 'epoch': 3.12} |
|
{'train_accuracy': 0.875, 'epoch': 3.12} |
|
{'loss': 0.8398, 'grad_norm': 8.601665496826172, 'learning_rate': 2.400787136507975e-06, 'epoch': 3.13} |
|
{'train_accuracy': 0.84375, 'epoch': 3.13} |
|
{'loss': 0.8701, 'grad_norm': 9.983627319335938, 'learning_rate': 2.3869503861778176e-06, 'epoch': 3.13} |
|
{'train_accuracy': 0.90625, 'epoch': 3.13} |
|
{'loss': 0.6858, 'grad_norm': 3.987053394317627, 'learning_rate': 2.373148218896182e-06, 'epoch': 3.13} |
|
{'train_accuracy': 0.859375, 'epoch': 3.13} |
|
{'loss': 0.8005, 'grad_norm': 6.030102729797363, 'learning_rate': 2.35938069736081e-06, 'epoch': 3.13} |
|
{'train_accuracy': 0.84375, 'epoch': 3.13} |
|
{'loss': 0.8113, 'grad_norm': 4.159539222717285, 'learning_rate': 2.3456478841120634e-06, 'epoch': 3.14} |
|
{'train_accuracy': 0.84375, 'epoch': 3.14} |
|
{'loss': 0.8757, 'grad_norm': 5.042561054229736, 'learning_rate': 2.331949841532636e-06, 'epoch': 3.14} |
|
{'train_accuracy': 0.84375, 'epoch': 3.14} |
|
{'loss': 0.9448, 'grad_norm': 12.693655967712402, 'learning_rate': 2.318286631847272e-06, 'epoch': 3.14} |
|
{'train_accuracy': 0.859375, 'epoch': 3.14} |
|
{'loss': 0.8074, 'grad_norm': 4.802595615386963, 'learning_rate': 2.3046583171224835e-06, 'epoch': 3.14} |
|
{'train_accuracy': 0.796875, 'epoch': 3.14} |
|
{'loss': 1.0713, 'grad_norm': 5.915050983428955, 'learning_rate': 2.2910649592662724e-06, 'epoch': 3.15} |
|
{'train_accuracy': 0.890625, 'epoch': 3.15} |
|
{'loss': 0.7119, 'grad_norm': 4.1914472579956055, 'learning_rate': 2.2775066200278383e-06, 'epoch': 3.15} |
|
{'train_accuracy': 0.875, 'epoch': 3.15} |
|
{'loss': 0.8606, 'grad_norm': 7.356982231140137, 'learning_rate': 2.2639833609973182e-06, 'epoch': 3.15} |
|
{'train_accuracy': 0.96875, 'epoch': 3.15} |
|
{'loss': 0.6907, 'grad_norm': 4.53258752822876, 'learning_rate': 2.250495243605475e-06, 'epoch': 3.16} |
|
{'train_accuracy': 0.875, 'epoch': 3.16} |
|
{'loss': 0.7888, 'grad_norm': 6.945924758911133, 'learning_rate': 2.2370423291234543e-06, 'epoch': 3.16} |
|
{'train_accuracy': 0.875, 'epoch': 3.16} |
|
{'loss': 0.9097, 'grad_norm': 8.83996868133545, 'learning_rate': 2.2236246786624794e-06, 'epoch': 3.16} |
|
{'train_accuracy': 0.8125, 'epoch': 3.16} |
|
{'loss': 1.0459, 'grad_norm': 6.74652099609375, 'learning_rate': 2.210242353173586e-06, 'epoch': 3.16} |
|
{'train_accuracy': 0.90625, 'epoch': 3.16} |
|
{'loss': 0.835, 'grad_norm': 5.417960166931152, 'learning_rate': 2.196895413447343e-06, 'epoch': 3.17} |
|
{'train_accuracy': 0.890625, 'epoch': 3.17} |
|
{'loss': 0.8953, 'grad_norm': 5.827296733856201, 'learning_rate': 2.1835839201135743e-06, 'epoch': 3.17} |
|
{'train_accuracy': 0.828125, 'epoch': 3.17} |
|
{'loss': 0.9985, 'grad_norm': 13.554121971130371, 'learning_rate': 2.170307933641087e-06, 'epoch': 3.17} |
|
{'train_accuracy': 0.84375, 'epoch': 3.17} |
|
{'loss': 1.0347, 'grad_norm': 6.409447193145752, 'learning_rate': 2.157067514337392e-06, 'epoch': 3.17} |
|
{'train_accuracy': 0.890625, 'epoch': 3.17} |
|
{'loss': 0.9468, 'grad_norm': 7.8958234786987305, 'learning_rate': 2.143862722348434e-06, 'epoch': 3.18} |
|
{'train_accuracy': 0.796875, 'epoch': 3.18} |
|
{'loss': 0.8315, 'grad_norm': 5.160824298858643, 'learning_rate': 2.1306936176583206e-06, 'epoch': 3.18} |
|
{'train_accuracy': 0.859375, 'epoch': 3.18} |
|
{'loss': 1.0015, 'grad_norm': 6.878368377685547, 'learning_rate': 2.117560260089039e-06, 'epoch': 3.18} |
|
{'train_accuracy': 0.90625, 'epoch': 3.18} |
|
{'loss': 0.9253, 'grad_norm': 6.8526930809021, 'learning_rate': 2.1044627093001966e-06, 'epoch': 3.18} |
|
{'train_accuracy': 0.890625, 'epoch': 3.18} |
|
{'loss': 0.8765, 'grad_norm': 6.191732883453369, 'learning_rate': 2.091401024788745e-06, 'epoch': 3.19} |
|
{'train_accuracy': 0.875, 'epoch': 3.19} |
|
{'loss': 0.9224, 'grad_norm': 7.804241180419922, 'learning_rate': 2.078375265888707e-06, 'epoch': 3.19} |
|
{'train_accuracy': 0.84375, 'epoch': 3.19} |
|
{'loss': 1.0356, 'grad_norm': 5.588228225708008, 'learning_rate': 2.0653854917709115e-06, 'epoch': 3.19} |
|
{'train_accuracy': 0.875, 'epoch': 3.19} |
|
{'loss': 1.0024, 'grad_norm': 9.253522872924805, 'learning_rate': 2.0524317614427225e-06, 'epoch': 3.19} |
|
{'train_accuracy': 0.828125, 'epoch': 3.19} |
|
{'loss': 0.6868, 'grad_norm': 4.661523818969727, 'learning_rate': 2.039514133747771e-06, 'epoch': 3.2} |
|
{'train_accuracy': 0.84375, 'epoch': 3.2} |
|
{'loss': 1.1104, 'grad_norm': 6.566859245300293, 'learning_rate': 2.0266326673656877e-06, 'epoch': 3.2} |
|
{'eval_accuracy': 0.7225942611694336, 'eval_max_score': 10.875, 'eval_min_score': -13.625, 'eval_runtime': 151.3303, 'eval_samples_per_second': 18.747, 'eval_steps_per_second': 0.297, 'epoch': 3.2} |
|
{'train_accuracy': 0.8125, 'epoch': 3.2} |
|
{'loss': 0.7971, 'grad_norm': 4.405065536499023, 'learning_rate': 2.013787420811839e-06, 'epoch': 3.2} |
|
{'train_accuracy': 0.84375, 'epoch': 3.2} |
|
{'loss': 0.7188, 'grad_norm': 4.326594829559326, 'learning_rate': 2.0009784524370577e-06, 'epoch': 3.21} |
|
{'train_accuracy': 0.921875, 'epoch': 3.21} |
|
{'loss': 0.9402, 'grad_norm': 7.73793363571167, 'learning_rate': 1.988205820427378e-06, 'epoch': 3.21} |
|
{'train_accuracy': 0.890625, 'epoch': 3.21} |
|
{'loss': 0.792, 'grad_norm': 5.0551910400390625, 'learning_rate': 1.9754695828037707e-06, 'epoch': 3.21} |
|
{'train_accuracy': 0.828125, 'epoch': 3.21} |
|
{'loss': 0.7297, 'grad_norm': 5.002174377441406, 'learning_rate': 1.962769797421895e-06, 'epoch': 3.21} |
|
{'train_accuracy': 0.9375, 'epoch': 3.21} |
|
{'loss': 0.7141, 'grad_norm': 6.284675121307373, 'learning_rate': 1.9501065219717984e-06, 'epoch': 3.22} |
|
{'train_accuracy': 0.875, 'epoch': 3.22} |
|
{'loss': 0.8003, 'grad_norm': 4.388381004333496, 'learning_rate': 1.937479813977703e-06, 'epoch': 3.22} |
|
{'train_accuracy': 0.84375, 'epoch': 3.22} |
|
{'loss': 0.7725, 'grad_norm': 4.708600997924805, 'learning_rate': 1.9248897307976977e-06, 'epoch': 3.22} |
|
{'train_accuracy': 0.890625, 'epoch': 3.22} |
|
{'loss': 0.7332, 'grad_norm': 3.932790994644165, 'learning_rate': 1.9123363296235207e-06, 'epoch': 3.22} |
|
{'train_accuracy': 0.9375, 'epoch': 3.22} |
|
{'loss': 0.7847, 'grad_norm': 4.5415754318237305, 'learning_rate': 1.8998196674802561e-06, 'epoch': 3.23} |
|
{'train_accuracy': 0.765625, 'epoch': 3.23} |
|
{'loss': 0.9407, 'grad_norm': 5.433136463165283, 'learning_rate': 1.88733980122612e-06, 'epoch': 3.23} |
|
{'train_accuracy': 0.78125, 'epoch': 3.23} |
|
{'loss': 1.1606, 'grad_norm': 6.181934356689453, 'learning_rate': 1.8748967875521574e-06, 'epoch': 3.23} |
|
{'train_accuracy': 0.828125, 'epoch': 3.23} |
|
{'loss': 1.0325, 'grad_norm': 9.84251880645752, 'learning_rate': 1.8624906829820278e-06, 'epoch': 3.23} |
|
{'train_accuracy': 0.890625, 'epoch': 3.23} |
|
{'loss': 0.7742, 'grad_norm': 5.358395576477051, 'learning_rate': 1.8501215438717057e-06, 'epoch': 3.24} |
|
{'train_accuracy': 0.84375, 'epoch': 3.24} |
|
{'loss': 0.9922, 'grad_norm': 5.701262950897217, 'learning_rate': 1.83778942640927e-06, 'epoch': 3.24} |
|
{'train_accuracy': 0.84375, 'epoch': 3.24} |
|
{'loss': 0.9014, 'grad_norm': 6.035477161407471, 'learning_rate': 1.8254943866146013e-06, 'epoch': 3.24} |
|
{'train_accuracy': 0.875, 'epoch': 3.24} |
|
{'loss': 0.7578, 'grad_norm': 4.604367256164551, 'learning_rate': 1.81323648033917e-06, 'epoch': 3.24} |
|
{'train_accuracy': 0.828125, 'epoch': 3.24} |
|
{'loss': 0.9478, 'grad_norm': 6.747530460357666, 'learning_rate': 1.8010157632657544e-06, 'epoch': 3.25} |
|
{'train_accuracy': 0.859375, 'epoch': 3.25} |
|
{'loss': 0.8875, 'grad_norm': 5.973506450653076, 'learning_rate': 1.7888322909081978e-06, 'epoch': 3.25} |
|
{'train_accuracy': 0.90625, 'epoch': 3.25} |
|
{'loss': 0.8809, 'grad_norm': 5.428391933441162, 'learning_rate': 1.7766861186111573e-06, 'epoch': 3.25} |
|
{'train_accuracy': 0.875, 'epoch': 3.25} |
|
{'loss': 0.8752, 'grad_norm': 5.573856353759766, 'learning_rate': 1.764577301549849e-06, 'epoch': 3.26} |
|
{'train_accuracy': 0.875, 'epoch': 3.26} |
|
{'loss': 0.7871, 'grad_norm': 4.994183540344238, 'learning_rate': 1.7525058947298025e-06, 'epoch': 3.26} |
|
{'train_accuracy': 0.859375, 'epoch': 3.26} |
|
{'loss': 0.8843, 'grad_norm': 5.398833751678467, 'learning_rate': 1.7404719529866032e-06, 'epoch': 3.26} |
|
{'train_accuracy': 0.859375, 'epoch': 3.26} |
|
{'loss': 0.9875, 'grad_norm': 7.436490058898926, 'learning_rate': 1.7284755309856505e-06, 'epoch': 3.26} |
|
{'train_accuracy': 0.8125, 'epoch': 3.26} |
|
{'loss': 1.0361, 'grad_norm': 8.08215618133545, 'learning_rate': 1.716516683221906e-06, 'epoch': 3.27} |
|
{'train_accuracy': 0.796875, 'epoch': 3.27} |
|
{'loss': 0.9634, 'grad_norm': 6.869689464569092, 'learning_rate': 1.7045954640196448e-06, 'epoch': 3.27} |
|
{'train_accuracy': 0.890625, 'epoch': 3.27} |
|
{'loss': 0.8782, 'grad_norm': 9.234119415283203, 'learning_rate': 1.6927119275322135e-06, 'epoch': 3.27} |
|
{'train_accuracy': 0.859375, 'epoch': 3.27} |
|
{'loss': 0.8464, 'grad_norm': 6.922120571136475, 'learning_rate': 1.6808661277417793e-06, 'epoch': 3.27} |
|
{'train_accuracy': 0.8125, 'epoch': 3.27} |
|
{'loss': 0.9414, 'grad_norm': 9.614771842956543, 'learning_rate': 1.6690581184590859e-06, 'epoch': 3.28} |
|
{'train_accuracy': 0.859375, 'epoch': 3.28} |
|
{'loss': 0.9082, 'grad_norm': 6.084325313568115, 'learning_rate': 1.657287953323211e-06, 'epoch': 3.28} |
|
{'train_accuracy': 0.90625, 'epoch': 3.28} |
|
{'loss': 0.8462, 'grad_norm': 8.449655532836914, 'learning_rate': 1.6455556858013222e-06, 'epoch': 3.28} |
|
{'train_accuracy': 0.84375, 'epoch': 3.28} |
|
{'loss': 0.9702, 'grad_norm': 5.102181434631348, 'learning_rate': 1.6338613691884308e-06, 'epoch': 3.28} |
|
{'train_accuracy': 0.890625, 'epoch': 3.28} |
|
{'loss': 0.8591, 'grad_norm': 5.518160820007324, 'learning_rate': 1.6222050566071545e-06, 'epoch': 3.29} |
|
{'train_accuracy': 0.9375, 'epoch': 3.29} |
|
{'loss': 0.8779, 'grad_norm': 5.898723125457764, 'learning_rate': 1.6105868010074744e-06, 'epoch': 3.29} |
|
{'train_accuracy': 0.890625, 'epoch': 3.29} |
|
{'loss': 0.9385, 'grad_norm': 8.095972061157227, 'learning_rate': 1.5990066551664906e-06, 'epoch': 3.29} |
|
{'train_accuracy': 0.90625, 'epoch': 3.29} |
|
{'loss': 0.9697, 'grad_norm': 6.1568074226379395, 'learning_rate': 1.587464671688187e-06, 'epoch': 3.29} |
|
{'train_accuracy': 0.84375, 'epoch': 3.29} |
|
{'loss': 0.8687, 'grad_norm': 6.438913345336914, 'learning_rate': 1.5759609030031986e-06, 'epoch': 3.3} |
|
{'train_accuracy': 0.90625, 'epoch': 3.3} |
|
{'loss': 0.7432, 'grad_norm': 6.652143478393555, 'learning_rate': 1.5644954013685486e-06, 'epoch': 3.3} |
|
{'train_accuracy': 0.96875, 'epoch': 3.3} |
|
{'loss': 0.8599, 'grad_norm': 6.559475421905518, 'learning_rate': 1.5530682188674506e-06, 'epoch': 3.3} |
|
{'train_accuracy': 0.859375, 'epoch': 3.3} |
|
{'loss': 0.772, 'grad_norm': 5.773578643798828, 'learning_rate': 1.5416794074090258e-06, 'epoch': 3.31} |
|
{'train_accuracy': 0.859375, 'epoch': 3.31} |
|
{'loss': 0.8916, 'grad_norm': 5.565701484680176, 'learning_rate': 1.530329018728114e-06, 'epoch': 3.31} |
|
{'train_accuracy': 0.9375, 'epoch': 3.31} |
|
{'loss': 0.9146, 'grad_norm': 5.266923904418945, 'learning_rate': 1.5190171043849955e-06, 'epoch': 3.31} |
|
{'train_accuracy': 0.890625, 'epoch': 3.31} |
|
{'loss': 0.8623, 'grad_norm': 6.593441486358643, 'learning_rate': 1.5077437157651942e-06, 'epoch': 3.31} |
|
{'train_accuracy': 0.890625, 'epoch': 3.31} |
|
{'loss': 0.8208, 'grad_norm': 5.083078861236572, 'learning_rate': 1.4965089040792114e-06, 'epoch': 3.32} |
|
{'train_accuracy': 0.953125, 'epoch': 3.32} |
|
{'loss': 0.9258, 'grad_norm': 10.047627449035645, 'learning_rate': 1.4853127203623253e-06, 'epoch': 3.32} |
|
{'train_accuracy': 0.828125, 'epoch': 3.32} |
|
{'loss': 1.1812, 'grad_norm': 7.929150581359863, 'learning_rate': 1.4741552154743243e-06, 'epoch': 3.32} |
|
{'train_accuracy': 0.875, 'epoch': 3.32} |
|
{'loss': 0.8647, 'grad_norm': 5.663976669311523, 'learning_rate': 1.4630364400993123e-06, 'epoch': 3.32} |
|
{'train_accuracy': 0.9375, 'epoch': 3.32} |
|
{'loss': 0.7129, 'grad_norm': 6.1754961013793945, 'learning_rate': 1.451956444745445e-06, 'epoch': 3.33} |
|
{'train_accuracy': 0.859375, 'epoch': 3.33} |
|
{'loss': 0.854, 'grad_norm': 5.069157600402832, 'learning_rate': 1.440915279744729e-06, 'epoch': 3.33} |
|
{'train_accuracy': 0.859375, 'epoch': 3.33} |
|
{'loss': 0.7041, 'grad_norm': 5.302091121673584, 'learning_rate': 1.4299129952527678e-06, 'epoch': 3.33} |
|
{'train_accuracy': 0.953125, 'epoch': 3.33} |
|
{'loss': 0.7681, 'grad_norm': 7.704717636108398, 'learning_rate': 1.4189496412485593e-06, 'epoch': 3.33} |
|
{'train_accuracy': 0.890625, 'epoch': 3.33} |
|
{'loss': 0.7314, 'grad_norm': 4.745948314666748, 'learning_rate': 1.408025267534242e-06, 'epoch': 3.34} |
|
{'train_accuracy': 0.859375, 'epoch': 3.34} |
|
{'loss': 0.9341, 'grad_norm': 5.072338581085205, 'learning_rate': 1.3971399237348936e-06, 'epoch': 3.34} |
|
{'train_accuracy': 0.921875, 'epoch': 3.34} |
|
{'loss': 0.9022, 'grad_norm': 9.687994956970215, 'learning_rate': 1.38629365929829e-06, 'epoch': 3.34} |
|
{'train_accuracy': 0.859375, 'epoch': 3.34} |
|
{'loss': 1.0562, 'grad_norm': 7.591251373291016, 'learning_rate': 1.3754865234946835e-06, 'epoch': 3.34} |
|
{'train_accuracy': 0.953125, 'epoch': 3.34} |
|
{'loss': 0.9058, 'grad_norm': 5.41000509262085, 'learning_rate': 1.364718565416584e-06, 'epoch': 3.35} |
|
{'train_accuracy': 0.828125, 'epoch': 3.35} |
|
{'loss': 0.9321, 'grad_norm': 12.85086441040039, 'learning_rate': 1.3539898339785307e-06, 'epoch': 3.35} |
|
{'train_accuracy': 0.828125, 'epoch': 3.35} |
|
{'loss': 1.1162, 'grad_norm': 9.143210411071777, 'learning_rate': 1.343300377916873e-06, 'epoch': 3.35} |
|
{'train_accuracy': 0.875, 'epoch': 3.35} |
|
{'loss': 0.7704, 'grad_norm': 6.773848056793213, 'learning_rate': 1.3326502457895452e-06, 'epoch': 3.36} |
|
{'train_accuracy': 0.828125, 'epoch': 3.36} |
|
{'loss': 0.7253, 'grad_norm': 4.66011905670166, 'learning_rate': 1.3220394859758512e-06, 'epoch': 3.36} |
|
{'train_accuracy': 0.78125, 'epoch': 3.36} |
|
{'loss': 0.7734, 'grad_norm': 4.582793235778809, 'learning_rate': 1.3114681466762424e-06, 'epoch': 3.36} |
|
{'train_accuracy': 0.875, 'epoch': 3.36} |
|
{'loss': 0.906, 'grad_norm': 11.202856063842773, 'learning_rate': 1.300936275912098e-06, 'epoch': 3.36} |
|
{'train_accuracy': 0.765625, 'epoch': 3.36} |
|
{'loss': 0.9971, 'grad_norm': 6.078808784484863, 'learning_rate': 1.2904439215255049e-06, 'epoch': 3.37} |
|
{'train_accuracy': 0.84375, 'epoch': 3.37} |
|
{'loss': 0.8589, 'grad_norm': 7.51846981048584, 'learning_rate': 1.279991131179048e-06, 'epoch': 3.37} |
|
{'train_accuracy': 0.890625, 'epoch': 3.37} |
|
{'loss': 0.7031, 'grad_norm': 7.458414554595947, 'learning_rate': 1.269577952355583e-06, 'epoch': 3.37} |
|
{'train_accuracy': 0.90625, 'epoch': 3.37} |
|
{'loss': 0.9263, 'grad_norm': 8.030908584594727, 'learning_rate': 1.25920443235803e-06, 'epoch': 3.37} |
|
{'train_accuracy': 0.921875, 'epoch': 3.37} |
|
{'loss': 0.6409, 'grad_norm': 8.650345802307129, 'learning_rate': 1.2488706183091526e-06, 'epoch': 3.38} |
|
{'train_accuracy': 0.84375, 'epoch': 3.38} |
|
{'loss': 0.9023, 'grad_norm': 5.0357985496521, 'learning_rate': 1.2385765571513498e-06, 'epoch': 3.38} |
|
{'train_accuracy': 0.90625, 'epoch': 3.38} |
|
{'loss': 0.7954, 'grad_norm': 4.378666877746582, 'learning_rate': 1.2283222956464336e-06, 'epoch': 3.38} |
|
{'train_accuracy': 0.890625, 'epoch': 3.38} |
|
{'loss': 0.8413, 'grad_norm': 4.937459468841553, 'learning_rate': 1.2181078803754254e-06, 'epoch': 3.38} |
|
{'train_accuracy': 0.875, 'epoch': 3.38} |
|
{'loss': 1.0811, 'grad_norm': 7.140615463256836, 'learning_rate': 1.2079333577383422e-06, 'epoch': 3.39} |
|
{'train_accuracy': 0.890625, 'epoch': 3.39} |
|
{'loss': 1.021, 'grad_norm': 7.88900899887085, 'learning_rate': 1.1977987739539798e-06, 'epoch': 3.39} |
|
{'train_accuracy': 0.890625, 'epoch': 3.39} |
|
{'loss': 0.8384, 'grad_norm': 8.951826095581055, 'learning_rate': 1.1877041750597174e-06, 'epoch': 3.39} |
|
{'train_accuracy': 0.90625, 'epoch': 3.39} |
|
{'loss': 0.875, 'grad_norm': 4.733591556549072, 'learning_rate': 1.177649606911283e-06, 'epoch': 3.39} |
|
{'train_accuracy': 0.890625, 'epoch': 3.39} |
|
{'loss': 0.7407, 'grad_norm': 6.041803359985352, 'learning_rate': 1.1676351151825803e-06, 'epoch': 3.4} |
|
{'train_accuracy': 0.90625, 'epoch': 3.4} |
|
{'loss': 0.7407, 'grad_norm': 4.956209182739258, 'learning_rate': 1.157660745365442e-06, 'epoch': 3.4} |
|
{'eval_accuracy': 0.7088474035263062, 'eval_max_score': 11.3125, 'eval_min_score': -13.875, 'eval_runtime': 151.4716, 'eval_samples_per_second': 18.73, 'eval_steps_per_second': 0.297, 'epoch': 3.4} |
|
{'train_accuracy': 0.828125, 'epoch': 3.4} |
|
{'loss': 0.8413, 'grad_norm': 5.408447742462158, 'learning_rate': 1.1477265427694616e-06, 'epoch': 3.4} |
|
{'train_accuracy': 0.84375, 'epoch': 3.4} |
|
{'loss': 0.8872, 'grad_norm': 6.186283588409424, 'learning_rate': 1.1378325525217516e-06, 'epoch': 3.41} |
|
{'train_accuracy': 0.859375, 'epoch': 3.41} |
|
{'loss': 0.7852, 'grad_norm': 6.49485445022583, 'learning_rate': 1.127978819566773e-06, 'epoch': 3.41} |
|
{'train_accuracy': 0.921875, 'epoch': 3.41} |
|
{'loss': 0.7651, 'grad_norm': 5.673926830291748, 'learning_rate': 1.1181653886660959e-06, 'epoch': 3.41} |
|
{'train_accuracy': 0.859375, 'epoch': 3.41} |
|
{'loss': 1.0059, 'grad_norm': 5.944647789001465, 'learning_rate': 1.1083923043982303e-06, 'epoch': 3.41} |
|
{'train_accuracy': 0.84375, 'epoch': 3.41} |
|
{'loss': 0.9417, 'grad_norm': 7.421634674072266, 'learning_rate': 1.098659611158399e-06, 'epoch': 3.42} |
|
{'train_accuracy': 0.859375, 'epoch': 3.42} |
|
{'loss': 0.9941, 'grad_norm': 7.423999309539795, 'learning_rate': 1.0889673531583466e-06, 'epoch': 3.42} |
|
{'train_accuracy': 0.84375, 'epoch': 3.42} |
|
{'loss': 1.062, 'grad_norm': 8.161972999572754, 'learning_rate': 1.0793155744261352e-06, 'epoch': 3.42} |
|
{'train_accuracy': 0.859375, 'epoch': 3.42} |
|
{'loss': 0.7502, 'grad_norm': 6.31049108505249, 'learning_rate': 1.0697043188059475e-06, 'epoch': 3.42} |
|
{'train_accuracy': 0.921875, 'epoch': 3.42} |
|
{'loss': 0.7729, 'grad_norm': 4.8111772537231445, 'learning_rate': 1.0601336299578834e-06, 'epoch': 3.43} |
|
{'train_accuracy': 0.890625, 'epoch': 3.43} |
|
{'loss': 0.8699, 'grad_norm': 7.701916694641113, 'learning_rate': 1.0506035513577683e-06, 'epoch': 3.43} |
|
{'train_accuracy': 0.890625, 'epoch': 3.43} |
|
{'loss': 0.8628, 'grad_norm': 4.927713871002197, 'learning_rate': 1.0411141262969482e-06, 'epoch': 3.43} |
|
{'train_accuracy': 0.859375, 'epoch': 3.43} |
|
{'loss': 0.8447, 'grad_norm': 5.331511497497559, 'learning_rate': 1.0316653978820956e-06, 'epoch': 3.43} |
|
{'train_accuracy': 0.875, 'epoch': 3.43} |
|
{'loss': 0.7975, 'grad_norm': 5.308257102966309, 'learning_rate': 1.0222574090350169e-06, 'epoch': 3.44} |
|
{'train_accuracy': 0.875, 'epoch': 3.44} |
|
{'loss': 0.8286, 'grad_norm': 5.9786272048950195, 'learning_rate': 1.0128902024924547e-06, 'epoch': 3.44} |
|
{'train_accuracy': 0.859375, 'epoch': 3.44} |
|
{'loss': 0.7522, 'grad_norm': 4.495826244354248, 'learning_rate': 1.0035638208058907e-06, 'epoch': 3.44} |
|
{'train_accuracy': 0.90625, 'epoch': 3.44} |
|
{'loss': 0.9727, 'grad_norm': 6.9757208824157715, 'learning_rate': 9.942783063413596e-07, 'epoch': 3.44} |
|
{'train_accuracy': 0.84375, 'epoch': 3.44} |
|
{'loss': 0.8916, 'grad_norm': 5.75640344619751, 'learning_rate': 9.850337012792499e-07, 'epoch': 3.45} |
|
{'train_accuracy': 0.859375, 'epoch': 3.45} |
|
{'loss': 0.802, 'grad_norm': 6.0769524574279785, 'learning_rate': 9.75830047614117e-07, 'epoch': 3.45} |
|
{'train_accuracy': 0.96875, 'epoch': 3.45} |
|
{'loss': 0.8542, 'grad_norm': 5.191233158111572, 'learning_rate': 9.666673871544884e-07, 'epoch': 3.45} |
|
{'train_accuracy': 0.875, 'epoch': 3.45} |
|
{'loss': 0.6987, 'grad_norm': 10.107154846191406, 'learning_rate': 9.57545761522677e-07, 'epoch': 3.46} |
|
{'train_accuracy': 0.90625, 'epoch': 3.46} |
|
{'loss': 0.8047, 'grad_norm': 5.977207660675049, 'learning_rate': 9.484652121545901e-07, 'epoch': 3.46} |
|
{'train_accuracy': 0.875, 'epoch': 3.46} |
|
{'loss': 0.7876, 'grad_norm': 5.891763687133789, 'learning_rate': 9.394257802995432e-07, 'epoch': 3.46} |
|
{'train_accuracy': 0.9375, 'epoch': 3.46} |
|
{'loss': 0.8418, 'grad_norm': 7.937765121459961, 'learning_rate': 9.304275070200697e-07, 'epoch': 3.46} |
|
{'train_accuracy': 0.828125, 'epoch': 3.46} |
|
{'loss': 1.0989, 'grad_norm': 7.354846000671387, 'learning_rate': 9.214704331917356e-07, 'epoch': 3.47} |
|
{'train_accuracy': 0.90625, 'epoch': 3.47} |
|
{'loss': 0.7869, 'grad_norm': 5.987973213195801, 'learning_rate': 9.125545995029616e-07, 'epoch': 3.47} |
|
{'train_accuracy': 0.859375, 'epoch': 3.47} |
|
{'loss': 0.77, 'grad_norm': 5.579070568084717, 'learning_rate': 9.036800464548157e-07, 'epoch': 3.47} |
|
{'train_accuracy': 0.890625, 'epoch': 3.47} |
|
{'loss': 0.9525, 'grad_norm': 7.5642523765563965, 'learning_rate': 8.948468143608624e-07, 'epoch': 3.47} |
|
{'train_accuracy': 0.921875, 'epoch': 3.47} |
|
{'loss': 0.9917, 'grad_norm': 6.69650936126709, 'learning_rate': 8.860549433469445e-07, 'epoch': 3.48} |
|
{'train_accuracy': 0.859375, 'epoch': 3.48} |
|
{'loss': 0.9126, 'grad_norm': 6.561551570892334, 'learning_rate': 8.773044733510338e-07, 'epoch': 3.48} |
|
{'train_accuracy': 0.875, 'epoch': 3.48} |
|
{'loss': 0.8538, 'grad_norm': 4.962501525878906, 'learning_rate': 8.685954441230182e-07, 'epoch': 3.48} |
|
{'train_accuracy': 0.859375, 'epoch': 3.48} |
|
{'loss': 0.9084, 'grad_norm': 5.327600479125977, 'learning_rate': 8.599278952245504e-07, 'epoch': 3.48} |
|
{'train_accuracy': 0.796875, 'epoch': 3.48} |
|
{'loss': 1.0999, 'grad_norm': 7.786504745483398, 'learning_rate': 8.513018660288475e-07, 'epoch': 3.49} |
|
{'train_accuracy': 0.9375, 'epoch': 3.49} |
|
{'loss': 0.7703, 'grad_norm': 7.61739444732666, 'learning_rate': 8.427173957205193e-07, 'epoch': 3.49} |
|
{'train_accuracy': 0.828125, 'epoch': 3.49} |
|
{'loss': 0.8911, 'grad_norm': 5.046051502227783, 'learning_rate': 8.341745232953913e-07, 'epoch': 3.49} |
|
{'train_accuracy': 0.859375, 'epoch': 3.49} |
|
{'loss': 0.9453, 'grad_norm': 6.484220027923584, 'learning_rate': 8.256732875603269e-07, 'epoch': 3.49} |
|
{'train_accuracy': 0.859375, 'epoch': 3.49} |
|
{'loss': 0.7571, 'grad_norm': 5.907304286956787, 'learning_rate': 8.172137271330494e-07, 'epoch': 3.5} |
|
{'train_accuracy': 0.890625, 'epoch': 3.5} |
|
{'loss': 0.7827, 'grad_norm': 5.444192409515381, 'learning_rate': 8.087958804419682e-07, 'epoch': 3.5} |
|
{'train_accuracy': 0.9375, 'epoch': 3.5} |
|
{'loss': 1.0444, 'grad_norm': 9.199472427368164, 'learning_rate': 8.004197857260043e-07, 'epoch': 3.5} |
|
{'train_accuracy': 0.78125, 'epoch': 3.5} |
|
{'loss': 0.915, 'grad_norm': 5.791006565093994, 'learning_rate': 7.920854810344159e-07, 'epoch': 3.51} |
|
{'train_accuracy': 0.921875, 'epoch': 3.51} |
|
{'loss': 0.7422, 'grad_norm': 4.752233982086182, 'learning_rate': 7.837930042266262e-07, 'epoch': 3.51} |
|
{'train_accuracy': 0.890625, 'epoch': 3.51} |
|
{'loss': 0.7988, 'grad_norm': 6.618746757507324, 'learning_rate': 7.755423929720496e-07, 'epoch': 3.51} |
|
{'train_accuracy': 0.796875, 'epoch': 3.51} |
|
{'loss': 0.8191, 'grad_norm': 5.868110179901123, 'learning_rate': 7.673336847499235e-07, 'epoch': 3.51} |
|
{'train_accuracy': 0.875, 'epoch': 3.51} |
|
{'loss': 0.9233, 'grad_norm': 7.067508220672607, 'learning_rate': 7.591669168491355e-07, 'epoch': 3.52} |
|
{'train_accuracy': 0.90625, 'epoch': 3.52} |
|
{'loss': 0.8657, 'grad_norm': 5.433889389038086, 'learning_rate': 7.510421263680567e-07, 'epoch': 3.52} |
|
{'train_accuracy': 0.875, 'epoch': 3.52} |
|
{'loss': 0.9448, 'grad_norm': 6.573571681976318, 'learning_rate': 7.429593502143684e-07, 'epoch': 3.52} |
|
{'train_accuracy': 0.84375, 'epoch': 3.52} |
|
{'loss': 0.9507, 'grad_norm': 10.058076858520508, 'learning_rate': 7.349186251049012e-07, 'epoch': 3.52} |
|
{'train_accuracy': 0.859375, 'epoch': 3.52} |
|
{'loss': 0.8738, 'grad_norm': 7.550402641296387, 'learning_rate': 7.26919987565462e-07, 'epoch': 3.53} |
|
{'train_accuracy': 0.71875, 'epoch': 3.53} |
|
{'loss': 1.0415, 'grad_norm': 7.782090663909912, 'learning_rate': 7.189634739306705e-07, 'epoch': 3.53} |
|
{'train_accuracy': 0.921875, 'epoch': 3.53} |
|
{'loss': 0.7476, 'grad_norm': 4.73071813583374, 'learning_rate': 7.110491203437985e-07, 'epoch': 3.53} |
|
{'train_accuracy': 0.875, 'epoch': 3.53} |
|
{'loss': 0.8374, 'grad_norm': 5.576818466186523, 'learning_rate': 7.031769627565944e-07, 'epoch': 3.53} |
|
{'train_accuracy': 0.921875, 'epoch': 3.53} |
|
{'loss': 1.1177, 'grad_norm': 6.697592735290527, 'learning_rate': 6.953470369291349e-07, 'epoch': 3.54} |
|
{'train_accuracy': 0.859375, 'epoch': 3.54} |
|
{'loss': 0.7524, 'grad_norm': 6.47061014175415, 'learning_rate': 6.875593784296453e-07, 'epoch': 3.54} |
|
{'train_accuracy': 0.859375, 'epoch': 3.54} |
|
{'loss': 0.7229, 'grad_norm': 4.739287376403809, 'learning_rate': 6.798140226343597e-07, 'epoch': 3.54} |
|
{'train_accuracy': 0.90625, 'epoch': 3.54} |
|
{'loss': 0.9312, 'grad_norm': 5.039734363555908, 'learning_rate': 6.721110047273338e-07, 'epoch': 3.54} |
|
{'train_accuracy': 0.859375, 'epoch': 3.54} |
|
{'loss': 0.8936, 'grad_norm': 5.539333820343018, 'learning_rate': 6.644503597003127e-07, 'epoch': 3.55} |
|
{'train_accuracy': 0.890625, 'epoch': 3.55} |
|
{'loss': 0.855, 'grad_norm': 6.957169055938721, 'learning_rate': 6.568321223525453e-07, 'epoch': 3.55} |
|
{'train_accuracy': 0.828125, 'epoch': 3.55} |
|
{'loss': 0.875, 'grad_norm': 6.129119873046875, 'learning_rate': 6.492563272906527e-07, 'epoch': 3.55} |
|
{'train_accuracy': 0.90625, 'epoch': 3.55} |
|
{'loss': 0.6982, 'grad_norm': 5.711894512176514, 'learning_rate': 6.417230089284443e-07, 'epoch': 3.56} |
|
{'train_accuracy': 0.875, 'epoch': 3.56} |
|
{'loss': 0.7727, 'grad_norm': 6.5783281326293945, 'learning_rate': 6.342322014867874e-07, 'epoch': 3.56} |
|
{'train_accuracy': 0.90625, 'epoch': 3.56} |
|
{'loss': 0.689, 'grad_norm': 4.89669942855835, 'learning_rate': 6.267839389934272e-07, 'epoch': 3.56} |
|
{'train_accuracy': 0.90625, 'epoch': 3.56} |
|
{'loss': 0.6511, 'grad_norm': 6.40932559967041, 'learning_rate': 6.193782552828564e-07, 'epoch': 3.56} |
|
{'train_accuracy': 0.875, 'epoch': 3.56} |
|
{'loss': 0.6316, 'grad_norm': 4.5982537269592285, 'learning_rate': 6.120151839961363e-07, 'epoch': 3.57} |
|
{'train_accuracy': 0.90625, 'epoch': 3.57} |
|
{'loss': 0.8232, 'grad_norm': 5.86193323135376, 'learning_rate': 6.046947585807695e-07, 'epoch': 3.57} |
|
{'train_accuracy': 0.9375, 'epoch': 3.57} |
|
{'loss': 0.8751, 'grad_norm': 5.416151523590088, 'learning_rate': 5.974170122905243e-07, 'epoch': 3.57} |
|
{'train_accuracy': 0.875, 'epoch': 3.57} |
|
{'loss': 0.698, 'grad_norm': 5.604320526123047, 'learning_rate': 5.901819781853047e-07, 'epoch': 3.57} |
|
{'train_accuracy': 0.90625, 'epoch': 3.57} |
|
{'loss': 0.865, 'grad_norm': 6.725011348724365, 'learning_rate': 5.829896891309806e-07, 'epoch': 3.58} |
|
{'train_accuracy': 0.90625, 'epoch': 3.58} |
|
{'loss': 0.8921, 'grad_norm': 9.378782272338867, 'learning_rate': 5.758401777992572e-07, 'epoch': 3.58} |
|
{'train_accuracy': 0.890625, 'epoch': 3.58} |
|
{'loss': 0.7825, 'grad_norm': 5.4865007400512695, 'learning_rate': 5.687334766675123e-07, 'epoch': 3.58} |
|
{'train_accuracy': 0.859375, 'epoch': 3.58} |
|
{'loss': 0.8823, 'grad_norm': 6.844651222229004, 'learning_rate': 5.616696180186553e-07, 'epoch': 3.58} |
|
{'train_accuracy': 0.8125, 'epoch': 3.58} |
|
{'loss': 0.6953, 'grad_norm': 6.643460273742676, 'learning_rate': 5.546486339409773e-07, 'epoch': 3.59} |
|
{'train_accuracy': 0.734375, 'epoch': 3.59} |
|
{'loss': 0.9561, 'grad_norm': 7.437619686126709, 'learning_rate': 5.476705563280116e-07, 'epoch': 3.59} |
|
{'train_accuracy': 0.90625, 'epoch': 3.59} |
|
{'loss': 0.666, 'grad_norm': 4.695252895355225, 'learning_rate': 5.407354168783807e-07, 'epoch': 3.59} |
|
{'train_accuracy': 0.890625, 'epoch': 3.59} |
|
{'loss': 0.915, 'grad_norm': 5.690319061279297, 'learning_rate': 5.33843247095659e-07, 'epoch': 3.59} |
|
{'train_accuracy': 0.9375, 'epoch': 3.59} |
|
{'loss': 0.7043, 'grad_norm': 6.777496337890625, 'learning_rate': 5.269940782882233e-07, 'epoch': 3.6} |
|
{'train_accuracy': 0.84375, 'epoch': 3.6} |
|
{'loss': 0.8772, 'grad_norm': 6.535483360290527, 'learning_rate': 5.20187941569118e-07, 'epoch': 3.6} |
|
{'eval_accuracy': 0.7109622955322266, 'eval_max_score': 11.125, 'eval_min_score': -13.4375, 'eval_runtime': 151.4455, 'eval_samples_per_second': 18.733, 'eval_steps_per_second': 0.297, 'epoch': 3.6} |
|
{'train_accuracy': 0.890625, 'epoch': 3.6} |
|
{'loss': 0.769, 'grad_norm': 6.642302989959717, 'learning_rate': 5.134248678559072e-07, 'epoch': 3.6} |
|
{'train_accuracy': 0.84375, 'epoch': 3.6} |
|
{'loss': 0.8142, 'grad_norm': 5.750308036804199, 'learning_rate': 5.067048878705383e-07, 'epoch': 3.61} |
|
{'train_accuracy': 0.828125, 'epoch': 3.61} |
|
{'loss': 0.7988, 'grad_norm': 5.423074245452881, 'learning_rate': 5.000280321392004e-07, 'epoch': 3.61} |
|
{'train_accuracy': 0.890625, 'epoch': 3.61} |
|
{'loss': 1.0742, 'grad_norm': 5.945747375488281, 'learning_rate': 4.933943309921862e-07, 'epoch': 3.61} |
|
{'train_accuracy': 0.9375, 'epoch': 3.61} |
|
{'loss': 0.9067, 'grad_norm': 7.78245210647583, 'learning_rate': 4.868038145637566e-07, 'epoch': 3.61} |
|
{'train_accuracy': 0.796875, 'epoch': 3.61} |
|
{'loss': 0.8911, 'grad_norm': 7.036494731903076, 'learning_rate': 4.802565127919967e-07, 'epoch': 3.62} |
|
{'train_accuracy': 0.875, 'epoch': 3.62} |
|
{'loss': 0.7522, 'grad_norm': 4.94215726852417, 'learning_rate': 4.73752455418689e-07, 'epoch': 3.62} |
|
{'train_accuracy': 0.796875, 'epoch': 3.62} |
|
{'loss': 1.0239, 'grad_norm': 6.040024757385254, 'learning_rate': 4.6729167198917293e-07, 'epoch': 3.62} |
|
{'train_accuracy': 0.84375, 'epoch': 3.62} |
|
{'loss': 0.9067, 'grad_norm': 4.882493495941162, 'learning_rate': 4.6087419185220973e-07, 'epoch': 3.62} |
|
{'train_accuracy': 0.84375, 'epoch': 3.62} |
|
{'loss': 0.9243, 'grad_norm': 6.596987724304199, 'learning_rate': 4.545000441598557e-07, 'epoch': 3.63} |
|
{'train_accuracy': 0.84375, 'epoch': 3.63} |
|
{'loss': 0.894, 'grad_norm': 6.559911727905273, 'learning_rate': 4.481692578673169e-07, 'epoch': 3.63} |
|
{'train_accuracy': 0.890625, 'epoch': 3.63} |
|
{'loss': 0.8372, 'grad_norm': 4.946629524230957, 'learning_rate': 4.418818617328369e-07, 'epoch': 3.63} |
|
{'train_accuracy': 0.875, 'epoch': 3.63} |
|
{'loss': 0.8743, 'grad_norm': 4.552062034606934, 'learning_rate': 4.356378843175446e-07, 'epoch': 3.63} |
|
{'train_accuracy': 0.875, 'epoch': 3.63} |
|
{'loss': 0.8052, 'grad_norm': 5.209609031677246, 'learning_rate': 4.2943735398534246e-07, 'epoch': 3.64} |
|
{'train_accuracy': 0.84375, 'epoch': 3.64} |
|
{'loss': 1.0181, 'grad_norm': 7.821629524230957, 'learning_rate': 4.232802989027629e-07, 'epoch': 3.64} |
|
{'train_accuracy': 0.796875, 'epoch': 3.64} |
|
{'loss': 1.1377, 'grad_norm': 8.805258750915527, 'learning_rate': 4.171667470388574e-07, 'epoch': 3.64} |
|
{'train_accuracy': 0.84375, 'epoch': 3.64} |
|
{'loss': 0.9255, 'grad_norm': 6.199164390563965, 'learning_rate': 4.110967261650489e-07, 'epoch': 3.64} |
|
{'train_accuracy': 0.875, 'epoch': 3.64} |
|
{'loss': 0.7688, 'grad_norm': 4.666980266571045, 'learning_rate': 4.0507026385502747e-07, 'epoch': 3.65} |
|
{'train_accuracy': 0.796875, 'epoch': 3.65} |
|
{'loss': 0.9492, 'grad_norm': 6.014039993286133, 'learning_rate': 3.990873874846013e-07, 'epoch': 3.65} |
|
{'train_accuracy': 0.859375, 'epoch': 3.65} |
|
{'loss': 0.7153, 'grad_norm': 4.869380950927734, 'learning_rate': 3.931481242315993e-07, 'epoch': 3.65} |
|
{'train_accuracy': 0.890625, 'epoch': 3.65} |
|
{'loss': 0.8467, 'grad_norm': 5.03730583190918, 'learning_rate': 3.8725250107571887e-07, 'epoch': 3.66} |
|
{'train_accuracy': 0.953125, 'epoch': 3.66} |
|
{'loss': 0.6509, 'grad_norm': 7.302511692047119, 'learning_rate': 3.814005447984315e-07, 'epoch': 3.66} |
|
{'train_accuracy': 0.84375, 'epoch': 3.66} |
|
{'loss': 0.8364, 'grad_norm': 7.450629711151123, 'learning_rate': 3.7559228198283505e-07, 'epoch': 3.66} |
|
{'train_accuracy': 0.90625, 'epoch': 3.66} |
|
{'loss': 0.8926, 'grad_norm': 7.157631874084473, 'learning_rate': 3.6982773901355626e-07, 'epoch': 3.66} |
|
{'train_accuracy': 0.90625, 'epoch': 3.66} |
|
{'loss': 0.9307, 'grad_norm': 6.8965840339660645, 'learning_rate': 3.641069420766108e-07, 'epoch': 3.67} |
|
{'train_accuracy': 0.890625, 'epoch': 3.67} |
|
{'loss': 0.8076, 'grad_norm': 5.144319534301758, 'learning_rate': 3.58429917159302e-07, 'epoch': 3.67} |
|
{'train_accuracy': 0.875, 'epoch': 3.67} |
|
{'loss': 0.7998, 'grad_norm': 5.101710319519043, 'learning_rate': 3.5279669005008786e-07, 'epoch': 3.67} |
|
{'train_accuracy': 0.828125, 'epoch': 3.67} |
|
{'loss': 0.771, 'grad_norm': 5.39324426651001, 'learning_rate': 3.4720728633847235e-07, 'epoch': 3.67} |
|
{'train_accuracy': 0.890625, 'epoch': 3.67} |
|
{'loss': 0.7695, 'grad_norm': 8.216167449951172, 'learning_rate': 3.416617314148896e-07, 'epoch': 3.68} |
|
{'train_accuracy': 0.875, 'epoch': 3.68} |
|
{'loss': 0.8184, 'grad_norm': 4.266907691955566, 'learning_rate': 3.36160050470582e-07, 'epoch': 3.68} |
|
{'train_accuracy': 0.875, 'epoch': 3.68} |
|
{'loss': 0.8953, 'grad_norm': 9.431413650512695, 'learning_rate': 3.3070226849749367e-07, 'epoch': 3.68} |
|
{'train_accuracy': 0.8125, 'epoch': 3.68} |
|
{'loss': 1.0225, 'grad_norm': 7.751030445098877, 'learning_rate': 3.252884102881515e-07, 'epoch': 3.68} |
|
{'train_accuracy': 0.890625, 'epoch': 3.68} |
|
{'loss': 0.687, 'grad_norm': 5.091083526611328, 'learning_rate': 3.199185004355543e-07, 'epoch': 3.69} |
|
{'train_accuracy': 0.890625, 'epoch': 3.69} |
|
{'loss': 0.834, 'grad_norm': 5.090567588806152, 'learning_rate': 3.1459256333306044e-07, 'epoch': 3.69} |
|
{'train_accuracy': 0.828125, 'epoch': 3.69} |
|
{'loss': 0.9241, 'grad_norm': 6.143687725067139, 'learning_rate': 3.093106231742793e-07, 'epoch': 3.69} |
|
{'train_accuracy': 0.890625, 'epoch': 3.69} |
|
{'loss': 0.9238, 'grad_norm': 5.69082498550415, 'learning_rate': 3.04072703952959e-07, 'epoch': 3.69} |
|
{'train_accuracy': 0.875, 'epoch': 3.69} |
|
{'loss': 0.8506, 'grad_norm': 4.9670491218566895, 'learning_rate': 2.988788294628764e-07, 'epoch': 3.7} |
|
{'train_accuracy': 0.859375, 'epoch': 3.7} |
|
{'loss': 0.8594, 'grad_norm': 6.865701198577881, 'learning_rate': 2.93729023297733e-07, 'epoch': 3.7} |
|
{'train_accuracy': 0.90625, 'epoch': 3.7} |
|
{'loss': 0.917, 'grad_norm': 7.327455520629883, 'learning_rate': 2.8862330885104485e-07, 'epoch': 3.7} |
|
{'train_accuracy': 0.90625, 'epoch': 3.7} |
|
{'loss': 0.6611, 'grad_norm': 4.919546604156494, 'learning_rate': 2.8356170931603587e-07, 'epoch': 3.71} |
|
{'train_accuracy': 0.828125, 'epoch': 3.71} |
|
{'loss': 1.0083, 'grad_norm': 6.415260314941406, 'learning_rate': 2.78544247685536e-07, 'epoch': 3.71} |
|
{'train_accuracy': 0.9375, 'epoch': 3.71} |
|
{'loss': 0.6174, 'grad_norm': 7.830519676208496, 'learning_rate': 2.735709467518699e-07, 'epoch': 3.71} |
|
{'train_accuracy': 0.75, 'epoch': 3.71} |
|
{'loss': 1.0508, 'grad_norm': 6.5190229415893555, 'learning_rate': 2.6864182910676275e-07, 'epoch': 3.71} |
|
{'train_accuracy': 0.90625, 'epoch': 3.71} |
|
{'loss': 0.9497, 'grad_norm': 5.143101692199707, 'learning_rate': 2.637569171412302e-07, 'epoch': 3.72} |
|
{'train_accuracy': 0.828125, 'epoch': 3.72} |
|
{'loss': 1.0107, 'grad_norm': 8.717037200927734, 'learning_rate': 2.5891623304547644e-07, 'epoch': 3.72} |
|
{'train_accuracy': 0.875, 'epoch': 3.72} |
|
{'loss': 0.8257, 'grad_norm': 10.112276077270508, 'learning_rate': 2.54119798808804e-07, 'epoch': 3.72} |
|
{'train_accuracy': 0.8125, 'epoch': 3.72} |
|
{'loss': 1.1211, 'grad_norm': 6.264548301696777, 'learning_rate': 2.4936763621949743e-07, 'epoch': 3.72} |
|
{'train_accuracy': 0.921875, 'epoch': 3.72} |
|
{'loss': 0.6389, 'grad_norm': 5.747198581695557, 'learning_rate': 2.446597668647366e-07, 'epoch': 3.73} |
|
{'train_accuracy': 0.875, 'epoch': 3.73} |
|
{'loss': 0.7246, 'grad_norm': 4.447943210601807, 'learning_rate': 2.399962121304966e-07, 'epoch': 3.73} |
|
{'train_accuracy': 0.875, 'epoch': 3.73} |
|
{'loss': 0.7841, 'grad_norm': 6.314094066619873, 'learning_rate': 2.3537699320144493e-07, 'epoch': 3.73} |
|
{'train_accuracy': 0.90625, 'epoch': 3.73} |
|
{'loss': 0.8262, 'grad_norm': 5.254788398742676, 'learning_rate': 2.3080213106085104e-07, 'epoch': 3.73} |
|
{'train_accuracy': 0.90625, 'epoch': 3.73} |
|
{'loss': 0.7561, 'grad_norm': 5.414982318878174, 'learning_rate': 2.2627164649049128e-07, 'epoch': 3.74} |
|
{'train_accuracy': 0.890625, 'epoch': 3.74} |
|
{'loss': 0.7996, 'grad_norm': 6.738826751708984, 'learning_rate': 2.2178556007054876e-07, 'epoch': 3.74} |
|
{'train_accuracy': 0.828125, 'epoch': 3.74} |
|
{'loss': 1.0396, 'grad_norm': 9.523528099060059, 'learning_rate': 2.1734389217952455e-07, 'epoch': 3.74} |
|
{'train_accuracy': 0.875, 'epoch': 3.74} |
|
{'loss': 0.7188, 'grad_norm': 9.194483757019043, 'learning_rate': 2.129466629941468e-07, 'epoch': 3.74} |
|
{'train_accuracy': 0.875, 'epoch': 3.74} |
|
{'loss': 0.8308, 'grad_norm': 5.894323348999023, 'learning_rate': 2.0859389248927275e-07, 'epoch': 3.75} |
|
{'train_accuracy': 0.765625, 'epoch': 3.75} |
|
{'loss': 0.9111, 'grad_norm': 8.306107521057129, 'learning_rate': 2.0428560043780355e-07, 'epoch': 3.75} |
|
{'train_accuracy': 0.921875, 'epoch': 3.75} |
|
{'loss': 0.8145, 'grad_norm': 6.247003078460693, 'learning_rate': 2.000218064105919e-07, 'epoch': 3.75} |
|
{'train_accuracy': 0.875, 'epoch': 3.75} |
|
{'loss': 0.9038, 'grad_norm': 7.513801574707031, 'learning_rate': 1.9580252977635327e-07, 'epoch': 3.76} |
|
{'train_accuracy': 0.890625, 'epoch': 3.76} |
|
{'loss': 0.6511, 'grad_norm': 4.72861909866333, 'learning_rate': 1.9162778970157947e-07, 'epoch': 3.76} |
|
{'train_accuracy': 0.921875, 'epoch': 3.76} |
|
{'loss': 0.8096, 'grad_norm': 6.055332183837891, 'learning_rate': 1.8749760515044957e-07, 'epoch': 3.76} |
|
{'train_accuracy': 0.84375, 'epoch': 3.76} |
|
{'loss': 0.9575, 'grad_norm': 5.819669723510742, 'learning_rate': 1.834119948847457e-07, 'epoch': 3.76} |
|
{'train_accuracy': 0.84375, 'epoch': 3.76} |
|
{'loss': 0.8774, 'grad_norm': 6.1318511962890625, 'learning_rate': 1.793709774637653e-07, 'epoch': 3.77} |
|
{'train_accuracy': 0.8125, 'epoch': 3.77} |
|
{'loss': 0.7466, 'grad_norm': 5.945221900939941, 'learning_rate': 1.7537457124423896e-07, 'epoch': 3.77} |
|
{'train_accuracy': 0.859375, 'epoch': 3.77} |
|
{'loss': 0.9128, 'grad_norm': 9.892115592956543, 'learning_rate': 1.7142279438024713e-07, 'epoch': 3.77} |
|
{'train_accuracy': 0.859375, 'epoch': 3.77} |
|
{'loss': 0.9673, 'grad_norm': 6.725366115570068, 'learning_rate': 1.6751566482313463e-07, 'epoch': 3.77} |
|
{'train_accuracy': 0.828125, 'epoch': 3.77} |
|
{'loss': 1.1465, 'grad_norm': 7.097107410430908, 'learning_rate': 1.6365320032143527e-07, 'epoch': 3.78} |
|
{'train_accuracy': 0.890625, 'epoch': 3.78} |
|
{'loss': 0.7777, 'grad_norm': 5.92283296585083, 'learning_rate': 1.5983541842078398e-07, 'epoch': 3.78} |
|
{'train_accuracy': 0.875, 'epoch': 3.78} |
|
{'loss': 0.6826, 'grad_norm': 5.0878143310546875, 'learning_rate': 1.560623364638414e-07, 'epoch': 3.78} |
|
{'train_accuracy': 0.84375, 'epoch': 3.78} |
|
{'loss': 0.8191, 'grad_norm': 7.022207260131836, 'learning_rate': 1.523339715902139e-07, 'epoch': 3.78} |
|
{'train_accuracy': 0.8125, 'epoch': 3.78} |
|
{'loss': 0.9409, 'grad_norm': 6.04548454284668, 'learning_rate': 1.486503407363782e-07, 'epoch': 3.79} |
|
{'train_accuracy': 0.84375, 'epoch': 3.79} |
|
{'loss': 1.0864, 'grad_norm': 10.105904579162598, 'learning_rate': 1.450114606355979e-07, 'epoch': 3.79} |
|
{'train_accuracy': 0.859375, 'epoch': 3.79} |
|
{'loss': 0.8865, 'grad_norm': 7.647596836090088, 'learning_rate': 1.41417347817856e-07, 'epoch': 3.79} |
|
{'train_accuracy': 0.8125, 'epoch': 3.79} |
|
{'loss': 1.1155, 'grad_norm': 6.55628776550293, 'learning_rate': 1.3786801860977138e-07, 'epoch': 3.79} |
|
{'train_accuracy': 0.859375, 'epoch': 3.79} |
|
{'loss': 0.877, 'grad_norm': 6.652747631072998, 'learning_rate': 1.3436348913453578e-07, 'epoch': 3.8} |
|
{'train_accuracy': 0.84375, 'epoch': 3.8} |
|
{'loss': 0.7061, 'grad_norm': 5.4360032081604, 'learning_rate': 1.3090377531182364e-07, 'epoch': 3.8} |
|
{'eval_accuracy': 0.7134296894073486, 'eval_max_score': 11.5625, 'eval_min_score': -13.25, 'eval_runtime': 151.4119, 'eval_samples_per_second': 18.737, 'eval_steps_per_second': 0.297, 'epoch': 3.8} |
|
{'train_accuracy': 0.890625, 'epoch': 3.8} |
|
{'loss': 0.7708, 'grad_norm': 8.141218185424805, 'learning_rate': 1.2748889285774002e-07, 'epoch': 3.8} |
|
{'train_accuracy': 0.828125, 'epoch': 3.8} |
|
{'loss': 1.0728, 'grad_norm': 9.344526290893555, 'learning_rate': 1.241188572847296e-07, 'epoch': 3.81} |
|
{'train_accuracy': 0.84375, 'epoch': 3.81} |
|
{'loss': 0.8359, 'grad_norm': 7.375489234924316, 'learning_rate': 1.2079368390152446e-07, 'epoch': 3.81} |
|
{'train_accuracy': 0.875, 'epoch': 3.81} |
|
{'loss': 0.6541, 'grad_norm': 7.120669841766357, 'learning_rate': 1.1751338781305854e-07, 'epoch': 3.81} |
|
{'train_accuracy': 0.859375, 'epoch': 3.81} |
|
{'loss': 0.9011, 'grad_norm': 6.789575576782227, 'learning_rate': 1.142779839204089e-07, 'epoch': 3.81} |
|
{'train_accuracy': 0.84375, 'epoch': 3.81} |
|
{'loss': 0.8013, 'grad_norm': 4.636354923248291, 'learning_rate': 1.110874869207268e-07, 'epoch': 3.82} |
|
{'train_accuracy': 0.859375, 'epoch': 3.82} |
|
{'loss': 0.8926, 'grad_norm': 5.722029685974121, 'learning_rate': 1.079419113071678e-07, 'epoch': 3.82} |
|
{'train_accuracy': 0.859375, 'epoch': 3.82} |
|
{'loss': 1.0366, 'grad_norm': 7.031396865844727, 'learning_rate': 1.0484127136882627e-07, 'epoch': 3.82} |
|
{'train_accuracy': 0.875, 'epoch': 3.82} |
|
{'loss': 0.7656, 'grad_norm': 4.9844651222229, 'learning_rate': 1.0178558119067316e-07, 'epoch': 3.82} |
|
{'train_accuracy': 0.859375, 'epoch': 3.82} |
|
{'loss': 1.1079, 'grad_norm': 8.02027416229248, 'learning_rate': 9.877485465349057e-08, 'epoch': 3.83} |
|
{'train_accuracy': 0.828125, 'epoch': 3.83} |
|
{'loss': 0.8298, 'grad_norm': 6.716357707977295, 'learning_rate': 9.580910543380839e-08, 'epoch': 3.83} |
|
{'train_accuracy': 0.90625, 'epoch': 3.83} |
|
{'loss': 0.9429, 'grad_norm': 10.892178535461426, 'learning_rate': 9.288834700384441e-08, 'epoch': 3.83} |
|
{'train_accuracy': 0.90625, 'epoch': 3.83} |
|
{'loss': 0.9136, 'grad_norm': 10.586390495300293, 'learning_rate': 9.001259263143769e-08, 'epoch': 3.83} |
|
{'train_accuracy': 0.890625, 'epoch': 3.83} |
|
{'loss': 0.7913, 'grad_norm': 8.095308303833008, 'learning_rate': 8.718185537999302e-08, 'epoch': 3.84} |
|
{'train_accuracy': 0.8125, 'epoch': 3.84} |
|
{'loss': 0.9375, 'grad_norm': 5.505589008331299, 'learning_rate': 8.439614810842211e-08, 'epoch': 3.84} |
|
{'train_accuracy': 0.90625, 'epoch': 3.84} |
|
{'loss': 0.7466, 'grad_norm': 5.2070231437683105, 'learning_rate': 8.165548347108254e-08, 'epoch': 3.84} |
|
{'train_accuracy': 0.90625, 'epoch': 3.84} |
|
{'loss': 0.6652, 'grad_norm': 4.662224769592285, 'learning_rate': 7.895987391771998e-08, 'epoch': 3.84} |
|
{'train_accuracy': 0.859375, 'epoch': 3.84} |
|
{'loss': 0.8708, 'grad_norm': 5.000279426574707, 'learning_rate': 7.630933169341493e-08, 'epoch': 3.85} |
|
{'train_accuracy': 0.78125, 'epoch': 3.85} |
|
{'loss': 1.1318, 'grad_norm': 8.080231666564941, 'learning_rate': 7.370386883852165e-08, 'epoch': 3.85} |
|
{'train_accuracy': 0.90625, 'epoch': 3.85} |
|
{'loss': 0.906, 'grad_norm': 10.200188636779785, 'learning_rate': 7.114349718862045e-08, 'epoch': 3.85} |
|
{'train_accuracy': 0.890625, 'epoch': 3.85} |
|
{'loss': 0.8738, 'grad_norm': 5.127605438232422, 'learning_rate': 6.862822837445882e-08, 'epoch': 3.86} |
|
{'train_accuracy': 0.796875, 'epoch': 3.86} |
|
{'loss': 1.1709, 'grad_norm': 7.480038642883301, 'learning_rate': 6.61580738218992e-08, 'epoch': 3.86} |
|
{'train_accuracy': 0.875, 'epoch': 3.86} |
|
{'loss': 0.8499, 'grad_norm': 5.7492852210998535, 'learning_rate': 6.373304475186803e-08, 'epoch': 3.86} |
|
{'train_accuracy': 0.953125, 'epoch': 3.86} |
|
{'loss': 0.5709, 'grad_norm': 4.850841522216797, 'learning_rate': 6.13531521803068e-08, 'epoch': 3.86} |
|
{'train_accuracy': 0.875, 'epoch': 3.86} |
|
{'loss': 1.0337, 'grad_norm': 7.0631422996521, 'learning_rate': 5.9018406918118774e-08, 'epoch': 3.87} |
|
{'train_accuracy': 0.796875, 'epoch': 3.87} |
|
{'loss': 0.877, 'grad_norm': 6.850086212158203, 'learning_rate': 5.672881957111909e-08, 'epoch': 3.87} |
|
{'train_accuracy': 0.875, 'epoch': 3.87} |
|
{'loss': 0.6685, 'grad_norm': 5.157078742980957, 'learning_rate': 5.448440053999138e-08, 'epoch': 3.87} |
|
{'train_accuracy': 0.859375, 'epoch': 3.87} |
|
{'loss': 0.8005, 'grad_norm': 7.3163862228393555, 'learning_rate': 5.228516002023565e-08, 'epoch': 3.87} |
|
{'train_accuracy': 0.890625, 'epoch': 3.87} |
|
{'loss': 0.8091, 'grad_norm': 6.442539215087891, 'learning_rate': 5.013110800212384e-08, 'epoch': 3.88} |
|
{'train_accuracy': 0.859375, 'epoch': 3.88} |
|
{'loss': 0.9438, 'grad_norm': 5.667739391326904, 'learning_rate': 4.802225427065654e-08, 'epoch': 3.88} |
|
{'train_accuracy': 0.921875, 'epoch': 3.88} |
|
{'loss': 0.8308, 'grad_norm': 6.527713775634766, 'learning_rate': 4.5958608405515246e-08, 'epoch': 3.88} |
|
{'train_accuracy': 0.875, 'epoch': 3.88} |
|
{'loss': 0.8254, 'grad_norm': 6.002090930938721, 'learning_rate': 4.394017978101905e-08, 'epoch': 3.88} |
|
{'train_accuracy': 0.875, 'epoch': 3.88} |
|
{'loss': 0.9932, 'grad_norm': 13.156556129455566, 'learning_rate': 4.196697756608581e-08, 'epoch': 3.89} |
|
{'train_accuracy': 0.84375, 'epoch': 3.89} |
|
{'loss': 0.937, 'grad_norm': 7.244754791259766, 'learning_rate': 4.0039010724184366e-08, 'epoch': 3.89} |
|
{'train_accuracy': 0.8125, 'epoch': 3.89} |
|
{'loss': 0.8892, 'grad_norm': 5.323999404907227, 'learning_rate': 3.815628801330129e-08, 'epoch': 3.89} |
|
{'train_accuracy': 0.796875, 'epoch': 3.89} |
|
{'loss': 1.0068, 'grad_norm': 6.918015003204346, 'learning_rate': 3.6318817985894206e-08, 'epoch': 3.89} |
|
{'train_accuracy': 0.875, 'epoch': 3.89} |
|
{'loss': 0.7729, 'grad_norm': 6.255131244659424, 'learning_rate': 3.45266089888574e-08, 'epoch': 3.9} |
|
{'train_accuracy': 0.875, 'epoch': 3.9} |
|
{'loss': 0.8022, 'grad_norm': 7.700157165527344, 'learning_rate': 3.277966916347963e-08, 'epoch': 3.9} |
|
{'train_accuracy': 0.84375, 'epoch': 3.9} |
|
{'loss': 0.7759, 'grad_norm': 6.339673042297363, 'learning_rate': 3.1078006445414145e-08, 'epoch': 3.9} |
|
{'train_accuracy': 0.859375, 'epoch': 3.9} |
|
{'loss': 0.957, 'grad_norm': 5.586291790008545, 'learning_rate': 2.9421628564634265e-08, 'epoch': 3.91} |
|
{'train_accuracy': 0.84375, 'epoch': 3.91} |
|
{'loss': 1.064, 'grad_norm': 6.360084533691406, 'learning_rate': 2.7810543045405648e-08, 'epoch': 3.91} |
|
{'train_accuracy': 0.953125, 'epoch': 3.91} |
|
{'loss': 0.739, 'grad_norm': 5.326403617858887, 'learning_rate': 2.6244757206247417e-08, 'epoch': 3.91} |
|
{'train_accuracy': 0.9375, 'epoch': 3.91} |
|
{'loss': 0.8335, 'grad_norm': 6.157349586486816, 'learning_rate': 2.4724278159898863e-08, 'epoch': 3.91} |
|
{'train_accuracy': 0.890625, 'epoch': 3.91} |
|
{'loss': 1.0186, 'grad_norm': 8.328683853149414, 'learning_rate': 2.3249112813291676e-08, 'epoch': 3.92} |
|
{'train_accuracy': 0.859375, 'epoch': 3.92} |
|
{'loss': 0.8733, 'grad_norm': 8.057480812072754, 'learning_rate': 2.1819267867512206e-08, 'epoch': 3.92} |
|
{'train_accuracy': 0.859375, 'epoch': 3.92} |
|
{'loss': 0.8164, 'grad_norm': 5.9042439460754395, 'learning_rate': 2.0434749817777045e-08, 'epoch': 3.92} |
|
{'train_accuracy': 0.828125, 'epoch': 3.92} |
|
{'loss': 0.9336, 'grad_norm': 6.103878021240234, 'learning_rate': 1.9095564953398594e-08, 'epoch': 3.92} |
|
{'train_accuracy': 0.9375, 'epoch': 3.92} |
|
{'loss': 0.8813, 'grad_norm': 10.032098770141602, 'learning_rate': 1.780171935775954e-08, 'epoch': 3.93} |
|
{'train_accuracy': 0.953125, 'epoch': 3.93} |
|
{'loss': 0.7488, 'grad_norm': 5.073022365570068, 'learning_rate': 1.6553218908286207e-08, 'epoch': 3.93} |
|
{'train_accuracy': 0.84375, 'epoch': 3.93} |
|
{'loss': 0.8813, 'grad_norm': 5.193045139312744, 'learning_rate': 1.535006927641636e-08, 'epoch': 3.93} |
|
{'train_accuracy': 0.921875, 'epoch': 3.93} |
|
{'loss': 0.8572, 'grad_norm': 7.310925006866455, 'learning_rate': 1.4192275927580323e-08, 'epoch': 3.93} |
|
{'train_accuracy': 0.84375, 'epoch': 3.93} |
|
{'loss': 0.8955, 'grad_norm': 5.533489227294922, 'learning_rate': 1.3079844121171026e-08, 'epoch': 3.94} |
|
{'train_accuracy': 0.90625, 'epoch': 3.94} |
|
{'loss': 0.8384, 'grad_norm': 6.022321701049805, 'learning_rate': 1.2012778910521773e-08, 'epoch': 3.94} |
|
{'train_accuracy': 0.890625, 'epoch': 3.94} |
|
{'loss': 0.8408, 'grad_norm': 5.136116981506348, 'learning_rate': 1.099108514288627e-08, 'epoch': 3.94} |
|
{'train_accuracy': 0.84375, 'epoch': 3.94} |
|
{'loss': 0.9106, 'grad_norm': 7.58246374130249, 'learning_rate': 1.0014767459409769e-08, 'epoch': 3.94} |
|
{'train_accuracy': 0.71875, 'epoch': 3.94} |
|
{'loss': 1.0283, 'grad_norm': 7.496955394744873, 'learning_rate': 9.083830295114614e-09, 'epoch': 3.95} |
|
{'train_accuracy': 0.828125, 'epoch': 3.95} |
|
{'loss': 1.0747, 'grad_norm': 5.4122314453125, 'learning_rate': 8.198277878879168e-09, 'epoch': 3.95} |
|
{'train_accuracy': 0.90625, 'epoch': 3.95} |
|
{'loss': 0.7441, 'grad_norm': 8.616875648498535, 'learning_rate': 7.3581142334122614e-09, 'epoch': 3.95} |
|
{'train_accuracy': 0.890625, 'epoch': 3.95} |
|
{'loss': 0.7217, 'grad_norm': 5.382155418395996, 'learning_rate': 6.563343175243209e-09, 'epoch': 3.96} |
|
{'train_accuracy': 0.890625, 'epoch': 3.96} |
|
{'loss': 0.6335, 'grad_norm': 5.414727210998535, 'learning_rate': 5.813968314700713e-09, 'epoch': 3.96} |
|
{'train_accuracy': 0.828125, 'epoch': 3.96} |
|
{'loss': 1.1191, 'grad_norm': 6.143625259399414, 'learning_rate': 5.109993055896212e-09, 'epoch': 3.96} |
|
{'train_accuracy': 0.84375, 'epoch': 3.96} |
|
{'loss': 0.9097, 'grad_norm': 7.317595481872559, 'learning_rate': 4.451420596706113e-09, 'epoch': 3.96} |
|
{'train_accuracy': 0.84375, 'epoch': 3.96} |
|
{'loss': 1.0115, 'grad_norm': 6.752077579498291, 'learning_rate': 3.838253928765135e-09, 'epoch': 3.97} |
|
{'train_accuracy': 0.875, 'epoch': 3.97} |
|
{'loss': 0.6831, 'grad_norm': 6.5832953453063965, 'learning_rate': 3.2704958374440987e-09, 'epoch': 3.97} |
|
{'train_accuracy': 0.828125, 'epoch': 3.97} |
|
{'loss': 0.8301, 'grad_norm': 7.169082164764404, 'learning_rate': 2.7481489018410525e-09, 'epoch': 3.97} |
|
{'train_accuracy': 0.828125, 'epoch': 3.97} |
|
{'loss': 1.0732, 'grad_norm': 6.229421615600586, 'learning_rate': 2.2712154947701627e-09, 'epoch': 3.97} |
|
{'train_accuracy': 0.859375, 'epoch': 3.97} |
|
{'loss': 0.8176, 'grad_norm': 9.258220672607422, 'learning_rate': 1.8396977827495056e-09, 'epoch': 3.98} |
|
{'train_accuracy': 0.859375, 'epoch': 3.98} |
|
{'loss': 1.0376, 'grad_norm': 6.452820777893066, 'learning_rate': 1.453597725992184e-09, 'epoch': 3.98} |
|
{'train_accuracy': 0.890625, 'epoch': 3.98} |
|
{'loss': 0.8823, 'grad_norm': 6.723094463348389, 'learning_rate': 1.1129170783974463e-09, 'epoch': 3.98} |
|
{'train_accuracy': 0.84375, 'epoch': 3.98} |
|
{'loss': 0.959, 'grad_norm': 5.933262825012207, 'learning_rate': 8.176573875406935e-10, 'epoch': 3.98} |
|
{'train_accuracy': 0.796875, 'epoch': 3.98} |
|
{'loss': 0.8926, 'grad_norm': 6.924864768981934, 'learning_rate': 5.67819994670149e-10, 'epoch': 3.99} |
|
{'train_accuracy': 0.890625, 'epoch': 3.99} |
|
{'loss': 0.9897, 'grad_norm': 9.446735382080078, 'learning_rate': 3.634060346957569e-10, 'epoch': 3.99} |
|
{'train_accuracy': 0.84375, 'epoch': 3.99} |
|
{'loss': 1.0225, 'grad_norm': 6.521078586578369, 'learning_rate': 2.0441643618918095e-10, 'epoch': 3.99} |
|
{'train_accuracy': 0.84375, 'epoch': 3.99} |
|
{'loss': 1.061, 'grad_norm': 9.099228858947754, 'learning_rate': 9.085192137714415e-11, 'epoch': 3.99} |
|
{'train_accuracy': 0.875, 'epoch': 3.99} |
|
{'loss': 0.8418, 'grad_norm': 5.087467193603516, 'learning_rate': 2.2713006138097572e-11, 'epoch': 4.0} |
|
{'train_accuracy': 0.9375, 'epoch': 4.0} |
|
{'loss': 0.6743, 'grad_norm': 4.034855842590332, 'learning_rate': 0.0, 'epoch': 4.0} |
|
{'eval_accuracy': 0.7158970832824707, 'eval_max_score': 11.5, 'eval_min_score': -13.125, 'eval_runtime': 151.4884, 'eval_samples_per_second': 18.728, 'eval_steps_per_second': 0.297, 'epoch': 4.0} |
|
{'train_runtime': 25390.1743, 'train_samples_per_second': 3.822, 'train_steps_per_second': 0.06, 'train_loss': 1.1865725868626644, 'epoch': 4.0} |
|
[2025-01-12 09:43:59,750] [INFO] [launch.py:351:main] Process 1153310 exits successfully. |
|
[2025-01-12 09:43:59,751] [INFO] [launch.py:351:main] Process 1153315 exits successfully. |
|
[2025-01-12 09:44:01,752] [INFO] [launch.py:351:main] Process 1153314 exits successfully. |
|
[2025-01-12 09:44:01,752] [INFO] [launch.py:351:main] Process 1153316 exits successfully. |
|
[2025-01-12 09:44:01,752] [INFO] [launch.py:351:main] Process 1153313 exits successfully. |
|
[2025-01-12 09:44:02,752] [INFO] [launch.py:351:main] Process 1153311 exits successfully. |
|
[2025-01-12 09:44:02,753] [INFO] [launch.py:351:main] Process 1153312 exits successfully. |
|
[1;34mwandb[0m: 🚀 View run [33mreward-harmlessness-2025-01-12-02-36-24[0m at: [34mhttps: |
|
[1;34mwandb[0m: Find logs at: [1;35mwandb/run-20250112_023625-geujnuui/logs[0m |
|
[2025-01-12 09:44:29,756] [INFO] [launch.py:351:main] Process 1153309 exits successfully. |
|
|