Training in progress, step 40

Browse files

Files changed (6) hide show

adapter_model.safetensors +1 -1
runs/Apr12_07-35-52_e5a48bec8248/events.out.tfevents.1712907354.e5a48bec8248.289.0 +2 -2
wandb/debug-internal.log +10 -0
wandb/run-20240412_073555-bw7oy9ix/files/config.yaml +663 -0
wandb/run-20240412_073555-bw7oy9ix/files/wandb-summary.json +1 -1
wandb/run-20240412_073555-bw7oy9ix/logs/debug-internal.log +10 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f5b4211357ffac39570b1f6e86556f478b9274661061048dc057539e048d76a
 size 8077608

 version https://git-lfs.github.com/spec/v1
+oid sha256:5dfbc361c2b02f401e3f14648ec78d5e8d62997d071bdac4d7915200ce8f59a3
 size 8077608

runs/Apr12_07-35-52_e5a48bec8248/events.out.tfevents.1712907354.e5a48bec8248.289.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2a24bc3f89fa8d99361dc24608208c2de729e4866df68e8d394ffeac11a1e43
-size 5489

 version https://git-lfs.github.com/spec/v1
+oid sha256:913bb113dda8007fe01268dd33a6a6f8abd869814e6e2426784ac3ea47929bf2
+size 5696

wandb/debug-internal.log CHANGED Viewed

@@ -75,3 +75,13 @@ subprocess.TimeoutExpired: Command '['conda', 'env', 'export']' timed out after
 2024-04-12 07:36:19,595 INFO    SenderThread:334 [sender.py:_save_file():1390] saving file wandb-summary.json with policy end
 2024-04-12 07:36:20,316 INFO    Thread-12 :334 [dir_watcher.py:_on_file_created():271] file/dir created: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/wandb-summary.json
 2024-04-12 07:36:21,316 INFO    Thread-12 :334 [dir_watcher.py:_on_file_modified():288] file/dir modified: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/output.log

 2024-04-12 07:36:19,595 INFO    SenderThread:334 [sender.py:_save_file():1390] saving file wandb-summary.json with policy end
 2024-04-12 07:36:20,316 INFO    Thread-12 :334 [dir_watcher.py:_on_file_created():271] file/dir created: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/wandb-summary.json
 2024-04-12 07:36:21,316 INFO    Thread-12 :334 [dir_watcher.py:_on_file_modified():288] file/dir modified: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/output.log
+2024-04-12 07:36:22,300 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: status_report
+2024-04-12 07:36:26,097 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: partial_history
+2024-04-12 07:36:26,098 DEBUG   SenderThread:334 [sender.py:send():379] send: history
+2024-04-12 07:36:26,098 DEBUG   SenderThread:334 [sender.py:send_request():406] send_request: summary_record
+2024-04-12 07:36:26,100 INFO    SenderThread:334 [sender.py:_save_file():1390] saving file wandb-summary.json with policy end
+2024-04-12 07:36:26,318 INFO    Thread-12 :334 [dir_watcher.py:_on_file_modified():288] file/dir modified: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/wandb-summary.json
+2024-04-12 07:36:27,510 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: stop_status
+2024-04-12 07:36:27,511 DEBUG   SenderThread:334 [sender.py:send_request():406] send_request: stop_status
+2024-04-12 07:36:27,511 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: internal_messages
+2024-04-12 07:36:27,582 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: status_report

wandb/run-20240412_073555-bw7oy9ix/files/config.yaml CHANGED Viewed

@@ -26,7 +26,23 @@ _wandb:
       - 84
       - 98
       - 105
       3:
       - 23
       4: 3.10.13
       5: 0.16.5
@@ -35,4 +51,651 @@ _wandb:
       - 1
       - 2
       - 5
       13: linux-x86_64

       - 84
       - 98
       - 105
+      2:
+      - 1
+      - 2
+      - 3
+      - 5
+      - 11
+      - 12
+      - 49
+      - 51
+      - 53
+      - 55
+      - 71
+      - 84
+      - 98
+      - 105
       3:
+      - 7
       - 23
       4: 3.10.13
       5: 0.16.5
       - 1
       - 2
       - 5
+      9:
+        1: transformers_trainer
       13: linux-x86_64
+    m:
+    - 1: train/global_step
+      6:
+      - 3
+    - 1: train/loss
+      5: 1
+      6:
+      - 1
+    - 1: train/grad_norm
+      5: 1
+      6:
+      - 1
+    - 1: train/learning_rate
+      5: 1
+      6:
+      - 1
+    - 1: train/epoch
+      5: 1
+      6:
+      - 1
+vocab_size:
+  desc: null
+  value: 250880
+hidden_size:
+  desc: null
+  value: 1536
+n_layer:
+  desc: null
+  value: 24
+n_head:
+  desc: null
+  value: 16
+layer_norm_epsilon:
+  desc: null
+  value: 1.0e-05
+initializer_range:
+  desc: null
+  value: 0.02
+use_cache:
+  desc: null
+  value: false
+pretraining_tp:
+  desc: null
+  value: 1
+apply_residual_connection_post_layernorm:
+  desc: null
+  value: false
+hidden_dropout:
+  desc: null
+  value: 0.0
+attention_dropout:
+  desc: null
+  value: 0.0
+bos_token_id:
+  desc: null
+  value: 1
+eos_token_id:
+  desc: null
+  value: 2
+slow_but_exact:
+  desc: null
+  value: false
+return_dict:
+  desc: null
+  value: true
+output_hidden_states:
+  desc: null
+  value: false
+output_attentions:
+  desc: null
+  value: false
+torchscript:
+  desc: null
+  value: false
+torch_dtype:
+  desc: null
+  value: bfloat16
+use_bfloat16:
+  desc: null
+  value: false
+tf_legacy_loss:
+  desc: null
+  value: false
+pruned_heads:
+  desc: null
+  value: {}
+tie_word_embeddings:
+  desc: null
+  value: true
+chunk_size_feed_forward:
+  desc: null
+  value: 0
+is_encoder_decoder:
+  desc: null
+  value: false
+is_decoder:
+  desc: null
+  value: false
+cross_attention_hidden_size:
+  desc: null
+  value: null
+add_cross_attention:
+  desc: null
+  value: false
+tie_encoder_decoder:
+  desc: null
+  value: false
+max_length:
+  desc: null
+  value: 20
+min_length:
+  desc: null
+  value: 0
+do_sample:
+  desc: null
+  value: false
+early_stopping:
+  desc: null
+  value: false
+num_beams:
+  desc: null
+  value: 1
+num_beam_groups:
+  desc: null
+  value: 1
+diversity_penalty:
+  desc: null
+  value: 0.0
+temperature:
+  desc: null
+  value: 1.0
+top_k:
+  desc: null
+  value: 50
+top_p:
+  desc: null
+  value: 1.0
+typical_p:
+  desc: null
+  value: 1.0
+repetition_penalty:
+  desc: null
+  value: 1.0
+length_penalty:
+  desc: null
+  value: 1.0
+no_repeat_ngram_size:
+  desc: null
+  value: 0
+encoder_no_repeat_ngram_size:
+  desc: null
+  value: 0
+bad_words_ids:
+  desc: null
+  value: null
+num_return_sequences:
+  desc: null
+  value: 1
+output_scores:
+  desc: null
+  value: false
+return_dict_in_generate:
+  desc: null
+  value: false
+forced_bos_token_id:
+  desc: null
+  value: null
+forced_eos_token_id:
+  desc: null
+  value: null
+remove_invalid_values:
+  desc: null
+  value: false
+exponential_decay_length_penalty:
+  desc: null
+  value: null
+suppress_tokens:
+  desc: null
+  value: null
+begin_suppress_tokens:
+  desc: null
+  value: null
+architectures:
+  desc: null
+  value:
+  - BloomForCausalLM
+finetuning_task:
+  desc: null
+  value: null
+id2label:
+  desc: null
+  value:
+    '0': LABEL_0
+    '1': LABEL_1
+label2id:
+  desc: null
+  value:
+    LABEL_0: 0
+    LABEL_1: 1
+tokenizer_class:
+  desc: null
+  value: null
+prefix:
+  desc: null
+  value: null
+pad_token_id:
+  desc: null
+  value: 3
+sep_token_id:
+  desc: null
+  value: null
+decoder_start_token_id:
+  desc: null
+  value: null
+task_specific_params:
+  desc: null
+  value: null
+problem_type:
+  desc: null
+  value: null
+_name_or_path:
+  desc: null
+  value: bigscience/bloomz-1b1
+transformers_version:
+  desc: null
+  value: 4.39.3
+attention_softmax_in_fp32:
+  desc: null
+  value: true
+bias_dropout_fusion:
+  desc: null
+  value: true
+unk_token_id:
+  desc: null
+  value: 0
+masked_softmax_fusion:
+  desc: null
+  value: true
+model_type:
+  desc: null
+  value: bloom
+n_inner:
+  desc: null
+  value: null
+offset_alibi:
+  desc: null
+  value: 100
+seq_length:
+  desc: null
+  value: 2048
+skip_bias_add:
+  desc: null
+  value: true
+skip_bias_add_qkv:
+  desc: null
+  value: false
+quantization_config:
+  desc: null
+  value:
+    quant_method: QuantizationMethod.BITS_AND_BYTES
+    _load_in_8bit: false
+    _load_in_4bit: true
+    llm_int8_threshold: 6.0
+    llm_int8_skip_modules: null
+    llm_int8_enable_fp32_cpu_offload: false
+    llm_int8_has_fp16_weight: false
+    bnb_4bit_quant_type: nf4
+    bnb_4bit_use_double_quant: true
+    bnb_4bit_compute_dtype: float16
+    bnb_4bit_quant_storage: uint8
+    load_in_4bit: true
+    load_in_8bit: false
+output_dir:
+  desc: null
+  value: /kaggle/working/
+overwrite_output_dir:
+  desc: null
+  value: false
+do_train:
+  desc: null
+  value: false
+do_eval:
+  desc: null
+  value: false
+do_predict:
+  desc: null
+  value: false
+evaluation_strategy:
+  desc: null
+  value: 'no'
+prediction_loss_only:
+  desc: null
+  value: false
+per_device_train_batch_size:
+  desc: null
+  value: 2
+per_device_eval_batch_size:
+  desc: null
+  value: 8
+per_gpu_train_batch_size:
+  desc: null
+  value: null
+per_gpu_eval_batch_size:
+  desc: null
+  value: null
+gradient_accumulation_steps:
+  desc: null
+  value: 1
+eval_accumulation_steps:
+  desc: null
+  value: null
+eval_delay:
+  desc: null
+  value: 0
+learning_rate:
+  desc: null
+  value: 3.0e-05
+weight_decay:
+  desc: null
+  value: 0.0001
+adam_beta1:
+  desc: null
+  value: 0.9
+adam_beta2:
+  desc: null
+  value: 0.999
+adam_epsilon:
+  desc: null
+  value: 1.0e-08
+max_grad_norm:
+  desc: null
+  value: 0.3
+num_train_epochs:
+  desc: null
+  value: 5
+max_steps:
+  desc: null
+  value: 20000
+lr_scheduler_type:
+  desc: null
+  value: cosine
+lr_scheduler_kwargs:
+  desc: null
+  value: {}
+warmup_ratio:
+  desc: null
+  value: 0.03
+warmup_steps:
+  desc: null
+  value: 0
+log_level:
+  desc: null
+  value: passive
+log_level_replica:
+  desc: null
+  value: warning
+log_on_each_node:
+  desc: null
+  value: true
+logging_dir:
+  desc: null
+  value: /kaggle/working/runs/Apr12_07-35-52_e5a48bec8248
+logging_strategy:
+  desc: null
+  value: steps
+logging_first_step:
+  desc: null
+  value: false
+logging_steps:
+  desc: null
+  value: 20
+logging_nan_inf_filter:
+  desc: null
+  value: true
+save_strategy:
+  desc: null
+  value: steps
+save_steps:
+  desc: null
+  value: 20
+save_total_limit:
+  desc: null
+  value: 1
+save_safetensors:
+  desc: null
+  value: true
+save_on_each_node:
+  desc: null
+  value: false
+save_only_model:
+  desc: null
+  value: false
+no_cuda:
+  desc: null
+  value: false
+use_cpu:
+  desc: null
+  value: false
+use_mps_device:
+  desc: null
+  value: false
+seed:
+  desc: null
+  value: 42
+data_seed:
+  desc: null
+  value: null
+jit_mode_eval:
+  desc: null
+  value: false
+use_ipex:
+  desc: null
+  value: false
+bf16:
+  desc: null
+  value: false
+fp16:
+  desc: null
+  value: false
+fp16_opt_level:
+  desc: null
+  value: O1
+half_precision_backend:
+  desc: null
+  value: auto
+bf16_full_eval:
+  desc: null
+  value: false
+fp16_full_eval:
+  desc: null
+  value: false
+tf32:
+  desc: null
+  value: null
+local_rank:
+  desc: null
+  value: 0
+ddp_backend:
+  desc: null
+  value: null
+tpu_num_cores:
+  desc: null
+  value: null
+tpu_metrics_debug:
+  desc: null
+  value: false
+debug:
+  desc: null
+  value: []
+dataloader_drop_last:
+  desc: null
+  value: false
+eval_steps:
+  desc: null
+  value: null
+dataloader_num_workers:
+  desc: null
+  value: 0
+dataloader_prefetch_factor:
+  desc: null
+  value: null
+past_index:
+  desc: null
+  value: -1
+run_name:
+  desc: null
+  value: /kaggle/working/
+disable_tqdm:
+  desc: null
+  value: false
+remove_unused_columns:
+  desc: null
+  value: true
+label_names:
+  desc: null
+  value: null
+load_best_model_at_end:
+  desc: null
+  value: false
+metric_for_best_model:
+  desc: null
+  value: null
+greater_is_better:
+  desc: null
+  value: null
+ignore_data_skip:
+  desc: null
+  value: false
+fsdp:
+  desc: null
+  value: []
+fsdp_min_num_params:
+  desc: null
+  value: 0
+fsdp_config:
+  desc: null
+  value:
+    min_num_params: 0
+    xla: false
+    xla_fsdp_v2: false
+    xla_fsdp_grad_ckpt: false
+fsdp_transformer_layer_cls_to_wrap:
+  desc: null
+  value: null
+accelerator_config:
+  desc: null
+  value:
+    split_batches: false
+    dispatch_batches: null
+    even_batches: true
+    use_seedable_sampler: true
+deepspeed:
+  desc: null
+  value: null
+label_smoothing_factor:
+  desc: null
+  value: 0.0
+optim:
+  desc: null
+  value: paged_adamw_8bit
+optim_args:
+  desc: null
+  value: null
+adafactor:
+  desc: null
+  value: false
+group_by_length:
+  desc: null
+  value: false
+length_column_name:
+  desc: null
+  value: length
+report_to:
+  desc: null
+  value:
+  - tensorboard
+  - wandb
+ddp_find_unused_parameters:
+  desc: null
+  value: null
+ddp_bucket_cap_mb:
+  desc: null
+  value: null
+ddp_broadcast_buffers:
+  desc: null
+  value: null
+dataloader_pin_memory:
+  desc: null
+  value: true
+dataloader_persistent_workers:
+  desc: null
+  value: false
+skip_memory_metrics:
+  desc: null
+  value: true
+use_legacy_prediction_loop:
+  desc: null
+  value: false
+push_to_hub:
+  desc: null
+  value: true
+resume_from_checkpoint:
+  desc: null
+  value: null
+hub_model_id:
+  desc: null
+  value: Femboyuwu2000/bloomz-1b1-vn-chat
+hub_strategy:
+  desc: null
+  value: checkpoint
+hub_token:
+  desc: null
+  value: <HUB_TOKEN>
+hub_private_repo:
+  desc: null
+  value: false
+hub_always_push:
+  desc: null
+  value: false
+gradient_checkpointing:
+  desc: null
+  value: true
+gradient_checkpointing_kwargs:
+  desc: null
+  value: null
+include_inputs_for_metrics:
+  desc: null
+  value: false
+fp16_backend:
+  desc: null
+  value: auto
+push_to_hub_model_id:
+  desc: null
+  value: null
+push_to_hub_organization:
+  desc: null
+  value: null
+push_to_hub_token:
+  desc: null
+  value: <PUSH_TO_HUB_TOKEN>
+mp_parameters:
+  desc: null
+  value: ''
+auto_find_batch_size:
+  desc: null
+  value: false
+full_determinism:
+  desc: null
+  value: false
+torchdynamo:
+  desc: null
+  value: null
+ray_scope:
+  desc: null
+  value: last
+ddp_timeout:
+  desc: null
+  value: 1800
+torch_compile:
+  desc: null
+  value: false
+torch_compile_backend:
+  desc: null
+  value: null
+torch_compile_mode:
+  desc: null
+  value: null
+dispatch_batches:
+  desc: null
+  value: null
+split_batches:
+  desc: null
+  value: null
+include_tokens_per_second:
+  desc: null
+  value: false
+include_num_input_tokens_seen:
+  desc: null
+  value: false
+neftune_noise_alpha:
+  desc: null
+  value: null
+optim_target_modules:
+  desc: null
+  value: null

wandb/run-20240412_073555-bw7oy9ix/files/wandb-summary.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"train/loss": 4.~~6771~~, "train/grad_norm": 79.~~12922668457031~~, "train/learning_rate": 1e-06, "train/epoch": 0.0, "train/global_step": 20, "_timestamp": ~~1712907379~~.~~5892065~~, "_runtime": 23.~~840320348739624~~, "_step": 0}


1	+ {"train/loss": 4.5023, "train/grad_norm": 239.7991943359375, "train/learning_rate": 2e-06, "train/epoch": 0.0, "train/global_step": 40, "_timestamp": 1712907386.0967398, "_runtime": 30.347853660583496, "_step": 1}

wandb/run-20240412_073555-bw7oy9ix/logs/debug-internal.log CHANGED Viewed

@@ -75,3 +75,13 @@ subprocess.TimeoutExpired: Command '['conda', 'env', 'export']' timed out after
 2024-04-12 07:36:19,595 INFO    SenderThread:334 [sender.py:_save_file():1390] saving file wandb-summary.json with policy end
 2024-04-12 07:36:20,316 INFO    Thread-12 :334 [dir_watcher.py:_on_file_created():271] file/dir created: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/wandb-summary.json
 2024-04-12 07:36:21,316 INFO    Thread-12 :334 [dir_watcher.py:_on_file_modified():288] file/dir modified: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/output.log

 2024-04-12 07:36:19,595 INFO    SenderThread:334 [sender.py:_save_file():1390] saving file wandb-summary.json with policy end
 2024-04-12 07:36:20,316 INFO    Thread-12 :334 [dir_watcher.py:_on_file_created():271] file/dir created: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/wandb-summary.json
 2024-04-12 07:36:21,316 INFO    Thread-12 :334 [dir_watcher.py:_on_file_modified():288] file/dir modified: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/output.log
+2024-04-12 07:36:22,300 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: status_report
+2024-04-12 07:36:26,097 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: partial_history
+2024-04-12 07:36:26,098 DEBUG   SenderThread:334 [sender.py:send():379] send: history
+2024-04-12 07:36:26,098 DEBUG   SenderThread:334 [sender.py:send_request():406] send_request: summary_record
+2024-04-12 07:36:26,100 INFO    SenderThread:334 [sender.py:_save_file():1390] saving file wandb-summary.json with policy end
+2024-04-12 07:36:26,318 INFO    Thread-12 :334 [dir_watcher.py:_on_file_modified():288] file/dir modified: /kaggle/working/wandb/run-20240412_073555-bw7oy9ix/files/wandb-summary.json
+2024-04-12 07:36:27,510 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: stop_status
+2024-04-12 07:36:27,511 DEBUG   SenderThread:334 [sender.py:send_request():406] send_request: stop_status
+2024-04-12 07:36:27,511 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: internal_messages
+2024-04-12 07:36:27,582 DEBUG   HandlerThread:334 [handler.py:handle_request():146] handle_request: status_report