20250402_070854_gemma-3-27b-pt_LoRA / KETI_b1_s4_e3_training_log.log

Model save

56a00bf verified 8 months ago

14.7 kB

	04/02/2025 07:09:10 - INFO - Train data file: finetuning_data_25_sentences.json
	04/02/2025 07:09:10 - INFO - Output Directory: output/gemma-3-27b-pt/20250402_070854_gemma-3-27b-pt_LoRA
	04/02/2025 07:09:10 - INFO - Experiment name: KETI_b1_s4_e3
	04/02/2025 07:09:10 - INFO - torch_dtype: torch.bfloat16
	04/02/2025 07:09:10 - INFO - 🔍 Start inference on base model: google/gemma-3-27b-it
	04/02/2025 07:10:10 - INFO - ✅ base_model과 tokenizer 메모리에서 해제 완료
	04/02/2025 07:10:10 - INFO - Using 6 GPU(s): NVIDIA A100-SXM4-80GB
	04/02/2025 07:10:11 - INFO - 🔢 Training samples: 37822
	04/02/2025 07:10:11 - INFO - 🔍 Evaluation samples: 4203
	04/02/2025 07:10:11 - INFO - 📊 Steps per epoch: 1575
	04/02/2025 07:10:11 - INFO - 🪜 Total training steps: 4725
	04/02/2025 07:10:11 - INFO - ✅ FFT or LoRA 모드로 학습합니다.
	04/02/2025 07:10:24 - INFO - Initializing LORA model...
	04/02/2025 07:10:27 - INFO - 📌 LoRA Configuration:
	04/02/2025 07:10:27 - INFO - - task_type: CAUSAL_LM
	04/02/2025 07:10:27 - INFO - - peft_type: PeftType.LORA
	04/02/2025 07:10:27 - INFO - - auto_mapping: None
	04/02/2025 07:10:27 - INFO - - base_model_name_or_path: google/gemma-3-27b-pt
	04/02/2025 07:10:27 - INFO - - revision: None
	04/02/2025 07:10:27 - INFO - - inference_mode: False
	04/02/2025 07:10:27 - INFO - - r: 32
	04/02/2025 07:10:27 - INFO - - target_modules: {'q_proj', 'v_proj', 'k_proj', 'gate_proj', 'down_proj', 'up_proj', 'o_proj'}
	04/02/2025 07:10:27 - INFO - - exclude_modules: None
	04/02/2025 07:10:27 - INFO - - lora_alpha: 16
	04/02/2025 07:10:27 - INFO - - lora_dropout: 0.05
	04/02/2025 07:10:27 - INFO - - fan_in_fan_out: False
	04/02/2025 07:10:27 - INFO - - bias: none
	04/02/2025 07:10:27 - INFO - - use_rslora: False
	04/02/2025 07:10:27 - INFO - - modules_to_save: None
	04/02/2025 07:10:27 - INFO - - init_lora_weights: True
	04/02/2025 07:10:27 - INFO - - layers_to_transform: None
	04/02/2025 07:10:27 - INFO - - layers_pattern: None
	04/02/2025 07:10:27 - INFO - - rank_pattern: {}
	04/02/2025 07:10:27 - INFO - - alpha_pattern: {}
	04/02/2025 07:10:27 - INFO - - megatron_config: None
	04/02/2025 07:10:27 - INFO - - megatron_core: megatron.core
	04/02/2025 07:10:27 - INFO - - trainable_token_indices: None
	04/02/2025 07:10:27 - INFO - - loftq_config: {}
	04/02/2025 07:10:27 - INFO - - eva_config: None
	04/02/2025 07:10:27 - INFO - - corda_config: None
	04/02/2025 07:10:27 - INFO - - use_dora: False
	04/02/2025 07:10:27 - INFO - - layer_replication: None
	04/02/2025 07:10:27 - INFO - - lora_bias: False
	04/02/2025 07:10:27 - INFO - 🧠 Trainable params: 227033088 / 27236379392 (0.83%)
	04/02/2025 07:10:27 - INFO - 📌 SFT Configuration:
	04/02/2025 07:10:27 - INFO - - output_dir: output/gemma-3-27b-pt/20250402_070854_gemma-3-27b-pt_LoRA
	04/02/2025 07:10:27 - INFO - - overwrite_output_dir: False
	04/02/2025 07:10:27 - INFO - - do_train: False
	04/02/2025 07:10:27 - INFO - - do_eval: False
	04/02/2025 07:10:27 - INFO - - do_predict: False
	04/02/2025 07:10:27 - INFO - - eval_strategy: no
	04/02/2025 07:10:27 - INFO - - prediction_loss_only: False
	04/02/2025 07:10:27 - INFO - - per_device_train_batch_size: 1
	04/02/2025 07:10:27 - INFO - - per_device_eval_batch_size: 8
	04/02/2025 07:10:27 - INFO - - per_gpu_train_batch_size: None
	04/02/2025 07:10:27 - INFO - - per_gpu_eval_batch_size: None
	04/02/2025 07:10:27 - INFO - - gradient_accumulation_steps: 4
	04/02/2025 07:10:27 - INFO - - eval_accumulation_steps: None
	04/02/2025 07:10:27 - INFO - - eval_delay: 0
	04/02/2025 07:10:27 - INFO - - torch_empty_cache_steps: None
	04/02/2025 07:10:27 - INFO - - learning_rate: 0.0001
	04/02/2025 07:10:27 - INFO - - weight_decay: 0.0
	04/02/2025 07:10:27 - INFO - - adam_beta1: 0.9
	04/02/2025 07:10:27 - INFO - - adam_beta2: 0.999
	04/02/2025 07:10:27 - INFO - - adam_epsilon: 1e-08
	04/02/2025 07:10:27 - INFO - - max_grad_norm: 0.3
	04/02/2025 07:10:27 - INFO - - num_train_epochs: 3
	04/02/2025 07:10:27 - INFO - - max_steps: -1
	04/02/2025 07:10:27 - INFO - - lr_scheduler_type: constant
	04/02/2025 07:10:27 - INFO - - lr_scheduler_kwargs: {}
	04/02/2025 07:10:27 - INFO - - warmup_ratio: 0.03
	04/02/2025 07:10:27 - INFO - - warmup_steps: 0
	04/02/2025 07:10:27 - INFO - - log_level: passive
	04/02/2025 07:10:27 - INFO - - log_level_replica: warning
	04/02/2025 07:10:27 - INFO - - log_on_each_node: True
	04/02/2025 07:10:27 - INFO - - logging_dir: output/gemma-3-27b-pt/20250402_070854_gemma-3-27b-pt_LoRA/runs/Apr02_07-10-27_llm-server-779876f58-9zzqd
	04/02/2025 07:10:27 - INFO - - logging_strategy: steps
	04/02/2025 07:10:27 - INFO - - logging_first_step: False
	04/02/2025 07:10:27 - INFO - - logging_steps: 10
	04/02/2025 07:10:27 - INFO - - logging_nan_inf_filter: True
	04/02/2025 07:10:27 - INFO - - save_strategy: epoch
	04/02/2025 07:10:27 - INFO - - save_steps: 500
	04/02/2025 07:10:27 - INFO - - save_total_limit: None
	04/02/2025 07:10:27 - INFO - - save_safetensors: True
	04/02/2025 07:10:27 - INFO - - save_on_each_node: False
	04/02/2025 07:10:27 - INFO - - save_only_model: False
	04/02/2025 07:10:27 - INFO - - restore_callback_states_from_checkpoint: False
	04/02/2025 07:10:27 - INFO - - no_cuda: False
	04/02/2025 07:10:27 - INFO - - use_cpu: False
	04/02/2025 07:10:27 - INFO - - use_mps_device: False
	04/02/2025 07:10:27 - INFO - - seed: 42
	04/02/2025 07:10:27 - INFO - - data_seed: None
	04/02/2025 07:10:27 - INFO - - jit_mode_eval: False
	04/02/2025 07:10:27 - INFO - - use_ipex: False
	04/02/2025 07:10:27 - INFO - - bf16: True
	04/02/2025 07:10:27 - INFO - - fp16: False
	04/02/2025 07:10:27 - INFO - - fp16_opt_level: O1
	04/02/2025 07:10:27 - INFO - - half_precision_backend: auto
	04/02/2025 07:10:27 - INFO - - bf16_full_eval: False
	04/02/2025 07:10:27 - INFO - - fp16_full_eval: False
	04/02/2025 07:10:27 - INFO - - tf32: None
	04/02/2025 07:10:27 - INFO - - local_rank: 0
	04/02/2025 07:10:27 - INFO - - ddp_backend: None
	04/02/2025 07:10:27 - INFO - - tpu_num_cores: None
	04/02/2025 07:10:27 - INFO - - tpu_metrics_debug: False
	04/02/2025 07:10:27 - INFO - - debug: []
	04/02/2025 07:10:27 - INFO - - dataloader_drop_last: False
	04/02/2025 07:10:27 - INFO - - eval_steps: None
	04/02/2025 07:10:27 - INFO - - dataloader_num_workers: 0
	04/02/2025 07:10:27 - INFO - - dataloader_prefetch_factor: None
	04/02/2025 07:10:27 - INFO - - past_index: -1
	04/02/2025 07:10:27 - INFO - - run_name: output/gemma-3-27b-pt/20250402_070854_gemma-3-27b-pt_LoRA
	04/02/2025 07:10:27 - INFO - - disable_tqdm: False
	04/02/2025 07:10:27 - INFO - - remove_unused_columns: True
	04/02/2025 07:10:27 - INFO - - label_names: ['labels']
	04/02/2025 07:10:27 - INFO - - load_best_model_at_end: False
	04/02/2025 07:10:27 - INFO - - metric_for_best_model: None
	04/02/2025 07:10:27 - INFO - - greater_is_better: None
	04/02/2025 07:10:27 - INFO - - ignore_data_skip: False
	04/02/2025 07:10:27 - INFO - - fsdp: []
	04/02/2025 07:10:27 - INFO - - fsdp_min_num_params: 0
	04/02/2025 07:10:27 - INFO - - fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
	04/02/2025 07:10:27 - INFO - - tp_size: 0
	04/02/2025 07:10:27 - INFO - - fsdp_transformer_layer_cls_to_wrap: None
	04/02/2025 07:10:27 - INFO - - accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
	04/02/2025 07:10:27 - INFO - - deepspeed: None
	04/02/2025 07:10:27 - INFO - - label_smoothing_factor: 0.0
	04/02/2025 07:10:27 - INFO - - optim: adamw_torch_fused
	04/02/2025 07:10:27 - INFO - - optim_args: None
	04/02/2025 07:10:27 - INFO - - adafactor: False
	04/02/2025 07:10:27 - INFO - - group_by_length: False
	04/02/2025 07:10:27 - INFO - - length_column_name: length
	04/02/2025 07:10:27 - INFO - - report_to: ['tensorboard']
	04/02/2025 07:10:27 - INFO - - ddp_find_unused_parameters: None
	04/02/2025 07:10:27 - INFO - - ddp_bucket_cap_mb: None
	04/02/2025 07:10:27 - INFO - - ddp_broadcast_buffers: None
	04/02/2025 07:10:27 - INFO - - dataloader_pin_memory: True
	04/02/2025 07:10:27 - INFO - - dataloader_persistent_workers: False
	04/02/2025 07:10:27 - INFO - - skip_memory_metrics: True
	04/02/2025 07:10:27 - INFO - - use_legacy_prediction_loop: False
	04/02/2025 07:10:27 - INFO - - push_to_hub: True
	04/02/2025 07:10:27 - INFO - - resume_from_checkpoint: None
	04/02/2025 07:10:27 - INFO - - hub_model_id: None
	04/02/2025 07:10:27 - INFO - - hub_strategy: every_save
	04/02/2025 07:10:27 - INFO - - hub_token: <HUB_TOKEN>
	04/02/2025 07:10:27 - INFO - - hub_private_repo: None
	04/02/2025 07:10:27 - INFO - - hub_always_push: False
	04/02/2025 07:10:27 - INFO - - gradient_checkpointing: False
	04/02/2025 07:10:27 - INFO - - gradient_checkpointing_kwargs: None
	04/02/2025 07:10:27 - INFO - - include_inputs_for_metrics: False
	04/02/2025 07:10:27 - INFO - - include_for_metrics: []
	04/02/2025 07:10:27 - INFO - - eval_do_concat_batches: True
	04/02/2025 07:10:27 - INFO - - fp16_backend: auto
	04/02/2025 07:10:27 - INFO - - evaluation_strategy: None
	04/02/2025 07:10:27 - INFO - - push_to_hub_model_id: None
	04/02/2025 07:10:27 - INFO - - push_to_hub_organization: None
	04/02/2025 07:10:27 - INFO - - push_to_hub_token: <PUSH_TO_HUB_TOKEN>
	04/02/2025 07:10:27 - INFO - - mp_parameters:
	04/02/2025 07:10:27 - INFO - - auto_find_batch_size: False
	04/02/2025 07:10:27 - INFO - - full_determinism: False
	04/02/2025 07:10:27 - INFO - - torchdynamo: None
	04/02/2025 07:10:27 - INFO - - ray_scope: last
	04/02/2025 07:10:27 - INFO - - ddp_timeout: 1800
	04/02/2025 07:10:27 - INFO - - torch_compile: False
	04/02/2025 07:10:27 - INFO - - torch_compile_backend: None
	04/02/2025 07:10:27 - INFO - - torch_compile_mode: None
	04/02/2025 07:10:27 - INFO - - dispatch_batches: None
	04/02/2025 07:10:27 - INFO - - split_batches: None
	04/02/2025 07:10:27 - INFO - - include_tokens_per_second: False
	04/02/2025 07:10:27 - INFO - - include_num_input_tokens_seen: False
	04/02/2025 07:10:27 - INFO - - neftune_noise_alpha: None
	04/02/2025 07:10:27 - INFO - - optim_target_modules: None
	04/02/2025 07:10:27 - INFO - - batch_eval_metrics: False
	04/02/2025 07:10:27 - INFO - - eval_on_start: False
	04/02/2025 07:10:27 - INFO - - use_liger_kernel: False
	04/02/2025 07:10:27 - INFO - - eval_use_gather_object: False
	04/02/2025 07:10:27 - INFO - - average_tokens_across_devices: False
	04/02/2025 07:10:27 - INFO - - model_init_kwargs: None
	04/02/2025 07:10:27 - INFO - - dataset_text_field: text
	04/02/2025 07:10:27 - INFO - - dataset_kwargs: {'add_special_tokens': False, 'append_concat_token': True}
	04/02/2025 07:10:27 - INFO - - dataset_num_proc: None
	04/02/2025 07:10:27 - INFO - - max_length: 512
	04/02/2025 07:10:27 - INFO - - packing: True
	04/02/2025 07:10:27 - INFO - - padding_free: False
	04/02/2025 07:10:27 - INFO - - eval_packing: None
	04/02/2025 07:10:27 - INFO - - dataset_batch_size: None
	04/02/2025 07:10:27 - INFO - - num_of_sequences: None
	04/02/2025 07:10:27 - INFO - - chars_per_token: <CHARS_PER_TOKEN>
	04/02/2025 07:10:27 - INFO - - max_seq_length: 512
	04/02/2025 07:10:27 - INFO - - use_liger: None
	04/02/2025 07:10:32 - INFO - gcc -pthread -B /root/pai/envs/llm-finetuning/compiler_compat -DNDEBUG -fwrapv -O2 -Wall -fPIC -O2 -isystem /root/pai/envs/llm-finetuning/include -fPIC -O2 -isystem /root/pai/envs/llm-finetuning/include -fPIC -c /tmp/tmp7kmj2aos/test.c -o /tmp/tmp7kmj2aos/test.o
	04/02/2025 07:10:32 - INFO - gcc -pthread -B /root/pai/envs/llm-finetuning/compiler_compat -DNDEBUG -fwrapv -O2 -Wall -fPIC -O2 -isystem /root/pai/envs/llm-finetuning/include -fPIC -O2 -isystem /root/pai/envs/llm-finetuning/include -fPIC -c /tmp/tmpsq2ww307/test.c -o /tmp/tmpsq2ww307/test.o
	04/02/2025 07:10:34 - INFO - Start Training !
	04/02/2025 07:11:01 - INFO - [Epoch 0.11] [Step 10] loss: 3.8091
	04/02/2025 07:11:25 - INFO - [Epoch 0.22] [Step 20] loss: 3.1515
	04/02/2025 07:11:48 - INFO - [Epoch 0.33] [Step 30] loss: 3.0086
	04/02/2025 07:12:11 - INFO - [Epoch 0.44] [Step 40] loss: 2.9523
	04/02/2025 07:12:34 - INFO - [Epoch 0.55] [Step 50] loss: 2.9285
	04/02/2025 07:12:56 - INFO - [Epoch 0.66] [Step 60] loss: 2.9137
	04/02/2025 07:13:19 - INFO - [Epoch 0.77] [Step 70] loss: 2.8934
	04/02/2025 07:13:42 - INFO - [Epoch 0.88] [Step 80] loss: 2.8740
	04/02/2025 07:14:05 - INFO - [Epoch 0.99] [Step 90] loss: 2.8733
	04/02/2025 07:15:17 - INFO - [Epoch 1.09] [Step 100] loss: 2.7949
	04/02/2025 07:15:40 - INFO - [Epoch 1.20] [Step 110] loss: 2.7914
	04/02/2025 07:16:03 - INFO - [Epoch 1.31] [Step 120] loss: 2.7842
	04/02/2025 07:16:26 - INFO - [Epoch 1.42] [Step 130] loss: 2.7768
	04/02/2025 07:16:48 - INFO - [Epoch 1.53] [Step 140] loss: 2.7753
	04/02/2025 07:17:11 - INFO - [Epoch 1.64] [Step 150] loss: 2.7787
	04/02/2025 07:17:33 - INFO - [Epoch 1.75] [Step 160] loss: 2.7740
	04/02/2025 07:17:56 - INFO - [Epoch 1.85] [Step 170] loss: 2.7716
	04/02/2025 07:18:18 - INFO - [Epoch 1.96] [Step 180] loss: 2.7539
	04/02/2025 07:20:10 - INFO - [Epoch 2.07] [Step 190] loss: 2.6976
	04/02/2025 07:20:33 - INFO - [Epoch 2.18] [Step 200] loss: 2.6525
	04/02/2025 07:20:56 - INFO - [Epoch 2.28] [Step 210] loss: 2.6456
	04/02/2025 07:21:19 - INFO - [Epoch 2.39] [Step 220] loss: 2.6509
	04/02/2025 07:21:42 - INFO - [Epoch 2.50] [Step 230] loss: 2.6692
	04/02/2025 07:22:04 - INFO - [Epoch 2.61] [Step 240] loss: 2.6591
	04/02/2025 07:22:27 - INFO - [Epoch 2.72] [Step 250] loss: 2.6635
	04/02/2025 07:22:50 - INFO - [Epoch 2.83] [Step 260] loss: 2.6684
	04/02/2025 07:23:12 - INFO - [Epoch 2.94] [Step 270] loss: 2.6692
	04/02/2025 07:25:16 - INFO - ✅ Training complete. Logging system usage...
	04/02/2025 07:25:16 - INFO - >> System Usage - CPU: 2.8%, RAM: 3.2%, SSD: 76.20GB / 1888.43GB
	04/02/2025 07:25:16 - INFO - >> GPU 0: 73.78 GB used
	04/02/2025 07:25:16 - INFO - >> GPU 1: 79.22 GB used
	04/02/2025 07:25:16 - INFO - >> GPU 2: 74.50 GB used
	04/02/2025 07:25:16 - INFO - >> GPU 3: 73.50 GB used
	04/02/2025 07:25:16 - INFO - >> GPU 4: 73.44 GB used
	04/02/2025 07:25:16 - INFO - >> GPU 5: 73.24 GB used
	04/02/2025 07:25:16 - INFO - >> Total GPU Memory Used: 447.68 GB
	04/02/2025 07:25:16 - INFO - >> Total GPU Power Consumption: 531.29 W
	04/02/2025 07:27:22 - INFO - ✅ Training completed in 0h 16m 48s