config.json: 0%| | 0.00/560 [00:00, ?B/s]
config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 560/560 [00:00<00:00, 3.19MB/s]
[2025-11-05 14:40:54,209] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:989] baseline 0.000GB ()
[2025-11-05 14:40:54,209] [INFO] [axolotl.cli.config.load_cfg:248] [PID:989] config:
{
"activation_offloading": false,
"axolotl_config_path": "config.yaml",
"base_model": "TinyLlama/TinyLlama_v1.1",
"base_model_config": "TinyLlama/TinyLlama_v1.1",
"batch_size": 8,
"bf16": true,
"capabilities": {
"bf16": true,
"compute_capability": "sm_90",
"fp8": false,
"n_gpu": 1,
"n_node": 1
},
"context_parallel_size": 1,
"dataloader_num_workers": 1,
"dataloader_pin_memory": true,
"dataloader_prefetch_factor": 256,
"dataset_processes": 26,
"datasets": [
{
"message_property_mappings": {
"content": "content",
"role": "role"
},
"path": "vpakarinen/atlas-fast-dataset-v2",
"trust_remote_code": false,
"type": "alpaca"
}
],
"ddp": false,
"device": "cuda:0",
"dion_rank_fraction": 1.0,
"dion_rank_multiple_of": 1,
"env_capabilities": {
"torch_version": "2.7.1"
},
"eval_batch_size": 8,
"eval_causal_lm_metrics": [
"sacrebleu",
"comet",
"ter",
"chrf"
],
"eval_max_new_tokens": 128,
"eval_table_size": 0,
"experimental_skip_move_to_device": true,
"fp16": false,
"gradient_accumulation_steps": 1,
"gradient_checkpointing": false,
"include_tkps": true,
"is_llama_derived_model": true,
"learning_rate": 2e-05,
"lisa_layers_attribute": "model.layers",
"load_best_model_at_end": false,
"load_in_4bit": false,
"load_in_8bit": false,
"local_rank": 0,
"lora_dropout": 0.0,
"loraplus_lr_embedding": 1e-06,
"lr_scheduler": "cosine",
"mean_resizing_embeddings": false,
"micro_batch_size": 8,
"model_config_type": "llama",
"num_epochs": 3.0,
"optimizer": "adamw_bnb_8bit",
"output_dir": "./outputs/atlas-fast-1.1b-v2",
"pretrain_multipack_attn": true,
"profiler_steps_start": 0,
"qlora_sharded_model_loading": false,
"ray_num_workers": 1,
"resources_per_worker": {
"GPU": 1
},
"sample_packing_bin_size": 200,
"sample_packing_group_size": 100000,
"save_only_model": false,
"save_safetensors": true,
"sequence_len": 4096,
"shuffle_before_merging_datasets": false,
"shuffle_merged_datasets": true,
"skip_prepare_dataset": false,
"streaming_multipack_buffer_size": 10000,
"strict": false,
"tensor_parallel_size": 1,
"tiled_mlp_use_original_mlp": true,
"tokenizer_config": "TinyLlama/TinyLlama_v1.1",
"tokenizer_save_jinja_files": true,
"torch_dtype": "torch.bfloat16",
"train_on_inputs": true,
"trl": {
"log_completions": false,
"mask_truncated_completions": false,
"ref_model_mixup_alpha": 0.9,
"ref_model_sync_steps": 64,
"scale_rewards": true,
"sync_ref_model": false,
"use_vllm": false,
"vllm_server_host": "0.0.0.0",
"vllm_server_port": 8000
},
"use_ray": false,
"val_set_size": 0.0,
"vllm": {
"device": "auto",
"dtype": "auto",
"gpu_memory_utilization": 0.9,
"host": "0.0.0.0",
"port": 8000
},
"weight_decay": 0.0,
"world_size": 1
}
tokenizer_config.json: 0%| | 0.00/776 [00:00, ?B/s]
tokenizer_config.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 776/776 [00:00<00:00, 5.90MB/s]
tokenizer.model: 0%| | 0.00/500k [00:00, ?B/s]
tokenizer.model: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500k/500k [00:00<00:00, 559kB/s]
tokenizer.model: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500k/500k [00:00<00:00, 558kB/s]
tokenizer.json: 0.00B [00:00, ?B/s]
tokenizer.json: 145kB [00:00, 1.18MB/s]
tokenizer.json: 1.84MB [00:00, 9.94MB/s]
special_tokens_map.json: 0%| | 0.00/414 [00:00, ?B/s]
special_tokens_map.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 414/414 [00:00<00:00, 1.34MB/s]
[2025-11-05 14:40:58,349] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:989] EOS: 2 /
[2025-11-05 14:40:58,349] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:989] BOS: 1 /
[2025-11-05 14:40:58,349] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:989] PAD: 2 /
[2025-11-05 14:40:58,349] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:989] UNK: 0 /
[2025-11-05 14:40:58,349] [INFO] [axolotl.loaders.tokenizer.load_tokenizer:295] [PID:989] No Chat template selected. Consider adding a chat template for easier inference.
[2025-11-05 14:40:58,350] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:476] [PID:989] Unable to find prepared dataset in last_run_prepared/0ab988fe8f81ce9dc593498716abd51f
[2025-11-05 14:40:58,350] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:989] Loading raw datasets...
[2025-11-05 14:40:58,350] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:989] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
README.md: 0%| | 0.00/31.0 [00:00, ?B/s]
README.md: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31.0/31.0 [00:00<00:00, 104kB/s]
data.jsonl: 0.00B [00:00, ?B/s]
data.jsonl: 394kB [00:00, 19.4MB/s]
Generating train split: 0%| | 0/1000 [00:00, ? examples/s]
Generating train split: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:00<00:00, 52616.25 examples/s]
[2025-11-05 14:41:01,743] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:989] Loading dataset: vpakarinen/atlas-fast-dataset-v2 with base_type: alpaca and prompt_style: None
Tokenizing Prompts (num_proc=26): 0%| | 0/1000 [00:00, ? examples/s]
Tokenizing Prompts (num_proc=26): 4%|████▉ | 39/1000 [00:00<00:14, 65.40 examples/s]
Tokenizing Prompts (num_proc=26): 8%|█████████▉ | 78/1000 [00:00<00:07, 124.08 examples/s]
Tokenizing Prompts (num_proc=26): 16%|███████████████████▋ | 156/1000 [00:00<00:03, 254.71 examples/s]
Tokenizing Prompts (num_proc=26): 31%|███████████████████████████████████████▎ | 312/1000 [00:00<00:01, 531.93 examples/s]
Tokenizing Prompts (num_proc=26): 47%|██████████████████████████████████████████████████████████▉ | 468/1000 [00:01<00:00, 742.50 examples/s]
Tokenizing Prompts (num_proc=26): 58%|█████████████████████████████████████████████████████████████████████████▎ | 582/1000 [00:01<00:00, 741.25 examples/s]
Tokenizing Prompts (num_proc=26): 70%|███████████████████████████████████████████████████████████████████████████████████████▋ | 696/1000 [00:01<00:00, 795.09 examples/s]
Tokenizing Prompts (num_proc=26): 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 810/1000 [00:01<00:00, 674.95 examples/s]
Tokenizing Prompts (num_proc=26): 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 962/1000 [00:01<00:00, 834.30 examples/s]
Tokenizing Prompts (num_proc=26): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 530.45 examples/s]
[2025-11-05 14:41:03,730] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:218] [PID:989] min_input_len: 73
[2025-11-05 14:41:03,730] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:220] [PID:989] max_input_len: 209
Dropping Long Sequences (>4096) (num_proc=26): 0%| | 0/1000 [00:00, ? examples/s]
Dropping Long Sequences (>4096) (num_proc=26): 4%|████▍ | 39/1000 [00:00<00:10, 88.06 examples/s]
Dropping Long Sequences (>4096) (num_proc=26): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:00<00:00, 1491.76 examples/s]
Saving the dataset (0/3 shards): 0%| | 0/1000 [00:00, ? examples/s]
Saving the dataset (0/3 shards): 33%|██████████████████████████████████████████ | 334/1000 [00:00<00:00, 2835.39 examples/s]
Saving the dataset (1/3 shards): 33%|██████████████████████████████████████████ | 334/1000 [00:00<00:00, 2835.39 examples/s]
Saving the dataset (2/3 shards): 67%|████████████████████████████████████████████████████████████████████████████████████ | 667/1000 [00:00<00:00, 2835.39 examples/s]
Saving the dataset (3/3 shards): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:00<00:00, 2835.39 examples/s]
Saving the dataset (3/3 shards): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:00<00:00, 4821.11 examples/s]
[2025-11-05 14:41:04,730] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:404] [PID:989] total_num_tokens: 106_432
[2025-11-05 14:41:04,739] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:422] [PID:989] `total_supervised_tokens: 106_432`
[2025-11-05 14:41:04,739] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:520] [PID:989] total_num_steps: 375
[2025-11-05 14:41:04,739] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:989] Maximum number of steps set at 375
[2025-11-05 14:41:04,748] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:989] Loading tokenizer... TinyLlama/TinyLlama_v1.1
[2025-11-05 14:41:05,470] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:989] EOS: 2 /
[2025-11-05 14:41:05,471] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:989] BOS: 1 /
[2025-11-05 14:41:05,471] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:989] PAD: 2 /
[2025-11-05 14:41:05,471] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:989] UNK: 0 /
[2025-11-05 14:41:05,471] [INFO] [axolotl.loaders.tokenizer.load_tokenizer:295] [PID:989] No Chat template selected. Consider adding a chat template for easier inference.
[2025-11-05 14:41:05,471] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:989] Loading model
[2025-11-05 14:41:05,685] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:989] Patched Trainer.evaluation_loop with nanmean loss calculation
[2025-11-05 14:41:05,688] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:989] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
pytorch_model.bin: 0%| | 0.00/4.40G [00:00, ?B/s]
pytorch_model.bin: 0%| | 905k/4.40G [00:01<2:37:31, 465kB/s]
pytorch_model.bin: 2%|██▎ | 67.9M/4.40G [00:03<02:51, 25.3MB/s]
pytorch_model.bin: 12%|██████████████████▏ | 539M/4.40G [00:04<00:22, 172MB/s]
pytorch_model.bin: 34%|█████████████████████████████████████████████████▊ | 1.48G/4.40G [00:04<00:05, 581MB/s]
pytorch_model.bin: 41%|█████████████████████████████████████████████████████████████ | 1.81G/4.40G [00:04<00:04, 622MB/s]
pytorch_model.bin: 47%|██████████████████████████████████████████████████████████████████████ | 2.08G/4.40G [00:05<00:03, 637MB/s]
pytorch_model.bin: 52%|████████████████████████████████████████████████████████████████████████████▊ | 2.28G/4.40G [00:05<00:03, 634MB/s]
pytorch_model.bin: 56%|██████████████████████████████████████████████████████████████████████████████████▋ | 2.46G/4.40G [00:05<00:02, 700MB/s]
pytorch_model.bin: 59%|███████████████████████████████████████████████████████████████████████████████████████▏ | 2.59G/4.40G [00:05<00:02, 758MB/s]
pytorch_model.bin: 63%|█████████████████████████████████████████████████████████████████████████████████████████████▉ | 2.79G/4.40G [00:06<00:01, 827MB/s]
pytorch_model.bin: 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 3.06G/4.40G [00:06<00:01, 1.03GB/s]
pytorch_model.bin: 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 3.26G/4.40G [00:06<00:01, 1.06GB/s]
pytorch_model.bin: 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 3.46G/4.40G [00:06<00:00, 1.11GB/s]
pytorch_model.bin: 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 3.60G/4.40G [00:06<00:01, 752MB/s]
pytorch_model.bin: 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 3.73G/4.40G [00:07<00:01, 385MB/s]
pytorch_model.bin: 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 3.86G/4.40G [00:08<00:01, 377MB/s]
pytorch_model.bin: 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 3.93G/4.40G [00:08<00:01, 334MB/s]
pytorch_model.bin: 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 4.00G/4.40G [00:08<00:01, 340MB/s]
pytorch_model.bin: 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 4.13G/4.40G [00:08<00:00, 419MB/s]
pytorch_model.bin: 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 4.20G/4.40G [00:09<00:00, 337MB/s]
pytorch_model.bin: 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 4.27G/4.40G [00:09<00:00, 318MB/s]
pytorch_model.bin: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.40G/4.40G [00:10<00:00, 286MB/s]
pytorch_model.bin: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.40G/4.40G [00:10<00:00, 435MB/s]
generation_config.json: 0%| | 0.00/129 [00:00, ?B/s]
generation_config.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 129/129 [00:00<00:00, 435kB/s]
[2025-11-05 14:41:22,002] [WARNING] [axolotl.loaders.model._adjust_model_config:273] [PID:989] increasing model.config.max_position_embeddings from 2048 to 4096
[2025-11-05 14:41:22,248] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:989] Memory usage after model load 0.000GB ()
[2025-11-05 14:41:29,653] [INFO] [axolotl.train.save_initial_configs:402] [PID:989] Pre-saving tokenizer to ./outputs/atlas-fast-1.1b-v2...
[2025-11-05 14:41:29,681] [INFO] [axolotl.train.save_initial_configs:407] [PID:989] Pre-saving model config to ./outputs/atlas-fast-1.1b-v2...
[2025-11-05 14:41:29,683] [INFO] [axolotl.train.execute_training:196] [PID:989] Starting trainer...
0%| | 0/375 [00:00, ?it/s]
0%|▍ | 1/375 [00:01<06:31, 1.05s/it]
{'loss': 3.1257, 'grad_norm': 326337003520.0, 'learning_rate': 0.0, 'memory/max_active (GiB)': 7.13, 'memory/max_allocated (GiB)': 7.13, 'memory/device_reserved (GiB)': 7.19, 'tokens_per_second_per_gpu': 1089.46, 'epoch': 0.01}
0%|▍ | 1/375 [00:01<06:31, 1.05s/it]
1%|▉ | 2/375 [00:01<03:04, 2.02it/s]
{'loss': 3.2495, 'grad_norm': 301968621568.0, 'learning_rate': 1.8181818181818183e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 7.92, 'tokens_per_second_per_gpu': 8032.43, 'epoch': 0.02}
1%|▉ | 2/375 [00:01<03:04, 2.02it/s]
1%|█▎ | 3/375 [00:01<01:57, 3.18it/s]
{'loss': 3.0825, 'grad_norm': 17248.70703125, 'learning_rate': 3.6363636363636366e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 7.92, 'tokens_per_second_per_gpu': 8180.16, 'epoch': 0.02}
1%|█▎ | 3/375 [00:01<01:57, 3.18it/s]
1%|█▊ | 4/375 [00:01<01:29, 4.14it/s]
{'loss': 2.9794, 'grad_norm': 8475.1455078125, 'learning_rate': 5.4545454545454545e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 6900.47, 'epoch': 0.03}
1%|█▊ | 4/375 [00:01<01:29, 4.14it/s]
1%|██▎ | 5/375 [00:01<01:10, 5.23it/s]
{'loss': 3.0834, 'grad_norm': 4874.35546875, 'learning_rate': 7.272727272727273e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8567.82, 'epoch': 0.04}
1%|██▎ | 5/375 [00:01<01:10, 5.23it/s]
{'loss': 3.0029, 'grad_norm': 1761.7506103515625, 'learning_rate': 9.090909090909091e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7682.55, 'epoch': 0.05}
2%|██▋ | 6/375 [00:01<01:10, 5.23it/s]
2%|███▏ | 7/375 [00:01<00:53, 6.91it/s]
{'loss': 2.5618, 'grad_norm': 2744.4033203125, 'learning_rate': 1.0909090909090909e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7734.04, 'epoch': 0.06}
2%|███▏ | 7/375 [00:01<00:53, 6.91it/s]
2%|███▋ | 8/375 [00:01<00:48, 7.50it/s]
{'loss': 2.4492, 'grad_norm': 9892.412109375, 'learning_rate': 1.2727272727272728e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9201.62, 'epoch': 0.06}
2%|███▋ | 8/375 [00:01<00:48, 7.50it/s]
{'loss': 2.1574, 'grad_norm': 2451.415771484375, 'learning_rate': 1.4545454545454546e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8204.91, 'epoch': 0.07}
2%|████ | 9/375 [00:01<00:48, 7.50it/s]
3%|████▌ | 10/375 [00:01<00:43, 8.46it/s]
{'loss': 2.2162, 'grad_norm': 4661.94677734375, 'learning_rate': 1.6363636363636366e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8200.92, 'epoch': 0.08}
3%|████▌ | 10/375 [00:01<00:43, 8.46it/s]
3%|████▉ | 11/375 [00:02<00:41, 8.75it/s]
{'loss': 1.9292, 'grad_norm': 679.2638549804688, 'learning_rate': 1.8181818181818182e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9065.92, 'epoch': 0.09}
3%|████▉ | 11/375 [00:02<00:41, 8.75it/s]
3%|█████▍ | 12/375 [00:02<00:40, 9.03it/s]
{'loss': 1.5709, 'grad_norm': 1126.4859619140625, 'learning_rate': 2e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8397.28, 'epoch': 0.1}
3%|█████▍ | 12/375 [00:02<00:40, 9.03it/s]
{'loss': 1.3999, 'grad_norm': 168.5304718017578, 'learning_rate': 1.9999627553166296e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8453.38, 'epoch': 0.1}
3%|█████▉ | 13/375 [00:02<00:40, 9.03it/s]
4%|██████▎ | 14/375 [00:02<00:38, 9.40it/s]
{'loss': 1.388, 'grad_norm': 134.6960906982422, 'learning_rate': 1.9998510240408495e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9438.09, 'epoch': 0.11}
4%|██████▎ | 14/375 [00:02<00:38, 9.40it/s]
{'loss': 1.4207, 'grad_norm': 172.5862274169922, 'learning_rate': 1.9996648144954533e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9100.95, 'epoch': 0.12}
4%|██████▊ | 15/375 [00:02<00:38, 9.40it/s]
4%|███████▎ | 16/375 [00:02<00:37, 9.64it/s]
{'loss': 1.2416, 'grad_norm': 44.757102966308594, 'learning_rate': 1.9994041405510705e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8398.45, 'epoch': 0.13}
4%|███████▎ | 16/375 [00:02<00:37, 9.64it/s]
{'loss': 1.4072, 'grad_norm': 17.678770065307617, 'learning_rate': 1.9990690216251395e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8977.85, 'epoch': 0.14}
5%|███████▋ | 17/375 [00:02<00:37, 9.64it/s]
5%|████████▏ | 18/375 [00:02<00:36, 9.78it/s]
{'loss': 1.2091, 'grad_norm': 22.896692276000977, 'learning_rate': 1.9986594826804563e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9639.46, 'epoch': 0.14}
5%|████████▏ | 18/375 [00:02<00:36, 9.78it/s]
5%|████████▌ | 19/375 [00:02<00:36, 9.82it/s]
{'loss': 1.4912, 'grad_norm': 89.85038757324219, 'learning_rate': 1.9981755542233175e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9423.21, 'epoch': 0.15}
5%|████████▌ | 19/375 [00:02<00:36, 9.82it/s]
5%|█████████ | 20/375 [00:02<00:36, 9.81it/s]
{'loss': 1.3022, 'grad_norm': 27.467538833618164, 'learning_rate': 1.997617272301248e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7669.35, 'epoch': 0.16}
5%|█████████ | 20/375 [00:02<00:36, 9.81it/s]
6%|█████████▌ | 21/375 [00:03<00:41, 8.46it/s]
{'loss': 1.3519, 'grad_norm': 19.31588363647461, 'learning_rate': 1.9969846785003134e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 5481.16, 'epoch': 0.17}
6%|█████████▌ | 21/375 [00:03<00:41, 8.46it/s]
6%|█████████▉ | 22/375 [00:03<00:51, 6.89it/s]
{'loss': 1.3388, 'grad_norm': 31.10079574584961, 'learning_rate': 1.9962778199420265e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 3901.77, 'epoch': 0.18}
6%|█████████▉ | 22/375 [00:03<00:51, 6.89it/s]
6%|██████████▍ | 23/375 [00:03<00:47, 7.39it/s]
{'loss': 1.4396, 'grad_norm': 49.52709197998047, 'learning_rate': 1.9954967492798335e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7714.64, 'epoch': 0.18}
6%|██████████▍ | 23/375 [00:03<00:47, 7.39it/s]
6%|██████████▉ | 24/375 [00:03<00:45, 7.70it/s]
{'loss': 1.3048, 'grad_norm': 19.84676742553711, 'learning_rate': 1.9946415246951928e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7707.27, 'epoch': 0.19}
6%|██████████▉ | 24/375 [00:03<00:45, 7.70it/s]
{'loss': 1.3389, 'grad_norm': 21.120454788208008, 'learning_rate': 1.9937122098932428e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8928.46, 'epoch': 0.2}
7%|███████████▎ | 25/375 [00:03<00:45, 7.70it/s]
7%|███████████▊ | 26/375 [00:03<00:39, 8.88it/s]
{'loss': 1.3111, 'grad_norm': 43.97844314575195, 'learning_rate': 1.992708874098054e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 10044.87, 'epoch': 0.21}
7%|███████████▊ | 26/375 [00:03<00:39, 8.88it/s]
7%|████████████▏ | 27/375 [00:03<00:39, 8.79it/s]
{'loss': 1.2644, 'grad_norm': 27.113985061645508, 'learning_rate': 1.991631592047475e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7389.64, 'epoch': 0.22}
7%|████████████▏ | 27/375 [00:03<00:39, 8.79it/s]
{'loss': 1.3399, 'grad_norm': 18.027095794677734, 'learning_rate': 1.9904804439875635e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9212.82, 'epoch': 0.22}
7%|████████████▋ | 28/375 [00:03<00:39, 8.79it/s]
8%|█████████████▏ | 29/375 [00:04<00:37, 9.12it/s]
{'loss': 1.4152, 'grad_norm': 11.131144523620605, 'learning_rate': 1.989255515666609e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8964.08, 'epoch': 0.23}
8%|█████████████▏ | 29/375 [00:04<00:37, 9.12it/s]
{'loss': 1.3803, 'grad_norm': 24.55955696105957, 'learning_rate': 1.9879568983287468e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9668.15, 'epoch': 0.24}
8%|█████████████▌ | 30/375 [00:04<00:37, 9.12it/s]
8%|██████████████ | 31/375 [00:04<00:34, 9.89it/s]
{'loss': 1.5773, 'grad_norm': 2098.8408203125, 'learning_rate': 1.9865846887071596e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9648.45, 'epoch': 0.25}
8%|██████████████ | 31/375 [00:04<00:34, 9.89it/s]
{'loss': 1.3239, 'grad_norm': 425.38067626953125, 'learning_rate': 1.9851389890168738e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9363.79, 'epoch': 0.26}
9%|██████████████▌ | 32/375 [00:04<00:34, 9.89it/s]
9%|██████████████▉ | 33/375 [00:04<00:32, 10.42it/s]
{'loss': 1.3136, 'grad_norm': 9.607734680175781, 'learning_rate': 1.983619906947144e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8813.57, 'epoch': 0.26}
9%|██████████████▉ | 33/375 [00:04<00:32, 10.42it/s]
{'loss': 1.4112, 'grad_norm': 10.711357116699219, 'learning_rate': 1.9820275556534306e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10259.69, 'epoch': 0.27}
9%|███████████████▍ | 34/375 [00:04<00:32, 10.42it/s]
9%|███████████████▊ | 35/375 [00:04<00:31, 10.85it/s]
{'loss': 1.2794, 'grad_norm': 9.812103271484375, 'learning_rate': 1.9803620537489737e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9443.02, 'epoch': 0.28}
9%|███████████████▊ | 35/375 [00:04<00:31, 10.85it/s]
{'loss': 1.3099, 'grad_norm': 15.17619514465332, 'learning_rate': 1.9786235252959555e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9690.63, 'epoch': 0.29}
10%|████████████████▎ | 36/375 [00:04<00:31, 10.85it/s]
10%|████████████████▊ | 37/375 [00:04<00:30, 11.03it/s]
{'loss': 1.3013, 'grad_norm': 8.0698823928833, 'learning_rate': 1.9768120997962593e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10077.19, 'epoch': 0.3}
10%|████████████████▊ | 37/375 [00:04<00:30, 11.03it/s]
{'loss': 1.2244, 'grad_norm': 7.829827785491943, 'learning_rate': 1.9749279121818235e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9895.38, 'epoch': 0.3}
10%|█████████████████▏ | 38/375 [00:04<00:30, 11.03it/s]
10%|█████████████████▋ | 39/375 [00:04<00:30, 11.03it/s]
{'loss': 1.3299, 'grad_norm': 7.8712897300720215, 'learning_rate': 1.972971102804591e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10074.75, 'epoch': 0.31}
10%|█████████████████▋ | 39/375 [00:04<00:30, 11.03it/s]
{'loss': 1.3454, 'grad_norm': 7.870555877685547, 'learning_rate': 1.9709418174260523e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10791.92, 'epoch': 0.32}
11%|██████████████████▏ | 40/375 [00:05<00:30, 11.03it/s]
11%|██████████████████▌ | 41/375 [00:05<00:30, 11.11it/s]
{'loss': 1.3358, 'grad_norm': 8.49343490600586, 'learning_rate': 1.9688402072063905e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9745.83, 'epoch': 0.33}
11%|██████████████████▌ | 41/375 [00:05<00:30, 11.11it/s]
{'loss': 1.389, 'grad_norm': 9.36483097076416, 'learning_rate': 1.9666664286932198e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10156.63, 'epoch': 0.34}
11%|███████████████████ | 42/375 [00:05<00:29, 11.11it/s]
11%|███████████████████▍ | 43/375 [00:05<00:30, 10.97it/s]
{'loss': 1.3463, 'grad_norm': 7.590586185455322, 'learning_rate': 1.964420643809925e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9279.61, 'epoch': 0.34}
11%|███████████████████▍ | 43/375 [00:05<00:30, 10.97it/s]
{'loss': 1.5977, 'grad_norm': 5736.9130859375, 'learning_rate': 1.9621030198436007e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10048.14, 'epoch': 0.35}
12%|███████████████████▉ | 44/375 [00:05<00:30, 10.97it/s]
12%|████████████████████▍ | 45/375 [00:05<00:29, 11.11it/s]
{'loss': 1.6264, 'grad_norm': 4104.83740234375, 'learning_rate': 1.9597137294325877e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10367.46, 'epoch': 0.36}
12%|████████████████████▍ | 45/375 [00:05<00:29, 11.11it/s]
{'loss': 1.9888, 'grad_norm': 386.7122802734375, 'learning_rate': 1.957252950553616e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9475.23, 'epoch': 0.37}
12%|████████████████████▊ | 46/375 [00:05<00:29, 11.11it/s]
13%|█████████████████████▎ | 47/375 [00:05<00:29, 11.17it/s]
{'loss': 1.7045, 'grad_norm': 4470.681640625, 'learning_rate': 1.954720866508546e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9431.29, 'epoch': 0.38}
13%|█████████████████████▎ | 47/375 [00:05<00:29, 11.17it/s]
{'loss': 1.5653, 'grad_norm': 516.0676879882812, 'learning_rate': 1.952117665910714e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9446.52, 'epoch': 0.38}
13%|█████████████████████▊ | 48/375 [00:05<00:29, 11.17it/s]
13%|██████████████████████▏ | 49/375 [00:05<00:29, 11.09it/s]
{'loss': 1.6069, 'grad_norm': 4016.7705078125, 'learning_rate': 1.9494435426708856e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10015.32, 'epoch': 0.39}
13%|██████████████████████▏ | 49/375 [00:05<00:29, 11.09it/s]
{'loss': 1.5386, 'grad_norm': 180.52371215820312, 'learning_rate': 1.9466986959828063e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9111.53, 'epoch': 0.4}
13%|██████████████████████▋ | 50/375 [00:05<00:29, 11.09it/s]
14%|███████████████████████ | 51/375 [00:06<00:29, 11.08it/s]
{'loss': 1.7075, 'grad_norm': 179.099365234375, 'learning_rate': 1.9438833303083677e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8741.81, 'epoch': 0.41}
14%|███████████████████████ | 51/375 [00:06<00:29, 11.08it/s]
{'loss': 1.5412, 'grad_norm': 138.920166015625, 'learning_rate': 1.9409976553623767e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9697.47, 'epoch': 0.42}
14%|███████████████████████▌ | 52/375 [00:06<00:29, 11.08it/s]
14%|████████████████████████ | 53/375 [00:06<00:28, 11.19it/s]
{'loss': 1.5224, 'grad_norm': 602.77685546875, 'learning_rate': 1.938041886096932e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9266.88, 'epoch': 0.42}
14%|████████████████████████ | 53/375 [00:06<00:28, 11.19it/s]
{'loss': 1.5558, 'grad_norm': 325.88848876953125, 'learning_rate': 1.9350162426854152e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10253.45, 'epoch': 0.43}
14%|████████████████████████▍ | 54/375 [00:06<00:28, 11.19it/s]
15%|████████████████████████▉ | 55/375 [00:06<00:28, 11.18it/s]
{'loss': 1.4406, 'grad_norm': 498.0050964355469, 'learning_rate': 1.931920950506087e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9491.87, 'epoch': 0.44}
15%|████████████████████████▉ | 55/375 [00:06<00:28, 11.18it/s]
{'loss': 1.4367, 'grad_norm': 741.5326538085938, 'learning_rate': 1.9287562401253023e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10150.34, 'epoch': 0.45}
15%|█████████████████████████▍ | 56/375 [00:06<00:28, 11.18it/s]
15%|█████████████████████████▊ | 57/375 [00:06<00:28, 11.27it/s]
{'loss': 1.4651, 'grad_norm': 274.9710998535156, 'learning_rate': 1.9255223472803337e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9631.2, 'epoch': 0.46}
15%|█████████████████████████▊ | 57/375 [00:06<00:28, 11.27it/s]
{'loss': 1.3754, 'grad_norm': 897.0580444335938, 'learning_rate': 1.9222195128618108e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9656.25, 'epoch': 0.46}
15%|██████████████████████████▎ | 58/375 [00:06<00:28, 11.27it/s]
16%|██████████████████████████▋ | 59/375 [00:06<00:28, 11.26it/s]
{'loss': 1.3, 'grad_norm': 998.91943359375, 'learning_rate': 1.9188479828957773e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10232.81, 'epoch': 0.47}
16%|██████████████████████████▋ | 59/375 [00:06<00:28, 11.26it/s]
{'loss': 1.4404, 'grad_norm': 657.5516967773438, 'learning_rate': 1.9154080085253665e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10507.79, 'epoch': 0.48}
16%|███████████████████████████▏ | 60/375 [00:06<00:27, 11.26it/s]
16%|███████████████████████████▋ | 61/375 [00:06<00:27, 11.28it/s]
{'loss': 1.4817, 'grad_norm': 541.2548217773438, 'learning_rate': 1.91189984599209e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9549.91, 'epoch': 0.49}
16%|███████████████████████████▋ | 61/375 [00:06<00:27, 11.28it/s]
{'loss': 1.4792, 'grad_norm': 566.8240966796875, 'learning_rate': 1.908323756616754e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10341.48, 'epoch': 0.5}
17%|████████████████████████████ | 62/375 [00:07<00:27, 11.28it/s]
17%|████████████████████████████▌ | 63/375 [00:07<00:27, 11.17it/s]
{'loss': 1.3559, 'grad_norm': 518.17333984375, 'learning_rate': 1.9046800067799914e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9704.58, 'epoch': 0.5}
17%|████████████████████████████▌ | 63/375 [00:07<00:27, 11.17it/s]
{'loss': 1.4953, 'grad_norm': 63.39894104003906, 'learning_rate': 1.900968867902419e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10239.39, 'epoch': 0.51}
17%|█████████████████████████████ | 64/375 [00:07<00:27, 11.17it/s]
17%|█████████████████████████████▍ | 65/375 [00:07<00:27, 11.25it/s]
{'loss': 1.3881, 'grad_norm': 103.47949981689453, 'learning_rate': 1.8971906164244232e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10579.64, 'epoch': 0.52}
17%|█████████████████████████████▍ | 65/375 [00:07<00:27, 11.25it/s]
{'loss': 1.3322, 'grad_norm': 180.31053161621094, 'learning_rate': 1.8933455337855633e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9420.11, 'epoch': 0.53}
18%|█████████████████████████████▉ | 66/375 [00:07<00:27, 11.25it/s]
18%|██████████████████████████████▎ | 67/375 [00:07<00:27, 11.29it/s]
{'loss': 1.4001, 'grad_norm': 113.03031158447266, 'learning_rate': 1.88943390640361e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9307.41, 'epoch': 0.54}
18%|██████████████████████████████▎ | 67/375 [00:07<00:27, 11.29it/s]
{'loss': 1.3623, 'grad_norm': 15.689427375793457, 'learning_rate': 1.8854560256532098e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9729.08, 'epoch': 0.54}
18%|██████████████████████████████▊ | 68/375 [00:07<00:27, 11.29it/s]
18%|███████████████████████████████▎ | 69/375 [00:07<00:27, 11.20it/s]
{'loss': 1.4892, 'grad_norm': 45.31242752075195, 'learning_rate': 1.8814121878441814e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9700.09, 'epoch': 0.55}
18%|███████████████████████████████▎ | 69/375 [00:07<00:27, 11.20it/s]
{'loss': 1.4332, 'grad_norm': 418.5, 'learning_rate': 1.877302694199442e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9682.63, 'epoch': 0.56}
19%|███████████████████████████████▋ | 70/375 [00:07<00:27, 11.20it/s]
19%|████████████████████████████████▏ | 71/375 [00:07<00:26, 11.30it/s]
{'loss': 1.3618, 'grad_norm': 3631.143310546875, 'learning_rate': 1.873127850832571e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8849.46, 'epoch': 0.57}
19%|████████████████████████████████▏ | 71/375 [00:07<00:26, 11.30it/s]
{'loss': 1.4959, 'grad_norm': 3776.23095703125, 'learning_rate': 1.8688879687250067e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9851.09, 'epoch': 0.58}
19%|████████████████████████████████▋ | 72/375 [00:07<00:26, 11.30it/s]
19%|█████████████████████████████████ | 73/375 [00:08<00:26, 11.29it/s]
{'loss': 1.4347, 'grad_norm': 899.7445068359375, 'learning_rate': 1.8645833637028828e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9747.67, 'epoch': 0.58}
19%|█████████████████████████████████ | 73/375 [00:08<00:26, 11.29it/s]
{'loss': 1.3521, 'grad_norm': 380.8314208984375, 'learning_rate': 1.860214356413501e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9514.68, 'epoch': 0.59}
20%|█████████████████████████████████▌ | 74/375 [00:08<00:26, 11.29it/s]
20%|██████████████████████████████████ | 75/375 [00:08<00:26, 11.33it/s]
{'loss': 1.1855, 'grad_norm': 51.701942443847656, 'learning_rate': 1.8557812723014476e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9991.35, 'epoch': 0.6}
20%|██████████████████████████████████ | 75/375 [00:08<00:26, 11.33it/s]
{'loss': 1.2234, 'grad_norm': 205.33749389648438, 'learning_rate': 1.8512844415843514e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8603.91, 'epoch': 0.61}
20%|██████████████████████████████████▍ | 76/375 [00:08<00:26, 11.33it/s]
21%|██████████████████████████████████▉ | 77/375 [00:08<00:26, 11.31it/s]
{'loss': 1.1827, 'grad_norm': 7.392539978027344, 'learning_rate': 1.8467241992282842e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9476.12, 'epoch': 0.62}
21%|██████████████████████████████████▉ | 77/375 [00:08<00:26, 11.31it/s]
{'loss': 1.3913, 'grad_norm': 45.03400421142578, 'learning_rate': 1.842100884922812e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9344.11, 'epoch': 0.62}
21%|███████████████████████████████████▎ | 78/375 [00:08<00:26, 11.31it/s]
21%|███████████████████████████████████▊ | 79/375 [00:08<00:27, 10.91it/s]
{'loss': 1.4691, 'grad_norm': 2510.247802734375, 'learning_rate': 1.8374148430556888e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9382.43, 'epoch': 0.63}
21%|███████████████████████████████████▊ | 79/375 [00:08<00:27, 10.91it/s]
{'loss': 1.4555, 'grad_norm': 11154.79296875, 'learning_rate': 1.8326664226872063e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10138.86, 'epoch': 0.64}
21%|████████████████████████████████████▎ | 80/375 [00:08<00:27, 10.91it/s]
22%|████████████████████████████████████▋ | 81/375 [00:08<00:26, 10.93it/s]
{'loss': 1.1535, 'grad_norm': 32.84307861328125, 'learning_rate': 1.827855977524191e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8217.25, 'epoch': 0.65}
22%|████████████████████████████████████▋ | 81/375 [00:08<00:26, 10.93it/s]
{'loss': 1.1445, 'grad_norm': 6.870779991149902, 'learning_rate': 1.8229838658936566e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9373.04, 'epoch': 0.66}
22%|█████████████████████████████████████▏ | 82/375 [00:08<00:26, 10.93it/s]
22%|█████████████████████████████████████▋ | 83/375 [00:08<00:26, 10.95it/s]
{'loss': 1.1379, 'grad_norm': 6.162526607513428, 'learning_rate': 1.818050450716113e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8983.9, 'epoch': 0.66}
22%|█████████████████████████████████████▋ | 83/375 [00:08<00:26, 10.95it/s]
{'loss': 1.1823, 'grad_norm': 6.081611633300781, 'learning_rate': 1.8130560994785325e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9879.69, 'epoch': 0.67}
22%|██████████████████████████████████████ | 84/375 [00:09<00:26, 10.95it/s]
23%|██████████████████████████████████████▌ | 85/375 [00:09<00:26, 10.96it/s]
{'loss': 1.1883, 'grad_norm': 6.497747421264648, 'learning_rate': 1.8080011842069768e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9015.94, 'epoch': 0.68}
23%|██████████████████████████████████████▌ | 85/375 [00:09<00:26, 10.96it/s]
{'loss': 1.1192, 'grad_norm': 7.969574451446533, 'learning_rate': 1.8028860814388826e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9047.31, 'epoch': 0.69}
23%|██████████████████████████████████████▉ | 86/375 [00:09<00:26, 10.96it/s]
23%|███████████████████████████████████████▍ | 87/375 [00:09<00:25, 11.12it/s]
{'loss': 1.1595, 'grad_norm': 6.799901485443115, 'learning_rate': 1.7977111721950163e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9211.08, 'epoch': 0.7}
23%|███████████████████████████████████████▍ | 87/375 [00:09<00:25, 11.12it/s]
{'loss': 1.5121, 'grad_norm': 8.595680236816406, 'learning_rate': 1.7924768419510906e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10026.13, 'epoch': 0.7}
23%|███████████████████████████████████████▉ | 88/375 [00:09<00:25, 11.12it/s]
24%|████████████████████████████████████████▎ | 89/375 [00:09<00:25, 11.18it/s]
{'loss': 1.1578, 'grad_norm': 6.857292652130127, 'learning_rate': 1.7871834806090502e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9028.26, 'epoch': 0.71}
24%|████████████████████████████████████████▎ | 89/375 [00:09<00:25, 11.18it/s]
{'loss': 1.0438, 'grad_norm': 6.701430797576904, 'learning_rate': 1.78183148246803e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8976.45, 'epoch': 0.72}
24%|████████████████████████████████████████▊ | 90/375 [00:09<00:25, 11.18it/s]
24%|█████████████████████████████████████████▎ | 91/375 [00:09<00:25, 11.30it/s]
{'loss': 1.1812, 'grad_norm': 6.957489013671875, 'learning_rate': 1.776421246194982e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9614.54, 'epoch': 0.73}
24%|█████████████████████████████████████████▎ | 91/375 [00:09<00:25, 11.30it/s]
{'loss': 1.2654, 'grad_norm': 7.197965145111084, 'learning_rate': 1.7709531747949796e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10301.21, 'epoch': 0.74}
25%|█████████████████████████████████████████▋ | 92/375 [00:09<00:25, 11.30it/s]
25%|██████████████████████████████████████████▏ | 93/375 [00:09<00:24, 11.34it/s]
{'loss': 1.4438, 'grad_norm': 7.601951599121094, 'learning_rate': 1.7654276755811997e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9491.14, 'epoch': 0.74}
25%|██████████████████████████████████████████▏ | 93/375 [00:09<00:24, 11.34it/s]
{'loss': 1.1001, 'grad_norm': 7.003673076629639, 'learning_rate': 1.759845160144579e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9366.67, 'epoch': 0.75}
25%|██████████████████████████████████████████▌ | 94/375 [00:09<00:24, 11.34it/s]
25%|███████████████████████████████████████████ | 95/375 [00:09<00:24, 11.40it/s]
{'loss': 1.2549, 'grad_norm': 6.379886150360107, 'learning_rate': 1.7542060443231572e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9089.43, 'epoch': 0.76}
25%|███████████████████████████████████████████ | 95/375 [00:09<00:24, 11.40it/s]
{'loss': 1.107, 'grad_norm': 6.8500590324401855, 'learning_rate': 1.7485107481711014e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10477.14, 'epoch': 0.77}
26%|███████████████████████████████████████████▌ | 96/375 [00:10<00:24, 11.40it/s]
26%|███████████████████████████████████████████▉ | 97/375 [00:10<00:24, 11.24it/s]
{'loss': 1.3182, 'grad_norm': 6.522653102874756, 'learning_rate': 1.7427596959274145e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9652.01, 'epoch': 0.78}
26%|███████████████████████████████████████████▉ | 97/375 [00:10<00:24, 11.24it/s]
{'loss': 1.2946, 'grad_norm': 6.389549255371094, 'learning_rate': 1.7369533159843368e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9534.55, 'epoch': 0.78}
26%|████████████████████████████████████████████▍ | 98/375 [00:10<00:24, 11.24it/s]
26%|████████████████████████████████████████████▉ | 99/375 [00:10<00:24, 11.15it/s]
{'loss': 1.0988, 'grad_norm': 9.356315612792969, 'learning_rate': 1.7310920408554333e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9032.66, 'epoch': 0.79}
26%|████████████████████████████████████████████▉ | 99/375 [00:10<00:24, 11.15it/s]
{'loss': 1.2929, 'grad_norm': 7.916325569152832, 'learning_rate': 1.7251763071433767e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9461.14, 'epoch': 0.8}
27%|█████████████████████████████████████████████ | 100/375 [00:10<00:24, 11.15it/s]
27%|█████████████████████████████████████████████▌ | 101/375 [00:10<00:24, 11.19it/s]
{'loss': 1.1533, 'grad_norm': 6.832822799682617, 'learning_rate': 1.7192065555074248e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9768.94, 'epoch': 0.81}
27%|█████████████████████████████████████████████▌ | 101/375 [00:10<00:24, 11.19it/s]
{'loss': 1.1918, 'grad_norm': 7.153477668762207, 'learning_rate': 1.7131832306305964e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9420.24, 'epoch': 0.82}
27%|█████████████████████████████████████████████▉ | 102/375 [00:10<00:24, 11.19it/s]
27%|██████████████████████████████████████████████▍ | 103/375 [00:10<00:24, 11.19it/s]
{'loss': 1.1596, 'grad_norm': 6.71958589553833, 'learning_rate': 1.7071067811865477e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9574.56, 'epoch': 0.82}
27%|██████████████████████████████████████████████▍ | 103/375 [00:10<00:24, 11.19it/s]
{'loss': 1.3313, 'grad_norm': 8.199520111083984, 'learning_rate': 1.7009776598061496e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8874.14, 'epoch': 0.83}
28%|██████████████████████████████████████████████▊ | 104/375 [00:10<00:24, 11.19it/s]
28%|███████████████████████████████████████████████▎ | 105/375 [00:10<00:24, 11.13it/s]
{'loss': 1.3619, 'grad_norm': 7.472032070159912, 'learning_rate': 1.6947963230437725e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10715.57, 'epoch': 0.84}
28%|███████████████████████████████████████████████▎ | 105/375 [00:10<00:24, 11.13it/s]
{'loss': 1.3897, 'grad_norm': 6.743656158447266, 'learning_rate': 1.6885632313432772e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9372.03, 'epoch': 0.85}
28%|███████████████████████████████████████████████▊ | 106/375 [00:10<00:24, 11.13it/s]
29%|████████████████████████████████████████████████▏ | 107/375 [00:11<00:23, 11.20it/s]
{'loss': 1.2913, 'grad_norm': 6.412700176239014, 'learning_rate': 1.6822788490037178e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10138.12, 'epoch': 0.86}
29%|████████████████████████████████████████████████▏ | 107/375 [00:11<00:23, 11.20it/s]
{'loss': 1.1607, 'grad_norm': 7.616491317749023, 'learning_rate': 1.6759436441447544e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9655.95, 'epoch': 0.86}
29%|████████████████████████████████████████████████▋ | 108/375 [00:11<00:23, 11.20it/s]
29%|█████████████████████████████████████████████████ | 109/375 [00:11<00:24, 11.08it/s]
{'loss': 1.3401, 'grad_norm': 6.485705375671387, 'learning_rate': 1.669558088671786e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9974.94, 'epoch': 0.87}
29%|█████████████████████████████████████████████████ | 109/375 [00:11<00:24, 11.08it/s]
{'loss': 1.3652, 'grad_norm': 7.043745040893555, 'learning_rate': 1.6631226582407954e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10888.28, 'epoch': 0.88}
29%|█████████████████████████████████████████████████▌ | 110/375 [00:11<00:23, 11.08it/s]
30%|██████████████████████████████████████████████████ | 111/375 [00:11<00:23, 11.17it/s]
{'loss': 1.211, 'grad_norm': 7.357586860656738, 'learning_rate': 1.6566378322229203e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8922.0, 'epoch': 0.89}
30%|██████████████████████████████████████████████████ | 111/375 [00:11<00:23, 11.17it/s]
{'loss': 1.2314, 'grad_norm': 6.801909923553467, 'learning_rate': 1.6501040936687444e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9191.64, 'epoch': 0.9}
30%|██████████████████████████████████████████████████▍ | 112/375 [00:11<00:23, 11.17it/s]
30%|██████████████████████████████████████████████████▉ | 113/375 [00:11<00:23, 11.14it/s]
{'loss': 1.3494, 'grad_norm': 7.460896968841553, 'learning_rate': 1.643521929272315e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9878.85, 'epoch': 0.9}
30%|██████████████████████████████████████████████████▉ | 113/375 [00:11<00:23, 11.14it/s]
{'loss': 1.2006, 'grad_norm': 6.182265281677246, 'learning_rate': 1.6368918293348893e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9455.33, 'epoch': 0.91}
30%|███████████████████████████████████████████████████▍ | 114/375 [00:11<00:23, 11.14it/s]
31%|███████████████████████████████████████████████████▊ | 115/375 [00:11<00:23, 11.20it/s]
{'loss': 1.2419, 'grad_norm': 7.094189167022705, 'learning_rate': 1.630214287728414e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9767.17, 'epoch': 0.92}
31%|███████████████████████████████████████████████████▊ | 115/375 [00:11<00:23, 11.20it/s]
{'loss': 1.1017, 'grad_norm': 6.743818759918213, 'learning_rate': 1.6234898018587336e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9716.8, 'epoch': 0.93}
31%|████████████████████████████████████████████████████▎ | 116/375 [00:11<00:23, 11.20it/s]
31%|████████████████████████████████████████████████████▋ | 117/375 [00:11<00:22, 11.27it/s]
{'loss': 1.0922, 'grad_norm': 6.625425338745117, 'learning_rate': 1.6167188726285433e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9942.41, 'epoch': 0.94}
31%|████████████████████████████████████████████████████▋ | 117/375 [00:11<00:22, 11.27it/s]
{'loss': 1.0127, 'grad_norm': 11.622234344482422, 'learning_rate': 1.609902004400073e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9425.74, 'epoch': 0.94}
31%|█████████████████████████████████████████████████████▏ | 118/375 [00:12<00:22, 11.27it/s]
32%|█████████████████████████████████████████████████████▋ | 119/375 [00:12<00:23, 10.94it/s]
{'loss': 1.4142, 'grad_norm': 20.825883865356445, 'learning_rate': 1.6030397049575205e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9077.74, 'epoch': 0.95}
32%|█████████████████████████████████████████████████████▋ | 119/375 [00:12<00:23, 10.94it/s]
{'loss': 1.2932, 'grad_norm': 8.380904197692871, 'learning_rate': 1.5961324854692254e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10100.81, 'epoch': 0.96}
32%|██████████████████████████████████████████████████████ | 120/375 [00:12<00:23, 10.94it/s]
32%|██████████████████████████████████████████████████████▌ | 121/375 [00:12<00:22, 11.08it/s]
{'loss': 1.0964, 'grad_norm': 8.296483039855957, 'learning_rate': 1.5891808604495936e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9657.15, 'epoch': 0.97}
32%|██████████████████████████████████████████████████████▌ | 121/375 [00:12<00:22, 11.08it/s]
{'loss': 1.3316, 'grad_norm': 7.703803539276123, 'learning_rate': 1.582185347720771e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9922.16, 'epoch': 0.98}
33%|██████████████████████████████████████████████████████▉ | 122/375 [00:12<00:22, 11.08it/s]
33%|███████████████████████████████████████████████████████▍ | 123/375 [00:12<00:22, 11.15it/s]
{'loss': 1.3769, 'grad_norm': 6.960313320159912, 'learning_rate': 1.5751464683740697e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9548.39, 'epoch': 0.98}
33%|███████████████████████████████████████████████████████▍ | 123/375 [00:12<00:22, 11.15it/s]
{'loss': 1.2118, 'grad_norm': 6.56093692779541, 'learning_rate': 1.568064746731156e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10075.39, 'epoch': 0.99}
33%|███████████████████████████████████████████████████████▉ | 124/375 [00:12<00:22, 11.15it/s]
33%|████████████████████████████████████████████████████████▎ | 125/375 [00:12<00:26, 9.57it/s]
{'loss': 1.0273, 'grad_norm': 6.696780681610107, 'learning_rate': 1.5609407103049895e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9141.93, 'epoch': 1.0}
33%|████████████████████████████████████████████████████████▎ | 125/375 [00:12<00:26, 9.57it/s][2025-11-05 14:41:42,819] [INFO] [axolotl.core.trainers.base._save:671] [PID:989] Saving model checkpoint to ./outputs/atlas-fast-1.1b-v2/checkpoint-125
34%|████████████████████████████████████████████████████████▊ | 126/375 [00:18<04:14, 1.02s/it]
{'loss': 0.8007, 'grad_norm': 5.269906044006348, 'learning_rate': 1.553774889760533e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7340.08, 'epoch': 1.01}
34%|████████████████████████████████████████████████████████▊ | 126/375 [00:18<04:14, 1.02s/it]
{'loss': 0.9659, 'grad_norm': 6.231236457824707, 'learning_rate': 1.5465678188752212e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8699.91, 'epoch': 1.02}
34%|█████████████████████████████████████████████████████████▏ | 127/375 [00:18<04:13, 1.02s/it]
34%|█████████████████████████████████████████████████████████▋ | 128/375 [00:18<02:55, 1.40it/s]
{'loss': 0.908, 'grad_norm': 5.5724663734436035, 'learning_rate': 1.5393200344991993e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9269.08, 'epoch': 1.02}
34%|█████████████████████████████████████████████████████████▋ | 128/375 [00:18<02:55, 1.40it/s]
34%|██████████████████████████████████████████████████████████▏ | 129/375 [00:18<02:26, 1.68it/s]
{'loss': 1.1082, 'grad_norm': 6.144638538360596, 'learning_rate': 1.5320320765153367e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8924.65, 'epoch': 1.03}
34%|██████████████████████████████████████████████████████████▏ | 129/375 [00:18<02:26, 1.68it/s]
{'loss': 1.0052, 'grad_norm': 6.340477466583252, 'learning_rate': 1.524704487799008e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9122.01, 'epoch': 1.04}
35%|██████████████████████████████████████████████████████████▌ | 130/375 [00:18<02:25, 1.68it/s]
35%|███████████████████████████████████████████████████████████ | 131/375 [00:18<01:41, 2.41it/s]
{'loss': 0.9383, 'grad_norm': 6.6856255531311035, 'learning_rate': 1.5173378141776569e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8832.93, 'epoch': 1.05}
35%|███████████████████████████████████████████████████████████ | 131/375 [00:18<01:41, 2.41it/s]
{'loss': 0.9355, 'grad_norm': 8.42915153503418, 'learning_rate': 1.5099326043901361e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9522.26, 'epoch': 1.06}
35%|███████████████████████████████████████████████████████████▍ | 132/375 [00:18<01:40, 2.41it/s]
35%|███████████████████████████████████████████████████████████▉ | 133/375 [00:18<01:14, 3.26it/s]
{'loss': 1.043, 'grad_norm': 7.128732204437256, 'learning_rate': 1.5024894100458332e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9407.4, 'epoch': 1.06}
35%|███████████████████████████████████████████████████████████▉ | 133/375 [00:18<01:14, 3.26it/s]
{'loss': 0.984, 'grad_norm': 12.976510047912598, 'learning_rate': 1.4950087855835816e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9079.75, 'epoch': 1.07}
36%|████████████████████████████████████████████████████████████▍ | 134/375 [00:18<01:13, 3.26it/s]
36%|████████████████████████████████████████████████████████████▊ | 135/375 [00:18<00:56, 4.23it/s]
{'loss': 0.8454, 'grad_norm': 6.515797138214111, 'learning_rate': 1.48749128823036e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9298.88, 'epoch': 1.08}
36%|████████████████████████████████████████████████████████████▊ | 135/375 [00:18<00:56, 4.23it/s]
{'loss': 1.1009, 'grad_norm': 9.718621253967285, 'learning_rate': 1.4799374779597866e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9490.01, 'epoch': 1.09}
36%|█████████████████████████████████████████████████████████████▎ | 136/375 [00:19<00:56, 4.23it/s]
37%|█████████████████████████████████████████████████████████████▋ | 137/375 [00:19<00:44, 5.31it/s]
{'loss': 0.8708, 'grad_norm': 8.418116569519043, 'learning_rate': 1.4723479174504039e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9750.07, 'epoch': 1.1}
37%|█████████████████████████████████████████████████████████████▋ | 137/375 [00:19<00:44, 5.31it/s]
{'loss': 0.8122, 'grad_norm': 6.9166693687438965, 'learning_rate': 1.4647231720437687e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9677.12, 'epoch': 1.1}
37%|██████████████████████████████████████████████████████████████▏ | 138/375 [00:19<00:44, 5.31it/s]
37%|██████████████████████████████████████████████████████████████▋ | 139/375 [00:19<00:37, 6.35it/s]
{'loss': 0.8896, 'grad_norm': 14.06246566772461, 'learning_rate': 1.457063809702338e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9340.53, 'epoch': 1.11}
37%|██████████████████████████████████████████████████████████████▋ | 139/375 [00:19<00:37, 6.35it/s]
{'loss': 0.9263, 'grad_norm': 6.880278587341309, 'learning_rate': 1.4493704009671614e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9622.57, 'epoch': 1.12}
37%|███████████████████████████████████████████████████████████████ | 140/375 [00:19<00:36, 6.35it/s]
38%|███████████████████████████████████████████████████████████████▌ | 141/375 [00:19<00:32, 7.27it/s]
{'loss': 1.234, 'grad_norm': 13.699237823486328, 'learning_rate': 1.4416435189153845e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9337.91, 'epoch': 1.13}
38%|███████████████████████████████████████████████████████████████▌ | 141/375 [00:19<00:32, 7.27it/s]
{'loss': 0.8733, 'grad_norm': 9.144976615905762, 'learning_rate': 1.4338837391175582e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9152.25, 'epoch': 1.14}
38%|███████████████████████████████████████████████████████████████▉ | 142/375 [00:19<00:32, 7.27it/s]
38%|████████████████████████████████████████████████████████████████▍ | 143/375 [00:19<00:28, 8.18it/s]
{'loss': 0.8229, 'grad_norm': 8.226845741271973, 'learning_rate': 1.4260916395947657e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9395.59, 'epoch': 1.14}
38%|████████████████████████████████████████████████████████████████▍ | 143/375 [00:19<00:28, 8.18it/s]
{'loss': 0.9286, 'grad_norm': 6.422171592712402, 'learning_rate': 1.4182678007755653e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9346.69, 'epoch': 1.15}
38%|████████████████████████████████████████████████████████████████▉ | 144/375 [00:19<00:28, 8.18it/s]
39%|█████████████████████████████████████████████████████████████████▎ | 145/375 [00:19<00:26, 8.84it/s]
{'loss': 0.9782, 'grad_norm': 6.170538425445557, 'learning_rate': 1.410412805452757e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10723.1, 'epoch': 1.16}
39%|█████████████████████████████████████████████████████████████████▎ | 145/375 [00:19<00:26, 8.84it/s]
{'loss': 1.0241, 'grad_norm': 11.080183982849121, 'learning_rate': 1.4025272387399676e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8821.32, 'epoch': 1.17}
39%|█████████████████████████████████████████████████████████████████▊ | 146/375 [00:19<00:25, 8.84it/s]
39%|██████████████████████████████████████████████████████████████████▏ | 147/375 [00:20<00:24, 9.37it/s]
{'loss': 0.9761, 'grad_norm': 7.098969459533691, 'learning_rate': 1.3946116880280682e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9265.3, 'epoch': 1.18}
39%|██████████████████████████████████████████████████████████████████▏ | 147/375 [00:20<00:24, 9.37it/s]
{'loss': 0.8526, 'grad_norm': 9.043347358703613, 'learning_rate': 1.3866667429414188e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9129.46, 'epoch': 1.18}
39%|██████████████████████████████████████████████████████████████████▋ | 148/375 [00:20<00:24, 9.37it/s]
40%|███████████████████████████████████████████████████████████████████▏ | 149/375 [00:20<00:23, 9.81it/s]
{'loss': 1.1319, 'grad_norm': 6.993529796600342, 'learning_rate': 1.3786929952939478e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9760.2, 'epoch': 1.19}
40%|███████████████████████████████████████████████████████████████████▏ | 149/375 [00:20<00:23, 9.81it/s]
{'loss': 0.8302, 'grad_norm': 52.21656036376953, 'learning_rate': 1.3706910390450679e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10188.67, 'epoch': 1.2}
40%|███████████████████████████████████████████████████████████████████▌ | 150/375 [00:20<00:22, 9.81it/s]
40%|████████████████████████████████████████████████████████████████████ | 151/375 [00:20<00:21, 10.24it/s]
{'loss': 0.8852, 'grad_norm': 2670.78076171875, 'learning_rate': 1.3626614702554322e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10224.64, 'epoch': 1.21}
40%|████████████████████████████████████████████████████████████████████ | 151/375 [00:20<00:21, 10.24it/s]
{'loss': 1.0821, 'grad_norm': 3498.298095703125, 'learning_rate': 1.3546048870425356e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10002.44, 'epoch': 1.22}
41%|████████████████████████████████████████████████████████████████████▌ | 152/375 [00:20<00:21, 10.24it/s]
41%|████████████████████████████████████████████████████████████████████▉ | 153/375 [00:20<00:21, 10.56it/s]
{'loss': 1.0738, 'grad_norm': 24.916372299194336, 'learning_rate': 1.34652188953616e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9715.6, 'epoch': 1.22}
41%|████████████████████████████████████████████████████████████████████▉ | 153/375 [00:20<00:21, 10.56it/s]
{'loss': 1.032, 'grad_norm': 101.194580078125, 'learning_rate': 1.3384130798336705e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9998.81, 'epoch': 1.23}
41%|█████████████████████████████████████████████████████████████████████▍ | 154/375 [00:20<00:20, 10.56it/s]
41%|█████████████████████████████████████████████████████████████████████▊ | 155/375 [00:20<00:20, 10.78it/s]
{'loss': 1.0114, 'grad_norm': 170.0125274658203, 'learning_rate': 1.3302790619551673e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9299.12, 'epoch': 1.24}
41%|█████████████████████████████████████████████████████████████████████▊ | 155/375 [00:20<00:20, 10.78it/s]
{'loss': 0.8939, 'grad_norm': 6.429877281188965, 'learning_rate': 1.3221204417984907e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9493.79, 'epoch': 1.25}
42%|██████████████████████████████████████████████████████████████████████▎ | 156/375 [00:20<00:20, 10.78it/s]
42%|██████████████████████████████████████████████████████████████████████▊ | 157/375 [00:20<00:19, 10.96it/s]
{'loss': 1.0504, 'grad_norm': 156.3417205810547, 'learning_rate': 1.3139378270940901e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9593.19, 'epoch': 1.26}
42%|██████████████████████████████████████████████████████████████████████▊ | 157/375 [00:20<00:19, 10.96it/s]
{'loss': 0.9572, 'grad_norm': 62.33168029785156, 'learning_rate': 1.3057318273597531e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9438.59, 'epoch': 1.26}
42%|███████████████████████████████████████████████████████████████████████▏ | 158/375 [00:20<00:19, 10.96it/s]
42%|███████████████████████████████████████████████████████████████████████▋ | 159/375 [00:21<00:19, 10.96it/s]
{'loss': 1.1306, 'grad_norm': 8.116891860961914, 'learning_rate': 1.297503053855203e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9361.79, 'epoch': 1.27}
42%|███████████████████████████████████████████████████████████████████████▋ | 159/375 [00:21<00:19, 10.96it/s]
{'loss': 0.8458, 'grad_norm': 6.515566349029541, 'learning_rate': 1.2892521195365679e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9151.65, 'epoch': 1.28}
43%|████████████████████████████████████████████████████████████████████████ | 160/375 [00:21<00:19, 10.96it/s]
43%|████████████████████████████████████████████████████████████████████████▌ | 161/375 [00:21<00:19, 10.95it/s]
{'loss': 0.6969, 'grad_norm': 9.522754669189453, 'learning_rate': 1.2809796390107195e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9401.2, 'epoch': 1.29}
43%|████████████████████████████████████████████████████████████████████████▌ | 161/375 [00:21<00:19, 10.95it/s]
{'loss': 0.8992, 'grad_norm': 4221.33349609375, 'learning_rate': 1.2726862284894939e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10575.84, 'epoch': 1.3}
43%|█████████████████████████████████████████████████████████████████████████ | 162/375 [00:21<00:19, 10.95it/s]
43%|█████████████████████████████████████████████████████████████████████████▍ | 163/375 [00:21<00:19, 10.97it/s]
{'loss': 0.8934, 'grad_norm': 10332.404296875, 'learning_rate': 1.264372505743789e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9740.35, 'epoch': 1.3}
43%|█████████████████████████████████████████████████████████████████████████▍ | 163/375 [00:21<00:19, 10.97it/s]
{'loss': 0.9487, 'grad_norm': 581.2674560546875, 'learning_rate': 1.2560390900575472e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9566.03, 'epoch': 1.31}
44%|█████████████████████████████████████████████████████████████████████████▉ | 164/375 [00:21<00:19, 10.97it/s]
44%|██████████████████████████████████████████████████████████████████████████▎ | 165/375 [00:21<00:18, 11.08it/s]
{'loss': 0.9621, 'grad_norm': 6.686044692993164, 'learning_rate': 1.2476866021816261e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9637.59, 'epoch': 1.32}
44%|██████████████████████████████████████████████████████████████████████████▎ | 165/375 [00:21<00:18, 11.08it/s]
{'loss': 0.9283, 'grad_norm': 28.114683151245117, 'learning_rate': 1.2393156642875579e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9556.22, 'epoch': 1.33}
44%|██████████████████████████████████████████████████████████████████████████▊ | 166/375 [00:21<00:18, 11.08it/s]
45%|███████████████████████████████████████████████████████████████████████████▎ | 167/375 [00:21<00:18, 11.12it/s]
{'loss': 0.7725, 'grad_norm': 7.9377546310424805, 'learning_rate': 1.2309268999212059e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8790.08, 'epoch': 1.34}
45%|███████████████████████████████████████████████████████████████████████████▎ | 167/375 [00:21<00:18, 11.12it/s]
{'loss': 1.1318, 'grad_norm': 6.604945659637451, 'learning_rate': 1.2225209339563144e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9183.66, 'epoch': 1.34}
45%|███████████████████████████████████████████████████████████████████████████▋ | 168/375 [00:21<00:18, 11.12it/s]
45%|████████████████████████████████████████████████████████████████████████████▏ | 169/375 [00:21<00:18, 11.21it/s]
{'loss': 1.197, 'grad_norm': 43.898948669433594, 'learning_rate': 1.2140983925479662e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9898.71, 'epoch': 1.35}
45%|████████████████████████████████████████████████████████████████████████████▏ | 169/375 [00:21<00:18, 11.21it/s]
{'loss': 0.992, 'grad_norm': 8.307560920715332, 'learning_rate': 1.2056599030859367e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9145.82, 'epoch': 1.36}
45%|████████████████████████████████████████████████████████████████████████████▌ | 170/375 [00:22<00:18, 11.21it/s]
46%|█████████████████████████████████████████████████████████████████████████████ | 171/375 [00:22<00:18, 11.16it/s]
{'loss': 0.9855, 'grad_norm': 22.19371795654297, 'learning_rate': 1.1972060941479622e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9058.16, 'epoch': 1.37}
46%|█████████████████████████████████████████████████████████████████████████████ | 171/375 [00:22<00:18, 11.16it/s]
{'loss': 0.9785, 'grad_norm': 8.380789756774902, 'learning_rate': 1.1887375954529167e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10136.72, 'epoch': 1.38}
46%|█████████████████████████████████████████████████████████████████████████████▌ | 172/375 [00:22<00:18, 11.16it/s]
46%|█████████████████████████████████████████████████████████████████████████████▉ | 173/375 [00:22<00:18, 11.13it/s]
{'loss': 1.0824, 'grad_norm': 16.794055938720703, 'learning_rate': 1.180255037813906e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9779.51, 'epoch': 1.38}
46%|█████████████████████████████████████████████████████████████████████████████▉ | 173/375 [00:22<00:18, 11.13it/s]
{'loss': 0.8727, 'grad_norm': 25.328351974487305, 'learning_rate': 1.1717590530912764e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10090.75, 'epoch': 1.39}
46%|██████████████████████████████████████████████████████████████████████████████▍ | 174/375 [00:22<00:18, 11.13it/s]
47%|██████████████████████████████████████████████████████████████████████████████▊ | 175/375 [00:22<00:17, 11.22it/s]
{'loss': 0.933, 'grad_norm': 8.99081039428711, 'learning_rate': 1.1632502741455496e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9545.64, 'epoch': 1.4}
47%|██████████████████████████████████████████████████████████████████████████████▊ | 175/375 [00:22<00:17, 11.22it/s]
{'loss': 0.8604, 'grad_norm': 44.20006561279297, 'learning_rate': 1.1547293347902813e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9638.56, 'epoch': 1.41}
47%|███████████████████████████████████████████████████████████████████████████████▎ | 176/375 [00:22<00:17, 11.22it/s]
47%|███████████████████████████████████████████████████████████████████████████████▊ | 177/375 [00:22<00:17, 11.29it/s]
{'loss': 0.7719, 'grad_norm': 30.38372230529785, 'learning_rate': 1.1461968697448484e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9737.17, 'epoch': 1.42}
47%|███████████████████████████████████████████████████████████████████████████████▊ | 177/375 [00:22<00:17, 11.29it/s]
{'loss': 0.7853, 'grad_norm': 9.259000778198242, 'learning_rate': 1.1376535145871685e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9054.53, 'epoch': 1.42}
47%|████████████████████████████████████████████████████████████████████████████████▏ | 178/375 [00:22<00:17, 11.29it/s]
48%|████████████████████████████████████████████████████████████████████████████████▋ | 179/375 [00:22<00:17, 11.30it/s]
{'loss': 1.0467, 'grad_norm': 40.9815559387207, 'learning_rate': 1.129099905706357e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9247.0, 'epoch': 1.43}
48%|████████████████████████████████████████████████████████████████████████████████▋ | 179/375 [00:22<00:17, 11.30it/s]
{'loss': 0.9027, 'grad_norm': 15.718438148498535, 'learning_rate': 1.1205366802553231e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8804.67, 'epoch': 1.44}
48%|█████████████████████████████████████████████████████████████████████████████████ | 180/375 [00:22<00:17, 11.30it/s]
48%|█████████████████████████████████████████████████████████████████████████████████▌ | 181/375 [00:23<00:17, 11.31it/s]
{'loss': 0.9293, 'grad_norm': 77.581787109375, 'learning_rate': 1.1119644761033079e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10006.96, 'epoch': 1.45}
48%|█████████████████████████████████████████████████████████████████████████████████▌ | 181/375 [00:23<00:17, 11.31it/s]
{'loss': 1.1318, 'grad_norm': 2330.37744140625, 'learning_rate': 1.10338393178837e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9973.72, 'epoch': 1.46}
49%|██████████████████████████████████████████████████████████████████████████████████ | 182/375 [00:23<00:17, 11.31it/s]
49%|██████████████████████████████████████████████████████████████████████████████████▍ | 183/375 [00:23<00:16, 11.35it/s]
{'loss': 0.7807, 'grad_norm': 6.186338901519775, 'learning_rate': 1.0947956864698223e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9203.34, 'epoch': 1.46}
49%|██████████████████████████████████████████████████████████████████████████████████▍ | 183/375 [00:23<00:16, 11.35it/s]
{'loss': 0.8194, 'grad_norm': 7.477730751037598, 'learning_rate': 1.0862003798806195e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9406.7, 'epoch': 1.47}
49%|██████████████████████████████████████████████████████████████████████████████████▉ | 184/375 [00:23<00:16, 11.35it/s]
49%|███████████████████████████████████████████████████████████████████████████████████▎ | 185/375 [00:23<00:17, 11.15it/s]
{'loss': 0.9236, 'grad_norm': 6.590065002441406, 'learning_rate': 1.0775986522797065e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10000.95, 'epoch': 1.48}
49%|███████████████████████████████████████████████████████████████████████████████████▎ | 185/375 [00:23<00:17, 11.15it/s]
{'loss': 0.7928, 'grad_norm': 6.867511749267578, 'learning_rate': 1.0689911444043249e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9593.97, 'epoch': 1.49}
50%|███████████████████████████████████████████████████████████████████████████████████▊ | 186/375 [00:23<00:16, 11.15it/s]
50%|████████████████████████████████████████████████████████████████████████████████████▎ | 187/375 [00:23<00:16, 11.12it/s]
{'loss': 0.9884, 'grad_norm': 7.700260162353516, 'learning_rate': 1.0603784974222862e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9436.19, 'epoch': 1.5}
50%|████████████████████████████████████████████████████████████████████████████████████▎ | 187/375 [00:23<00:16, 11.12it/s]
{'loss': 0.944, 'grad_norm': 6.480975151062012, 'learning_rate': 1.0517613528842096e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9051.74, 'epoch': 1.5}
50%|████████████████████████████████████████████████████████████████████████████████████▋ | 188/375 [00:23<00:16, 11.12it/s]
50%|█████████████████████████████████████████████████████████████████████████████████████▏ | 189/375 [00:23<00:16, 11.03it/s]
{'loss': 0.9787, 'grad_norm': 8.846622467041016, 'learning_rate': 1.0431403526757347e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9404.26, 'epoch': 1.51}
50%|█████████████████████████████████████████████████████████████████████████████████████▏ | 189/375 [00:23<00:16, 11.03it/s]
{'loss': 1.1397, 'grad_norm': 7.650313377380371, 'learning_rate': 1.0345161389697083e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10308.6, 'epoch': 1.52}
51%|█████████████████████████████████████████████████████████████████████████████████████▋ | 190/375 [00:23<00:16, 11.03it/s]
51%|██████████████████████████████████████████████████████████████████████████████████████ | 191/375 [00:23<00:16, 11.22it/s]
{'loss': 0.8533, 'grad_norm': 6.186450481414795, 'learning_rate': 1.0258893541783476e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9560.57, 'epoch': 1.53}
51%|██████████████████████████████████████████████████████████████████████████████████████ | 191/375 [00:23<00:16, 11.22it/s]
{'loss': 0.8081, 'grad_norm': 7.308343887329102, 'learning_rate': 1.0172606409053887e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9042.39, 'epoch': 1.54}
51%|██████████████████████████████████████████████████████████████████████████████████████▌ | 192/375 [00:24<00:16, 11.22it/s]
51%|██████████████████████████████████████████████████████████████████████████████████████▉ | 193/375 [00:24<00:16, 11.18it/s]
{'loss': 1.0592, 'grad_norm': 7.5523600578308105, 'learning_rate': 1.008630641898219e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9756.08, 'epoch': 1.54}
51%|██████████████████████████████████████████████████████████████████████████████████████▉ | 193/375 [00:24<00:16, 11.18it/s]
{'loss': 1.1021, 'grad_norm': 7.91111946105957, 'learning_rate': 1e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8716.56, 'epoch': 1.55}
52%|███████████████████████████████████████████████████████████████████████████████████████▍ | 194/375 [00:24<00:16, 11.18it/s]
52%|███████████████████████████████████████████████████████████████████████████████████████▉ | 195/375 [00:24<00:16, 11.09it/s]
{'loss': 0.9201, 'grad_norm': 6.165367126464844, 'learning_rate': 9.913693581017812e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10619.83, 'epoch': 1.56}
52%|███████████████████████████████████████████████████████████████████████████████████████▉ | 195/375 [00:24<00:16, 11.09it/s]
{'loss': 0.7707, 'grad_norm': 6.286497116088867, 'learning_rate': 9.827393590946116e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9137.8, 'epoch': 1.57}
52%|████████████████████████████████████████████████████████████████████████████████████████▎ | 196/375 [00:24<00:16, 11.09it/s]
53%|████████████████████████████████████████████████████████████████████████████████████████▊ | 197/375 [00:24<00:16, 11.08it/s]
{'loss': 0.8757, 'grad_norm': 5.941903114318848, 'learning_rate': 9.741106458216529e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9129.48, 'epoch': 1.58}
53%|████████████████████████████████████████████████████████████████████████████████████████▊ | 197/375 [00:24<00:16, 11.08it/s]
{'loss': 0.9801, 'grad_norm': 6.356956481933594, 'learning_rate': 9.654838610302922e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9670.27, 'epoch': 1.58}
53%|█████████████████████████████████████████████████████████████████████████████████████████▏ | 198/375 [00:24<00:15, 11.08it/s]
53%|█████████████████████████████████████████████████████████████████████████████████████████▋ | 199/375 [00:24<00:15, 11.18it/s]
{'loss': 0.9416, 'grad_norm': 6.854360580444336, 'learning_rate': 9.568596473242655e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9870.71, 'epoch': 1.59}
53%|█████████████████████████████████████████████████████████████████████████████████████████▋ | 199/375 [00:24<00:15, 11.18it/s]
{'loss': 1.121, 'grad_norm': 7.387898921966553, 'learning_rate': 9.482386471157905e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10241.1, 'epoch': 1.6}
53%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 200/375 [00:24<00:15, 11.18it/s]
54%|██████████████████████████████████████████████████████████████████████████████████████████▌ | 201/375 [00:24<00:15, 11.28it/s]
{'loss': 1.124, 'grad_norm': 7.35006046295166, 'learning_rate': 9.39621502577714e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10646.97, 'epoch': 1.61}
54%|██████████████████████████████████████████████████████████████████████████████████████████▌ | 201/375 [00:24<00:15, 11.28it/s]
{'loss': 1.0408, 'grad_norm': 7.284885406494141, 'learning_rate': 9.310088555956751e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9822.42, 'epoch': 1.62}
54%|███████████████████████████████████████████████████████████████████████████████████████████ | 202/375 [00:24<00:15, 11.28it/s]
54%|███████████████████████████████████████████████████████████████████████████████████████████▍ | 203/375 [00:24<00:14, 11.47it/s]
{'loss': 1.206, 'grad_norm': 6.96799898147583, 'learning_rate': 9.224013477202939e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10262.35, 'epoch': 1.62}
54%|███████████████████████████████████████████████████████████████████████████████████████████▍ | 203/375 [00:24<00:14, 11.47it/s]
{'loss': 0.9539, 'grad_norm': 6.070692539215088, 'learning_rate': 9.137996201193807e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10067.87, 'epoch': 1.63}
54%|███████████████████████████████████████████████████████████████████████████████████████████▉ | 204/375 [00:25<00:14, 11.47it/s]
55%|████████████████████████████████████████████████████████████████████████████████████████████▍ | 205/375 [00:25<00:14, 11.42it/s]
{'loss': 1.0861, 'grad_norm': 6.845772743225098, 'learning_rate': 9.052043135301779e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9379.99, 'epoch': 1.64}
55%|████████████████████████████████████████████████████████████████████████████████████████████▍ | 205/375 [00:25<00:14, 11.42it/s]
{'loss': 0.9098, 'grad_norm': 6.330933094024658, 'learning_rate': 8.966160682116301e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9647.25, 'epoch': 1.65}
55%|████████████████████████████████████████████████████████████████████████████████████████████▊ | 206/375 [00:25<00:14, 11.42it/s]
55%|█████████████████████████████████████████████████████████████████████████████████████████████▎ | 207/375 [00:25<00:14, 11.43it/s]
{'loss': 0.7433, 'grad_norm': 5.568795204162598, 'learning_rate': 8.880355238966923e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9716.13, 'epoch': 1.66}
55%|█████████████████████████████████████████████████████████████████████████████████████████████▎ | 207/375 [00:25<00:14, 11.43it/s]
{'loss': 1.0619, 'grad_norm': 7.868434906005859, 'learning_rate': 8.79463319744677e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9357.84, 'epoch': 1.66}
55%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 208/375 [00:25<00:14, 11.43it/s]
56%|██████████████████████████████████████████████████████████████████████████████████████████████▏ | 209/375 [00:25<00:14, 11.32it/s]
{'loss': 1.0762, 'grad_norm': 7.0925679206848145, 'learning_rate': 8.709000942936434e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9551.5, 'epoch': 1.67}
56%|██████████████████████████████████████████████████████████████████████████████████████████████▏ | 209/375 [00:25<00:14, 11.32it/s]
{'loss': 0.9167, 'grad_norm': 5.728442192077637, 'learning_rate': 8.62346485412832e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9675.92, 'epoch': 1.68}
56%|██████████████████████████████████████████████████████████████████████████████████████████████▋ | 210/375 [00:25<00:14, 11.32it/s]
56%|███████████████████████████████████████████████████████████████████████████████████████████████ | 211/375 [00:25<00:14, 11.24it/s]
{'loss': 0.7902, 'grad_norm': 5.848219394683838, 'learning_rate': 8.538031302551522e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10113.15, 'epoch': 1.69}
56%|███████████████████████████████████████████████████████████████████████████████████████████████ | 211/375 [00:25<00:14, 11.24it/s]
{'loss': 0.8974, 'grad_norm': 6.032992839813232, 'learning_rate': 8.452706652097187e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9626.83, 'epoch': 1.7}
57%|███████████████████████████████████████████████████████████████████████████████████████████████▌ | 212/375 [00:25<00:14, 11.24it/s]
57%|███████████████████████████████████████████████████████████████████████████████████████████████▉ | 213/375 [00:25<00:14, 11.19it/s]
{'loss': 0.9066, 'grad_norm': 6.665802001953125, 'learning_rate': 8.367497258544507e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10101.8, 'epoch': 1.7}
57%|███████████████████████████████████████████████████████████████████████████████████████████████▉ | 213/375 [00:25<00:14, 11.19it/s]
{'loss': 1.1264, 'grad_norm': 7.590502738952637, 'learning_rate': 8.28240946908724e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9407.63, 'epoch': 1.71}
57%|████████████████████████████████████████████████████████████████████████████████████████████████▍ | 214/375 [00:25<00:14, 11.19it/s]
57%|████████████████████████████████████████████████████████████████████████████████████████████████▉ | 215/375 [00:26<00:14, 11.15it/s]
{'loss': 0.7886, 'grad_norm': 6.182285785675049, 'learning_rate': 8.197449621860944e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9985.71, 'epoch': 1.72}
57%|████████████████████████████████████████████████████████████████████████████████████████████████▉ | 215/375 [00:26<00:14, 11.15it/s]
{'loss': 0.9015, 'grad_norm': 6.816455841064453, 'learning_rate': 8.112624045470834e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10186.71, 'epoch': 1.73}
58%|█████████████████████████████████████████████████████████████████████████████████████████████████▎ | 216/375 [00:26<00:14, 11.15it/s]
58%|█████████████████████████████████████████████████████████████████████████████████████████████████▊ | 217/375 [00:26<00:14, 11.12it/s]
{'loss': 1.171, 'grad_norm': 7.049309253692627, 'learning_rate': 8.027939058520381e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10928.38, 'epoch': 1.74}
58%|█████████████████████████████████████████████████████████████████████████████████████████████████▊ | 217/375 [00:26<00:14, 11.12it/s]
{'loss': 0.9207, 'grad_norm': 8.280806541442871, 'learning_rate': 7.943400969140635e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9323.27, 'epoch': 1.74}
58%|██████████████████████████████████████████████████████████████████████████████████████████████████▏ | 218/375 [00:26<00:14, 11.12it/s]
58%|██████████████████████████████████████████████████████████████████████████████████████████████████▋ | 219/375 [00:26<00:14, 11.11it/s]
{'loss': 0.7256, 'grad_norm': 5.811641216278076, 'learning_rate': 7.85901607452034e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10116.58, 'epoch': 1.75}
58%|██████████████████████████████████████████████████████████████████████████████████████████████████▋ | 219/375 [00:26<00:14, 11.11it/s]
{'loss': 0.8147, 'grad_norm': 5.753540992736816, 'learning_rate': 7.774790660436857e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10220.37, 'epoch': 1.76}
59%|███████████████████████████████████████████████████████████████████████████████████████████████████▏ | 220/375 [00:26<00:13, 11.11it/s]
59%|███████████████████████████████████████████████████████████████████████████████████████████████████▌ | 221/375 [00:26<00:13, 11.21it/s]
{'loss': 0.7924, 'grad_norm': 7.685948371887207, 'learning_rate': 7.690731000787948e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9831.87, 'epoch': 1.77}
59%|███████████████████████████████████████████████████████████████████████████████████████████████████▌ | 221/375 [00:26<00:13, 11.21it/s]
{'loss': 0.7302, 'grad_norm': 6.002508163452148, 'learning_rate': 7.606843357124426e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9882.59, 'epoch': 1.78}
59%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 222/375 [00:26<00:13, 11.21it/s]
59%|████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 223/375 [00:26<00:13, 11.14it/s]
{'loss': 1.1713, 'grad_norm': 6.74810791015625, 'learning_rate': 7.523133978183741e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9594.46, 'epoch': 1.78}
59%|████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 223/375 [00:26<00:13, 11.14it/s]
{'loss': 1.0677, 'grad_norm': 6.788215637207031, 'learning_rate': 7.4396090994245295e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10664.31, 'epoch': 1.79}
60%|████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 224/375 [00:26<00:13, 11.14it/s]
60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 225/375 [00:26<00:13, 11.12it/s]
{'loss': 1.2432, 'grad_norm': 7.144600868225098, 'learning_rate': 7.3562749425621115e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 11062.93, 'epoch': 1.8}
60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 225/375 [00:26<00:13, 11.12it/s]
{'loss': 1.188, 'grad_norm': 7.550920486450195, 'learning_rate': 7.273137715105063e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9883.92, 'epoch': 1.81}
60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 226/375 [00:27<00:13, 11.12it/s]
61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 227/375 [00:27<00:13, 11.23it/s]
{'loss': 0.7915, 'grad_norm': 6.2611985206604, 'learning_rate': 7.190203609892808e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9321.64, 'epoch': 1.82}
61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 227/375 [00:27<00:13, 11.23it/s]
{'loss': 1.0047, 'grad_norm': 6.8424201011657715, 'learning_rate': 7.107478804634324e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8967.05, 'epoch': 1.82}
61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 228/375 [00:27<00:13, 11.23it/s]
61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 229/375 [00:27<00:13, 11.15it/s]
{'loss': 0.9044, 'grad_norm': 6.418837547302246, 'learning_rate': 7.024969461447973e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9100.3, 'epoch': 1.83}
61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 229/375 [00:27<00:13, 11.15it/s]
{'loss': 0.8146, 'grad_norm': 6.246644496917725, 'learning_rate': 6.942681726402474e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9585.08, 'epoch': 1.84}
61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 230/375 [00:27<00:13, 11.15it/s]
62%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 231/375 [00:27<00:13, 10.91it/s]
{'loss': 1.2182, 'grad_norm': 7.915614128112793, 'learning_rate': 6.8606217290591e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8969.76, 'epoch': 1.85}
62%|████████████████████████████████████████████████████████████████████████████████████████████████████████ | 231/375 [00:27<00:13, 10.91it/s]
{'loss': 0.8957, 'grad_norm': 6.611807823181152, 'learning_rate': 6.778795582015096e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9573.17, 'epoch': 1.86}
62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 232/375 [00:27<00:13, 10.91it/s]
62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████ | 233/375 [00:27<00:12, 10.96it/s]
{'loss': 0.7415, 'grad_norm': 6.592597484588623, 'learning_rate': 6.697209380448333e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10711.79, 'epoch': 1.86}
62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████ | 233/375 [00:27<00:12, 10.96it/s]
{'loss': 0.9068, 'grad_norm': 6.312318325042725, 'learning_rate': 6.615869201663296e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9185.0, 'epoch': 1.87}
62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 234/375 [00:27<00:12, 10.96it/s]
63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 235/375 [00:27<00:12, 10.99it/s]
{'loss': 0.9875, 'grad_norm': 6.272254467010498, 'learning_rate': 6.5347811046384e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10245.05, 'epoch': 1.88}
63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 235/375 [00:27<00:12, 10.99it/s]
{'loss': 1.0383, 'grad_norm': 8.214420318603516, 'learning_rate': 6.453951129574644e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10504.33, 'epoch': 1.89}
63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 236/375 [00:27<00:12, 10.99it/s]
63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 237/375 [00:28<00:12, 11.21it/s]
{'loss': 1.0149, 'grad_norm': 6.468367099761963, 'learning_rate': 6.37338529744568e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10040.63, 'epoch': 1.9}
63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 237/375 [00:28<00:12, 11.21it/s]
{'loss': 0.97, 'grad_norm': 6.546410083770752, 'learning_rate': 6.293089609549325e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9886.83, 'epoch': 1.9}
63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 238/375 [00:28<00:12, 11.21it/s]
64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 239/375 [00:28<00:12, 11.15it/s]
{'loss': 0.7989, 'grad_norm': 6.140220642089844, 'learning_rate': 6.213070047060524e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9402.48, 'epoch': 1.91}
64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 239/375 [00:28<00:12, 11.15it/s]
{'loss': 1.0503, 'grad_norm': 7.188436508178711, 'learning_rate': 6.133332570585813e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10245.02, 'epoch': 1.92}
64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 240/375 [00:28<00:12, 11.15it/s]
64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 241/375 [00:28<00:12, 11.12it/s]
{'loss': 1.0745, 'grad_norm': 8.125267028808594, 'learning_rate': 6.053883119719321e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9682.74, 'epoch': 1.93}
64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 241/375 [00:28<00:12, 11.12it/s]
{'loss': 0.8269, 'grad_norm': 7.138496398925781, 'learning_rate': 5.9747276126003265e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9457.85, 'epoch': 1.94}
65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 242/375 [00:28<00:11, 11.12it/s]
65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 243/375 [00:28<00:11, 11.17it/s]
{'loss': 0.781, 'grad_norm': 5.657252311706543, 'learning_rate': 5.895871945472434e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9074.22, 'epoch': 1.94}
65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 243/375 [00:28<00:11, 11.17it/s]
{'loss': 0.9378, 'grad_norm': 8.181774139404297, 'learning_rate': 5.8173219922443516e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9462.35, 'epoch': 1.95}
65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 244/375 [00:28<00:11, 11.17it/s]
65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 245/375 [00:28<00:11, 11.28it/s]
{'loss': 0.9336, 'grad_norm': 7.129058361053467, 'learning_rate': 5.739083604052351e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9037.93, 'epoch': 1.96}
65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 245/375 [00:28<00:11, 11.28it/s]
{'loss': 0.8618, 'grad_norm': 6.671249866485596, 'learning_rate': 5.66116260882442e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9170.3, 'epoch': 1.97}
66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 246/375 [00:28<00:11, 11.28it/s]
66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 247/375 [00:28<00:11, 11.39it/s]
{'loss': 0.8905, 'grad_norm': 10.080750465393066, 'learning_rate': 5.583564810846157e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10051.1, 'epoch': 1.98}
66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 247/375 [00:28<00:11, 11.39it/s]
{'loss': 1.0144, 'grad_norm': 7.297857284545898, 'learning_rate': 5.5062959903283855e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10019.58, 'epoch': 1.98}
66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 248/375 [00:29<00:11, 11.39it/s]
66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 249/375 [00:29<00:10, 11.49it/s]
{'loss': 0.9217, 'grad_norm': 6.850291728973389, 'learning_rate': 5.429361902976624e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9398.77, 'epoch': 1.99}
66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 249/375 [00:29<00:10, 11.49it/s]
{'loss': 0.9814, 'grad_norm': 9.657767295837402, 'learning_rate': 5.352768279562315e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8769.61, 'epoch': 2.0}
67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 250/375 [00:29<00:10, 11.49it/s][2025-11-05 14:41:59,321] [INFO] [axolotl.core.trainers.base._save:671] [PID:989] Saving model checkpoint to ./outputs/atlas-fast-1.1b-v2/checkpoint-250
67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 251/375 [00:34<01:45, 1.18it/s]
{'loss': 0.9202, 'grad_norm': 5.981490135192871, 'learning_rate': 5.276520825495963e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8002.9, 'epoch': 2.01}
67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 251/375 [00:34<01:45, 1.18it/s]
67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 252/375 [00:34<01:28, 1.39it/s]
{'loss': 1.0106, 'grad_norm': 6.849959850311279, 'learning_rate': 5.200625220402139e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9069.26, 'epoch': 2.02}
67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 252/375 [00:34<01:28, 1.39it/s]
67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 253/375 [00:34<01:12, 1.68it/s]
{'loss': 0.8457, 'grad_norm': 5.646915912628174, 'learning_rate': 5.125087117696403e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8720.64, 'epoch': 2.02}
67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 253/375 [00:34<01:12, 1.68it/s]
68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 254/375 [00:34<00:58, 2.07it/s]
{'loss': 0.8, 'grad_norm': 5.9044880867004395, 'learning_rate': 5.049912144164186e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8892.74, 'epoch': 2.03}
68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 254/375 [00:34<00:58, 2.07it/s]
68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 255/375 [00:34<00:47, 2.53it/s]
{'loss': 0.8337, 'grad_norm': 7.605242729187012, 'learning_rate': 4.975105899541671e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7626.69, 'epoch': 2.04}
68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 255/375 [00:34<00:47, 2.53it/s]
{'loss': 0.7805, 'grad_norm': 6.687244415283203, 'learning_rate': 4.900673956098644e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9814.33, 'epoch': 2.05}
68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 256/375 [00:34<00:47, 2.53it/s]
69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 257/375 [00:34<00:32, 3.69it/s]
{'loss': 0.903, 'grad_norm': 8.326522827148438, 'learning_rate': 4.826621858223431e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9395.83, 'epoch': 2.06}
69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 257/375 [00:34<00:32, 3.69it/s]
{'loss': 0.7083, 'grad_norm': 6.293161392211914, 'learning_rate': 4.75295512200992e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9351.64, 'epoch': 2.06}
69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 258/375 [00:35<00:31, 3.69it/s]
69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 259/375 [00:35<00:23, 4.86it/s]
{'loss': 0.8248, 'grad_norm': 11.643998146057129, 'learning_rate': 4.679679234846636e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8632.19, 'epoch': 2.07}
69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 259/375 [00:35<00:23, 4.86it/s]
{'loss': 0.5928, 'grad_norm': 429.9149475097656, 'learning_rate': 4.606799655008009e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8736.05, 'epoch': 2.08}
69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 260/375 [00:35<00:23, 4.86it/s]
70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 261/375 [00:35<00:18, 6.04it/s]
{'loss': 0.802, 'grad_norm': 915.8787841796875, 'learning_rate': 4.5343218112477906e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8238.46, 'epoch': 2.09}
70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 261/375 [00:35<00:18, 6.04it/s]
{'loss': 0.767, 'grad_norm': 73.23159790039062, 'learning_rate': 4.462251102394669e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9214.08, 'epoch': 2.1}
70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 262/375 [00:35<00:18, 6.04it/s]
70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 263/375 [00:35<00:15, 7.13it/s]
{'loss': 0.9257, 'grad_norm': 25.91334342956543, 'learning_rate': 4.3905928969501054e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9488.62, 'epoch': 2.1}
70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 263/375 [00:35<00:15, 7.13it/s]
{'loss': 0.8362, 'grad_norm': 9.985756874084473, 'learning_rate': 4.319352532688444e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9714.82, 'epoch': 2.11}
70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 264/375 [00:35<00:15, 7.13it/s]
71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 265/375 [00:35<00:13, 8.09it/s]
{'loss': 0.7201, 'grad_norm': 5.919938564300537, 'learning_rate': 4.2485353162593054e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9775.6, 'epoch': 2.12}
71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 265/375 [00:35<00:13, 8.09it/s]
{'loss': 0.646, 'grad_norm': 5.425070285797119, 'learning_rate': 4.178146522792296e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9823.21, 'epoch': 2.13}
71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 266/375 [00:35<00:13, 8.09it/s]
71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 267/375 [00:35<00:12, 8.84it/s]
{'loss': 0.8371, 'grad_norm': 7.535451412200928, 'learning_rate': 4.108191395504064e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10210.49, 'epoch': 2.14}
71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 267/375 [00:35<00:12, 8.84it/s]
{'loss': 0.7447, 'grad_norm': 6.634559631347656, 'learning_rate': 4.038675145307747e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10344.66, 'epoch': 2.14}
71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 268/375 [00:35<00:12, 8.84it/s]
72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 269/375 [00:36<00:11, 9.52it/s]
{'loss': 0.8442, 'grad_norm': 6.258257865905762, 'learning_rate': 3.9696029504247955e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9499.38, 'epoch': 2.15}
72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 269/375 [00:36<00:11, 9.52it/s]
{'loss': 1.0568, 'grad_norm': 10.127217292785645, 'learning_rate': 3.900979955999271e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10597.43, 'epoch': 2.16}
72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 270/375 [00:36<00:11, 9.52it/s]
72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 271/375 [00:36<00:10, 9.88it/s]
{'loss': 0.9928, 'grad_norm': 8.251473426818848, 'learning_rate': 3.832811273714569e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9203.74, 'epoch': 2.17}
72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 271/375 [00:36<00:10, 9.88it/s]
{'loss': 0.8505, 'grad_norm': 6.469297409057617, 'learning_rate': 3.7651019814126656e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9114.04, 'epoch': 2.18}
73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 272/375 [00:36<00:10, 9.88it/s]
73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 273/375 [00:36<00:10, 10.19it/s]
{'loss': 0.8881, 'grad_norm': 6.460302352905273, 'learning_rate': 3.6978571227158655e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9763.02, 'epoch': 2.18}
73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 273/375 [00:36<00:10, 10.19it/s]
{'loss': 0.8964, 'grad_norm': 6.623606204986572, 'learning_rate': 3.6310817066511106e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9929.38, 'epoch': 2.19}
73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 274/375 [00:36<00:09, 10.19it/s]
73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 275/375 [00:36<00:09, 10.44it/s]
{'loss': 0.8188, 'grad_norm': 6.475684642791748, 'learning_rate': 3.5647807072768525e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10392.85, 'epoch': 2.2}
73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 275/375 [00:36<00:09, 10.44it/s]
{'loss': 0.7067, 'grad_norm': 5.588502883911133, 'learning_rate': 3.4989590633125583e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10069.27, 'epoch': 2.21}
74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 276/375 [00:36<00:09, 10.44it/s]
74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 277/375 [00:36<00:09, 10.62it/s]
{'loss': 0.7485, 'grad_norm': 6.028927803039551, 'learning_rate': 3.4336216777707998e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9744.57, 'epoch': 2.22}
74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 277/375 [00:36<00:09, 10.62it/s]
{'loss': 0.7795, 'grad_norm': 6.454056739807129, 'learning_rate': 3.3687734175920505e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9554.6, 'epoch': 2.22}
74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 278/375 [00:36<00:09, 10.62it/s]
74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 279/375 [00:36<00:08, 10.82it/s]
{'loss': 0.6496, 'grad_norm': 5.69786262512207, 'learning_rate': 3.3044191132821457e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9993.66, 'epoch': 2.23}
74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 279/375 [00:36<00:08, 10.82it/s]
{'loss': 0.9212, 'grad_norm': 6.762315273284912, 'learning_rate': 3.2405635585524566e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10090.77, 'epoch': 2.24}
75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 280/375 [00:37<00:08, 10.82it/s]
75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/375 [00:37<00:08, 10.99it/s]
{'loss': 0.7413, 'grad_norm': 6.355398178100586, 'learning_rate': 3.1772115099628266e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9948.54, 'epoch': 2.25}
75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 281/375 [00:37<00:08, 10.99it/s]
{'loss': 0.7883, 'grad_norm': 6.551461219787598, 'learning_rate': 3.114367686567228e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10351.23, 'epoch': 2.26}
75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 282/375 [00:37<00:08, 10.99it/s]
75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 283/375 [00:37<00:08, 11.01it/s]
{'loss': 0.8113, 'grad_norm': 6.637039661407471, 'learning_rate': 3.0520367695622766e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9684.4, 'epoch': 2.26}
75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 283/375 [00:37<00:08, 11.01it/s]
{'loss': 0.9227, 'grad_norm': 7.884800434112549, 'learning_rate': 2.9902234019385056e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9313.5, 'epoch': 2.27}
76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 284/375 [00:37<00:08, 11.01it/s]
76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 285/375 [00:37<00:07, 11.25it/s]
{'loss': 0.8634, 'grad_norm': 6.534247875213623, 'learning_rate': 2.9289321881345257e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9679.81, 'epoch': 2.28}
76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 285/375 [00:37<00:07, 11.25it/s]
{'loss': 0.8544, 'grad_norm': 6.680509090423584, 'learning_rate': 2.8681676936940397e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9638.31, 'epoch': 2.29}
76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 286/375 [00:37<00:07, 11.25it/s]
77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 287/375 [00:37<00:07, 11.17it/s]
{'loss': 0.7304, 'grad_norm': 5.755170822143555, 'learning_rate': 2.8079344449257573e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9653.5, 'epoch': 2.3}
77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 287/375 [00:37<00:07, 11.17it/s]
{'loss': 0.7861, 'grad_norm': 7.033522129058838, 'learning_rate': 2.748236928566238e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9087.89, 'epoch': 2.3}
77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 288/375 [00:37<00:07, 11.17it/s]
77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 289/375 [00:37<00:07, 11.22it/s]
{'loss': 0.7712, 'grad_norm': 6.554269790649414, 'learning_rate': 2.689079591445668e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9751.14, 'epoch': 2.31}
77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 289/375 [00:37<00:07, 11.22it/s]
{'loss': 0.7685, 'grad_norm': 6.235719680786133, 'learning_rate': 2.6304668401566334e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9400.08, 'epoch': 2.32}
77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 290/375 [00:37<00:07, 11.22it/s]
78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 291/375 [00:38<00:07, 11.28it/s]
{'loss': 0.7031, 'grad_norm': 6.52984619140625, 'learning_rate': 2.572403040725855e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8954.7, 'epoch': 2.33}
78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 291/375 [00:38<00:07, 11.28it/s]
{'loss': 0.7111, 'grad_norm': 6.145604133605957, 'learning_rate': 2.514892518288988e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9904.69, 'epoch': 2.34}
78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 292/375 [00:38<00:07, 11.28it/s]
78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 293/375 [00:38<00:07, 11.31it/s]
{'loss': 0.8098, 'grad_norm': 6.1708574295043945, 'learning_rate': 2.4579395567684284e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10090.01, 'epoch': 2.34}
78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 293/375 [00:38<00:07, 11.31it/s]
{'loss': 0.6655, 'grad_norm': 6.078342914581299, 'learning_rate': 2.401548398554213e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9805.41, 'epoch': 2.35}
78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 294/375 [00:38<00:07, 11.31it/s]
79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 295/375 [00:38<00:08, 9.68it/s]
{'loss': 0.8242, 'grad_norm': 6.2961344718933105, 'learning_rate': 2.345723244188006e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 4735.78, 'epoch': 2.36}
79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 295/375 [00:38<00:08, 9.68it/s]
{'loss': 0.7602, 'grad_norm': 6.009976863861084, 'learning_rate': 2.290468252050204e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8175.49, 'epoch': 2.37}
79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 296/375 [00:38<00:08, 9.68it/s]
79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 297/375 [00:38<00:08, 9.75it/s]
{'loss': 0.7531, 'grad_norm': 6.406927108764648, 'learning_rate': 2.2357875380501835e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8644.6, 'epoch': 2.38}
79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 297/375 [00:38<00:08, 9.75it/s]
{'loss': 0.7886, 'grad_norm': 6.079426288604736, 'learning_rate': 2.1816851753197023e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7876.76, 'epoch': 2.38}
79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 298/375 [00:38<00:07, 9.75it/s]
80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 299/375 [00:38<00:08, 9.15it/s]
{'loss': 0.7933, 'grad_norm': 6.878996849060059, 'learning_rate': 2.1281651939094996e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 5739.5, 'epoch': 2.39}
80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 299/375 [00:38<00:08, 9.15it/s]
80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 300/375 [00:39<00:08, 9.25it/s]
{'loss': 1.0248, 'grad_norm': 7.413934230804443, 'learning_rate': 2.075231580489098e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9050.24, 'epoch': 2.4}
80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 300/375 [00:39<00:08, 9.25it/s]
80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 301/375 [00:39<00:07, 9.34it/s]
{'loss': 0.7051, 'grad_norm': 6.895175457000732, 'learning_rate': 2.0228882780498405e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7602.72, 'epoch': 2.41}
80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 301/375 [00:39<00:07, 9.34it/s]
81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 302/375 [00:39<00:07, 9.41it/s]
{'loss': 0.5784, 'grad_norm': 6.130258560180664, 'learning_rate': 1.971139185611176e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8374.64, 'epoch': 2.42}
81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 302/375 [00:39<00:07, 9.41it/s]
81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 303/375 [00:39<00:07, 9.47it/s]
{'loss': 0.7732, 'grad_norm': 6.942368030548096, 'learning_rate': 1.919988157930236e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7544.11, 'epoch': 2.42}
81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 303/375 [00:39<00:07, 9.47it/s]
81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 304/375 [00:39<00:07, 9.50it/s]
{'loss': 0.7872, 'grad_norm': 6.185111999511719, 'learning_rate': 1.8694390052146737e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7621.31, 'epoch': 2.43}
81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 304/375 [00:39<00:07, 9.50it/s]
81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 305/375 [00:39<00:07, 9.55it/s]
{'loss': 0.7951, 'grad_norm': 6.280045032501221, 'learning_rate': 1.8194954928388719e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9273.36, 'epoch': 2.44}
81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 305/375 [00:39<00:07, 9.55it/s]
82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 306/375 [00:39<00:07, 9.54it/s]
{'loss': 0.6025, 'grad_norm': 6.018642902374268, 'learning_rate': 1.7701613410634367e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7438.19, 'epoch': 2.45}
82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 306/375 [00:39<00:07, 9.54it/s]
82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 307/375 [00:39<00:07, 9.56it/s]
{'loss': 0.7949, 'grad_norm': 8.388545989990234, 'learning_rate': 1.721440224758092e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8497.79, 'epoch': 2.46}
82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 307/375 [00:39<00:07, 9.56it/s]
82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 308/375 [00:39<00:06, 9.58it/s]
{'loss': 0.5678, 'grad_norm': 6.046279430389404, 'learning_rate': 1.6733357731279375e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8547.53, 'epoch': 2.46}
82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 308/375 [00:39<00:06, 9.58it/s]
82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 309/375 [00:39<00:06, 9.61it/s]
{'loss': 0.7113, 'grad_norm': 7.564311504364014, 'learning_rate': 1.6258515694431142e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8742.75, 'epoch': 2.47}
82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 309/375 [00:39<00:06, 9.61it/s]
83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 310/375 [00:40<00:06, 9.57it/s]
{'loss': 0.9246, 'grad_norm': 6.3145341873168945, 'learning_rate': 1.5789911507718824e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7580.25, 'epoch': 2.48}
83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 310/375 [00:40<00:06, 9.57it/s]
83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 311/375 [00:40<00:06, 9.55it/s]
{'loss': 0.5517, 'grad_norm': 6.84761905670166, 'learning_rate': 1.5327580077171589e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7582.1, 'epoch': 2.49}
83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 311/375 [00:40<00:06, 9.55it/s]
83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 312/375 [00:40<00:06, 9.57it/s]
{'loss': 0.8163, 'grad_norm': 6.969144344329834, 'learning_rate': 1.4871555841564889e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7980.88, 'epoch': 2.5}
83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 312/375 [00:40<00:06, 9.57it/s]
83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 313/375 [00:40<00:06, 9.59it/s]
{'loss': 0.805, 'grad_norm': 6.1413893699646, 'learning_rate': 1.4421872769855262e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8790.22, 'epoch': 2.5}
83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 313/375 [00:40<00:06, 9.59it/s]
{'loss': 0.7271, 'grad_norm': 6.641040802001953, 'learning_rate': 1.3978564358649926e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8910.64, 'epoch': 2.51}
84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 314/375 [00:40<00:06, 9.59it/s]
84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 315/375 [00:40<00:06, 9.83it/s]
{'loss': 0.8501, 'grad_norm': 7.606501579284668, 'learning_rate': 1.3541663629711765e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8685.57, 'epoch': 2.52}
84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 315/375 [00:40<00:06, 9.83it/s]
{'loss': 0.9436, 'grad_norm': 6.607245445251465, 'learning_rate': 1.311120312749935e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8718.95, 'epoch': 2.53}
84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 316/375 [00:40<00:06, 9.83it/s]
85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 317/375 [00:40<00:05, 9.89it/s]
{'loss': 0.8606, 'grad_norm': 7.009119033813477, 'learning_rate': 1.2687214916742918e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8719.71, 'epoch': 2.54}
85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 317/375 [00:40<00:05, 9.89it/s]
85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 318/375 [00:40<00:05, 9.87it/s]
{'loss': 0.7719, 'grad_norm': 7.780111789703369, 'learning_rate': 1.2269730580055806e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8008.87, 'epoch': 2.54}
85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 318/375 [00:40<00:05, 9.87it/s]
{'loss': 0.7975, 'grad_norm': 7.883535861968994, 'learning_rate': 1.1858781215581861e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8276.53, 'epoch': 2.55}
85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 319/375 [00:40<00:05, 9.87it/s]
85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 320/375 [00:41<00:05, 9.94it/s]
{'loss': 0.7546, 'grad_norm': 6.130970001220703, 'learning_rate': 1.1454397434679022e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9536.88, 'epoch': 2.56}
85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 320/375 [00:41<00:05, 9.94it/s]
{'loss': 0.868, 'grad_norm': 6.472546100616455, 'learning_rate': 1.1056609359639027e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8561.93, 'epoch': 2.57}
86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 321/375 [00:41<00:05, 9.94it/s]
86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 322/375 [00:41<00:05, 9.97it/s]
{'loss': 0.7834, 'grad_norm': 6.494772911071777, 'learning_rate': 1.066544662144371e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9040.17, 'epoch': 2.58}
86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 322/375 [00:41<00:05, 9.97it/s]
{'loss': 0.8025, 'grad_norm': 6.538474082946777, 'learning_rate': 1.028093835755769e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9391.52, 'epoch': 2.58}
86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 323/375 [00:41<00:05, 9.97it/s]
86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 324/375 [00:41<00:05, 10.02it/s]
{'loss': 0.7692, 'grad_norm': 6.820719242095947, 'learning_rate': 9.903113209758098e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8446.78, 'epoch': 2.59}
86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 324/375 [00:41<00:05, 10.02it/s]
{'loss': 0.6684, 'grad_norm': 6.430535793304443, 'learning_rate': 9.531999322000885e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8624.0, 'epoch': 2.6}
87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 325/375 [00:41<00:04, 10.02it/s]
87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 326/375 [00:41<00:04, 10.05it/s]
{'loss': 0.5947, 'grad_norm': 5.931708335876465, 'learning_rate': 9.167624338324599e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9094.0, 'epoch': 2.61}
87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 326/375 [00:41<00:04, 10.05it/s]
{'loss': 0.6893, 'grad_norm': 7.059136390686035, 'learning_rate': 8.810015400790994e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7949.72, 'epoch': 2.62}
87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 327/375 [00:41<00:04, 10.05it/s]
87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 328/375 [00:41<00:04, 10.03it/s]
{'loss': 0.7238, 'grad_norm': 6.375615119934082, 'learning_rate': 8.459199147463371e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8437.56, 'epoch': 2.62}
87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 328/375 [00:41<00:04, 10.03it/s]
{'loss': 0.7744, 'grad_norm': 7.04406213760376, 'learning_rate': 8.115201710422283e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8123.41, 'epoch': 2.63}
88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 329/375 [00:41<00:04, 10.03it/s]
88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 330/375 [00:42<00:04, 9.99it/s]
{'loss': 0.908, 'grad_norm': 7.500838279724121, 'learning_rate': 7.778048713818975e-07, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9392.7, 'epoch': 2.64}
88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 330/375 [00:42<00:04, 9.99it/s]
{'loss': 0.7266, 'grad_norm': 6.119864463806152, 'learning_rate': 7.447765271966656e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9262.05, 'epoch': 2.65}
88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 331/375 [00:42<00:04, 9.99it/s]
89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 332/375 [00:42<00:04, 10.02it/s]
{'loss': 0.6614, 'grad_norm': 6.242328643798828, 'learning_rate': 7.124375987469767e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8620.83, 'epoch': 2.66}
89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 332/375 [00:42<00:04, 10.02it/s]
{'loss': 0.6925, 'grad_norm': 6.0528645515441895, 'learning_rate': 6.807904949391319e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8356.76, 'epoch': 2.66}
89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 333/375 [00:42<00:04, 10.02it/s]
89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 334/375 [00:42<00:04, 10.08it/s]
{'loss': 0.6727, 'grad_norm': 6.705522537231445, 'learning_rate': 6.498375731458529e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8352.64, 'epoch': 2.67}
89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 334/375 [00:42<00:04, 10.08it/s]
{'loss': 0.8691, 'grad_norm': 6.783859729766846, 'learning_rate': 6.195811390306816e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8108.18, 'epoch': 2.68}
89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 335/375 [00:42<00:03, 10.08it/s]
90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 336/375 [00:42<00:03, 10.08it/s]
{'loss': 0.9124, 'grad_norm': 7.356062889099121, 'learning_rate': 5.900234463762367e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9435.43, 'epoch': 2.69}
90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 336/375 [00:42<00:03, 10.08it/s]
{'loss': 0.7006, 'grad_norm': 5.7081522941589355, 'learning_rate': 5.611666969163243e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9001.9, 'epoch': 2.7}
90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 337/375 [00:42<00:03, 10.08it/s]
90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 338/375 [00:42<00:03, 10.08it/s]
{'loss': 0.8581, 'grad_norm': 6.924987316131592, 'learning_rate': 5.330130401719413e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8604.32, 'epoch': 2.7}
90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 338/375 [00:42<00:03, 10.08it/s]
{'loss': 0.7568, 'grad_norm': 7.888848304748535, 'learning_rate': 5.055645732911463e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9025.98, 'epoch': 2.71}
90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 339/375 [00:42<00:03, 10.08it/s]
91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 340/375 [00:43<00:03, 10.06it/s]
{'loss': 0.907, 'grad_norm': 6.945682525634766, 'learning_rate': 4.788233408928588e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8873.04, 'epoch': 2.72}
91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 340/375 [00:43<00:03, 10.06it/s]
{'loss': 0.7734, 'grad_norm': 5.728672027587891, 'learning_rate': 4.5279133491454406e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9369.95, 'epoch': 2.73}
91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 341/375 [00:43<00:03, 10.06it/s]
91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 342/375 [00:43<00:03, 10.12it/s]
{'loss': 0.8395, 'grad_norm': 7.5049333572387695, 'learning_rate': 4.27470494463843e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8389.22, 'epoch': 2.74}
91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 342/375 [00:43<00:03, 10.12it/s]
{'loss': 0.7833, 'grad_norm': 7.400700569152832, 'learning_rate': 4.028627056741252e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8393.41, 'epoch': 2.74}
91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 343/375 [00:43<00:03, 10.12it/s]
92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 344/375 [00:43<00:03, 10.12it/s]
{'loss': 0.8039, 'grad_norm': 7.296357154846191, 'learning_rate': 3.7896980156399533e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7888.66, 'epoch': 2.75}
92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 344/375 [00:43<00:03, 10.12it/s]
{'loss': 0.8932, 'grad_norm': 7.824235916137695, 'learning_rate': 3.557935619007491e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9401.72, 'epoch': 2.76}
92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 345/375 [00:43<00:02, 10.12it/s]
92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 346/375 [00:43<00:02, 10.11it/s]
{'loss': 0.7307, 'grad_norm': 6.053427219390869, 'learning_rate': 3.33335713067805e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7944.91, 'epoch': 2.77}
92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 346/375 [00:43<00:02, 10.11it/s]
{'loss': 0.8061, 'grad_norm': 6.699748516082764, 'learning_rate': 3.115979279360992e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8984.73, 'epoch': 2.78}
93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 347/375 [00:43<00:02, 10.11it/s]
93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 348/375 [00:43<00:02, 10.13it/s]
{'loss': 0.6808, 'grad_norm': 6.621187686920166, 'learning_rate': 2.905818257394799e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8930.9, 'epoch': 2.78}
93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 348/375 [00:43<00:02, 10.13it/s]
{'loss': 0.6758, 'grad_norm': 6.201868057250977, 'learning_rate': 2.7028897195409245e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8645.05, 'epoch': 2.79}
93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 349/375 [00:43<00:02, 10.13it/s]
93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 350/375 [00:44<00:02, 10.10it/s]
{'loss': 0.6233, 'grad_norm': 6.091191291809082, 'learning_rate': 2.507208781817638e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9272.23, 'epoch': 2.8}
93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 350/375 [00:44<00:02, 10.10it/s]
{'loss': 0.9783, 'grad_norm': 7.783008098602295, 'learning_rate': 2.3187900203740843e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8366.17, 'epoch': 2.81}
94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 351/375 [00:44<00:02, 10.10it/s]
94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 352/375 [00:44<00:02, 10.02it/s]
{'loss': 0.7389, 'grad_norm': 6.877862453460693, 'learning_rate': 2.1376474704044693e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8110.73, 'epoch': 2.82}
94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 352/375 [00:44<00:02, 10.02it/s]
{'loss': 0.7954, 'grad_norm': 7.833415508270264, 'learning_rate': 1.963794625102655e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8147.02, 'epoch': 2.82}
94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 353/375 [00:44<00:02, 10.02it/s]
94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 354/375 [00:44<00:02, 10.00it/s]
{'loss': 0.8008, 'grad_norm': 6.408032417297363, 'learning_rate': 1.7972444346569752e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8038.53, 'epoch': 2.83}
94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 354/375 [00:44<00:02, 10.00it/s]
{'loss': 0.7254, 'grad_norm': 6.121627330780029, 'learning_rate': 1.6380093052856482e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8714.65, 'epoch': 2.84}
95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 355/375 [00:44<00:01, 10.00it/s]
95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 356/375 [00:44<00:01, 10.05it/s]
{'loss': 0.6927, 'grad_norm': 5.776634693145752, 'learning_rate': 1.4861010983126202e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8395.09, 'epoch': 2.85}
95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 356/375 [00:44<00:01, 10.05it/s]
{'loss': 0.7785, 'grad_norm': 8.228865623474121, 'learning_rate': 1.341531129284046e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7861.03, 'epoch': 2.86}
95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 357/375 [00:44<00:01, 10.05it/s]
95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 358/375 [00:44<00:01, 10.06it/s]
{'loss': 0.7659, 'grad_norm': 6.71605920791626, 'learning_rate': 1.2043101671253553e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8805.23, 'epoch': 2.86}
95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 358/375 [00:44<00:01, 10.06it/s]
{'loss': 1.088, 'grad_norm': 7.4194560050964355, 'learning_rate': 1.074448433339137e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8883.17, 'epoch': 2.87}
96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 359/375 [00:44<00:01, 10.06it/s]
96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 360/375 [00:45<00:01, 10.05it/s]
{'loss': 0.7325, 'grad_norm': 5.780172824859619, 'learning_rate': 9.519556012436815e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9143.11, 'epoch': 2.88}
96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 360/375 [00:45<00:01, 10.05it/s]
{'loss': 0.836, 'grad_norm': 6.741396427154541, 'learning_rate': 8.368407952525026e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8701.56, 'epoch': 2.89}
96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 361/375 [00:45<00:01, 10.05it/s]
97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 362/375 [00:45<00:01, 9.90it/s]
{'loss': 0.9507, 'grad_norm': 7.121876239776611, 'learning_rate': 7.291125901946027e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8152.54, 'epoch': 2.9}
97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 362/375 [00:45<00:01, 9.90it/s]
{'loss': 0.8461, 'grad_norm': 6.786175727844238, 'learning_rate': 6.287790106757396e-08, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8104.97, 'epoch': 2.9}
97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 363/375 [00:45<00:01, 9.90it/s]
97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 364/375 [00:45<00:01, 9.76it/s]
{'loss': 0.8046, 'grad_norm': 6.794399738311768, 'learning_rate': 5.3584753048073756e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7451.11, 'epoch': 2.91}
97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 364/375 [00:45<00:01, 9.76it/s]
97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 365/375 [00:45<00:01, 9.66it/s]
{'loss': 0.8283, 'grad_norm': 6.313773155212402, 'learning_rate': 4.503250720166774e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7794.64, 'epoch': 2.92}
97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 365/375 [00:45<00:01, 9.66it/s]
98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 366/375 [00:45<00:00, 9.47it/s]
{'loss': 1.1503, 'grad_norm': 8.405458450317383, 'learning_rate': 3.7221800579735346e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7526.77, 'epoch': 2.93}
98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 366/375 [00:45<00:00, 9.47it/s]
98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 367/375 [00:45<00:00, 9.48it/s]
{'loss': 0.8001, 'grad_norm': 6.431035995483398, 'learning_rate': 3.0153214996866406e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8638.01, 'epoch': 2.94}
98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 367/375 [00:45<00:00, 9.48it/s]
98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 368/375 [00:45<00:00, 9.35it/s]
{'loss': 0.7274, 'grad_norm': 6.957052707672119, 'learning_rate': 2.3827276987524738e-08, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7157.92, 'epoch': 2.94}
98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 368/375 [00:45<00:00, 9.35it/s]
98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 369/375 [00:46<00:00, 9.25it/s]
{'loss': 1.2684, 'grad_norm': 7.367922782897949, 'learning_rate': 1.824445776682504e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8596.77, 'epoch': 2.95}
98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 369/375 [00:46<00:00, 9.25it/s]
99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 370/375 [00:46<00:00, 9.39it/s]
{'loss': 0.7817, 'grad_norm': 6.984046936035156, 'learning_rate': 1.340517319543877e-08, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7902.01, 'epoch': 2.96}
99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 370/375 [00:46<00:00, 9.39it/s]
{'loss': 0.58, 'grad_norm': 5.637470722198486, 'learning_rate': 9.309783748606694e-09, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9093.34, 'epoch': 2.97}
99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 371/375 [00:46<00:00, 9.39it/s]
99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 372/375 [00:46<00:00, 9.69it/s]
{'loss': 0.7629, 'grad_norm': 6.43290901184082, 'learning_rate': 5.958594489295921e-09, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7485.64, 'epoch': 2.98}
99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 372/375 [00:46<00:00, 9.69it/s]
99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 373/375 [00:46<00:00, 9.71it/s]
{'loss': 0.7959, 'grad_norm': 6.283390522003174, 'learning_rate': 3.3518550454714195e-09, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9876.96, 'epoch': 2.98}
99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 373/375 [00:46<00:00, 9.71it/s]
{'loss': 1.1028, 'grad_norm': 8.401345252990723, 'learning_rate': 1.4897595915053242e-09, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9275.57, 'epoch': 2.99}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 374/375 [00:46<00:00, 9.71it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 375/375 [00:46<00:00, 8.54it/s]
{'loss': 0.7118, 'grad_norm': 6.2017951011657715, 'learning_rate': 3.7244683370851744e-10, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7761.05, 'epoch': 3.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 375/375 [00:46<00:00, 8.54it/s][2025-11-05 14:42:16,727] [INFO] [axolotl.core.trainers.base._save:671] [PID:989] Saving model checkpoint to ./outputs/atlas-fast-1.1b-v2/checkpoint-375
{'train_runtime': 51.4822, 'train_samples_per_second': 58.273, 'train_steps_per_second': 7.284, 'train_loss': 1.0696384216944377, 'memory/max_active (GiB)': 4.83, 'memory/max_allocated (GiB)': 4.83, 'memory/device_reserved (GiB)': 10.86, 'epoch': 3.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 375/375 [00:51<00:00, 8.54it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 375/375 [00:51<00:00, 7.28it/s]
[2025-11-05 14:42:21,548] [INFO] [axolotl.train.save_trained_model:218] [PID:989] Training completed! Saving trained model to ./outputs/atlas-fast-1.1b-v2.
[2025-11-05 14:42:24,072] [INFO] [axolotl.train.save_trained_model:336] [PID:989] Model successfully saved to ./outputs/atlas-fast-1.1b-v2