config.json:   0%|                                                                                                                                                                    | 0.00/560 [00:00<?, ?B/s]config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 560/560 [00:00<00:00, 3.19MB/s]
[2025-11-05 14:40:54,209] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:989] baseline 0.000GB ()
[2025-11-05 14:40:54,209] [INFO] [axolotl.cli.config.load_cfg:248] [PID:989] config:
{
  "activation_offloading": false,
  "axolotl_config_path": "config.yaml",
  "base_model": "TinyLlama/TinyLlama_v1.1",
  "base_model_config": "TinyLlama/TinyLlama_v1.1",
  "batch_size": 8,
  "bf16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_90",
    "fp8": false,
    "n_gpu": 1,
    "n_node": 1
  },
  "context_parallel_size": 1,
  "dataloader_num_workers": 1,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_processes": 26,
  "datasets": [
    {
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "vpakarinen/atlas-fast-dataset-v2",
      "trust_remote_code": false,
      "type": "alpaca"
    }
  ],
  "ddp": false,
  "device": "cuda:0",
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "env_capabilities": {
    "torch_version": "2.7.1"
  },
  "eval_batch_size": 8,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_table_size": 0,
  "experimental_skip_move_to_device": true,
  "fp16": false,
  "gradient_accumulation_steps": 1,
  "gradient_checkpointing": false,
  "include_tkps": true,
  "is_llama_derived_model": true,
  "learning_rate": 2e-05,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": false,
  "load_in_8bit": false,
  "local_rank": 0,
  "lora_dropout": 0.0,
  "loraplus_lr_embedding": 1e-06,
  "lr_scheduler": "cosine",
  "mean_resizing_embeddings": false,
  "micro_batch_size": 8,
  "model_config_type": "llama",
  "num_epochs": 3.0,
  "optimizer": "adamw_bnb_8bit",
  "output_dir": "./outputs/atlas-fast-1.1b-v2",
  "pretrain_multipack_attn": true,
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "resources_per_worker": {
    "GPU": 1
  },
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "sequence_len": 4096,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": false,
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "TinyLlama/TinyLlama_v1.1",
  "tokenizer_save_jinja_files": true,
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": true,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "use_ray": false,
  "val_set_size": 0.0,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "weight_decay": 0.0,
  "world_size": 1
}
tokenizer_config.json:   0%|                                                                                                                                                          | 0.00/776 [00:00<?, ?B/s]tokenizer_config.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 776/776 [00:00<00:00, 5.90MB/s]
tokenizer.model:   0%|                                                                                                                                                               | 0.00/500k [00:00<?, ?B/s]tokenizer.model: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500k/500k [00:00<00:00, 559kB/s]tokenizer.model: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500k/500k [00:00<00:00, 558kB/s]
tokenizer.json: 0.00B [00:00, ?B/s]tokenizer.json: 145kB [00:00, 1.18MB/s]tokenizer.json: 1.84MB [00:00, 9.94MB/s]
special_tokens_map.json:   0%|                                                                                                                                                        | 0.00/414 [00:00<?, ?B/s]special_tokens_map.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 414/414 [00:00<00:00, 1.34MB/s]
[2025-11-05 14:40:58,349] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:989] EOS: 2 / </s>
[2025-11-05 14:40:58,349] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:989] BOS: 1 / <s>
[2025-11-05 14:40:58,349] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:989] PAD: 2 / </s>
[2025-11-05 14:40:58,349] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:989] UNK: 0 / <unk>
[2025-11-05 14:40:58,349] [INFO] [axolotl.loaders.tokenizer.load_tokenizer:295] [PID:989] No Chat template selected. Consider adding a chat template for easier inference.
[2025-11-05 14:40:58,350] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:476] [PID:989] Unable to find prepared dataset in last_run_prepared/0ab988fe8f81ce9dc593498716abd51f
[2025-11-05 14:40:58,350] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:989] Loading raw datasets...
[2025-11-05 14:40:58,350] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:989] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
README.md:   0%|                                                                                                                                                                     | 0.00/31.0 [00:00<?, ?B/s]README.md: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31.0/31.0 [00:00<00:00, 104kB/s]
data.jsonl: 0.00B [00:00, ?B/s]data.jsonl: 394kB [00:00, 19.4MB/s]
Generating train split:   0%|                                                                                                                                                   | 0/1000 [00:00<?, ? examples/s]Generating train split: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:00<00:00, 52616.25 examples/s]
[2025-11-05 14:41:01,743] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:989] Loading dataset: vpakarinen/atlas-fast-dataset-v2 with base_type: alpaca and prompt_style: None
Tokenizing Prompts (num_proc=26):   0%|                                                                                                                                         | 0/1000 [00:00<?, ? examples/s]Tokenizing Prompts (num_proc=26):   4%|████▉                                                                                                                           | 39/1000 [00:00<00:14, 65.40 examples/s]Tokenizing Prompts (num_proc=26):   8%|█████████▉                                                                                                                     | 78/1000 [00:00<00:07, 124.08 examples/s]Tokenizing Prompts (num_proc=26):  16%|███████████████████▋                                                                                                          | 156/1000 [00:00<00:03, 254.71 examples/s]Tokenizing Prompts (num_proc=26):  31%|███████████████████████████████████████▎                                                                                      | 312/1000 [00:00<00:01, 531.93 examples/s]Tokenizing Prompts (num_proc=26):  47%|██████████████████████████████████████████████████████████▉                                                                   | 468/1000 [00:01<00:00, 742.50 examples/s]Tokenizing Prompts (num_proc=26):  58%|█████████████████████████████████████████████████████████████████████████▎                                                    | 582/1000 [00:01<00:00, 741.25 examples/s]Tokenizing Prompts (num_proc=26):  70%|███████████████████████████████████████████████████████████████████████████████████████▋                                      | 696/1000 [00:01<00:00, 795.09 examples/s]Tokenizing Prompts (num_proc=26):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████                        | 810/1000 [00:01<00:00, 674.95 examples/s]Tokenizing Prompts (num_proc=26):  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 962/1000 [00:01<00:00, 834.30 examples/s]Tokenizing Prompts (num_proc=26): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 530.45 examples/s]
[2025-11-05 14:41:03,730] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:218] [PID:989] min_input_len: 73
[2025-11-05 14:41:03,730] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:220] [PID:989] max_input_len: 209
Dropping Long Sequences (>4096) (num_proc=26):   0%|                                                                                                                            | 0/1000 [00:00<?, ? examples/s]Dropping Long Sequences (>4096) (num_proc=26):   4%|████▍                                                                                                              | 39/1000 [00:00<00:10, 88.06 examples/s]Dropping Long Sequences (>4096) (num_proc=26): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:00<00:00, 1491.76 examples/s]
Saving the dataset (0/3 shards):   0%|                                                                                                                                          | 0/1000 [00:00<?, ? examples/s]Saving the dataset (0/3 shards):  33%|██████████████████████████████████████████                                                                                    | 334/1000 [00:00<00:00, 2835.39 examples/s]Saving the dataset (1/3 shards):  33%|██████████████████████████████████████████                                                                                    | 334/1000 [00:00<00:00, 2835.39 examples/s]Saving the dataset (2/3 shards):  67%|████████████████████████████████████████████████████████████████████████████████████                                          | 667/1000 [00:00<00:00, 2835.39 examples/s]Saving the dataset (3/3 shards): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:00<00:00, 2835.39 examples/s]Saving the dataset (3/3 shards): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:00<00:00, 4821.11 examples/s]
[2025-11-05 14:41:04,730] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:404] [PID:989] total_num_tokens: 106_432
[2025-11-05 14:41:04,739] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:422] [PID:989] `total_supervised_tokens: 106_432`
[2025-11-05 14:41:04,739] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:520] [PID:989] total_num_steps: 375
[2025-11-05 14:41:04,739] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:989] Maximum number of steps set at 375
[2025-11-05 14:41:04,748] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:989] Loading tokenizer... TinyLlama/TinyLlama_v1.1
[2025-11-05 14:41:05,470] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:989] EOS: 2 / </s>
[2025-11-05 14:41:05,471] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:989] BOS: 1 / <s>
[2025-11-05 14:41:05,471] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:989] PAD: 2 / </s>
[2025-11-05 14:41:05,471] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:989] UNK: 0 / <unk>
[2025-11-05 14:41:05,471] [INFO] [axolotl.loaders.tokenizer.load_tokenizer:295] [PID:989] No Chat template selected. Consider adding a chat template for easier inference.
[2025-11-05 14:41:05,471] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:989] Loading model
[2025-11-05 14:41:05,685] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:989] Patched Trainer.evaluation_loop with nanmean loss calculation
[2025-11-05 14:41:05,688] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:989] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
pytorch_model.bin:   0%|                                                                                                                                                            | 0.00/4.40G [00:00<?, ?B/s]pytorch_model.bin:   0%|                                                                                                                                                   | 905k/4.40G [00:01<2:37:31, 465kB/s]pytorch_model.bin:   2%|██▎                                                                                                                                                | 67.9M/4.40G [00:03<02:51, 25.3MB/s]pytorch_model.bin:  12%|██████████████████▏                                                                                                                                  | 539M/4.40G [00:04<00:22, 172MB/s]pytorch_model.bin:  34%|█████████████████████████████████████████████████▊                                                                                                  | 1.48G/4.40G [00:04<00:05, 581MB/s]pytorch_model.bin:  41%|█████████████████████████████████████████████████████████████                                                                                       | 1.81G/4.40G [00:04<00:04, 622MB/s]pytorch_model.bin:  47%|██████████████████████████████████████████████████████████████████████                                                                              | 2.08G/4.40G [00:05<00:03, 637MB/s]pytorch_model.bin:  52%|████████████████████████████████████████████████████████████████████████████▊                                                                       | 2.28G/4.40G [00:05<00:03, 634MB/s]pytorch_model.bin:  56%|██████████████████████████████████████████████████████████████████████████████████▋                                                                 | 2.46G/4.40G [00:05<00:02, 700MB/s]pytorch_model.bin:  59%|███████████████████████████████████████████████████████████████████████████████████████▏                                                            | 2.59G/4.40G [00:05<00:02, 758MB/s]pytorch_model.bin:  63%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 2.79G/4.40G [00:06<00:01, 827MB/s]pytorch_model.bin:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 3.06G/4.40G [00:06<00:01, 1.03GB/s]pytorch_model.bin:  74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 3.26G/4.40G [00:06<00:01, 1.06GB/s]pytorch_model.bin:  79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 3.46G/4.40G [00:06<00:00, 1.11GB/s]pytorch_model.bin:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 3.60G/4.40G [00:06<00:01, 752MB/s]pytorch_model.bin:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 3.73G/4.40G [00:07<00:01, 385MB/s]pytorch_model.bin:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 3.86G/4.40G [00:08<00:01, 377MB/s]pytorch_model.bin:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 3.93G/4.40G [00:08<00:01, 334MB/s]pytorch_model.bin:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 4.00G/4.40G [00:08<00:01, 340MB/s]pytorch_model.bin:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 4.13G/4.40G [00:08<00:00, 419MB/s]pytorch_model.bin:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 4.20G/4.40G [00:09<00:00, 337MB/s]pytorch_model.bin:  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 4.27G/4.40G [00:09<00:00, 318MB/s]pytorch_model.bin: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.40G/4.40G [00:10<00:00, 286MB/s]pytorch_model.bin: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.40G/4.40G [00:10<00:00, 435MB/s]
generation_config.json:   0%|                                                                                                                                                         | 0.00/129 [00:00<?, ?B/s]generation_config.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 129/129 [00:00<00:00, 435kB/s]
[2025-11-05 14:41:22,002] [WARNING] [axolotl.loaders.model._adjust_model_config:273] [PID:989] increasing model.config.max_position_embeddings from 2048 to 4096
[2025-11-05 14:41:22,248] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:989] Memory usage after model load 0.000GB ()
[2025-11-05 14:41:29,653] [INFO] [axolotl.train.save_initial_configs:402] [PID:989] Pre-saving tokenizer to ./outputs/atlas-fast-1.1b-v2...
[2025-11-05 14:41:29,681] [INFO] [axolotl.train.save_initial_configs:407] [PID:989] Pre-saving model config to ./outputs/atlas-fast-1.1b-v2...
[2025-11-05 14:41:29,683] [INFO] [axolotl.train.execute_training:196] [PID:989] Starting trainer...
  0%|                                                                                                                                                                                   | 0/375 [00:00<?, ?it/s]  0%|▍                                                                                                                                                                          | 1/375 [00:01<06:31,  1.05s/it]                                                                                                                                                                                                                {'loss': 3.1257, 'grad_norm': 326337003520.0, 'learning_rate': 0.0, 'memory/max_active (GiB)': 7.13, 'memory/max_allocated (GiB)': 7.13, 'memory/device_reserved (GiB)': 7.19, 'tokens_per_second_per_gpu': 1089.46, 'epoch': 0.01}
  0%|▍                                                                                                                                                                          | 1/375 [00:01<06:31,  1.05s/it]  1%|▉                                                                                                                                                                          | 2/375 [00:01<03:04,  2.02it/s]                                                                                                                                                                                                                {'loss': 3.2495, 'grad_norm': 301968621568.0, 'learning_rate': 1.8181818181818183e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 7.92, 'tokens_per_second_per_gpu': 8032.43, 'epoch': 0.02}
  1%|▉                                                                                                                                                                          | 2/375 [00:01<03:04,  2.02it/s]  1%|█▎                                                                                                                                                                         | 3/375 [00:01<01:57,  3.18it/s]                                                                                                                                                                                                                {'loss': 3.0825, 'grad_norm': 17248.70703125, 'learning_rate': 3.6363636363636366e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 7.92, 'tokens_per_second_per_gpu': 8180.16, 'epoch': 0.02}
  1%|█▎                                                                                                                                                                         | 3/375 [00:01<01:57,  3.18it/s]  1%|█▊                                                                                                                                                                         | 4/375 [00:01<01:29,  4.14it/s]                                                                                                                                                                                                                {'loss': 2.9794, 'grad_norm': 8475.1455078125, 'learning_rate': 5.4545454545454545e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 6900.47, 'epoch': 0.03}
  1%|█▊                                                                                                                                                                         | 4/375 [00:01<01:29,  4.14it/s]  1%|██▎                                                                                                                                                                        | 5/375 [00:01<01:10,  5.23it/s]                                                                                                                                                                                                                {'loss': 3.0834, 'grad_norm': 4874.35546875, 'learning_rate': 7.272727272727273e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8567.82, 'epoch': 0.04}
  1%|██▎                                                                                                                                                                        | 5/375 [00:01<01:10,  5.23it/s]                                                                                                                                                                                                                {'loss': 3.0029, 'grad_norm': 1761.7506103515625, 'learning_rate': 9.090909090909091e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7682.55, 'epoch': 0.05}
  2%|██▋                                                                                                                                                                        | 6/375 [00:01<01:10,  5.23it/s]  2%|███▏                                                                                                                                                                       | 7/375 [00:01<00:53,  6.91it/s]                                                                                                                                                                                                                {'loss': 2.5618, 'grad_norm': 2744.4033203125, 'learning_rate': 1.0909090909090909e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7734.04, 'epoch': 0.06}
  2%|███▏                                                                                                                                                                       | 7/375 [00:01<00:53,  6.91it/s]  2%|███▋                                                                                                                                                                       | 8/375 [00:01<00:48,  7.50it/s]                                                                                                                                                                                                                {'loss': 2.4492, 'grad_norm': 9892.412109375, 'learning_rate': 1.2727272727272728e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9201.62, 'epoch': 0.06}
  2%|███▋                                                                                                                                                                       | 8/375 [00:01<00:48,  7.50it/s]                                                                                                                                                                                                                {'loss': 2.1574, 'grad_norm': 2451.415771484375, 'learning_rate': 1.4545454545454546e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8204.91, 'epoch': 0.07}
  2%|████                                                                                                                                                                       | 9/375 [00:01<00:48,  7.50it/s]  3%|████▌                                                                                                                                                                     | 10/375 [00:01<00:43,  8.46it/s]                                                                                                                                                                                                                {'loss': 2.2162, 'grad_norm': 4661.94677734375, 'learning_rate': 1.6363636363636366e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8200.92, 'epoch': 0.08}
  3%|████▌                                                                                                                                                                     | 10/375 [00:01<00:43,  8.46it/s]  3%|████▉                                                                                                                                                                     | 11/375 [00:02<00:41,  8.75it/s]                                                                                                                                                                                                                {'loss': 1.9292, 'grad_norm': 679.2638549804688, 'learning_rate': 1.8181818181818182e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9065.92, 'epoch': 0.09}
  3%|████▉                                                                                                                                                                     | 11/375 [00:02<00:41,  8.75it/s]  3%|█████▍                                                                                                                                                                    | 12/375 [00:02<00:40,  9.03it/s]                                                                                                                                                                                                                {'loss': 1.5709, 'grad_norm': 1126.4859619140625, 'learning_rate': 2e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8397.28, 'epoch': 0.1}
  3%|█████▍                                                                                                                                                                    | 12/375 [00:02<00:40,  9.03it/s]                                                                                                                                                                                                                {'loss': 1.3999, 'grad_norm': 168.5304718017578, 'learning_rate': 1.9999627553166296e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8453.38, 'epoch': 0.1}
  3%|█████▉                                                                                                                                                                    | 13/375 [00:02<00:40,  9.03it/s]  4%|██████▎                                                                                                                                                                   | 14/375 [00:02<00:38,  9.40it/s]                                                                                                                                                                                                                {'loss': 1.388, 'grad_norm': 134.6960906982422, 'learning_rate': 1.9998510240408495e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9438.09, 'epoch': 0.11}
  4%|██████▎                                                                                                                                                                   | 14/375 [00:02<00:38,  9.40it/s]                                                                                                                                                                                                                {'loss': 1.4207, 'grad_norm': 172.5862274169922, 'learning_rate': 1.9996648144954533e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9100.95, 'epoch': 0.12}
  4%|██████▊                                                                                                                                                                   | 15/375 [00:02<00:38,  9.40it/s]  4%|███████▎                                                                                                                                                                  | 16/375 [00:02<00:37,  9.64it/s]                                                                                                                                                                                                                {'loss': 1.2416, 'grad_norm': 44.757102966308594, 'learning_rate': 1.9994041405510705e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8398.45, 'epoch': 0.13}
  4%|███████▎                                                                                                                                                                  | 16/375 [00:02<00:37,  9.64it/s]                                                                                                                                                                                                                {'loss': 1.4072, 'grad_norm': 17.678770065307617, 'learning_rate': 1.9990690216251395e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8977.85, 'epoch': 0.14}
  5%|███████▋                                                                                                                                                                  | 17/375 [00:02<00:37,  9.64it/s]  5%|████████▏                                                                                                                                                                 | 18/375 [00:02<00:36,  9.78it/s]                                                                                                                                                                                                                {'loss': 1.2091, 'grad_norm': 22.896692276000977, 'learning_rate': 1.9986594826804563e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9639.46, 'epoch': 0.14}
  5%|████████▏                                                                                                                                                                 | 18/375 [00:02<00:36,  9.78it/s]  5%|████████▌                                                                                                                                                                 | 19/375 [00:02<00:36,  9.82it/s]                                                                                                                                                                                                                {'loss': 1.4912, 'grad_norm': 89.85038757324219, 'learning_rate': 1.9981755542233175e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9423.21, 'epoch': 0.15}
  5%|████████▌                                                                                                                                                                 | 19/375 [00:02<00:36,  9.82it/s]  5%|█████████                                                                                                                                                                 | 20/375 [00:02<00:36,  9.81it/s]                                                                                                                                                                                                                {'loss': 1.3022, 'grad_norm': 27.467538833618164, 'learning_rate': 1.997617272301248e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7669.35, 'epoch': 0.16}
  5%|█████████                                                                                                                                                                 | 20/375 [00:02<00:36,  9.81it/s]  6%|█████████▌                                                                                                                                                                | 21/375 [00:03<00:41,  8.46it/s]                                                                                                                                                                                                                {'loss': 1.3519, 'grad_norm': 19.31588363647461, 'learning_rate': 1.9969846785003134e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 5481.16, 'epoch': 0.17}
  6%|█████████▌                                                                                                                                                                | 21/375 [00:03<00:41,  8.46it/s]  6%|█████████▉                                                                                                                                                                | 22/375 [00:03<00:51,  6.89it/s]                                                                                                                                                                                                                {'loss': 1.3388, 'grad_norm': 31.10079574584961, 'learning_rate': 1.9962778199420265e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 3901.77, 'epoch': 0.18}
  6%|█████████▉                                                                                                                                                                | 22/375 [00:03<00:51,  6.89it/s]  6%|██████████▍                                                                                                                                                               | 23/375 [00:03<00:47,  7.39it/s]                                                                                                                                                                                                                {'loss': 1.4396, 'grad_norm': 49.52709197998047, 'learning_rate': 1.9954967492798335e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7714.64, 'epoch': 0.18}
  6%|██████████▍                                                                                                                                                               | 23/375 [00:03<00:47,  7.39it/s]  6%|██████████▉                                                                                                                                                               | 24/375 [00:03<00:45,  7.70it/s]                                                                                                                                                                                                                {'loss': 1.3048, 'grad_norm': 19.84676742553711, 'learning_rate': 1.9946415246951928e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7707.27, 'epoch': 0.19}
  6%|██████████▉                                                                                                                                                               | 24/375 [00:03<00:45,  7.70it/s]                                                                                                                                                                                                                {'loss': 1.3389, 'grad_norm': 21.120454788208008, 'learning_rate': 1.9937122098932428e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 8928.46, 'epoch': 0.2}
  7%|███████████▎                                                                                                                                                              | 25/375 [00:03<00:45,  7.70it/s]  7%|███████████▊                                                                                                                                                              | 26/375 [00:03<00:39,  8.88it/s]                                                                                                                                                                                                                {'loss': 1.3111, 'grad_norm': 43.97844314575195, 'learning_rate': 1.992708874098054e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 10044.87, 'epoch': 0.21}
  7%|███████████▊                                                                                                                                                              | 26/375 [00:03<00:39,  8.88it/s]  7%|████████████▏                                                                                                                                                             | 27/375 [00:03<00:39,  8.79it/s]                                                                                                                                                                                                                {'loss': 1.2644, 'grad_norm': 27.113985061645508, 'learning_rate': 1.991631592047475e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 7389.64, 'epoch': 0.22}
  7%|████████████▏                                                                                                                                                             | 27/375 [00:03<00:39,  8.79it/s]                                                                                                                                                                                                                {'loss': 1.3399, 'grad_norm': 18.027095794677734, 'learning_rate': 1.9904804439875635e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 9.45, 'tokens_per_second_per_gpu': 9212.82, 'epoch': 0.22}
  7%|████████████▋                                                                                                                                                             | 28/375 [00:03<00:39,  8.79it/s]  8%|█████████████▏                                                                                                                                                            | 29/375 [00:04<00:37,  9.12it/s]                                                                                                                                                                                                                {'loss': 1.4152, 'grad_norm': 11.131144523620605, 'learning_rate': 1.989255515666609e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8964.08, 'epoch': 0.23}
  8%|█████████████▏                                                                                                                                                            | 29/375 [00:04<00:37,  9.12it/s]                                                                                                                                                                                                                {'loss': 1.3803, 'grad_norm': 24.55955696105957, 'learning_rate': 1.9879568983287468e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9668.15, 'epoch': 0.24}
  8%|█████████████▌                                                                                                                                                            | 30/375 [00:04<00:37,  9.12it/s]  8%|██████████████                                                                                                                                                            | 31/375 [00:04<00:34,  9.89it/s]                                                                                                                                                                                                                {'loss': 1.5773, 'grad_norm': 2098.8408203125, 'learning_rate': 1.9865846887071596e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9648.45, 'epoch': 0.25}
  8%|██████████████                                                                                                                                                            | 31/375 [00:04<00:34,  9.89it/s]                                                                                                                                                                                                                {'loss': 1.3239, 'grad_norm': 425.38067626953125, 'learning_rate': 1.9851389890168738e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9363.79, 'epoch': 0.26}
  9%|██████████████▌                                                                                                                                                           | 32/375 [00:04<00:34,  9.89it/s]  9%|██████████████▉                                                                                                                                                           | 33/375 [00:04<00:32, 10.42it/s]                                                                                                                                                                                                                {'loss': 1.3136, 'grad_norm': 9.607734680175781, 'learning_rate': 1.983619906947144e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8813.57, 'epoch': 0.26}
  9%|██████████████▉                                                                                                                                                           | 33/375 [00:04<00:32, 10.42it/s]                                                                                                                                                                                                                {'loss': 1.4112, 'grad_norm': 10.711357116699219, 'learning_rate': 1.9820275556534306e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10259.69, 'epoch': 0.27}
  9%|███████████████▍                                                                                                                                                          | 34/375 [00:04<00:32, 10.42it/s]  9%|███████████████▊                                                                                                                                                          | 35/375 [00:04<00:31, 10.85it/s]                                                                                                                                                                                                                {'loss': 1.2794, 'grad_norm': 9.812103271484375, 'learning_rate': 1.9803620537489737e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9443.02, 'epoch': 0.28}
  9%|███████████████▊                                                                                                                                                          | 35/375 [00:04<00:31, 10.85it/s]                                                                                                                                                                                                                {'loss': 1.3099, 'grad_norm': 15.17619514465332, 'learning_rate': 1.9786235252959555e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9690.63, 'epoch': 0.29}
 10%|████████████████▎                                                                                                                                                         | 36/375 [00:04<00:31, 10.85it/s] 10%|████████████████▊                                                                                                                                                         | 37/375 [00:04<00:30, 11.03it/s]                                                                                                                                                                                                                {'loss': 1.3013, 'grad_norm': 8.0698823928833, 'learning_rate': 1.9768120997962593e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10077.19, 'epoch': 0.3}
 10%|████████████████▊                                                                                                                                                         | 37/375 [00:04<00:30, 11.03it/s]                                                                                                                                                                                                                {'loss': 1.2244, 'grad_norm': 7.829827785491943, 'learning_rate': 1.9749279121818235e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9895.38, 'epoch': 0.3}
 10%|█████████████████▏                                                                                                                                                        | 38/375 [00:04<00:30, 11.03it/s] 10%|█████████████████▋                                                                                                                                                        | 39/375 [00:04<00:30, 11.03it/s]                                                                                                                                                                                                                {'loss': 1.3299, 'grad_norm': 7.8712897300720215, 'learning_rate': 1.972971102804591e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10074.75, 'epoch': 0.31}
 10%|█████████████████▋                                                                                                                                                        | 39/375 [00:04<00:30, 11.03it/s]                                                                                                                                                                                                                {'loss': 1.3454, 'grad_norm': 7.870555877685547, 'learning_rate': 1.9709418174260523e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10791.92, 'epoch': 0.32}
 11%|██████████████████▏                                                                                                                                                       | 40/375 [00:05<00:30, 11.03it/s] 11%|██████████████████▌                                                                                                                                                       | 41/375 [00:05<00:30, 11.11it/s]                                                                                                                                                                                                                {'loss': 1.3358, 'grad_norm': 8.49343490600586, 'learning_rate': 1.9688402072063905e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9745.83, 'epoch': 0.33}
 11%|██████████████████▌                                                                                                                                                       | 41/375 [00:05<00:30, 11.11it/s]                                                                                                                                                                                                                {'loss': 1.389, 'grad_norm': 9.36483097076416, 'learning_rate': 1.9666664286932198e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10156.63, 'epoch': 0.34}
 11%|███████████████████                                                                                                                                                       | 42/375 [00:05<00:29, 11.11it/s] 11%|███████████████████▍                                                                                                                                                      | 43/375 [00:05<00:30, 10.97it/s]                                                                                                                                                                                                                {'loss': 1.3463, 'grad_norm': 7.590586185455322, 'learning_rate': 1.964420643809925e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9279.61, 'epoch': 0.34}
 11%|███████████████████▍                                                                                                                                                      | 43/375 [00:05<00:30, 10.97it/s]                                                                                                                                                                                                                {'loss': 1.5977, 'grad_norm': 5736.9130859375, 'learning_rate': 1.9621030198436007e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10048.14, 'epoch': 0.35}
 12%|███████████████████▉                                                                                                                                                      | 44/375 [00:05<00:30, 10.97it/s] 12%|████████████████████▍                                                                                                                                                     | 45/375 [00:05<00:29, 11.11it/s]                                                                                                                                                                                                                {'loss': 1.6264, 'grad_norm': 4104.83740234375, 'learning_rate': 1.9597137294325877e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10367.46, 'epoch': 0.36}
 12%|████████████████████▍                                                                                                                                                     | 45/375 [00:05<00:29, 11.11it/s]                                                                                                                                                                                                                {'loss': 1.9888, 'grad_norm': 386.7122802734375, 'learning_rate': 1.957252950553616e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9475.23, 'epoch': 0.37}
 12%|████████████████████▊                                                                                                                                                     | 46/375 [00:05<00:29, 11.11it/s] 13%|█████████████████████▎                                                                                                                                                    | 47/375 [00:05<00:29, 11.17it/s]                                                                                                                                                                                                                {'loss': 1.7045, 'grad_norm': 4470.681640625, 'learning_rate': 1.954720866508546e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9431.29, 'epoch': 0.38}
 13%|█████████████████████▎                                                                                                                                                    | 47/375 [00:05<00:29, 11.17it/s]                                                                                                                                                                                                                {'loss': 1.5653, 'grad_norm': 516.0676879882812, 'learning_rate': 1.952117665910714e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9446.52, 'epoch': 0.38}
 13%|█████████████████████▊                                                                                                                                                    | 48/375 [00:05<00:29, 11.17it/s] 13%|██████████████████████▏                                                                                                                                                   | 49/375 [00:05<00:29, 11.09it/s]                                                                                                                                                                                                                {'loss': 1.6069, 'grad_norm': 4016.7705078125, 'learning_rate': 1.9494435426708856e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10015.32, 'epoch': 0.39}
 13%|██████████████████████▏                                                                                                                                                   | 49/375 [00:05<00:29, 11.09it/s]                                                                                                                                                                                                                {'loss': 1.5386, 'grad_norm': 180.52371215820312, 'learning_rate': 1.9466986959828063e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9111.53, 'epoch': 0.4}
 13%|██████████████████████▋                                                                                                                                                   | 50/375 [00:05<00:29, 11.09it/s] 14%|███████████████████████                                                                                                                                                   | 51/375 [00:06<00:29, 11.08it/s]                                                                                                                                                                                                                {'loss': 1.7075, 'grad_norm': 179.099365234375, 'learning_rate': 1.9438833303083677e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8741.81, 'epoch': 0.41}
 14%|███████████████████████                                                                                                                                                   | 51/375 [00:06<00:29, 11.08it/s]                                                                                                                                                                                                                {'loss': 1.5412, 'grad_norm': 138.920166015625, 'learning_rate': 1.9409976553623767e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9697.47, 'epoch': 0.42}
 14%|███████████████████████▌                                                                                                                                                  | 52/375 [00:06<00:29, 11.08it/s] 14%|████████████████████████                                                                                                                                                  | 53/375 [00:06<00:28, 11.19it/s]                                                                                                                                                                                                                {'loss': 1.5224, 'grad_norm': 602.77685546875, 'learning_rate': 1.938041886096932e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9266.88, 'epoch': 0.42}
 14%|████████████████████████                                                                                                                                                  | 53/375 [00:06<00:28, 11.19it/s]                                                                                                                                                                                                                {'loss': 1.5558, 'grad_norm': 325.88848876953125, 'learning_rate': 1.9350162426854152e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10253.45, 'epoch': 0.43}
 14%|████████████████████████▍                                                                                                                                                 | 54/375 [00:06<00:28, 11.19it/s] 15%|████████████████████████▉                                                                                                                                                 | 55/375 [00:06<00:28, 11.18it/s]                                                                                                                                                                                                                {'loss': 1.4406, 'grad_norm': 498.0050964355469, 'learning_rate': 1.931920950506087e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9491.87, 'epoch': 0.44}
 15%|████████████████████████▉                                                                                                                                                 | 55/375 [00:06<00:28, 11.18it/s]                                                                                                                                                                                                                {'loss': 1.4367, 'grad_norm': 741.5326538085938, 'learning_rate': 1.9287562401253023e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10150.34, 'epoch': 0.45}
 15%|█████████████████████████▍                                                                                                                                                | 56/375 [00:06<00:28, 11.18it/s] 15%|█████████████████████████▊                                                                                                                                                | 57/375 [00:06<00:28, 11.27it/s]                                                                                                                                                                                                                {'loss': 1.4651, 'grad_norm': 274.9710998535156, 'learning_rate': 1.9255223472803337e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9631.2, 'epoch': 0.46}
 15%|█████████████████████████▊                                                                                                                                                | 57/375 [00:06<00:28, 11.27it/s]                                                                                                                                                                                                                {'loss': 1.3754, 'grad_norm': 897.0580444335938, 'learning_rate': 1.9222195128618108e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9656.25, 'epoch': 0.46}
 15%|██████████████████████████▎                                                                                                                                               | 58/375 [00:06<00:28, 11.27it/s] 16%|██████████████████████████▋                                                                                                                                               | 59/375 [00:06<00:28, 11.26it/s]                                                                                                                                                                                                                {'loss': 1.3, 'grad_norm': 998.91943359375, 'learning_rate': 1.9188479828957773e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10232.81, 'epoch': 0.47}
 16%|██████████████████████████▋                                                                                                                                               | 59/375 [00:06<00:28, 11.26it/s]                                                                                                                                                                                                                {'loss': 1.4404, 'grad_norm': 657.5516967773438, 'learning_rate': 1.9154080085253665e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10507.79, 'epoch': 0.48}
 16%|███████████████████████████▏                                                                                                                                              | 60/375 [00:06<00:27, 11.26it/s] 16%|███████████████████████████▋                                                                                                                                              | 61/375 [00:06<00:27, 11.28it/s]                                                                                                                                                                                                                {'loss': 1.4817, 'grad_norm': 541.2548217773438, 'learning_rate': 1.91189984599209e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9549.91, 'epoch': 0.49}
 16%|███████████████████████████▋                                                                                                                                              | 61/375 [00:06<00:27, 11.28it/s]                                                                                                                                                                                                                {'loss': 1.4792, 'grad_norm': 566.8240966796875, 'learning_rate': 1.908323756616754e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10341.48, 'epoch': 0.5}
 17%|████████████████████████████                                                                                                                                              | 62/375 [00:07<00:27, 11.28it/s] 17%|████████████████████████████▌                                                                                                                                             | 63/375 [00:07<00:27, 11.17it/s]                                                                                                                                                                                                                {'loss': 1.3559, 'grad_norm': 518.17333984375, 'learning_rate': 1.9046800067799914e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9704.58, 'epoch': 0.5}
 17%|████████████████████████████▌                                                                                                                                             | 63/375 [00:07<00:27, 11.17it/s]                                                                                                                                                                                                                {'loss': 1.4953, 'grad_norm': 63.39894104003906, 'learning_rate': 1.900968867902419e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10239.39, 'epoch': 0.51}
 17%|█████████████████████████████                                                                                                                                             | 64/375 [00:07<00:27, 11.17it/s] 17%|█████████████████████████████▍                                                                                                                                            | 65/375 [00:07<00:27, 11.25it/s]                                                                                                                                                                                                                {'loss': 1.3881, 'grad_norm': 103.47949981689453, 'learning_rate': 1.8971906164244232e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10579.64, 'epoch': 0.52}
 17%|█████████████████████████████▍                                                                                                                                            | 65/375 [00:07<00:27, 11.25it/s]                                                                                                                                                                                                                {'loss': 1.3322, 'grad_norm': 180.31053161621094, 'learning_rate': 1.8933455337855633e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9420.11, 'epoch': 0.53}
 18%|█████████████████████████████▉                                                                                                                                            | 66/375 [00:07<00:27, 11.25it/s] 18%|██████████████████████████████▎                                                                                                                                           | 67/375 [00:07<00:27, 11.29it/s]                                                                                                                                                                                                                {'loss': 1.4001, 'grad_norm': 113.03031158447266, 'learning_rate': 1.88943390640361e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9307.41, 'epoch': 0.54}
 18%|██████████████████████████████▎                                                                                                                                           | 67/375 [00:07<00:27, 11.29it/s]                                                                                                                                                                                                                {'loss': 1.3623, 'grad_norm': 15.689427375793457, 'learning_rate': 1.8854560256532098e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9729.08, 'epoch': 0.54}
 18%|██████████████████████████████▊                                                                                                                                           | 68/375 [00:07<00:27, 11.29it/s] 18%|███████████████████████████████▎                                                                                                                                          | 69/375 [00:07<00:27, 11.20it/s]                                                                                                                                                                                                                {'loss': 1.4892, 'grad_norm': 45.31242752075195, 'learning_rate': 1.8814121878441814e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9700.09, 'epoch': 0.55}
 18%|███████████████████████████████▎                                                                                                                                          | 69/375 [00:07<00:27, 11.20it/s]                                                                                                                                                                                                                {'loss': 1.4332, 'grad_norm': 418.5, 'learning_rate': 1.877302694199442e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9682.63, 'epoch': 0.56}
 19%|███████████████████████████████▋                                                                                                                                          | 70/375 [00:07<00:27, 11.20it/s] 19%|████████████████████████████████▏                                                                                                                                         | 71/375 [00:07<00:26, 11.30it/s]                                                                                                                                                                                                                {'loss': 1.3618, 'grad_norm': 3631.143310546875, 'learning_rate': 1.873127850832571e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8849.46, 'epoch': 0.57}
 19%|████████████████████████████████▏                                                                                                                                         | 71/375 [00:07<00:26, 11.30it/s]                                                                                                                                                                                                                {'loss': 1.4959, 'grad_norm': 3776.23095703125, 'learning_rate': 1.8688879687250067e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9851.09, 'epoch': 0.58}
 19%|████████████████████████████████▋                                                                                                                                         | 72/375 [00:07<00:26, 11.30it/s] 19%|█████████████████████████████████                                                                                                                                         | 73/375 [00:08<00:26, 11.29it/s]                                                                                                                                                                                                                {'loss': 1.4347, 'grad_norm': 899.7445068359375, 'learning_rate': 1.8645833637028828e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9747.67, 'epoch': 0.58}
 19%|█████████████████████████████████                                                                                                                                         | 73/375 [00:08<00:26, 11.29it/s]                                                                                                                                                                                                                {'loss': 1.3521, 'grad_norm': 380.8314208984375, 'learning_rate': 1.860214356413501e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9514.68, 'epoch': 0.59}
 20%|█████████████████████████████████▌                                                                                                                                        | 74/375 [00:08<00:26, 11.29it/s] 20%|██████████████████████████████████                                                                                                                                        | 75/375 [00:08<00:26, 11.33it/s]                                                                                                                                                                                                                {'loss': 1.1855, 'grad_norm': 51.701942443847656, 'learning_rate': 1.8557812723014476e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9991.35, 'epoch': 0.6}
 20%|██████████████████████████████████                                                                                                                                        | 75/375 [00:08<00:26, 11.33it/s]                                                                                                                                                                                                                {'loss': 1.2234, 'grad_norm': 205.33749389648438, 'learning_rate': 1.8512844415843514e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8603.91, 'epoch': 0.61}
 20%|██████████████████████████████████▍                                                                                                                                       | 76/375 [00:08<00:26, 11.33it/s] 21%|██████████████████████████████████▉                                                                                                                                       | 77/375 [00:08<00:26, 11.31it/s]                                                                                                                                                                                                                {'loss': 1.1827, 'grad_norm': 7.392539978027344, 'learning_rate': 1.8467241992282842e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9476.12, 'epoch': 0.62}
 21%|██████████████████████████████████▉                                                                                                                                       | 77/375 [00:08<00:26, 11.31it/s]                                                                                                                                                                                                                {'loss': 1.3913, 'grad_norm': 45.03400421142578, 'learning_rate': 1.842100884922812e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9344.11, 'epoch': 0.62}
 21%|███████████████████████████████████▎                                                                                                                                      | 78/375 [00:08<00:26, 11.31it/s] 21%|███████████████████████████████████▊                                                                                                                                      | 79/375 [00:08<00:27, 10.91it/s]                                                                                                                                                                                                                {'loss': 1.4691, 'grad_norm': 2510.247802734375, 'learning_rate': 1.8374148430556888e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9382.43, 'epoch': 0.63}
 21%|███████████████████████████████████▊                                                                                                                                      | 79/375 [00:08<00:27, 10.91it/s]                                                                                                                                                                                                                {'loss': 1.4555, 'grad_norm': 11154.79296875, 'learning_rate': 1.8326664226872063e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10138.86, 'epoch': 0.64}
 21%|████████████████████████████████████▎                                                                                                                                     | 80/375 [00:08<00:27, 10.91it/s] 22%|████████████████████████████████████▋                                                                                                                                     | 81/375 [00:08<00:26, 10.93it/s]                                                                                                                                                                                                                {'loss': 1.1535, 'grad_norm': 32.84307861328125, 'learning_rate': 1.827855977524191e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8217.25, 'epoch': 0.65}
 22%|████████████████████████████████████▋                                                                                                                                     | 81/375 [00:08<00:26, 10.93it/s]                                                                                                                                                                                                                {'loss': 1.1445, 'grad_norm': 6.870779991149902, 'learning_rate': 1.8229838658936566e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9373.04, 'epoch': 0.66}
 22%|█████████████████████████████████████▏                                                                                                                                    | 82/375 [00:08<00:26, 10.93it/s] 22%|█████████████████████████████████████▋                                                                                                                                    | 83/375 [00:08<00:26, 10.95it/s]                                                                                                                                                                                                                {'loss': 1.1379, 'grad_norm': 6.162526607513428, 'learning_rate': 1.818050450716113e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8983.9, 'epoch': 0.66}
 22%|█████████████████████████████████████▋                                                                                                                                    | 83/375 [00:08<00:26, 10.95it/s]                                                                                                                                                                                                                {'loss': 1.1823, 'grad_norm': 6.081611633300781, 'learning_rate': 1.8130560994785325e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9879.69, 'epoch': 0.67}
 22%|██████████████████████████████████████                                                                                                                                    | 84/375 [00:09<00:26, 10.95it/s] 23%|██████████████████████████████████████▌                                                                                                                                   | 85/375 [00:09<00:26, 10.96it/s]                                                                                                                                                                                                                {'loss': 1.1883, 'grad_norm': 6.497747421264648, 'learning_rate': 1.8080011842069768e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9015.94, 'epoch': 0.68}
 23%|██████████████████████████████████████▌                                                                                                                                   | 85/375 [00:09<00:26, 10.96it/s]                                                                                                                                                                                                                {'loss': 1.1192, 'grad_norm': 7.969574451446533, 'learning_rate': 1.8028860814388826e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9047.31, 'epoch': 0.69}
 23%|██████████████████████████████████████▉                                                                                                                                   | 86/375 [00:09<00:26, 10.96it/s] 23%|███████████████████████████████████████▍                                                                                                                                  | 87/375 [00:09<00:25, 11.12it/s]                                                                                                                                                                                                                {'loss': 1.1595, 'grad_norm': 6.799901485443115, 'learning_rate': 1.7977111721950163e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9211.08, 'epoch': 0.7}
 23%|███████████████████████████████████████▍                                                                                                                                  | 87/375 [00:09<00:25, 11.12it/s]                                                                                                                                                                                                                {'loss': 1.5121, 'grad_norm': 8.595680236816406, 'learning_rate': 1.7924768419510906e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10026.13, 'epoch': 0.7}
 23%|███████████████████████████████████████▉                                                                                                                                  | 88/375 [00:09<00:25, 11.12it/s] 24%|████████████████████████████████████████▎                                                                                                                                 | 89/375 [00:09<00:25, 11.18it/s]                                                                                                                                                                                                                {'loss': 1.1578, 'grad_norm': 6.857292652130127, 'learning_rate': 1.7871834806090502e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9028.26, 'epoch': 0.71}
 24%|████████████████████████████████████████▎                                                                                                                                 | 89/375 [00:09<00:25, 11.18it/s]                                                                                                                                                                                                                {'loss': 1.0438, 'grad_norm': 6.701430797576904, 'learning_rate': 1.78183148246803e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8976.45, 'epoch': 0.72}
 24%|████████████████████████████████████████▊                                                                                                                                 | 90/375 [00:09<00:25, 11.18it/s] 24%|█████████████████████████████████████████▎                                                                                                                                | 91/375 [00:09<00:25, 11.30it/s]                                                                                                                                                                                                                {'loss': 1.1812, 'grad_norm': 6.957489013671875, 'learning_rate': 1.776421246194982e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9614.54, 'epoch': 0.73}
 24%|█████████████████████████████████████████▎                                                                                                                                | 91/375 [00:09<00:25, 11.30it/s]                                                                                                                                                                                                                {'loss': 1.2654, 'grad_norm': 7.197965145111084, 'learning_rate': 1.7709531747949796e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10301.21, 'epoch': 0.74}
 25%|█████████████████████████████████████████▋                                                                                                                                | 92/375 [00:09<00:25, 11.30it/s] 25%|██████████████████████████████████████████▏                                                                                                                               | 93/375 [00:09<00:24, 11.34it/s]                                                                                                                                                                                                                {'loss': 1.4438, 'grad_norm': 7.601951599121094, 'learning_rate': 1.7654276755811997e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9491.14, 'epoch': 0.74}
 25%|██████████████████████████████████████████▏                                                                                                                               | 93/375 [00:09<00:24, 11.34it/s]                                                                                                                                                                                                                {'loss': 1.1001, 'grad_norm': 7.003673076629639, 'learning_rate': 1.759845160144579e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9366.67, 'epoch': 0.75}
 25%|██████████████████████████████████████████▌                                                                                                                               | 94/375 [00:09<00:24, 11.34it/s] 25%|███████████████████████████████████████████                                                                                                                               | 95/375 [00:09<00:24, 11.40it/s]                                                                                                                                                                                                                {'loss': 1.2549, 'grad_norm': 6.379886150360107, 'learning_rate': 1.7542060443231572e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9089.43, 'epoch': 0.76}
 25%|███████████████████████████████████████████                                                                                                                               | 95/375 [00:09<00:24, 11.40it/s]                                                                                                                                                                                                                {'loss': 1.107, 'grad_norm': 6.8500590324401855, 'learning_rate': 1.7485107481711014e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10477.14, 'epoch': 0.77}
 26%|███████████████████████████████████████████▌                                                                                                                              | 96/375 [00:10<00:24, 11.40it/s] 26%|███████████████████████████████████████████▉                                                                                                                              | 97/375 [00:10<00:24, 11.24it/s]                                                                                                                                                                                                                {'loss': 1.3182, 'grad_norm': 6.522653102874756, 'learning_rate': 1.7427596959274145e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9652.01, 'epoch': 0.78}
 26%|███████████████████████████████████████████▉                                                                                                                              | 97/375 [00:10<00:24, 11.24it/s]                                                                                                                                                                                                                {'loss': 1.2946, 'grad_norm': 6.389549255371094, 'learning_rate': 1.7369533159843368e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9534.55, 'epoch': 0.78}
 26%|████████████████████████████████████████████▍                                                                                                                             | 98/375 [00:10<00:24, 11.24it/s] 26%|████████████████████████████████████████████▉                                                                                                                             | 99/375 [00:10<00:24, 11.15it/s]                                                                                                                                                                                                                {'loss': 1.0988, 'grad_norm': 9.356315612792969, 'learning_rate': 1.7310920408554333e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9032.66, 'epoch': 0.79}
 26%|████████████████████████████████████████████▉                                                                                                                             | 99/375 [00:10<00:24, 11.15it/s]                                                                                                                                                                                                                {'loss': 1.2929, 'grad_norm': 7.916325569152832, 'learning_rate': 1.7251763071433767e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9461.14, 'epoch': 0.8}
 27%|█████████████████████████████████████████████                                                                                                                            | 100/375 [00:10<00:24, 11.15it/s] 27%|█████████████████████████████████████████████▌                                                                                                                           | 101/375 [00:10<00:24, 11.19it/s]                                                                                                                                                                                                                {'loss': 1.1533, 'grad_norm': 6.832822799682617, 'learning_rate': 1.7192065555074248e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9768.94, 'epoch': 0.81}
 27%|█████████████████████████████████████████████▌                                                                                                                           | 101/375 [00:10<00:24, 11.19it/s]                                                                                                                                                                                                                {'loss': 1.1918, 'grad_norm': 7.153477668762207, 'learning_rate': 1.7131832306305964e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9420.24, 'epoch': 0.82}
 27%|█████████████████████████████████████████████▉                                                                                                                           | 102/375 [00:10<00:24, 11.19it/s] 27%|██████████████████████████████████████████████▍                                                                                                                          | 103/375 [00:10<00:24, 11.19it/s]                                                                                                                                                                                                                {'loss': 1.1596, 'grad_norm': 6.71958589553833, 'learning_rate': 1.7071067811865477e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9574.56, 'epoch': 0.82}
 27%|██████████████████████████████████████████████▍                                                                                                                          | 103/375 [00:10<00:24, 11.19it/s]                                                                                                                                                                                                                {'loss': 1.3313, 'grad_norm': 8.199520111083984, 'learning_rate': 1.7009776598061496e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8874.14, 'epoch': 0.83}
 28%|██████████████████████████████████████████████▊                                                                                                                          | 104/375 [00:10<00:24, 11.19it/s] 28%|███████████████████████████████████████████████▎                                                                                                                         | 105/375 [00:10<00:24, 11.13it/s]                                                                                                                                                                                                                {'loss': 1.3619, 'grad_norm': 7.472032070159912, 'learning_rate': 1.6947963230437725e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10715.57, 'epoch': 0.84}
 28%|███████████████████████████████████████████████▎                                                                                                                         | 105/375 [00:10<00:24, 11.13it/s]                                                                                                                                                                                                                {'loss': 1.3897, 'grad_norm': 6.743656158447266, 'learning_rate': 1.6885632313432772e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9372.03, 'epoch': 0.85}
 28%|███████████████████████████████████████████████▊                                                                                                                         | 106/375 [00:10<00:24, 11.13it/s] 29%|████████████████████████████████████████████████▏                                                                                                                        | 107/375 [00:11<00:23, 11.20it/s]                                                                                                                                                                                                                {'loss': 1.2913, 'grad_norm': 6.412700176239014, 'learning_rate': 1.6822788490037178e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10138.12, 'epoch': 0.86}
 29%|████████████████████████████████████████████████▏                                                                                                                        | 107/375 [00:11<00:23, 11.20it/s]                                                                                                                                                                                                                {'loss': 1.1607, 'grad_norm': 7.616491317749023, 'learning_rate': 1.6759436441447544e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9655.95, 'epoch': 0.86}
 29%|████████████████████████████████████████████████▋                                                                                                                        | 108/375 [00:11<00:23, 11.20it/s] 29%|█████████████████████████████████████████████████                                                                                                                        | 109/375 [00:11<00:24, 11.08it/s]                                                                                                                                                                                                                {'loss': 1.3401, 'grad_norm': 6.485705375671387, 'learning_rate': 1.669558088671786e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9974.94, 'epoch': 0.87}
 29%|█████████████████████████████████████████████████                                                                                                                        | 109/375 [00:11<00:24, 11.08it/s]                                                                                                                                                                                                                {'loss': 1.3652, 'grad_norm': 7.043745040893555, 'learning_rate': 1.6631226582407954e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10888.28, 'epoch': 0.88}
 29%|█████████████████████████████████████████████████▌                                                                                                                       | 110/375 [00:11<00:23, 11.08it/s] 30%|██████████████████████████████████████████████████                                                                                                                       | 111/375 [00:11<00:23, 11.17it/s]                                                                                                                                                                                                                {'loss': 1.211, 'grad_norm': 7.357586860656738, 'learning_rate': 1.6566378322229203e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8922.0, 'epoch': 0.89}
 30%|██████████████████████████████████████████████████                                                                                                                       | 111/375 [00:11<00:23, 11.17it/s]                                                                                                                                                                                                                {'loss': 1.2314, 'grad_norm': 6.801909923553467, 'learning_rate': 1.6501040936687444e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9191.64, 'epoch': 0.9}
 30%|██████████████████████████████████████████████████▍                                                                                                                      | 112/375 [00:11<00:23, 11.17it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                      | 113/375 [00:11<00:23, 11.14it/s]                                                                                                                                                                                                                {'loss': 1.3494, 'grad_norm': 7.460896968841553, 'learning_rate': 1.643521929272315e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9878.85, 'epoch': 0.9}
 30%|██████████████████████████████████████████████████▉                                                                                                                      | 113/375 [00:11<00:23, 11.14it/s]                                                                                                                                                                                                                {'loss': 1.2006, 'grad_norm': 6.182265281677246, 'learning_rate': 1.6368918293348893e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9455.33, 'epoch': 0.91}
 30%|███████████████████████████████████████████████████▍                                                                                                                     | 114/375 [00:11<00:23, 11.14it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                     | 115/375 [00:11<00:23, 11.20it/s]                                                                                                                                                                                                                {'loss': 1.2419, 'grad_norm': 7.094189167022705, 'learning_rate': 1.630214287728414e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9767.17, 'epoch': 0.92}
 31%|███████████████████████████████████████████████████▊                                                                                                                     | 115/375 [00:11<00:23, 11.20it/s]                                                                                                                                                                                                                {'loss': 1.1017, 'grad_norm': 6.743818759918213, 'learning_rate': 1.6234898018587336e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9716.8, 'epoch': 0.93}
 31%|████████████████████████████████████████████████████▎                                                                                                                    | 116/375 [00:11<00:23, 11.20it/s] 31%|████████████████████████████████████████████████████▋                                                                                                                    | 117/375 [00:11<00:22, 11.27it/s]                                                                                                                                                                                                                {'loss': 1.0922, 'grad_norm': 6.625425338745117, 'learning_rate': 1.6167188726285433e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9942.41, 'epoch': 0.94}
 31%|████████████████████████████████████████████████████▋                                                                                                                    | 117/375 [00:11<00:22, 11.27it/s]                                                                                                                                                                                                                {'loss': 1.0127, 'grad_norm': 11.622234344482422, 'learning_rate': 1.609902004400073e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9425.74, 'epoch': 0.94}
 31%|█████████████████████████████████████████████████████▏                                                                                                                   | 118/375 [00:12<00:22, 11.27it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                   | 119/375 [00:12<00:23, 10.94it/s]                                                                                                                                                                                                                {'loss': 1.4142, 'grad_norm': 20.825883865356445, 'learning_rate': 1.6030397049575205e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9077.74, 'epoch': 0.95}
 32%|█████████████████████████████████████████████████████▋                                                                                                                   | 119/375 [00:12<00:23, 10.94it/s]                                                                                                                                                                                                                {'loss': 1.2932, 'grad_norm': 8.380904197692871, 'learning_rate': 1.5961324854692254e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10100.81, 'epoch': 0.96}
 32%|██████████████████████████████████████████████████████                                                                                                                   | 120/375 [00:12<00:23, 10.94it/s] 32%|██████████████████████████████████████████████████████▌                                                                                                                  | 121/375 [00:12<00:22, 11.08it/s]                                                                                                                                                                                                                {'loss': 1.0964, 'grad_norm': 8.296483039855957, 'learning_rate': 1.5891808604495936e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9657.15, 'epoch': 0.97}
 32%|██████████████████████████████████████████████████████▌                                                                                                                  | 121/375 [00:12<00:22, 11.08it/s]                                                                                                                                                                                                                {'loss': 1.3316, 'grad_norm': 7.703803539276123, 'learning_rate': 1.582185347720771e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9922.16, 'epoch': 0.98}
 33%|██████████████████████████████████████████████████████▉                                                                                                                  | 122/375 [00:12<00:22, 11.08it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                                 | 123/375 [00:12<00:22, 11.15it/s]                                                                                                                                                                                                                {'loss': 1.3769, 'grad_norm': 6.960313320159912, 'learning_rate': 1.5751464683740697e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9548.39, 'epoch': 0.98}
 33%|███████████████████████████████████████████████████████▍                                                                                                                 | 123/375 [00:12<00:22, 11.15it/s]                                                                                                                                                                                                                {'loss': 1.2118, 'grad_norm': 6.56093692779541, 'learning_rate': 1.568064746731156e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10075.39, 'epoch': 0.99}
 33%|███████████████████████████████████████████████████████▉                                                                                                                 | 124/375 [00:12<00:22, 11.15it/s] 33%|████████████████████████████████████████████████████████▎                                                                                                                | 125/375 [00:12<00:26,  9.57it/s]                                                                                                                                                                                                                {'loss': 1.0273, 'grad_norm': 6.696780681610107, 'learning_rate': 1.5609407103049895e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9141.93, 'epoch': 1.0}
 33%|████████████████████████████████████████████████████████▎                                                                                                                | 125/375 [00:12<00:26,  9.57it/s][2025-11-05 14:41:42,819] [INFO] [axolotl.core.trainers.base._save:671] [PID:989] Saving model checkpoint to ./outputs/atlas-fast-1.1b-v2/checkpoint-125
 34%|████████████████████████████████████████████████████████▊                                                                                                                | 126/375 [00:18<04:14,  1.02s/it]                                                                                                                                                                                                                {'loss': 0.8007, 'grad_norm': 5.269906044006348, 'learning_rate': 1.553774889760533e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7340.08, 'epoch': 1.01}
 34%|████████████████████████████████████████████████████████▊                                                                                                                | 126/375 [00:18<04:14,  1.02s/it]                                                                                                                                                                                                                {'loss': 0.9659, 'grad_norm': 6.231236457824707, 'learning_rate': 1.5465678188752212e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8699.91, 'epoch': 1.02}
 34%|█████████████████████████████████████████████████████████▏                                                                                                               | 127/375 [00:18<04:13,  1.02s/it] 34%|█████████████████████████████████████████████████████████▋                                                                                                               | 128/375 [00:18<02:55,  1.40it/s]                                                                                                                                                                                                                {'loss': 0.908, 'grad_norm': 5.5724663734436035, 'learning_rate': 1.5393200344991993e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9269.08, 'epoch': 1.02}
 34%|█████████████████████████████████████████████████████████▋                                                                                                               | 128/375 [00:18<02:55,  1.40it/s] 34%|██████████████████████████████████████████████████████████▏                                                                                                              | 129/375 [00:18<02:26,  1.68it/s]                                                                                                                                                                                                                {'loss': 1.1082, 'grad_norm': 6.144638538360596, 'learning_rate': 1.5320320765153367e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8924.65, 'epoch': 1.03}
 34%|██████████████████████████████████████████████████████████▏                                                                                                              | 129/375 [00:18<02:26,  1.68it/s]                                                                                                                                                                                                                {'loss': 1.0052, 'grad_norm': 6.340477466583252, 'learning_rate': 1.524704487799008e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9122.01, 'epoch': 1.04}
 35%|██████████████████████████████████████████████████████████▌                                                                                                              | 130/375 [00:18<02:25,  1.68it/s] 35%|███████████████████████████████████████████████████████████                                                                                                              | 131/375 [00:18<01:41,  2.41it/s]                                                                                                                                                                                                                {'loss': 0.9383, 'grad_norm': 6.6856255531311035, 'learning_rate': 1.5173378141776569e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8832.93, 'epoch': 1.05}
 35%|███████████████████████████████████████████████████████████                                                                                                              | 131/375 [00:18<01:41,  2.41it/s]                                                                                                                                                                                                                {'loss': 0.9355, 'grad_norm': 8.42915153503418, 'learning_rate': 1.5099326043901361e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9522.26, 'epoch': 1.06}
 35%|███████████████████████████████████████████████████████████▍                                                                                                             | 132/375 [00:18<01:40,  2.41it/s] 35%|███████████████████████████████████████████████████████████▉                                                                                                             | 133/375 [00:18<01:14,  3.26it/s]                                                                                                                                                                                                                {'loss': 1.043, 'grad_norm': 7.128732204437256, 'learning_rate': 1.5024894100458332e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9407.4, 'epoch': 1.06}
 35%|███████████████████████████████████████████████████████████▉                                                                                                             | 133/375 [00:18<01:14,  3.26it/s]                                                                                                                                                                                                                {'loss': 0.984, 'grad_norm': 12.976510047912598, 'learning_rate': 1.4950087855835816e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9079.75, 'epoch': 1.07}
 36%|████████████████████████████████████████████████████████████▍                                                                                                            | 134/375 [00:18<01:13,  3.26it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                            | 135/375 [00:18<00:56,  4.23it/s]                                                                                                                                                                                                                {'loss': 0.8454, 'grad_norm': 6.515797138214111, 'learning_rate': 1.48749128823036e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9298.88, 'epoch': 1.08}
 36%|████████████████████████████████████████████████████████████▊                                                                                                            | 135/375 [00:18<00:56,  4.23it/s]                                                                                                                                                                                                                {'loss': 1.1009, 'grad_norm': 9.718621253967285, 'learning_rate': 1.4799374779597866e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9490.01, 'epoch': 1.09}
 36%|█████████████████████████████████████████████████████████████▎                                                                                                           | 136/375 [00:19<00:56,  4.23it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                           | 137/375 [00:19<00:44,  5.31it/s]                                                                                                                                                                                                                {'loss': 0.8708, 'grad_norm': 8.418116569519043, 'learning_rate': 1.4723479174504039e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9750.07, 'epoch': 1.1}
 37%|█████████████████████████████████████████████████████████████▋                                                                                                           | 137/375 [00:19<00:44,  5.31it/s]                                                                                                                                                                                                                {'loss': 0.8122, 'grad_norm': 6.9166693687438965, 'learning_rate': 1.4647231720437687e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9677.12, 'epoch': 1.1}
 37%|██████████████████████████████████████████████████████████████▏                                                                                                          | 138/375 [00:19<00:44,  5.31it/s] 37%|██████████████████████████████████████████████████████████████▋                                                                                                          | 139/375 [00:19<00:37,  6.35it/s]                                                                                                                                                                                                                {'loss': 0.8896, 'grad_norm': 14.06246566772461, 'learning_rate': 1.457063809702338e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9340.53, 'epoch': 1.11}
 37%|██████████████████████████████████████████████████████████████▋                                                                                                          | 139/375 [00:19<00:37,  6.35it/s]                                                                                                                                                                                                                {'loss': 0.9263, 'grad_norm': 6.880278587341309, 'learning_rate': 1.4493704009671614e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9622.57, 'epoch': 1.12}
 37%|███████████████████████████████████████████████████████████████                                                                                                          | 140/375 [00:19<00:36,  6.35it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                         | 141/375 [00:19<00:32,  7.27it/s]                                                                                                                                                                                                                {'loss': 1.234, 'grad_norm': 13.699237823486328, 'learning_rate': 1.4416435189153845e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9337.91, 'epoch': 1.13}
 38%|███████████████████████████████████████████████████████████████▌                                                                                                         | 141/375 [00:19<00:32,  7.27it/s]                                                                                                                                                                                                                {'loss': 0.8733, 'grad_norm': 9.144976615905762, 'learning_rate': 1.4338837391175582e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9152.25, 'epoch': 1.14}
 38%|███████████████████████████████████████████████████████████████▉                                                                                                         | 142/375 [00:19<00:32,  7.27it/s] 38%|████████████████████████████████████████████████████████████████▍                                                                                                        | 143/375 [00:19<00:28,  8.18it/s]                                                                                                                                                                                                                {'loss': 0.8229, 'grad_norm': 8.226845741271973, 'learning_rate': 1.4260916395947657e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9395.59, 'epoch': 1.14}
 38%|████████████████████████████████████████████████████████████████▍                                                                                                        | 143/375 [00:19<00:28,  8.18it/s]                                                                                                                                                                                                                {'loss': 0.9286, 'grad_norm': 6.422171592712402, 'learning_rate': 1.4182678007755653e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9346.69, 'epoch': 1.15}
 38%|████████████████████████████████████████████████████████████████▉                                                                                                        | 144/375 [00:19<00:28,  8.18it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                       | 145/375 [00:19<00:26,  8.84it/s]                                                                                                                                                                                                                {'loss': 0.9782, 'grad_norm': 6.170538425445557, 'learning_rate': 1.410412805452757e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10723.1, 'epoch': 1.16}
 39%|█████████████████████████████████████████████████████████████████▎                                                                                                       | 145/375 [00:19<00:26,  8.84it/s]                                                                                                                                                                                                                {'loss': 1.0241, 'grad_norm': 11.080183982849121, 'learning_rate': 1.4025272387399676e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8821.32, 'epoch': 1.17}
 39%|█████████████████████████████████████████████████████████████████▊                                                                                                       | 146/375 [00:19<00:25,  8.84it/s] 39%|██████████████████████████████████████████████████████████████████▏                                                                                                      | 147/375 [00:20<00:24,  9.37it/s]                                                                                                                                                                                                                {'loss': 0.9761, 'grad_norm': 7.098969459533691, 'learning_rate': 1.3946116880280682e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9265.3, 'epoch': 1.18}
 39%|██████████████████████████████████████████████████████████████████▏                                                                                                      | 147/375 [00:20<00:24,  9.37it/s]                                                                                                                                                                                                                {'loss': 0.8526, 'grad_norm': 9.043347358703613, 'learning_rate': 1.3866667429414188e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9129.46, 'epoch': 1.18}
 39%|██████████████████████████████████████████████████████████████████▋                                                                                                      | 148/375 [00:20<00:24,  9.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                     | 149/375 [00:20<00:23,  9.81it/s]                                                                                                                                                                                                                {'loss': 1.1319, 'grad_norm': 6.993529796600342, 'learning_rate': 1.3786929952939478e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9760.2, 'epoch': 1.19}
 40%|███████████████████████████████████████████████████████████████████▏                                                                                                     | 149/375 [00:20<00:23,  9.81it/s]                                                                                                                                                                                                                {'loss': 0.8302, 'grad_norm': 52.21656036376953, 'learning_rate': 1.3706910390450679e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10188.67, 'epoch': 1.2}
 40%|███████████████████████████████████████████████████████████████████▌                                                                                                     | 150/375 [00:20<00:22,  9.81it/s] 40%|████████████████████████████████████████████████████████████████████                                                                                                     | 151/375 [00:20<00:21, 10.24it/s]                                                                                                                                                                                                                {'loss': 0.8852, 'grad_norm': 2670.78076171875, 'learning_rate': 1.3626614702554322e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10224.64, 'epoch': 1.21}
 40%|████████████████████████████████████████████████████████████████████                                                                                                     | 151/375 [00:20<00:21, 10.24it/s]                                                                                                                                                                                                                {'loss': 1.0821, 'grad_norm': 3498.298095703125, 'learning_rate': 1.3546048870425356e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10002.44, 'epoch': 1.22}
 41%|████████████████████████████████████████████████████████████████████▌                                                                                                    | 152/375 [00:20<00:21, 10.24it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                    | 153/375 [00:20<00:21, 10.56it/s]                                                                                                                                                                                                                {'loss': 1.0738, 'grad_norm': 24.916372299194336, 'learning_rate': 1.34652188953616e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9715.6, 'epoch': 1.22}
 41%|████████████████████████████████████████████████████████████████████▉                                                                                                    | 153/375 [00:20<00:21, 10.56it/s]                                                                                                                                                                                                                {'loss': 1.032, 'grad_norm': 101.194580078125, 'learning_rate': 1.3384130798336705e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9998.81, 'epoch': 1.23}
 41%|█████████████████████████████████████████████████████████████████████▍                                                                                                   | 154/375 [00:20<00:20, 10.56it/s] 41%|█████████████████████████████████████████████████████████████████████▊                                                                                                   | 155/375 [00:20<00:20, 10.78it/s]                                                                                                                                                                                                                {'loss': 1.0114, 'grad_norm': 170.0125274658203, 'learning_rate': 1.3302790619551673e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9299.12, 'epoch': 1.24}
 41%|█████████████████████████████████████████████████████████████████████▊                                                                                                   | 155/375 [00:20<00:20, 10.78it/s]                                                                                                                                                                                                                {'loss': 0.8939, 'grad_norm': 6.429877281188965, 'learning_rate': 1.3221204417984907e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9493.79, 'epoch': 1.25}
 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                  | 156/375 [00:20<00:20, 10.78it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                  | 157/375 [00:20<00:19, 10.96it/s]                                                                                                                                                                                                                {'loss': 1.0504, 'grad_norm': 156.3417205810547, 'learning_rate': 1.3139378270940901e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9593.19, 'epoch': 1.26}
 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                  | 157/375 [00:20<00:19, 10.96it/s]                                                                                                                                                                                                                {'loss': 0.9572, 'grad_norm': 62.33168029785156, 'learning_rate': 1.3057318273597531e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9438.59, 'epoch': 1.26}
 42%|███████████████████████████████████████████████████████████████████████▏                                                                                                 | 158/375 [00:20<00:19, 10.96it/s] 42%|███████████████████████████████████████████████████████████████████████▋                                                                                                 | 159/375 [00:21<00:19, 10.96it/s]                                                                                                                                                                                                                {'loss': 1.1306, 'grad_norm': 8.116891860961914, 'learning_rate': 1.297503053855203e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9361.79, 'epoch': 1.27}
 42%|███████████████████████████████████████████████████████████████████████▋                                                                                                 | 159/375 [00:21<00:19, 10.96it/s]                                                                                                                                                                                                                {'loss': 0.8458, 'grad_norm': 6.515566349029541, 'learning_rate': 1.2892521195365679e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9151.65, 'epoch': 1.28}
 43%|████████████████████████████████████████████████████████████████████████                                                                                                 | 160/375 [00:21<00:19, 10.96it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                                | 161/375 [00:21<00:19, 10.95it/s]                                                                                                                                                                                                                {'loss': 0.6969, 'grad_norm': 9.522754669189453, 'learning_rate': 1.2809796390107195e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9401.2, 'epoch': 1.29}
 43%|████████████████████████████████████████████████████████████████████████▌                                                                                                | 161/375 [00:21<00:19, 10.95it/s]                                                                                                                                                                                                                {'loss': 0.8992, 'grad_norm': 4221.33349609375, 'learning_rate': 1.2726862284894939e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10575.84, 'epoch': 1.3}
 43%|█████████████████████████████████████████████████████████████████████████                                                                                                | 162/375 [00:21<00:19, 10.95it/s] 43%|█████████████████████████████████████████████████████████████████████████▍                                                                                               | 163/375 [00:21<00:19, 10.97it/s]                                                                                                                                                                                                                {'loss': 0.8934, 'grad_norm': 10332.404296875, 'learning_rate': 1.264372505743789e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9740.35, 'epoch': 1.3}
 43%|█████████████████████████████████████████████████████████████████████████▍                                                                                               | 163/375 [00:21<00:19, 10.97it/s]                                                                                                                                                                                                                {'loss': 0.9487, 'grad_norm': 581.2674560546875, 'learning_rate': 1.2560390900575472e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9566.03, 'epoch': 1.31}
 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                               | 164/375 [00:21<00:19, 10.97it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                              | 165/375 [00:21<00:18, 11.08it/s]                                                                                                                                                                                                                {'loss': 0.9621, 'grad_norm': 6.686044692993164, 'learning_rate': 1.2476866021816261e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9637.59, 'epoch': 1.32}
 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                              | 165/375 [00:21<00:18, 11.08it/s]                                                                                                                                                                                                                {'loss': 0.9283, 'grad_norm': 28.114683151245117, 'learning_rate': 1.2393156642875579e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9556.22, 'epoch': 1.33}
 44%|██████████████████████████████████████████████████████████████████████████▊                                                                                              | 166/375 [00:21<00:18, 11.08it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                             | 167/375 [00:21<00:18, 11.12it/s]                                                                                                                                                                                                                {'loss': 0.7725, 'grad_norm': 7.9377546310424805, 'learning_rate': 1.2309268999212059e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8790.08, 'epoch': 1.34}
 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                             | 167/375 [00:21<00:18, 11.12it/s]                                                                                                                                                                                                                {'loss': 1.1318, 'grad_norm': 6.604945659637451, 'learning_rate': 1.2225209339563144e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9183.66, 'epoch': 1.34}
 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                             | 168/375 [00:21<00:18, 11.12it/s] 45%|████████████████████████████████████████████████████████████████████████████▏                                                                                            | 169/375 [00:21<00:18, 11.21it/s]                                                                                                                                                                                                                {'loss': 1.197, 'grad_norm': 43.898948669433594, 'learning_rate': 1.2140983925479662e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9898.71, 'epoch': 1.35}
 45%|████████████████████████████████████████████████████████████████████████████▏                                                                                            | 169/375 [00:21<00:18, 11.21it/s]                                                                                                                                                                                                                {'loss': 0.992, 'grad_norm': 8.307560920715332, 'learning_rate': 1.2056599030859367e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9145.82, 'epoch': 1.36}
 45%|████████████████████████████████████████████████████████████████████████████▌                                                                                            | 170/375 [00:22<00:18, 11.21it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                            | 171/375 [00:22<00:18, 11.16it/s]                                                                                                                                                                                                                {'loss': 0.9855, 'grad_norm': 22.19371795654297, 'learning_rate': 1.1972060941479622e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9058.16, 'epoch': 1.37}
 46%|█████████████████████████████████████████████████████████████████████████████                                                                                            | 171/375 [00:22<00:18, 11.16it/s]                                                                                                                                                                                                                {'loss': 0.9785, 'grad_norm': 8.380789756774902, 'learning_rate': 1.1887375954529167e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10136.72, 'epoch': 1.38}
 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                           | 172/375 [00:22<00:18, 11.16it/s] 46%|█████████████████████████████████████████████████████████████████████████████▉                                                                                           | 173/375 [00:22<00:18, 11.13it/s]                                                                                                                                                                                                                {'loss': 1.0824, 'grad_norm': 16.794055938720703, 'learning_rate': 1.180255037813906e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9779.51, 'epoch': 1.38}
 46%|█████████████████████████████████████████████████████████████████████████████▉                                                                                           | 173/375 [00:22<00:18, 11.13it/s]                                                                                                                                                                                                                {'loss': 0.8727, 'grad_norm': 25.328351974487305, 'learning_rate': 1.1717590530912764e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10090.75, 'epoch': 1.39}
 46%|██████████████████████████████████████████████████████████████████████████████▍                                                                                          | 174/375 [00:22<00:18, 11.13it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                          | 175/375 [00:22<00:17, 11.22it/s]                                                                                                                                                                                                                {'loss': 0.933, 'grad_norm': 8.99081039428711, 'learning_rate': 1.1632502741455496e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9545.64, 'epoch': 1.4}
 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                          | 175/375 [00:22<00:17, 11.22it/s]                                                                                                                                                                                                                {'loss': 0.8604, 'grad_norm': 44.20006561279297, 'learning_rate': 1.1547293347902813e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9638.56, 'epoch': 1.41}
 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                         | 176/375 [00:22<00:17, 11.22it/s] 47%|███████████████████████████████████████████████████████████████████████████████▊                                                                                         | 177/375 [00:22<00:17, 11.29it/s]                                                                                                                                                                                                                {'loss': 0.7719, 'grad_norm': 30.38372230529785, 'learning_rate': 1.1461968697448484e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9737.17, 'epoch': 1.42}
 47%|███████████████████████████████████████████████████████████████████████████████▊                                                                                         | 177/375 [00:22<00:17, 11.29it/s]                                                                                                                                                                                                                {'loss': 0.7853, 'grad_norm': 9.259000778198242, 'learning_rate': 1.1376535145871685e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9054.53, 'epoch': 1.42}
 47%|████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 178/375 [00:22<00:17, 11.29it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 179/375 [00:22<00:17, 11.30it/s]                                                                                                                                                                                                                {'loss': 1.0467, 'grad_norm': 40.9815559387207, 'learning_rate': 1.129099905706357e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9247.0, 'epoch': 1.43}
 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 179/375 [00:22<00:17, 11.30it/s]                                                                                                                                                                                                                {'loss': 0.9027, 'grad_norm': 15.718438148498535, 'learning_rate': 1.1205366802553231e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8804.67, 'epoch': 1.44}
 48%|█████████████████████████████████████████████████████████████████████████████████                                                                                        | 180/375 [00:22<00:17, 11.30it/s] 48%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 181/375 [00:23<00:17, 11.31it/s]                                                                                                                                                                                                                {'loss': 0.9293, 'grad_norm': 77.581787109375, 'learning_rate': 1.1119644761033079e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10006.96, 'epoch': 1.45}
 48%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 181/375 [00:23<00:17, 11.31it/s]                                                                                                                                                                                                                {'loss': 1.1318, 'grad_norm': 2330.37744140625, 'learning_rate': 1.10338393178837e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9973.72, 'epoch': 1.46}
 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                       | 182/375 [00:23<00:17, 11.31it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 183/375 [00:23<00:16, 11.35it/s]                                                                                                                                                                                                                {'loss': 0.7807, 'grad_norm': 6.186338901519775, 'learning_rate': 1.0947956864698223e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9203.34, 'epoch': 1.46}
 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 183/375 [00:23<00:16, 11.35it/s]                                                                                                                                                                                                                {'loss': 0.8194, 'grad_norm': 7.477730751037598, 'learning_rate': 1.0862003798806195e-05, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9406.7, 'epoch': 1.47}
 49%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 184/375 [00:23<00:16, 11.35it/s] 49%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 185/375 [00:23<00:17, 11.15it/s]                                                                                                                                                                                                                {'loss': 0.9236, 'grad_norm': 6.590065002441406, 'learning_rate': 1.0775986522797065e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10000.95, 'epoch': 1.48}
 49%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 185/375 [00:23<00:17, 11.15it/s]                                                                                                                                                                                                                {'loss': 0.7928, 'grad_norm': 6.867511749267578, 'learning_rate': 1.0689911444043249e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9593.97, 'epoch': 1.49}
 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 186/375 [00:23<00:16, 11.15it/s] 50%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 187/375 [00:23<00:16, 11.12it/s]                                                                                                                                                                                                                {'loss': 0.9884, 'grad_norm': 7.700260162353516, 'learning_rate': 1.0603784974222862e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9436.19, 'epoch': 1.5}
 50%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 187/375 [00:23<00:16, 11.12it/s]                                                                                                                                                                                                                {'loss': 0.944, 'grad_norm': 6.480975151062012, 'learning_rate': 1.0517613528842096e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9051.74, 'epoch': 1.5}
 50%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 188/375 [00:23<00:16, 11.12it/s] 50%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 189/375 [00:23<00:16, 11.03it/s]                                                                                                                                                                                                                {'loss': 0.9787, 'grad_norm': 8.846622467041016, 'learning_rate': 1.0431403526757347e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9404.26, 'epoch': 1.51}
 50%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 189/375 [00:23<00:16, 11.03it/s]                                                                                                                                                                                                                {'loss': 1.1397, 'grad_norm': 7.650313377380371, 'learning_rate': 1.0345161389697083e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10308.6, 'epoch': 1.52}
 51%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 190/375 [00:23<00:16, 11.03it/s] 51%|██████████████████████████████████████████████████████████████████████████████████████                                                                                   | 191/375 [00:23<00:16, 11.22it/s]                                                                                                                                                                                                                {'loss': 0.8533, 'grad_norm': 6.186450481414795, 'learning_rate': 1.0258893541783476e-05, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9560.57, 'epoch': 1.53}
 51%|██████████████████████████████████████████████████████████████████████████████████████                                                                                   | 191/375 [00:23<00:16, 11.22it/s]                                                                                                                                                                                                                {'loss': 0.8081, 'grad_norm': 7.308343887329102, 'learning_rate': 1.0172606409053887e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9042.39, 'epoch': 1.54}
 51%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 192/375 [00:24<00:16, 11.22it/s] 51%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 193/375 [00:24<00:16, 11.18it/s]                                                                                                                                                                                                                {'loss': 1.0592, 'grad_norm': 7.5523600578308105, 'learning_rate': 1.008630641898219e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9756.08, 'epoch': 1.54}
 51%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 193/375 [00:24<00:16, 11.18it/s]                                                                                                                                                                                                                {'loss': 1.1021, 'grad_norm': 7.91111946105957, 'learning_rate': 1e-05, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8716.56, 'epoch': 1.55}
 52%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 194/375 [00:24<00:16, 11.18it/s] 52%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 195/375 [00:24<00:16, 11.09it/s]                                                                                                                                                                                                                {'loss': 0.9201, 'grad_norm': 6.165367126464844, 'learning_rate': 9.913693581017812e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10619.83, 'epoch': 1.56}
 52%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 195/375 [00:24<00:16, 11.09it/s]                                                                                                                                                                                                                {'loss': 0.7707, 'grad_norm': 6.286497116088867, 'learning_rate': 9.827393590946116e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9137.8, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 196/375 [00:24<00:16, 11.09it/s] 53%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 197/375 [00:24<00:16, 11.08it/s]                                                                                                                                                                                                                {'loss': 0.8757, 'grad_norm': 5.941903114318848, 'learning_rate': 9.741106458216529e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9129.48, 'epoch': 1.58}
 53%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 197/375 [00:24<00:16, 11.08it/s]                                                                                                                                                                                                                {'loss': 0.9801, 'grad_norm': 6.356956481933594, 'learning_rate': 9.654838610302922e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9670.27, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 198/375 [00:24<00:15, 11.08it/s] 53%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 199/375 [00:24<00:15, 11.18it/s]                                                                                                                                                                                                                {'loss': 0.9416, 'grad_norm': 6.854360580444336, 'learning_rate': 9.568596473242655e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9870.71, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 199/375 [00:24<00:15, 11.18it/s]                                                                                                                                                                                                                {'loss': 1.121, 'grad_norm': 7.387898921966553, 'learning_rate': 9.482386471157905e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10241.1, 'epoch': 1.6}
 53%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 200/375 [00:24<00:15, 11.18it/s] 54%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 201/375 [00:24<00:15, 11.28it/s]                                                                                                                                                                                                                {'loss': 1.124, 'grad_norm': 7.35006046295166, 'learning_rate': 9.39621502577714e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10646.97, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 201/375 [00:24<00:15, 11.28it/s]                                                                                                                                                                                                                {'loss': 1.0408, 'grad_norm': 7.284885406494141, 'learning_rate': 9.310088555956751e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9822.42, 'epoch': 1.62}
 54%|███████████████████████████████████████████████████████████████████████████████████████████                                                                              | 202/375 [00:24<00:15, 11.28it/s] 54%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 203/375 [00:24<00:14, 11.47it/s]                                                                                                                                                                                                                {'loss': 1.206, 'grad_norm': 6.96799898147583, 'learning_rate': 9.224013477202939e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10262.35, 'epoch': 1.62}
 54%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 203/375 [00:24<00:14, 11.47it/s]                                                                                                                                                                                                                {'loss': 0.9539, 'grad_norm': 6.070692539215088, 'learning_rate': 9.137996201193807e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10067.87, 'epoch': 1.63}
 54%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 204/375 [00:25<00:14, 11.47it/s] 55%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 205/375 [00:25<00:14, 11.42it/s]                                                                                                                                                                                                                {'loss': 1.0861, 'grad_norm': 6.845772743225098, 'learning_rate': 9.052043135301779e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9379.99, 'epoch': 1.64}
 55%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 205/375 [00:25<00:14, 11.42it/s]                                                                                                                                                                                                                {'loss': 0.9098, 'grad_norm': 6.330933094024658, 'learning_rate': 8.966160682116301e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9647.25, 'epoch': 1.65}
 55%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 206/375 [00:25<00:14, 11.42it/s] 55%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 207/375 [00:25<00:14, 11.43it/s]                                                                                                                                                                                                                {'loss': 0.7433, 'grad_norm': 5.568795204162598, 'learning_rate': 8.880355238966923e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9716.13, 'epoch': 1.66}
 55%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 207/375 [00:25<00:14, 11.43it/s]                                                                                                                                                                                                                {'loss': 1.0619, 'grad_norm': 7.868434906005859, 'learning_rate': 8.79463319744677e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9357.84, 'epoch': 1.66}
 55%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 208/375 [00:25<00:14, 11.43it/s] 56%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 209/375 [00:25<00:14, 11.32it/s]                                                                                                                                                                                                                {'loss': 1.0762, 'grad_norm': 7.0925679206848145, 'learning_rate': 8.709000942936434e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9551.5, 'epoch': 1.67}
 56%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 209/375 [00:25<00:14, 11.32it/s]                                                                                                                                                                                                                {'loss': 0.9167, 'grad_norm': 5.728442192077637, 'learning_rate': 8.62346485412832e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9675.92, 'epoch': 1.68}
 56%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 210/375 [00:25<00:14, 11.32it/s] 56%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 211/375 [00:25<00:14, 11.24it/s]                                                                                                                                                                                                                {'loss': 0.7902, 'grad_norm': 5.848219394683838, 'learning_rate': 8.538031302551522e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10113.15, 'epoch': 1.69}
 56%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 211/375 [00:25<00:14, 11.24it/s]                                                                                                                                                                                                                {'loss': 0.8974, 'grad_norm': 6.032992839813232, 'learning_rate': 8.452706652097187e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9626.83, 'epoch': 1.7}
 57%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 212/375 [00:25<00:14, 11.24it/s] 57%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 213/375 [00:25<00:14, 11.19it/s]                                                                                                                                                                                                                {'loss': 0.9066, 'grad_norm': 6.665802001953125, 'learning_rate': 8.367497258544507e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10101.8, 'epoch': 1.7}
 57%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 213/375 [00:25<00:14, 11.19it/s]                                                                                                                                                                                                                {'loss': 1.1264, 'grad_norm': 7.590502738952637, 'learning_rate': 8.28240946908724e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9407.63, 'epoch': 1.71}
 57%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 214/375 [00:25<00:14, 11.19it/s] 57%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 215/375 [00:26<00:14, 11.15it/s]                                                                                                                                                                                                                {'loss': 0.7886, 'grad_norm': 6.182285785675049, 'learning_rate': 8.197449621860944e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9985.71, 'epoch': 1.72}
 57%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 215/375 [00:26<00:14, 11.15it/s]                                                                                                                                                                                                                {'loss': 0.9015, 'grad_norm': 6.816455841064453, 'learning_rate': 8.112624045470834e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10186.71, 'epoch': 1.73}
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 216/375 [00:26<00:14, 11.15it/s] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 217/375 [00:26<00:14, 11.12it/s]                                                                                                                                                                                                                {'loss': 1.171, 'grad_norm': 7.049309253692627, 'learning_rate': 8.027939058520381e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10928.38, 'epoch': 1.74}
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 217/375 [00:26<00:14, 11.12it/s]                                                                                                                                                                                                                {'loss': 0.9207, 'grad_norm': 8.280806541442871, 'learning_rate': 7.943400969140635e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9323.27, 'epoch': 1.74}
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 218/375 [00:26<00:14, 11.12it/s] 58%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 219/375 [00:26<00:14, 11.11it/s]                                                                                                                                                                                                                {'loss': 0.7256, 'grad_norm': 5.811641216278076, 'learning_rate': 7.85901607452034e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10116.58, 'epoch': 1.75}
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 219/375 [00:26<00:14, 11.11it/s]                                                                                                                                                                                                                {'loss': 0.8147, 'grad_norm': 5.753540992736816, 'learning_rate': 7.774790660436857e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10220.37, 'epoch': 1.76}
 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 220/375 [00:26<00:13, 11.11it/s] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 221/375 [00:26<00:13, 11.21it/s]                                                                                                                                                                                                                {'loss': 0.7924, 'grad_norm': 7.685948371887207, 'learning_rate': 7.690731000787948e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9831.87, 'epoch': 1.77}
 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 221/375 [00:26<00:13, 11.21it/s]                                                                                                                                                                                                                {'loss': 0.7302, 'grad_norm': 6.002508163452148, 'learning_rate': 7.606843357124426e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9882.59, 'epoch': 1.78}
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 222/375 [00:26<00:13, 11.21it/s] 59%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 223/375 [00:26<00:13, 11.14it/s]                                                                                                                                                                                                                {'loss': 1.1713, 'grad_norm': 6.74810791015625, 'learning_rate': 7.523133978183741e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9594.46, 'epoch': 1.78}
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 223/375 [00:26<00:13, 11.14it/s]                                                                                                                                                                                                                {'loss': 1.0677, 'grad_norm': 6.788215637207031, 'learning_rate': 7.4396090994245295e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10664.31, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 224/375 [00:26<00:13, 11.14it/s] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 225/375 [00:26<00:13, 11.12it/s]                                                                                                                                                                                                                {'loss': 1.2432, 'grad_norm': 7.144600868225098, 'learning_rate': 7.3562749425621115e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 11062.93, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 225/375 [00:26<00:13, 11.12it/s]                                                                                                                                                                                                                {'loss': 1.188, 'grad_norm': 7.550920486450195, 'learning_rate': 7.273137715105063e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9883.92, 'epoch': 1.81}
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 226/375 [00:27<00:13, 11.12it/s] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 227/375 [00:27<00:13, 11.23it/s]                                                                                                                                                                                                                {'loss': 0.7915, 'grad_norm': 6.2611985206604, 'learning_rate': 7.190203609892808e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9321.64, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 227/375 [00:27<00:13, 11.23it/s]                                                                                                                                                                                                                {'loss': 1.0047, 'grad_norm': 6.8424201011657715, 'learning_rate': 7.107478804634324e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8967.05, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 228/375 [00:27<00:13, 11.23it/s] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 229/375 [00:27<00:13, 11.15it/s]                                                                                                                                                                                                                {'loss': 0.9044, 'grad_norm': 6.418837547302246, 'learning_rate': 7.024969461447973e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9100.3, 'epoch': 1.83}
 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 229/375 [00:27<00:13, 11.15it/s]                                                                                                                                                                                                                {'loss': 0.8146, 'grad_norm': 6.246644496917725, 'learning_rate': 6.942681726402474e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9585.08, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 230/375 [00:27<00:13, 11.15it/s] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 231/375 [00:27<00:13, 10.91it/s]                                                                                                                                                                                                                {'loss': 1.2182, 'grad_norm': 7.915614128112793, 'learning_rate': 6.8606217290591e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8969.76, 'epoch': 1.85}
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 231/375 [00:27<00:13, 10.91it/s]                                                                                                                                                                                                                {'loss': 0.8957, 'grad_norm': 6.611807823181152, 'learning_rate': 6.778795582015096e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9573.17, 'epoch': 1.86}
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 232/375 [00:27<00:13, 10.91it/s] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 233/375 [00:27<00:12, 10.96it/s]                                                                                                                                                                                                                {'loss': 0.7415, 'grad_norm': 6.592597484588623, 'learning_rate': 6.697209380448333e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10711.79, 'epoch': 1.86}
 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 233/375 [00:27<00:12, 10.96it/s]                                                                                                                                                                                                                {'loss': 0.9068, 'grad_norm': 6.312318325042725, 'learning_rate': 6.615869201663296e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9185.0, 'epoch': 1.87}
 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 234/375 [00:27<00:12, 10.96it/s] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 235/375 [00:27<00:12, 10.99it/s]                                                                                                                                                                                                                {'loss': 0.9875, 'grad_norm': 6.272254467010498, 'learning_rate': 6.5347811046384e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10245.05, 'epoch': 1.88}
 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 235/375 [00:27<00:12, 10.99it/s]                                                                                                                                                                                                                {'loss': 1.0383, 'grad_norm': 8.214420318603516, 'learning_rate': 6.453951129574644e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10504.33, 'epoch': 1.89}
 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 236/375 [00:27<00:12, 10.99it/s] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 237/375 [00:28<00:12, 11.21it/s]                                                                                                                                                                                                                {'loss': 1.0149, 'grad_norm': 6.468367099761963, 'learning_rate': 6.37338529744568e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10040.63, 'epoch': 1.9}
 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 237/375 [00:28<00:12, 11.21it/s]                                                                                                                                                                                                                {'loss': 0.97, 'grad_norm': 6.546410083770752, 'learning_rate': 6.293089609549325e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9886.83, 'epoch': 1.9}
 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 238/375 [00:28<00:12, 11.21it/s] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 239/375 [00:28<00:12, 11.15it/s]                                                                                                                                                                                                                {'loss': 0.7989, 'grad_norm': 6.140220642089844, 'learning_rate': 6.213070047060524e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9402.48, 'epoch': 1.91}
 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 239/375 [00:28<00:12, 11.15it/s]                                                                                                                                                                                                                {'loss': 1.0503, 'grad_norm': 7.188436508178711, 'learning_rate': 6.133332570585813e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10245.02, 'epoch': 1.92}
 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 240/375 [00:28<00:12, 11.15it/s] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 241/375 [00:28<00:12, 11.12it/s]                                                                                                                                                                                                                {'loss': 1.0745, 'grad_norm': 8.125267028808594, 'learning_rate': 6.053883119719321e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9682.74, 'epoch': 1.93}
 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 241/375 [00:28<00:12, 11.12it/s]                                                                                                                                                                                                                {'loss': 0.8269, 'grad_norm': 7.138496398925781, 'learning_rate': 5.9747276126003265e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9457.85, 'epoch': 1.94}
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 242/375 [00:28<00:11, 11.12it/s] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 243/375 [00:28<00:11, 11.17it/s]                                                                                                                                                                                                                {'loss': 0.781, 'grad_norm': 5.657252311706543, 'learning_rate': 5.895871945472434e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9074.22, 'epoch': 1.94}
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 243/375 [00:28<00:11, 11.17it/s]                                                                                                                                                                                                                {'loss': 0.9378, 'grad_norm': 8.181774139404297, 'learning_rate': 5.8173219922443516e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9462.35, 'epoch': 1.95}
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 244/375 [00:28<00:11, 11.17it/s] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 245/375 [00:28<00:11, 11.28it/s]                                                                                                                                                                                                                {'loss': 0.9336, 'grad_norm': 7.129058361053467, 'learning_rate': 5.739083604052351e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9037.93, 'epoch': 1.96}
 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 245/375 [00:28<00:11, 11.28it/s]                                                                                                                                                                                                                {'loss': 0.8618, 'grad_norm': 6.671249866485596, 'learning_rate': 5.66116260882442e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9170.3, 'epoch': 1.97}
 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 246/375 [00:28<00:11, 11.28it/s] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 247/375 [00:28<00:11, 11.39it/s]                                                                                                                                                                                                                {'loss': 0.8905, 'grad_norm': 10.080750465393066, 'learning_rate': 5.583564810846157e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10051.1, 'epoch': 1.98}
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 247/375 [00:28<00:11, 11.39it/s]                                                                                                                                                                                                                {'loss': 1.0144, 'grad_norm': 7.297857284545898, 'learning_rate': 5.5062959903283855e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10019.58, 'epoch': 1.98}
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 248/375 [00:29<00:11, 11.39it/s] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 249/375 [00:29<00:10, 11.49it/s]                                                                                                                                                                                                                {'loss': 0.9217, 'grad_norm': 6.850291728973389, 'learning_rate': 5.429361902976624e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9398.77, 'epoch': 1.99}
 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 249/375 [00:29<00:10, 11.49it/s]                                                                                                                                                                                                                {'loss': 0.9814, 'grad_norm': 9.657767295837402, 'learning_rate': 5.352768279562315e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8769.61, 'epoch': 2.0}
 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 250/375 [00:29<00:10, 11.49it/s][2025-11-05 14:41:59,321] [INFO] [axolotl.core.trainers.base._save:671] [PID:989] Saving model checkpoint to ./outputs/atlas-fast-1.1b-v2/checkpoint-250
 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 251/375 [00:34<01:45,  1.18it/s]                                                                                                                                                                                                                {'loss': 0.9202, 'grad_norm': 5.981490135192871, 'learning_rate': 5.276520825495963e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8002.9, 'epoch': 2.01}
 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 251/375 [00:34<01:45,  1.18it/s] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 252/375 [00:34<01:28,  1.39it/s]                                                                                                                                                                                                                {'loss': 1.0106, 'grad_norm': 6.849959850311279, 'learning_rate': 5.200625220402139e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9069.26, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 252/375 [00:34<01:28,  1.39it/s] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 253/375 [00:34<01:12,  1.68it/s]                                                                                                                                                                                                                {'loss': 0.8457, 'grad_norm': 5.646915912628174, 'learning_rate': 5.125087117696403e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8720.64, 'epoch': 2.02}
 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 253/375 [00:34<01:12,  1.68it/s] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 254/375 [00:34<00:58,  2.07it/s]                                                                                                                                                                                                                {'loss': 0.8, 'grad_norm': 5.9044880867004395, 'learning_rate': 5.049912144164186e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8892.74, 'epoch': 2.03}
 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 254/375 [00:34<00:58,  2.07it/s] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 255/375 [00:34<00:47,  2.53it/s]                                                                                                                                                                                                                {'loss': 0.8337, 'grad_norm': 7.605242729187012, 'learning_rate': 4.975105899541671e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7626.69, 'epoch': 2.04}
 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 255/375 [00:34<00:47,  2.53it/s]                                                                                                                                                                                                                {'loss': 0.7805, 'grad_norm': 6.687244415283203, 'learning_rate': 4.900673956098644e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9814.33, 'epoch': 2.05}
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 256/375 [00:34<00:47,  2.53it/s] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 257/375 [00:34<00:32,  3.69it/s]                                                                                                                                                                                                                {'loss': 0.903, 'grad_norm': 8.326522827148438, 'learning_rate': 4.826621858223431e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9395.83, 'epoch': 2.06}
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 257/375 [00:34<00:32,  3.69it/s]                                                                                                                                                                                                                {'loss': 0.7083, 'grad_norm': 6.293161392211914, 'learning_rate': 4.75295512200992e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9351.64, 'epoch': 2.06}
 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 258/375 [00:35<00:31,  3.69it/s] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 259/375 [00:35<00:23,  4.86it/s]                                                                                                                                                                                                                {'loss': 0.8248, 'grad_norm': 11.643998146057129, 'learning_rate': 4.679679234846636e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8632.19, 'epoch': 2.07}
 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 259/375 [00:35<00:23,  4.86it/s]                                                                                                                                                                                                                {'loss': 0.5928, 'grad_norm': 429.9149475097656, 'learning_rate': 4.606799655008009e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8736.05, 'epoch': 2.08}
 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 260/375 [00:35<00:23,  4.86it/s] 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 261/375 [00:35<00:18,  6.04it/s]                                                                                                                                                                                                                {'loss': 0.802, 'grad_norm': 915.8787841796875, 'learning_rate': 4.5343218112477906e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8238.46, 'epoch': 2.09}
 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 261/375 [00:35<00:18,  6.04it/s]                                                                                                                                                                                                                {'loss': 0.767, 'grad_norm': 73.23159790039062, 'learning_rate': 4.462251102394669e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9214.08, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 262/375 [00:35<00:18,  6.04it/s] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 263/375 [00:35<00:15,  7.13it/s]                                                                                                                                                                                                                {'loss': 0.9257, 'grad_norm': 25.91334342956543, 'learning_rate': 4.3905928969501054e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9488.62, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 263/375 [00:35<00:15,  7.13it/s]                                                                                                                                                                                                                {'loss': 0.8362, 'grad_norm': 9.985756874084473, 'learning_rate': 4.319352532688444e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9714.82, 'epoch': 2.11}
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 264/375 [00:35<00:15,  7.13it/s] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 265/375 [00:35<00:13,  8.09it/s]                                                                                                                                                                                                                {'loss': 0.7201, 'grad_norm': 5.919938564300537, 'learning_rate': 4.2485353162593054e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9775.6, 'epoch': 2.12}
 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 265/375 [00:35<00:13,  8.09it/s]                                                                                                                                                                                                                {'loss': 0.646, 'grad_norm': 5.425070285797119, 'learning_rate': 4.178146522792296e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9823.21, 'epoch': 2.13}
 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 266/375 [00:35<00:13,  8.09it/s] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 267/375 [00:35<00:12,  8.84it/s]                                                                                                                                                                                                                {'loss': 0.8371, 'grad_norm': 7.535451412200928, 'learning_rate': 4.108191395504064e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10210.49, 'epoch': 2.14}
 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 267/375 [00:35<00:12,  8.84it/s]                                                                                                                                                                                                                {'loss': 0.7447, 'grad_norm': 6.634559631347656, 'learning_rate': 4.038675145307747e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10344.66, 'epoch': 2.14}
 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 268/375 [00:35<00:12,  8.84it/s] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 269/375 [00:36<00:11,  9.52it/s]                                                                                                                                                                                                                {'loss': 0.8442, 'grad_norm': 6.258257865905762, 'learning_rate': 3.9696029504247955e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9499.38, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 269/375 [00:36<00:11,  9.52it/s]                                                                                                                                                                                                                {'loss': 1.0568, 'grad_norm': 10.127217292785645, 'learning_rate': 3.900979955999271e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10597.43, 'epoch': 2.16}
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 270/375 [00:36<00:11,  9.52it/s] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 271/375 [00:36<00:10,  9.88it/s]                                                                                                                                                                                                                {'loss': 0.9928, 'grad_norm': 8.251473426818848, 'learning_rate': 3.832811273714569e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9203.74, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 271/375 [00:36<00:10,  9.88it/s]                                                                                                                                                                                                                {'loss': 0.8505, 'grad_norm': 6.469297409057617, 'learning_rate': 3.7651019814126656e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9114.04, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 272/375 [00:36<00:10,  9.88it/s] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 273/375 [00:36<00:10, 10.19it/s]                                                                                                                                                                                                                {'loss': 0.8881, 'grad_norm': 6.460302352905273, 'learning_rate': 3.6978571227158655e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9763.02, 'epoch': 2.18}
 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 273/375 [00:36<00:10, 10.19it/s]                                                                                                                                                                                                                {'loss': 0.8964, 'grad_norm': 6.623606204986572, 'learning_rate': 3.6310817066511106e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9929.38, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 274/375 [00:36<00:09, 10.19it/s] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 275/375 [00:36<00:09, 10.44it/s]                                                                                                                                                                                                                {'loss': 0.8188, 'grad_norm': 6.475684642791748, 'learning_rate': 3.5647807072768525e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10392.85, 'epoch': 2.2}
 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 275/375 [00:36<00:09, 10.44it/s]                                                                                                                                                                                                                {'loss': 0.7067, 'grad_norm': 5.588502883911133, 'learning_rate': 3.4989590633125583e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10069.27, 'epoch': 2.21}
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 276/375 [00:36<00:09, 10.44it/s] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 277/375 [00:36<00:09, 10.62it/s]                                                                                                                                                                                                                {'loss': 0.7485, 'grad_norm': 6.028927803039551, 'learning_rate': 3.4336216777707998e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9744.57, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 277/375 [00:36<00:09, 10.62it/s]                                                                                                                                                                                                                {'loss': 0.7795, 'grad_norm': 6.454056739807129, 'learning_rate': 3.3687734175920505e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9554.6, 'epoch': 2.22}
 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 278/375 [00:36<00:09, 10.62it/s] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 279/375 [00:36<00:08, 10.82it/s]                                                                                                                                                                                                                {'loss': 0.6496, 'grad_norm': 5.69786262512207, 'learning_rate': 3.3044191132821457e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9993.66, 'epoch': 2.23}
 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 279/375 [00:36<00:08, 10.82it/s]                                                                                                                                                                                                                {'loss': 0.9212, 'grad_norm': 6.762315273284912, 'learning_rate': 3.2405635585524566e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10090.77, 'epoch': 2.24}
 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 280/375 [00:37<00:08, 10.82it/s] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 281/375 [00:37<00:08, 10.99it/s]                                                                                                                                                                                                                {'loss': 0.7413, 'grad_norm': 6.355398178100586, 'learning_rate': 3.1772115099628266e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9948.54, 'epoch': 2.25}
 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 281/375 [00:37<00:08, 10.99it/s]                                                                                                                                                                                                                {'loss': 0.7883, 'grad_norm': 6.551461219787598, 'learning_rate': 3.114367686567228e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10351.23, 'epoch': 2.26}
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 282/375 [00:37<00:08, 10.99it/s] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 283/375 [00:37<00:08, 11.01it/s]                                                                                                                                                                                                                {'loss': 0.8113, 'grad_norm': 6.637039661407471, 'learning_rate': 3.0520367695622766e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9684.4, 'epoch': 2.26}
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 283/375 [00:37<00:08, 11.01it/s]                                                                                                                                                                                                                {'loss': 0.9227, 'grad_norm': 7.884800434112549, 'learning_rate': 2.9902234019385056e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9313.5, 'epoch': 2.27}
 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 284/375 [00:37<00:08, 11.01it/s] 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 285/375 [00:37<00:07, 11.25it/s]                                                                                                                                                                                                                {'loss': 0.8634, 'grad_norm': 6.534247875213623, 'learning_rate': 2.9289321881345257e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9679.81, 'epoch': 2.28}
 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 285/375 [00:37<00:07, 11.25it/s]                                                                                                                                                                                                                {'loss': 0.8544, 'grad_norm': 6.680509090423584, 'learning_rate': 2.8681676936940397e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9638.31, 'epoch': 2.29}
 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 286/375 [00:37<00:07, 11.25it/s] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 287/375 [00:37<00:07, 11.17it/s]                                                                                                                                                                                                                {'loss': 0.7304, 'grad_norm': 5.755170822143555, 'learning_rate': 2.8079344449257573e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9653.5, 'epoch': 2.3}
 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 287/375 [00:37<00:07, 11.17it/s]                                                                                                                                                                                                                {'loss': 0.7861, 'grad_norm': 7.033522129058838, 'learning_rate': 2.748236928566238e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9087.89, 'epoch': 2.3}
 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 288/375 [00:37<00:07, 11.17it/s] 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 289/375 [00:37<00:07, 11.22it/s]                                                                                                                                                                                                                {'loss': 0.7712, 'grad_norm': 6.554269790649414, 'learning_rate': 2.689079591445668e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9751.14, 'epoch': 2.31}
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 289/375 [00:37<00:07, 11.22it/s]                                                                                                                                                                                                                {'loss': 0.7685, 'grad_norm': 6.235719680786133, 'learning_rate': 2.6304668401566334e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9400.08, 'epoch': 2.32}
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 290/375 [00:37<00:07, 11.22it/s] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 291/375 [00:38<00:07, 11.28it/s]                                                                                                                                                                                                                {'loss': 0.7031, 'grad_norm': 6.52984619140625, 'learning_rate': 2.572403040725855e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8954.7, 'epoch': 2.33}
 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 291/375 [00:38<00:07, 11.28it/s]                                                                                                                                                                                                                {'loss': 0.7111, 'grad_norm': 6.145604133605957, 'learning_rate': 2.514892518288988e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9904.69, 'epoch': 2.34}
 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 292/375 [00:38<00:07, 11.28it/s] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 293/375 [00:38<00:07, 11.31it/s]                                                                                                                                                                                                                {'loss': 0.8098, 'grad_norm': 6.1708574295043945, 'learning_rate': 2.4579395567684284e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 10090.01, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 293/375 [00:38<00:07, 11.31it/s]                                                                                                                                                                                                                {'loss': 0.6655, 'grad_norm': 6.078342914581299, 'learning_rate': 2.401548398554213e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9805.41, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 294/375 [00:38<00:07, 11.31it/s] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 295/375 [00:38<00:08,  9.68it/s]                                                                                                                                                                                                                {'loss': 0.8242, 'grad_norm': 6.2961344718933105, 'learning_rate': 2.345723244188006e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 4735.78, 'epoch': 2.36}
 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 295/375 [00:38<00:08,  9.68it/s]                                                                                                                                                                                                                {'loss': 0.7602, 'grad_norm': 6.009976863861084, 'learning_rate': 2.290468252050204e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8175.49, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 296/375 [00:38<00:08,  9.68it/s] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 297/375 [00:38<00:08,  9.75it/s]                                                                                                                                                                                                                {'loss': 0.7531, 'grad_norm': 6.406927108764648, 'learning_rate': 2.2357875380501835e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8644.6, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 297/375 [00:38<00:08,  9.75it/s]                                                                                                                                                                                                                {'loss': 0.7886, 'grad_norm': 6.079426288604736, 'learning_rate': 2.1816851753197023e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7876.76, 'epoch': 2.38}
 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 298/375 [00:38<00:07,  9.75it/s] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 299/375 [00:38<00:08,  9.15it/s]                                                                                                                                                                                                                {'loss': 0.7933, 'grad_norm': 6.878996849060059, 'learning_rate': 2.1281651939094996e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 5739.5, 'epoch': 2.39}
 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 299/375 [00:38<00:08,  9.15it/s] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 300/375 [00:39<00:08,  9.25it/s]                                                                                                                                                                                                                {'loss': 1.0248, 'grad_norm': 7.413934230804443, 'learning_rate': 2.075231580489098e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9050.24, 'epoch': 2.4}
 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 300/375 [00:39<00:08,  9.25it/s] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 301/375 [00:39<00:07,  9.34it/s]                                                                                                                                                                                                                {'loss': 0.7051, 'grad_norm': 6.895175457000732, 'learning_rate': 2.0228882780498405e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7602.72, 'epoch': 2.41}
 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 301/375 [00:39<00:07,  9.34it/s] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 302/375 [00:39<00:07,  9.41it/s]                                                                                                                                                                                                                {'loss': 0.5784, 'grad_norm': 6.130258560180664, 'learning_rate': 1.971139185611176e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8374.64, 'epoch': 2.42}
 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 302/375 [00:39<00:07,  9.41it/s] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 303/375 [00:39<00:07,  9.47it/s]                                                                                                                                                                                                                {'loss': 0.7732, 'grad_norm': 6.942368030548096, 'learning_rate': 1.919988157930236e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7544.11, 'epoch': 2.42}
 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 303/375 [00:39<00:07,  9.47it/s] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 304/375 [00:39<00:07,  9.50it/s]                                                                                                                                                                                                                {'loss': 0.7872, 'grad_norm': 6.185111999511719, 'learning_rate': 1.8694390052146737e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7621.31, 'epoch': 2.43}
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 304/375 [00:39<00:07,  9.50it/s] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 305/375 [00:39<00:07,  9.55it/s]                                                                                                                                                                                                                {'loss': 0.7951, 'grad_norm': 6.280045032501221, 'learning_rate': 1.8194954928388719e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9273.36, 'epoch': 2.44}
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 305/375 [00:39<00:07,  9.55it/s] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 306/375 [00:39<00:07,  9.54it/s]                                                                                                                                                                                                                {'loss': 0.6025, 'grad_norm': 6.018642902374268, 'learning_rate': 1.7701613410634367e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7438.19, 'epoch': 2.45}
 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 306/375 [00:39<00:07,  9.54it/s] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 307/375 [00:39<00:07,  9.56it/s]                                                                                                                                                                                                                {'loss': 0.7949, 'grad_norm': 8.388545989990234, 'learning_rate': 1.721440224758092e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8497.79, 'epoch': 2.46}
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 307/375 [00:39<00:07,  9.56it/s] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 308/375 [00:39<00:06,  9.58it/s]                                                                                                                                                                                                                {'loss': 0.5678, 'grad_norm': 6.046279430389404, 'learning_rate': 1.6733357731279375e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8547.53, 'epoch': 2.46}
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 308/375 [00:39<00:06,  9.58it/s] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 309/375 [00:39<00:06,  9.61it/s]                                                                                                                                                                                                                {'loss': 0.7113, 'grad_norm': 7.564311504364014, 'learning_rate': 1.6258515694431142e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8742.75, 'epoch': 2.47}
 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 309/375 [00:39<00:06,  9.61it/s] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 310/375 [00:40<00:06,  9.57it/s]                                                                                                                                                                                                                {'loss': 0.9246, 'grad_norm': 6.3145341873168945, 'learning_rate': 1.5789911507718824e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7580.25, 'epoch': 2.48}
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 310/375 [00:40<00:06,  9.57it/s] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 311/375 [00:40<00:06,  9.55it/s]                                                                                                                                                                                                                {'loss': 0.5517, 'grad_norm': 6.84761905670166, 'learning_rate': 1.5327580077171589e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7582.1, 'epoch': 2.49}
 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 311/375 [00:40<00:06,  9.55it/s] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 312/375 [00:40<00:06,  9.57it/s]                                                                                                                                                                                                                {'loss': 0.8163, 'grad_norm': 6.969144344329834, 'learning_rate': 1.4871555841564889e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7980.88, 'epoch': 2.5}
 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 312/375 [00:40<00:06,  9.57it/s] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 313/375 [00:40<00:06,  9.59it/s]                                                                                                                                                                                                                {'loss': 0.805, 'grad_norm': 6.1413893699646, 'learning_rate': 1.4421872769855262e-06, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8790.22, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 313/375 [00:40<00:06,  9.59it/s]                                                                                                                                                                                                                {'loss': 0.7271, 'grad_norm': 6.641040802001953, 'learning_rate': 1.3978564358649926e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8910.64, 'epoch': 2.51}
 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 314/375 [00:40<00:06,  9.59it/s] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 315/375 [00:40<00:06,  9.83it/s]                                                                                                                                                                                                                {'loss': 0.8501, 'grad_norm': 7.606501579284668, 'learning_rate': 1.3541663629711765e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8685.57, 'epoch': 2.52}
 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 315/375 [00:40<00:06,  9.83it/s]                                                                                                                                                                                                                {'loss': 0.9436, 'grad_norm': 6.607245445251465, 'learning_rate': 1.311120312749935e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8718.95, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 316/375 [00:40<00:06,  9.83it/s] 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 317/375 [00:40<00:05,  9.89it/s]                                                                                                                                                                                                                {'loss': 0.8606, 'grad_norm': 7.009119033813477, 'learning_rate': 1.2687214916742918e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8719.71, 'epoch': 2.54}
 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 317/375 [00:40<00:05,  9.89it/s] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 318/375 [00:40<00:05,  9.87it/s]                                                                                                                                                                                                                {'loss': 0.7719, 'grad_norm': 7.780111789703369, 'learning_rate': 1.2269730580055806e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8008.87, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 318/375 [00:40<00:05,  9.87it/s]                                                                                                                                                                                                                {'loss': 0.7975, 'grad_norm': 7.883535861968994, 'learning_rate': 1.1858781215581861e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8276.53, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 319/375 [00:40<00:05,  9.87it/s] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 320/375 [00:41<00:05,  9.94it/s]                                                                                                                                                                                                                {'loss': 0.7546, 'grad_norm': 6.130970001220703, 'learning_rate': 1.1454397434679022e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9536.88, 'epoch': 2.56}
 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 320/375 [00:41<00:05,  9.94it/s]                                                                                                                                                                                                                {'loss': 0.868, 'grad_norm': 6.472546100616455, 'learning_rate': 1.1056609359639027e-06, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8561.93, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 321/375 [00:41<00:05,  9.94it/s] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 322/375 [00:41<00:05,  9.97it/s]                                                                                                                                                                                                                {'loss': 0.7834, 'grad_norm': 6.494772911071777, 'learning_rate': 1.066544662144371e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9040.17, 'epoch': 2.58}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 322/375 [00:41<00:05,  9.97it/s]                                                                                                                                                                                                                {'loss': 0.8025, 'grad_norm': 6.538474082946777, 'learning_rate': 1.028093835755769e-06, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9391.52, 'epoch': 2.58}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 323/375 [00:41<00:05,  9.97it/s] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 324/375 [00:41<00:05, 10.02it/s]                                                                                                                                                                                                                {'loss': 0.7692, 'grad_norm': 6.820719242095947, 'learning_rate': 9.903113209758098e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8446.78, 'epoch': 2.59}
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 324/375 [00:41<00:05, 10.02it/s]                                                                                                                                                                                                                {'loss': 0.6684, 'grad_norm': 6.430535793304443, 'learning_rate': 9.531999322000885e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8624.0, 'epoch': 2.6}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 325/375 [00:41<00:04, 10.02it/s] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 326/375 [00:41<00:04, 10.05it/s]                                                                                                                                                                                                                {'loss': 0.5947, 'grad_norm': 5.931708335876465, 'learning_rate': 9.167624338324599e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9094.0, 'epoch': 2.61}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 326/375 [00:41<00:04, 10.05it/s]                                                                                                                                                                                                                {'loss': 0.6893, 'grad_norm': 7.059136390686035, 'learning_rate': 8.810015400790994e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7949.72, 'epoch': 2.62}
 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 327/375 [00:41<00:04, 10.05it/s] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 328/375 [00:41<00:04, 10.03it/s]                                                                                                                                                                                                                {'loss': 0.7238, 'grad_norm': 6.375615119934082, 'learning_rate': 8.459199147463371e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8437.56, 'epoch': 2.62}
 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 328/375 [00:41<00:04, 10.03it/s]                                                                                                                                                                                                                {'loss': 0.7744, 'grad_norm': 7.04406213760376, 'learning_rate': 8.115201710422283e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8123.41, 'epoch': 2.63}
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 329/375 [00:41<00:04, 10.03it/s] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 330/375 [00:42<00:04,  9.99it/s]                                                                                                                                                                                                                {'loss': 0.908, 'grad_norm': 7.500838279724121, 'learning_rate': 7.778048713818975e-07, 'memory/max_active (GiB)': 10.58, 'memory/max_allocated (GiB)': 10.58, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9392.7, 'epoch': 2.64}
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 330/375 [00:42<00:04,  9.99it/s]                                                                                                                                                                                                                {'loss': 0.7266, 'grad_norm': 6.119864463806152, 'learning_rate': 7.447765271966656e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9262.05, 'epoch': 2.65}
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 331/375 [00:42<00:04,  9.99it/s] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 332/375 [00:42<00:04, 10.02it/s]                                                                                                                                                                                                                {'loss': 0.6614, 'grad_norm': 6.242328643798828, 'learning_rate': 7.124375987469767e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8620.83, 'epoch': 2.66}
 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 332/375 [00:42<00:04, 10.02it/s]                                                                                                                                                                                                                {'loss': 0.6925, 'grad_norm': 6.0528645515441895, 'learning_rate': 6.807904949391319e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8356.76, 'epoch': 2.66}
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 333/375 [00:42<00:04, 10.02it/s] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 334/375 [00:42<00:04, 10.08it/s]                                                                                                                                                                                                                {'loss': 0.6727, 'grad_norm': 6.705522537231445, 'learning_rate': 6.498375731458529e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8352.64, 'epoch': 2.67}
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 334/375 [00:42<00:04, 10.08it/s]                                                                                                                                                                                                                {'loss': 0.8691, 'grad_norm': 6.783859729766846, 'learning_rate': 6.195811390306816e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8108.18, 'epoch': 2.68}
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 335/375 [00:42<00:03, 10.08it/s] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 336/375 [00:42<00:03, 10.08it/s]                                                                                                                                                                                                                {'loss': 0.9124, 'grad_norm': 7.356062889099121, 'learning_rate': 5.900234463762367e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9435.43, 'epoch': 2.69}
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 336/375 [00:42<00:03, 10.08it/s]                                                                                                                                                                                                                {'loss': 0.7006, 'grad_norm': 5.7081522941589355, 'learning_rate': 5.611666969163243e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9001.9, 'epoch': 2.7}
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 337/375 [00:42<00:03, 10.08it/s] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 338/375 [00:42<00:03, 10.08it/s]                                                                                                                                                                                                                {'loss': 0.8581, 'grad_norm': 6.924987316131592, 'learning_rate': 5.330130401719413e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8604.32, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 338/375 [00:42<00:03, 10.08it/s]                                                                                                                                                                                                                {'loss': 0.7568, 'grad_norm': 7.888848304748535, 'learning_rate': 5.055645732911463e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9025.98, 'epoch': 2.71}
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 339/375 [00:42<00:03, 10.08it/s] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 340/375 [00:43<00:03, 10.06it/s]                                                                                                                                                                                                                {'loss': 0.907, 'grad_norm': 6.945682525634766, 'learning_rate': 4.788233408928588e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8873.04, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 340/375 [00:43<00:03, 10.06it/s]                                                                                                                                                                                                                {'loss': 0.7734, 'grad_norm': 5.728672027587891, 'learning_rate': 4.5279133491454406e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9369.95, 'epoch': 2.73}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 341/375 [00:43<00:03, 10.06it/s] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 342/375 [00:43<00:03, 10.12it/s]                                                                                                                                                                                                                {'loss': 0.8395, 'grad_norm': 7.5049333572387695, 'learning_rate': 4.27470494463843e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8389.22, 'epoch': 2.74}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 342/375 [00:43<00:03, 10.12it/s]                                                                                                                                                                                                                {'loss': 0.7833, 'grad_norm': 7.400700569152832, 'learning_rate': 4.028627056741252e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8393.41, 'epoch': 2.74}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 343/375 [00:43<00:03, 10.12it/s] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 344/375 [00:43<00:03, 10.12it/s]                                                                                                                                                                                                                {'loss': 0.8039, 'grad_norm': 7.296357154846191, 'learning_rate': 3.7896980156399533e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7888.66, 'epoch': 2.75}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 344/375 [00:43<00:03, 10.12it/s]                                                                                                                                                                                                                {'loss': 0.8932, 'grad_norm': 7.824235916137695, 'learning_rate': 3.557935619007491e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9401.72, 'epoch': 2.76}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 345/375 [00:43<00:02, 10.12it/s] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 346/375 [00:43<00:02, 10.11it/s]                                                                                                                                                                                                                {'loss': 0.7307, 'grad_norm': 6.053427219390869, 'learning_rate': 3.33335713067805e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7944.91, 'epoch': 2.77}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 346/375 [00:43<00:02, 10.11it/s]                                                                                                                                                                                                                {'loss': 0.8061, 'grad_norm': 6.699748516082764, 'learning_rate': 3.115979279360992e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8984.73, 'epoch': 2.78}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 347/375 [00:43<00:02, 10.11it/s] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 348/375 [00:43<00:02, 10.13it/s]                                                                                                                                                                                                                {'loss': 0.6808, 'grad_norm': 6.621187686920166, 'learning_rate': 2.905818257394799e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8930.9, 'epoch': 2.78}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 348/375 [00:43<00:02, 10.13it/s]                                                                                                                                                                                                                {'loss': 0.6758, 'grad_norm': 6.201868057250977, 'learning_rate': 2.7028897195409245e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8645.05, 'epoch': 2.79}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 349/375 [00:43<00:02, 10.13it/s] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 350/375 [00:44<00:02, 10.10it/s]                                                                                                                                                                                                                {'loss': 0.6233, 'grad_norm': 6.091191291809082, 'learning_rate': 2.507208781817638e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9272.23, 'epoch': 2.8}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 350/375 [00:44<00:02, 10.10it/s]                                                                                                                                                                                                                {'loss': 0.9783, 'grad_norm': 7.783008098602295, 'learning_rate': 2.3187900203740843e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8366.17, 'epoch': 2.81}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 351/375 [00:44<00:02, 10.10it/s] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 352/375 [00:44<00:02, 10.02it/s]                                                                                                                                                                                                                {'loss': 0.7389, 'grad_norm': 6.877862453460693, 'learning_rate': 2.1376474704044693e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8110.73, 'epoch': 2.82}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 352/375 [00:44<00:02, 10.02it/s]                                                                                                                                                                                                                {'loss': 0.7954, 'grad_norm': 7.833415508270264, 'learning_rate': 1.963794625102655e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8147.02, 'epoch': 2.82}
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 353/375 [00:44<00:02, 10.02it/s] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 354/375 [00:44<00:02, 10.00it/s]                                                                                                                                                                                                                {'loss': 0.8008, 'grad_norm': 6.408032417297363, 'learning_rate': 1.7972444346569752e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8038.53, 'epoch': 2.83}
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 354/375 [00:44<00:02, 10.00it/s]                                                                                                                                                                                                                {'loss': 0.7254, 'grad_norm': 6.121627330780029, 'learning_rate': 1.6380093052856482e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8714.65, 'epoch': 2.84}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 355/375 [00:44<00:01, 10.00it/s] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 356/375 [00:44<00:01, 10.05it/s]                                                                                                                                                                                                                {'loss': 0.6927, 'grad_norm': 5.776634693145752, 'learning_rate': 1.4861010983126202e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8395.09, 'epoch': 2.85}
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 356/375 [00:44<00:01, 10.05it/s]                                                                                                                                                                                                                {'loss': 0.7785, 'grad_norm': 8.228865623474121, 'learning_rate': 1.341531129284046e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7861.03, 'epoch': 2.86}
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 357/375 [00:44<00:01, 10.05it/s] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 358/375 [00:44<00:01, 10.06it/s]                                                                                                                                                                                                                {'loss': 0.7659, 'grad_norm': 6.71605920791626, 'learning_rate': 1.2043101671253553e-07, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8805.23, 'epoch': 2.86}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 358/375 [00:44<00:01, 10.06it/s]                                                                                                                                                                                                                {'loss': 1.088, 'grad_norm': 7.4194560050964355, 'learning_rate': 1.074448433339137e-07, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8883.17, 'epoch': 2.87}
 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 359/375 [00:44<00:01, 10.06it/s] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 360/375 [00:45<00:01, 10.05it/s]                                                                                                                                                                                                                {'loss': 0.7325, 'grad_norm': 5.780172824859619, 'learning_rate': 9.519556012436815e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9143.11, 'epoch': 2.88}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 360/375 [00:45<00:01, 10.05it/s]                                                                                                                                                                                                                {'loss': 0.836, 'grad_norm': 6.741396427154541, 'learning_rate': 8.368407952525026e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8701.56, 'epoch': 2.89}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 361/375 [00:45<00:01, 10.05it/s] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 362/375 [00:45<00:01,  9.90it/s]                                                                                                                                                                                                                {'loss': 0.9507, 'grad_norm': 7.121876239776611, 'learning_rate': 7.291125901946027e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8152.54, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 362/375 [00:45<00:01,  9.90it/s]                                                                                                                                                                                                                {'loss': 0.8461, 'grad_norm': 6.786175727844238, 'learning_rate': 6.287790106757396e-08, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8104.97, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 363/375 [00:45<00:01,  9.90it/s] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 364/375 [00:45<00:01,  9.76it/s]                                                                                                                                                                                                                {'loss': 0.8046, 'grad_norm': 6.794399738311768, 'learning_rate': 5.3584753048073756e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7451.11, 'epoch': 2.91}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 364/375 [00:45<00:01,  9.76it/s] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 365/375 [00:45<00:01,  9.66it/s]                                                                                                                                                                                                                {'loss': 0.8283, 'grad_norm': 6.313773155212402, 'learning_rate': 4.503250720166774e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7794.64, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 365/375 [00:45<00:01,  9.66it/s] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 366/375 [00:45<00:00,  9.47it/s]                                                                                                                                                                                                                {'loss': 1.1503, 'grad_norm': 8.405458450317383, 'learning_rate': 3.7221800579735346e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7526.77, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 366/375 [00:45<00:00,  9.47it/s] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 367/375 [00:45<00:00,  9.48it/s]                                                                                                                                                                                                                {'loss': 0.8001, 'grad_norm': 6.431035995483398, 'learning_rate': 3.0153214996866406e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8638.01, 'epoch': 2.94}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 367/375 [00:45<00:00,  9.48it/s] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 368/375 [00:45<00:00,  9.35it/s]                                                                                                                                                                                                                {'loss': 0.7274, 'grad_norm': 6.957052707672119, 'learning_rate': 2.3827276987524738e-08, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7157.92, 'epoch': 2.94}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 368/375 [00:45<00:00,  9.35it/s] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 369/375 [00:46<00:00,  9.25it/s]                                                                                                                                                                                                                {'loss': 1.2684, 'grad_norm': 7.367922782897949, 'learning_rate': 1.824445776682504e-08, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 8596.77, 'epoch': 2.95}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 369/375 [00:46<00:00,  9.25it/s] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 370/375 [00:46<00:00,  9.39it/s]                                                                                                                                                                                                                {'loss': 0.7817, 'grad_norm': 6.984046936035156, 'learning_rate': 1.340517319543877e-08, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7902.01, 'epoch': 2.96}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 370/375 [00:46<00:00,  9.39it/s]                                                                                                                                                                                                                {'loss': 0.58, 'grad_norm': 5.637470722198486, 'learning_rate': 9.309783748606694e-09, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9093.34, 'epoch': 2.97}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 371/375 [00:46<00:00,  9.39it/s] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 372/375 [00:46<00:00,  9.69it/s]                                                                                                                                                                                                                {'loss': 0.7629, 'grad_norm': 6.43290901184082, 'learning_rate': 5.958594489295921e-09, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7485.64, 'epoch': 2.98}
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 372/375 [00:46<00:00,  9.69it/s] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 373/375 [00:46<00:00,  9.71it/s]                                                                                                                                                                                                                {'loss': 0.7959, 'grad_norm': 6.283390522003174, 'learning_rate': 3.3518550454714195e-09, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9876.96, 'epoch': 2.98}
 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 373/375 [00:46<00:00,  9.71it/s]                                                                                                                                                                                                                {'loss': 1.1028, 'grad_norm': 8.401345252990723, 'learning_rate': 1.4897595915053242e-09, 'memory/max_active (GiB)': 9.21, 'memory/max_allocated (GiB)': 9.21, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 9275.57, 'epoch': 2.99}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 374/375 [00:46<00:00,  9.71it/s]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 375/375 [00:46<00:00,  8.54it/s]                                                                                                                                                                                                                {'loss': 0.7118, 'grad_norm': 6.2017951011657715, 'learning_rate': 3.7244683370851744e-10, 'memory/max_active (GiB)': 7.76, 'memory/max_allocated (GiB)': 7.76, 'memory/device_reserved (GiB)': 10.86, 'tokens_per_second_per_gpu': 7761.05, 'epoch': 3.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 375/375 [00:46<00:00,  8.54it/s][2025-11-05 14:42:16,727] [INFO] [axolotl.core.trainers.base._save:671] [PID:989] Saving model checkpoint to ./outputs/atlas-fast-1.1b-v2/checkpoint-375
                                                                                                                                                                                                                {'train_runtime': 51.4822, 'train_samples_per_second': 58.273, 'train_steps_per_second': 7.284, 'train_loss': 1.0696384216944377, 'memory/max_active (GiB)': 4.83, 'memory/max_allocated (GiB)': 4.83, 'memory/device_reserved (GiB)': 10.86, 'epoch': 3.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 375/375 [00:51<00:00,  8.54it/s]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 375/375 [00:51<00:00,  7.28it/s]
[2025-11-05 14:42:21,548] [INFO] [axolotl.train.save_trained_model:218] [PID:989] Training completed! Saving trained model to ./outputs/atlas-fast-1.1b-v2.
[2025-11-05 14:42:24,072] [INFO] [axolotl.train.save_trained_model:336] [PID:989] Model successfully saved to ./outputs/atlas-fast-1.1b-v2