Gege24 commited on
Commit
66e0e84
·
verified ·
1 Parent(s): 1840a84

Training in progress, step 900, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8b7ede3a92a6bd74b2e0951f46969c4075e9bf5261cc8f8e1c5be11a64155e19
3
  size 72396376
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d2e77beca278bbed323654e4748505a06737dd198d15b01bf8ffe802826ecb88
3
  size 72396376
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:70df8f23df734b9bfc9e1488d2fa23b9f8deabbec7554aab17147f1d2782d5ee
3
  size 144903627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2afa46872c49537f9910ac9b4c25cee71441514db37d8a18567d2067699cb072
3
  size 144903627
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a8c2acae7a18644ede7ff2d8844e81e9625046846b16d24805c0be34d71e8d85
3
- size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e39111815cccf95fa47da6bf39c2ea3d1d65fbed26ef6c0116b3e3704b3c778f
3
+ size 14581
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a4c8c8a453babd6b4999a30a11a162bca743b33b7dc92beac9c832915cbe5f44
3
  size 1337
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4aea7e1e23a759eea4f6e68fc962f7860f8560d63692b96bf20701ff4436e21f
3
  size 1337
last-checkpoint/trainer_state.json CHANGED
@@ -1,10 +1,10 @@
1
  {
2
- "best_global_step": 450,
3
- "best_metric": 1.5010837316513062,
4
- "best_model_checkpoint": null,
5
- "epoch": 0.009583868432654156,
6
  "eval_steps": 75,
7
- "global_step": 500,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -3588,6 +3588,2902 @@
3588
  "learning_rate": 0.0,
3589
  "loss": 1.5317,
3590
  "step": 500
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3591
  }
3592
  ],
3593
  "logging_steps": 1,
@@ -3602,12 +6498,12 @@
3602
  "should_evaluate": false,
3603
  "should_log": false,
3604
  "should_save": true,
3605
- "should_training_stop": false
3606
  },
3607
  "attributes": {}
3608
  }
3609
  },
3610
- "total_flos": 6.545192277413069e+16,
3611
  "train_batch_size": 4,
3612
  "trial_name": null,
3613
  "trial_params": null
 
1
  {
2
+ "best_global_step": 900,
3
+ "best_metric": 1.46342933177948,
4
+ "best_model_checkpoint": "core/outputs/663d8eb4-5a22-49f9-99b2-65b09be5f21c/checkpoint-900",
5
+ "epoch": 0.01725096317877748,
6
  "eval_steps": 75,
7
+ "global_step": 900,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
3588
  "learning_rate": 0.0,
3589
  "loss": 1.5317,
3590
  "step": 500
3591
+ },
3592
+ {
3593
+ "epoch": 0.009603036169519465,
3594
+ "grad_norm": 0.09532026946544647,
3595
+ "learning_rate": 1.6336019480728855e-06,
3596
+ "loss": 1.5502,
3597
+ "step": 501
3598
+ },
3599
+ {
3600
+ "epoch": 0.009622203906384774,
3601
+ "grad_norm": 0.10625909268856049,
3602
+ "learning_rate": 3.267203896145771e-06,
3603
+ "loss": 1.5264,
3604
+ "step": 502
3605
+ },
3606
+ {
3607
+ "epoch": 0.009641371643250081,
3608
+ "grad_norm": 0.1184196025133133,
3609
+ "learning_rate": 4.900805844218657e-06,
3610
+ "loss": 1.5642,
3611
+ "step": 503
3612
+ },
3613
+ {
3614
+ "epoch": 0.00966053938011539,
3615
+ "grad_norm": 0.08634921908378601,
3616
+ "learning_rate": 6.534407792291542e-06,
3617
+ "loss": 1.1418,
3618
+ "step": 504
3619
+ },
3620
+ {
3621
+ "epoch": 0.009679707116980699,
3622
+ "grad_norm": 0.08168788999319077,
3623
+ "learning_rate": 8.168009740364426e-06,
3624
+ "loss": 1.3338,
3625
+ "step": 505
3626
+ },
3627
+ {
3628
+ "epoch": 0.009698874853846006,
3629
+ "grad_norm": 0.1057819277048111,
3630
+ "learning_rate": 9.801611688437313e-06,
3631
+ "loss": 1.2433,
3632
+ "step": 506
3633
+ },
3634
+ {
3635
+ "epoch": 0.009718042590711315,
3636
+ "grad_norm": 0.09045206010341644,
3637
+ "learning_rate": 1.1435213636510199e-05,
3638
+ "loss": 1.815,
3639
+ "step": 507
3640
+ },
3641
+ {
3642
+ "epoch": 0.009737210327576623,
3643
+ "grad_norm": 0.08739877492189407,
3644
+ "learning_rate": 1.3068815584583084e-05,
3645
+ "loss": 1.3414,
3646
+ "step": 508
3647
+ },
3648
+ {
3649
+ "epoch": 0.00975637806444193,
3650
+ "grad_norm": 0.11166685819625854,
3651
+ "learning_rate": 1.4702417532655969e-05,
3652
+ "loss": 1.6414,
3653
+ "step": 509
3654
+ },
3655
+ {
3656
+ "epoch": 0.00977554580130724,
3657
+ "grad_norm": 0.10074058920145035,
3658
+ "learning_rate": 1.6336019480728853e-05,
3659
+ "loss": 1.6147,
3660
+ "step": 510
3661
+ },
3662
+ {
3663
+ "epoch": 0.009794713538172548,
3664
+ "grad_norm": 0.14303070306777954,
3665
+ "learning_rate": 1.7969621428801738e-05,
3666
+ "loss": 1.4928,
3667
+ "step": 511
3668
+ },
3669
+ {
3670
+ "epoch": 0.009813881275037857,
3671
+ "grad_norm": 0.10371147096157074,
3672
+ "learning_rate": 1.9603223376874627e-05,
3673
+ "loss": 1.3396,
3674
+ "step": 512
3675
+ },
3676
+ {
3677
+ "epoch": 0.009833049011903164,
3678
+ "grad_norm": 0.11297748982906342,
3679
+ "learning_rate": 2.1236825324947512e-05,
3680
+ "loss": 1.3404,
3681
+ "step": 513
3682
+ },
3683
+ {
3684
+ "epoch": 0.009852216748768473,
3685
+ "grad_norm": 0.10189443081617355,
3686
+ "learning_rate": 2.2870427273020397e-05,
3687
+ "loss": 1.6061,
3688
+ "step": 514
3689
+ },
3690
+ {
3691
+ "epoch": 0.009871384485633782,
3692
+ "grad_norm": 0.1111370325088501,
3693
+ "learning_rate": 2.4504029221093282e-05,
3694
+ "loss": 1.1975,
3695
+ "step": 515
3696
+ },
3697
+ {
3698
+ "epoch": 0.009890552222499089,
3699
+ "grad_norm": 0.12068242579698563,
3700
+ "learning_rate": 2.6137631169166168e-05,
3701
+ "loss": 1.723,
3702
+ "step": 516
3703
+ },
3704
+ {
3705
+ "epoch": 0.009909719959364398,
3706
+ "grad_norm": 0.11446703225374222,
3707
+ "learning_rate": 2.7771233117239053e-05,
3708
+ "loss": 1.8779,
3709
+ "step": 517
3710
+ },
3711
+ {
3712
+ "epoch": 0.009928887696229707,
3713
+ "grad_norm": 0.09416982531547546,
3714
+ "learning_rate": 2.9404835065311938e-05,
3715
+ "loss": 1.7864,
3716
+ "step": 518
3717
+ },
3718
+ {
3719
+ "epoch": 0.009948055433095014,
3720
+ "grad_norm": 0.11554675549268723,
3721
+ "learning_rate": 3.103843701338482e-05,
3722
+ "loss": 1.7024,
3723
+ "step": 519
3724
+ },
3725
+ {
3726
+ "epoch": 0.009967223169960323,
3727
+ "grad_norm": 0.10419266670942307,
3728
+ "learning_rate": 3.2672038961457705e-05,
3729
+ "loss": 1.5895,
3730
+ "step": 520
3731
+ },
3732
+ {
3733
+ "epoch": 0.009986390906825631,
3734
+ "grad_norm": 0.10057644546031952,
3735
+ "learning_rate": 3.430564090953059e-05,
3736
+ "loss": 1.5948,
3737
+ "step": 521
3738
+ },
3739
+ {
3740
+ "epoch": 0.010005558643690939,
3741
+ "grad_norm": 0.10852479189634323,
3742
+ "learning_rate": 3.5939242857603476e-05,
3743
+ "loss": 1.617,
3744
+ "step": 522
3745
+ },
3746
+ {
3747
+ "epoch": 0.010024726380556247,
3748
+ "grad_norm": 0.18556846678256989,
3749
+ "learning_rate": 3.757284480567637e-05,
3750
+ "loss": 1.4999,
3751
+ "step": 523
3752
+ },
3753
+ {
3754
+ "epoch": 0.010043894117421556,
3755
+ "grad_norm": 0.08714650571346283,
3756
+ "learning_rate": 3.920644675374925e-05,
3757
+ "loss": 1.4746,
3758
+ "step": 524
3759
+ },
3760
+ {
3761
+ "epoch": 0.010063061854286865,
3762
+ "grad_norm": 0.15116101503372192,
3763
+ "learning_rate": 4.084004870182214e-05,
3764
+ "loss": 1.5842,
3765
+ "step": 525
3766
+ },
3767
+ {
3768
+ "epoch": 0.010063061854286865,
3769
+ "eval_loss": 1.499491572380066,
3770
+ "eval_runtime": 2505.8714,
3771
+ "eval_samples_per_second": 37.012,
3772
+ "eval_steps_per_second": 18.506,
3773
+ "step": 525
3774
+ },
3775
+ {
3776
+ "epoch": 0.010063061854286865,
3777
+ "eval_loss": 1.5245558023452759,
3778
+ "eval_runtime": 2507.2653,
3779
+ "eval_samples_per_second": 36.992,
3780
+ "eval_steps_per_second": 18.496,
3781
+ "step": 525
3782
+ },
3783
+ {
3784
+ "epoch": 0.010082229591152172,
3785
+ "grad_norm": 0.09549321979284286,
3786
+ "learning_rate": 4.2473650649895024e-05,
3787
+ "loss": 2.0039,
3788
+ "step": 526
3789
+ },
3790
+ {
3791
+ "epoch": 0.010101397328017481,
3792
+ "grad_norm": 0.10219141095876694,
3793
+ "learning_rate": 4.410725259796791e-05,
3794
+ "loss": 1.3952,
3795
+ "step": 527
3796
+ },
3797
+ {
3798
+ "epoch": 0.01012056506488279,
3799
+ "grad_norm": 0.08407086879014969,
3800
+ "learning_rate": 4.5740854546040794e-05,
3801
+ "loss": 1.022,
3802
+ "step": 528
3803
+ },
3804
+ {
3805
+ "epoch": 0.010139732801748097,
3806
+ "grad_norm": 0.08318034559488297,
3807
+ "learning_rate": 4.737445649411368e-05,
3808
+ "loss": 1.1778,
3809
+ "step": 529
3810
+ },
3811
+ {
3812
+ "epoch": 0.010158900538613406,
3813
+ "grad_norm": 0.08296982944011688,
3814
+ "learning_rate": 4.9008058442186565e-05,
3815
+ "loss": 1.3715,
3816
+ "step": 530
3817
+ },
3818
+ {
3819
+ "epoch": 0.010178068275478715,
3820
+ "grad_norm": 0.09953635931015015,
3821
+ "learning_rate": 5.064166039025946e-05,
3822
+ "loss": 1.5036,
3823
+ "step": 531
3824
+ },
3825
+ {
3826
+ "epoch": 0.010197236012344022,
3827
+ "grad_norm": 0.0981762632727623,
3828
+ "learning_rate": 5.2275262338332335e-05,
3829
+ "loss": 1.5204,
3830
+ "step": 532
3831
+ },
3832
+ {
3833
+ "epoch": 0.01021640374920933,
3834
+ "grad_norm": 0.14627604186534882,
3835
+ "learning_rate": 5.390886428640523e-05,
3836
+ "loss": 1.5033,
3837
+ "step": 533
3838
+ },
3839
+ {
3840
+ "epoch": 0.01023557148607464,
3841
+ "grad_norm": 0.10711963474750519,
3842
+ "learning_rate": 5.5542466234478106e-05,
3843
+ "loss": 1.7255,
3844
+ "step": 534
3845
+ },
3846
+ {
3847
+ "epoch": 0.010254739222939948,
3848
+ "grad_norm": 0.0885913074016571,
3849
+ "learning_rate": 5.7176068182551e-05,
3850
+ "loss": 1.2385,
3851
+ "step": 535
3852
+ },
3853
+ {
3854
+ "epoch": 0.010273906959805255,
3855
+ "grad_norm": 0.08486426621675491,
3856
+ "learning_rate": 5.8809670130623876e-05,
3857
+ "loss": 1.5619,
3858
+ "step": 536
3859
+ },
3860
+ {
3861
+ "epoch": 0.010293074696670564,
3862
+ "grad_norm": 0.0885050967335701,
3863
+ "learning_rate": 6.044327207869677e-05,
3864
+ "loss": 1.1614,
3865
+ "step": 537
3866
+ },
3867
+ {
3868
+ "epoch": 0.010312242433535873,
3869
+ "grad_norm": 0.12057748436927795,
3870
+ "learning_rate": 6.207687402676964e-05,
3871
+ "loss": 1.5633,
3872
+ "step": 538
3873
+ },
3874
+ {
3875
+ "epoch": 0.01033141017040118,
3876
+ "grad_norm": 0.09845733642578125,
3877
+ "learning_rate": 6.371047597484253e-05,
3878
+ "loss": 1.7861,
3879
+ "step": 539
3880
+ },
3881
+ {
3882
+ "epoch": 0.010350577907266489,
3883
+ "grad_norm": 0.10790391266345978,
3884
+ "learning_rate": 6.534407792291541e-05,
3885
+ "loss": 1.3479,
3886
+ "step": 540
3887
+ },
3888
+ {
3889
+ "epoch": 0.010369745644131798,
3890
+ "grad_norm": 0.11300645023584366,
3891
+ "learning_rate": 6.69776798709883e-05,
3892
+ "loss": 1.7842,
3893
+ "step": 541
3894
+ },
3895
+ {
3896
+ "epoch": 0.010388913380997105,
3897
+ "grad_norm": 0.10352309048175812,
3898
+ "learning_rate": 6.861128181906118e-05,
3899
+ "loss": 1.4253,
3900
+ "step": 542
3901
+ },
3902
+ {
3903
+ "epoch": 0.010408081117862414,
3904
+ "grad_norm": 0.11383506655693054,
3905
+ "learning_rate": 7.024488376713407e-05,
3906
+ "loss": 1.1164,
3907
+ "step": 543
3908
+ },
3909
+ {
3910
+ "epoch": 0.010427248854727723,
3911
+ "grad_norm": 0.14779718220233917,
3912
+ "learning_rate": 7.187848571520695e-05,
3913
+ "loss": 1.4464,
3914
+ "step": 544
3915
+ },
3916
+ {
3917
+ "epoch": 0.01044641659159303,
3918
+ "grad_norm": 0.09846003353595734,
3919
+ "learning_rate": 7.351208766327984e-05,
3920
+ "loss": 1.1064,
3921
+ "step": 545
3922
+ },
3923
+ {
3924
+ "epoch": 0.010465584328458339,
3925
+ "grad_norm": 0.10775422304868698,
3926
+ "learning_rate": 7.514568961135274e-05,
3927
+ "loss": 1.2104,
3928
+ "step": 546
3929
+ },
3930
+ {
3931
+ "epoch": 0.010484752065323647,
3932
+ "grad_norm": 0.10013894736766815,
3933
+ "learning_rate": 7.677929155942561e-05,
3934
+ "loss": 1.4019,
3935
+ "step": 547
3936
+ },
3937
+ {
3938
+ "epoch": 0.010503919802188956,
3939
+ "grad_norm": 0.10368606448173523,
3940
+ "learning_rate": 7.84128935074985e-05,
3941
+ "loss": 1.2399,
3942
+ "step": 548
3943
+ },
3944
+ {
3945
+ "epoch": 0.010523087539054263,
3946
+ "grad_norm": 0.0994802713394165,
3947
+ "learning_rate": 8.004649545557138e-05,
3948
+ "loss": 1.43,
3949
+ "step": 549
3950
+ },
3951
+ {
3952
+ "epoch": 0.010542255275919572,
3953
+ "grad_norm": 0.10836998373270035,
3954
+ "learning_rate": 8.168009740364428e-05,
3955
+ "loss": 1.0461,
3956
+ "step": 550
3957
+ },
3958
+ {
3959
+ "epoch": 0.010561423012784881,
3960
+ "grad_norm": 0.12247351557016373,
3961
+ "learning_rate": 8.331369935171716e-05,
3962
+ "loss": 1.3185,
3963
+ "step": 551
3964
+ },
3965
+ {
3966
+ "epoch": 0.010580590749650188,
3967
+ "grad_norm": 0.12315574288368225,
3968
+ "learning_rate": 8.494730129979005e-05,
3969
+ "loss": 1.5978,
3970
+ "step": 552
3971
+ },
3972
+ {
3973
+ "epoch": 0.010599758486515497,
3974
+ "grad_norm": 0.09850146621465683,
3975
+ "learning_rate": 8.658090324786293e-05,
3976
+ "loss": 1.613,
3977
+ "step": 553
3978
+ },
3979
+ {
3980
+ "epoch": 0.010618926223380806,
3981
+ "grad_norm": 0.08749821037054062,
3982
+ "learning_rate": 8.821450519593582e-05,
3983
+ "loss": 1.4552,
3984
+ "step": 554
3985
+ },
3986
+ {
3987
+ "epoch": 0.010638093960246113,
3988
+ "grad_norm": 0.09449183195829391,
3989
+ "learning_rate": 8.98481071440087e-05,
3990
+ "loss": 1.231,
3991
+ "step": 555
3992
+ },
3993
+ {
3994
+ "epoch": 0.010657261697111422,
3995
+ "grad_norm": 0.09725350141525269,
3996
+ "learning_rate": 9.148170909208159e-05,
3997
+ "loss": 1.6669,
3998
+ "step": 556
3999
+ },
4000
+ {
4001
+ "epoch": 0.01067642943397673,
4002
+ "grad_norm": 0.09609991312026978,
4003
+ "learning_rate": 9.311531104015447e-05,
4004
+ "loss": 1.1775,
4005
+ "step": 557
4006
+ },
4007
+ {
4008
+ "epoch": 0.010695597170842038,
4009
+ "grad_norm": 0.13277539610862732,
4010
+ "learning_rate": 9.474891298822736e-05,
4011
+ "loss": 1.2718,
4012
+ "step": 558
4013
+ },
4014
+ {
4015
+ "epoch": 0.010714764907707347,
4016
+ "grad_norm": 0.09620299935340881,
4017
+ "learning_rate": 9.638251493630024e-05,
4018
+ "loss": 1.4025,
4019
+ "step": 559
4020
+ },
4021
+ {
4022
+ "epoch": 0.010733932644572656,
4023
+ "grad_norm": 0.10179946571588516,
4024
+ "learning_rate": 9.801611688437313e-05,
4025
+ "loss": 1.1225,
4026
+ "step": 560
4027
+ },
4028
+ {
4029
+ "epoch": 0.010753100381437964,
4030
+ "grad_norm": 0.12255925685167313,
4031
+ "learning_rate": 9.801529597559957e-05,
4032
+ "loss": 1.2726,
4033
+ "step": 561
4034
+ },
4035
+ {
4036
+ "epoch": 0.010772268118303271,
4037
+ "grad_norm": 0.12259944528341293,
4038
+ "learning_rate": 9.801283327706357e-05,
4039
+ "loss": 1.372,
4040
+ "step": 562
4041
+ },
4042
+ {
4043
+ "epoch": 0.01079143585516858,
4044
+ "grad_norm": 0.10003650188446045,
4045
+ "learning_rate": 9.800872887211833e-05,
4046
+ "loss": 1.6154,
4047
+ "step": 563
4048
+ },
4049
+ {
4050
+ "epoch": 0.01081060359203389,
4051
+ "grad_norm": 0.11308196187019348,
4052
+ "learning_rate": 9.800298289968272e-05,
4053
+ "loss": 1.49,
4054
+ "step": 564
4055
+ },
4056
+ {
4057
+ "epoch": 0.010829771328899196,
4058
+ "grad_norm": 0.11465234309434891,
4059
+ "learning_rate": 9.799559555423655e-05,
4060
+ "loss": 1.076,
4061
+ "step": 565
4062
+ },
4063
+ {
4064
+ "epoch": 0.010848939065764505,
4065
+ "grad_norm": 0.10720562189817429,
4066
+ "learning_rate": 9.798656708581404e-05,
4067
+ "loss": 1.5567,
4068
+ "step": 566
4069
+ },
4070
+ {
4071
+ "epoch": 0.010868106802629814,
4072
+ "grad_norm": 0.14240263402462006,
4073
+ "learning_rate": 9.797589779999525e-05,
4074
+ "loss": 1.2253,
4075
+ "step": 567
4076
+ },
4077
+ {
4078
+ "epoch": 0.010887274539495121,
4079
+ "grad_norm": 0.11476835608482361,
4080
+ "learning_rate": 9.79635880578959e-05,
4081
+ "loss": 1.6748,
4082
+ "step": 568
4083
+ },
4084
+ {
4085
+ "epoch": 0.01090644227636043,
4086
+ "grad_norm": 0.09139933437108994,
4087
+ "learning_rate": 9.7949638276155e-05,
4088
+ "loss": 1.8657,
4089
+ "step": 569
4090
+ },
4091
+ {
4092
+ "epoch": 0.010925610013225739,
4093
+ "grad_norm": 0.16544809937477112,
4094
+ "learning_rate": 9.793404892692088e-05,
4095
+ "loss": 1.7588,
4096
+ "step": 570
4097
+ },
4098
+ {
4099
+ "epoch": 0.010944777750091048,
4100
+ "grad_norm": 0.12964791059494019,
4101
+ "learning_rate": 9.791682053783504e-05,
4102
+ "loss": 1.7762,
4103
+ "step": 571
4104
+ },
4105
+ {
4106
+ "epoch": 0.010963945486956355,
4107
+ "grad_norm": 0.09350966662168503,
4108
+ "learning_rate": 9.789795369201445e-05,
4109
+ "loss": 1.3184,
4110
+ "step": 572
4111
+ },
4112
+ {
4113
+ "epoch": 0.010983113223821664,
4114
+ "grad_norm": 0.12951631844043732,
4115
+ "learning_rate": 9.787744902803176e-05,
4116
+ "loss": 1.0515,
4117
+ "step": 573
4118
+ },
4119
+ {
4120
+ "epoch": 0.011002280960686972,
4121
+ "grad_norm": 0.16301530599594116,
4122
+ "learning_rate": 9.785530723989363e-05,
4123
+ "loss": 1.5014,
4124
+ "step": 574
4125
+ },
4126
+ {
4127
+ "epoch": 0.01102144869755228,
4128
+ "grad_norm": 0.12670457363128662,
4129
+ "learning_rate": 9.783152907701736e-05,
4130
+ "loss": 1.717,
4131
+ "step": 575
4132
+ },
4133
+ {
4134
+ "epoch": 0.011040616434417588,
4135
+ "grad_norm": 0.0955829843878746,
4136
+ "learning_rate": 9.780611534420538e-05,
4137
+ "loss": 1.8241,
4138
+ "step": 576
4139
+ },
4140
+ {
4141
+ "epoch": 0.011059784171282897,
4142
+ "grad_norm": 0.09355156123638153,
4143
+ "learning_rate": 9.777906690161814e-05,
4144
+ "loss": 1.4054,
4145
+ "step": 577
4146
+ },
4147
+ {
4148
+ "epoch": 0.011078951908148204,
4149
+ "grad_norm": 0.11253128945827484,
4150
+ "learning_rate": 9.775038466474491e-05,
4151
+ "loss": 1.8637,
4152
+ "step": 578
4153
+ },
4154
+ {
4155
+ "epoch": 0.011098119645013513,
4156
+ "grad_norm": 0.09193957597017288,
4157
+ "learning_rate": 9.772006960437286e-05,
4158
+ "loss": 1.5736,
4159
+ "step": 579
4160
+ },
4161
+ {
4162
+ "epoch": 0.011117287381878822,
4163
+ "grad_norm": 0.13004140555858612,
4164
+ "learning_rate": 9.768812274655415e-05,
4165
+ "loss": 1.5249,
4166
+ "step": 580
4167
+ },
4168
+ {
4169
+ "epoch": 0.011136455118744129,
4170
+ "grad_norm": 0.1326868236064911,
4171
+ "learning_rate": 9.765454517257119e-05,
4172
+ "loss": 1.4847,
4173
+ "step": 581
4174
+ },
4175
+ {
4176
+ "epoch": 0.011155622855609438,
4177
+ "grad_norm": 0.13382641971111298,
4178
+ "learning_rate": 9.76193380189001e-05,
4179
+ "loss": 1.2997,
4180
+ "step": 582
4181
+ },
4182
+ {
4183
+ "epoch": 0.011174790592474747,
4184
+ "grad_norm": 0.0922945886850357,
4185
+ "learning_rate": 9.758250247717226e-05,
4186
+ "loss": 1.4587,
4187
+ "step": 583
4188
+ },
4189
+ {
4190
+ "epoch": 0.011193958329340056,
4191
+ "grad_norm": 0.11700108647346497,
4192
+ "learning_rate": 9.754403979413388e-05,
4193
+ "loss": 1.5027,
4194
+ "step": 584
4195
+ },
4196
+ {
4197
+ "epoch": 0.011213126066205363,
4198
+ "grad_norm": 0.10824666172266006,
4199
+ "learning_rate": 9.750395127160385e-05,
4200
+ "loss": 1.4262,
4201
+ "step": 585
4202
+ },
4203
+ {
4204
+ "epoch": 0.011232293803070672,
4205
+ "grad_norm": 0.11390513181686401,
4206
+ "learning_rate": 9.746223826642974e-05,
4207
+ "loss": 1.6256,
4208
+ "step": 586
4209
+ },
4210
+ {
4211
+ "epoch": 0.01125146153993598,
4212
+ "grad_norm": 0.15232987701892853,
4213
+ "learning_rate": 9.741890219044177e-05,
4214
+ "loss": 1.5036,
4215
+ "step": 587
4216
+ },
4217
+ {
4218
+ "epoch": 0.011270629276801288,
4219
+ "grad_norm": 0.11328087747097015,
4220
+ "learning_rate": 9.737394451040511e-05,
4221
+ "loss": 1.3001,
4222
+ "step": 588
4223
+ },
4224
+ {
4225
+ "epoch": 0.011289797013666596,
4226
+ "grad_norm": 0.10069140046834946,
4227
+ "learning_rate": 9.732736674797018e-05,
4228
+ "loss": 1.5349,
4229
+ "step": 589
4230
+ },
4231
+ {
4232
+ "epoch": 0.011308964750531905,
4233
+ "grad_norm": 0.08682256937026978,
4234
+ "learning_rate": 9.727917047962118e-05,
4235
+ "loss": 1.2649,
4236
+ "step": 590
4237
+ },
4238
+ {
4239
+ "epoch": 0.011328132487397212,
4240
+ "grad_norm": 0.10409464687108994,
4241
+ "learning_rate": 9.722935733662273e-05,
4242
+ "loss": 1.3541,
4243
+ "step": 591
4244
+ },
4245
+ {
4246
+ "epoch": 0.011347300224262521,
4247
+ "grad_norm": 0.10544151812791824,
4248
+ "learning_rate": 9.717792900496464e-05,
4249
+ "loss": 1.1391,
4250
+ "step": 592
4251
+ },
4252
+ {
4253
+ "epoch": 0.01136646796112783,
4254
+ "grad_norm": 0.12220872938632965,
4255
+ "learning_rate": 9.712488722530483e-05,
4256
+ "loss": 1.3058,
4257
+ "step": 593
4258
+ },
4259
+ {
4260
+ "epoch": 0.011385635697993137,
4261
+ "grad_norm": 0.12459158897399902,
4262
+ "learning_rate": 9.70702337929105e-05,
4263
+ "loss": 1.7773,
4264
+ "step": 594
4265
+ },
4266
+ {
4267
+ "epoch": 0.011404803434858446,
4268
+ "grad_norm": 0.1203218549489975,
4269
+ "learning_rate": 9.701397055759726e-05,
4270
+ "loss": 1.3244,
4271
+ "step": 595
4272
+ },
4273
+ {
4274
+ "epoch": 0.011423971171723755,
4275
+ "grad_norm": 0.08355801552534103,
4276
+ "learning_rate": 9.695609942366658e-05,
4277
+ "loss": 1.2935,
4278
+ "step": 596
4279
+ },
4280
+ {
4281
+ "epoch": 0.011443138908589064,
4282
+ "grad_norm": 0.11499644815921783,
4283
+ "learning_rate": 9.689662234984131e-05,
4284
+ "loss": 1.3095,
4285
+ "step": 597
4286
+ },
4287
+ {
4288
+ "epoch": 0.01146230664545437,
4289
+ "grad_norm": 0.09302666038274765,
4290
+ "learning_rate": 9.683554134919944e-05,
4291
+ "loss": 1.2796,
4292
+ "step": 598
4293
+ },
4294
+ {
4295
+ "epoch": 0.01148147438231968,
4296
+ "grad_norm": 0.11288128793239594,
4297
+ "learning_rate": 9.677285848910587e-05,
4298
+ "loss": 1.4899,
4299
+ "step": 599
4300
+ },
4301
+ {
4302
+ "epoch": 0.011500642119184988,
4303
+ "grad_norm": 0.10734209418296814,
4304
+ "learning_rate": 9.670857589114252e-05,
4305
+ "loss": 1.6273,
4306
+ "step": 600
4307
+ },
4308
+ {
4309
+ "epoch": 0.011500642119184988,
4310
+ "eval_loss": 1.491734266281128,
4311
+ "eval_runtime": 2535.026,
4312
+ "eval_samples_per_second": 36.587,
4313
+ "eval_steps_per_second": 18.293,
4314
+ "step": 600
4315
+ },
4316
+ {
4317
+ "epoch": 0.011500642119184988,
4318
+ "eval_loss": 1.5211025476455688,
4319
+ "eval_runtime": 2506.1864,
4320
+ "eval_samples_per_second": 37.008,
4321
+ "eval_steps_per_second": 18.504,
4322
+ "step": 600
4323
+ },
4324
+ {
4325
+ "epoch": 0.011519809856050296,
4326
+ "grad_norm": 0.10411401838064194,
4327
+ "learning_rate": 9.664269573103652e-05,
4328
+ "loss": 1.6011,
4329
+ "step": 601
4330
+ },
4331
+ {
4332
+ "epoch": 0.011538977592915604,
4333
+ "grad_norm": 0.10562720894813538,
4334
+ "learning_rate": 9.657522023858646e-05,
4335
+ "loss": 1.6277,
4336
+ "step": 602
4337
+ },
4338
+ {
4339
+ "epoch": 0.011558145329780913,
4340
+ "grad_norm": 0.09079369902610779,
4341
+ "learning_rate": 9.65061516975871e-05,
4342
+ "loss": 1.3665,
4343
+ "step": 603
4344
+ },
4345
+ {
4346
+ "epoch": 0.01157731306664622,
4347
+ "grad_norm": 0.11086009442806244,
4348
+ "learning_rate": 9.643549244575191e-05,
4349
+ "loss": 1.7168,
4350
+ "step": 604
4351
+ },
4352
+ {
4353
+ "epoch": 0.01159648080351153,
4354
+ "grad_norm": 0.127419114112854,
4355
+ "learning_rate": 9.636324487463404e-05,
4356
+ "loss": 1.4687,
4357
+ "step": 605
4358
+ },
4359
+ {
4360
+ "epoch": 0.011615648540376838,
4361
+ "grad_norm": 0.09277164936065674,
4362
+ "learning_rate": 9.628941142954533e-05,
4363
+ "loss": 1.27,
4364
+ "step": 606
4365
+ },
4366
+ {
4367
+ "epoch": 0.011634816277242147,
4368
+ "grad_norm": 0.12536202371120453,
4369
+ "learning_rate": 9.621399460947357e-05,
4370
+ "loss": 1.4982,
4371
+ "step": 607
4372
+ },
4373
+ {
4374
+ "epoch": 0.011653984014107454,
4375
+ "grad_norm": 0.10327380150556564,
4376
+ "learning_rate": 9.61369969669979e-05,
4377
+ "loss": 1.1826,
4378
+ "step": 608
4379
+ },
4380
+ {
4381
+ "epoch": 0.011673151750972763,
4382
+ "grad_norm": 0.1040838211774826,
4383
+ "learning_rate": 9.605842110820246e-05,
4384
+ "loss": 1.4192,
4385
+ "step": 609
4386
+ },
4387
+ {
4388
+ "epoch": 0.011692319487838072,
4389
+ "grad_norm": 0.129541277885437,
4390
+ "learning_rate": 9.597826969258811e-05,
4391
+ "loss": 1.6659,
4392
+ "step": 610
4393
+ },
4394
+ {
4395
+ "epoch": 0.011711487224703379,
4396
+ "grad_norm": 0.10935177654027939,
4397
+ "learning_rate": 9.589654543298245e-05,
4398
+ "loss": 1.5881,
4399
+ "step": 611
4400
+ },
4401
+ {
4402
+ "epoch": 0.011730654961568688,
4403
+ "grad_norm": 0.09962373971939087,
4404
+ "learning_rate": 9.581325109544805e-05,
4405
+ "loss": 1.3581,
4406
+ "step": 612
4407
+ },
4408
+ {
4409
+ "epoch": 0.011749822698433996,
4410
+ "grad_norm": 0.13899528980255127,
4411
+ "learning_rate": 9.572838949918872e-05,
4412
+ "loss": 1.5192,
4413
+ "step": 613
4414
+ },
4415
+ {
4416
+ "epoch": 0.011768990435299304,
4417
+ "grad_norm": 0.11136510223150253,
4418
+ "learning_rate": 9.564196351645423e-05,
4419
+ "loss": 1.3238,
4420
+ "step": 614
4421
+ },
4422
+ {
4423
+ "epoch": 0.011788158172164612,
4424
+ "grad_norm": 0.11565709859132767,
4425
+ "learning_rate": 9.555397607244296e-05,
4426
+ "loss": 1.6724,
4427
+ "step": 615
4428
+ },
4429
+ {
4430
+ "epoch": 0.011807325909029921,
4431
+ "grad_norm": 0.09210363775491714,
4432
+ "learning_rate": 9.546443014520298e-05,
4433
+ "loss": 1.2795,
4434
+ "step": 616
4435
+ },
4436
+ {
4437
+ "epoch": 0.011826493645895228,
4438
+ "grad_norm": 0.10333288460969925,
4439
+ "learning_rate": 9.537332876553123e-05,
4440
+ "loss": 1.4106,
4441
+ "step": 617
4442
+ },
4443
+ {
4444
+ "epoch": 0.011845661382760537,
4445
+ "grad_norm": 0.13616147637367249,
4446
+ "learning_rate": 9.528067501687089e-05,
4447
+ "loss": 1.3582,
4448
+ "step": 618
4449
+ },
4450
+ {
4451
+ "epoch": 0.011864829119625846,
4452
+ "grad_norm": 0.10424721240997314,
4453
+ "learning_rate": 9.518647203520714e-05,
4454
+ "loss": 1.4855,
4455
+ "step": 619
4456
+ },
4457
+ {
4458
+ "epoch": 0.011883996856491155,
4459
+ "grad_norm": 0.11424586921930313,
4460
+ "learning_rate": 9.509072300896087e-05,
4461
+ "loss": 1.1964,
4462
+ "step": 620
4463
+ },
4464
+ {
4465
+ "epoch": 0.011903164593356462,
4466
+ "grad_norm": 0.16829033195972443,
4467
+ "learning_rate": 9.499343117888088e-05,
4468
+ "loss": 1.3607,
4469
+ "step": 621
4470
+ },
4471
+ {
4472
+ "epoch": 0.01192233233022177,
4473
+ "grad_norm": 0.11840435117483139,
4474
+ "learning_rate": 9.489459983793413e-05,
4475
+ "loss": 1.5524,
4476
+ "step": 622
4477
+ },
4478
+ {
4479
+ "epoch": 0.01194150006708708,
4480
+ "grad_norm": 0.13831564784049988,
4481
+ "learning_rate": 9.479423233119428e-05,
4482
+ "loss": 1.5572,
4483
+ "step": 623
4484
+ },
4485
+ {
4486
+ "epoch": 0.011960667803952387,
4487
+ "grad_norm": 0.12457295507192612,
4488
+ "learning_rate": 9.469233205572857e-05,
4489
+ "loss": 1.5482,
4490
+ "step": 624
4491
+ },
4492
+ {
4493
+ "epoch": 0.011979835540817696,
4494
+ "grad_norm": 0.14689622819423676,
4495
+ "learning_rate": 9.458890246048266e-05,
4496
+ "loss": 1.2769,
4497
+ "step": 625
4498
+ },
4499
+ {
4500
+ "epoch": 0.011999003277683004,
4501
+ "grad_norm": 0.08986423164606094,
4502
+ "learning_rate": 9.44839470461641e-05,
4503
+ "loss": 1.0757,
4504
+ "step": 626
4505
+ },
4506
+ {
4507
+ "epoch": 0.012018171014548312,
4508
+ "grad_norm": 0.1021321564912796,
4509
+ "learning_rate": 9.437746936512368e-05,
4510
+ "loss": 1.5207,
4511
+ "step": 627
4512
+ },
4513
+ {
4514
+ "epoch": 0.01203733875141362,
4515
+ "grad_norm": 0.14323778450489044,
4516
+ "learning_rate": 9.426947302123529e-05,
4517
+ "loss": 1.5927,
4518
+ "step": 628
4519
+ },
4520
+ {
4521
+ "epoch": 0.01205650648827893,
4522
+ "grad_norm": 0.11163625121116638,
4523
+ "learning_rate": 9.415996166977393e-05,
4524
+ "loss": 1.2186,
4525
+ "step": 629
4526
+ },
4527
+ {
4528
+ "epoch": 0.012075674225144236,
4529
+ "grad_norm": 0.11363939940929413,
4530
+ "learning_rate": 9.404893901729192e-05,
4531
+ "loss": 1.2431,
4532
+ "step": 630
4533
+ },
4534
+ {
4535
+ "epoch": 0.012094841962009545,
4536
+ "grad_norm": 0.124871626496315,
4537
+ "learning_rate": 9.393640882149359e-05,
4538
+ "loss": 1.3805,
4539
+ "step": 631
4540
+ },
4541
+ {
4542
+ "epoch": 0.012114009698874854,
4543
+ "grad_norm": 0.12126212567090988,
4544
+ "learning_rate": 9.382237489110791e-05,
4545
+ "loss": 1.253,
4546
+ "step": 632
4547
+ },
4548
+ {
4549
+ "epoch": 0.012133177435740163,
4550
+ "grad_norm": 0.1411461979150772,
4551
+ "learning_rate": 9.370684108575978e-05,
4552
+ "loss": 1.5281,
4553
+ "step": 633
4554
+ },
4555
+ {
4556
+ "epoch": 0.01215234517260547,
4557
+ "grad_norm": 0.09744168072938919,
4558
+ "learning_rate": 9.358981131583925e-05,
4559
+ "loss": 1.3321,
4560
+ "step": 634
4561
+ },
4562
+ {
4563
+ "epoch": 0.012171512909470779,
4564
+ "grad_norm": 0.13379117846488953,
4565
+ "learning_rate": 9.347128954236917e-05,
4566
+ "loss": 1.7078,
4567
+ "step": 635
4568
+ },
4569
+ {
4570
+ "epoch": 0.012190680646336088,
4571
+ "grad_norm": 0.18476705253124237,
4572
+ "learning_rate": 9.335127977687121e-05,
4573
+ "loss": 1.3149,
4574
+ "step": 636
4575
+ },
4576
+ {
4577
+ "epoch": 0.012209848383201395,
4578
+ "grad_norm": 0.13794240355491638,
4579
+ "learning_rate": 9.322978608123005e-05,
4580
+ "loss": 1.2862,
4581
+ "step": 637
4582
+ },
4583
+ {
4584
+ "epoch": 0.012229016120066704,
4585
+ "grad_norm": 0.1311839371919632,
4586
+ "learning_rate": 9.31068125675559e-05,
4587
+ "loss": 1.7977,
4588
+ "step": 638
4589
+ },
4590
+ {
4591
+ "epoch": 0.012248183856932012,
4592
+ "grad_norm": 0.10724909603595734,
4593
+ "learning_rate": 9.298236339804526e-05,
4594
+ "loss": 1.1626,
4595
+ "step": 639
4596
+ },
4597
+ {
4598
+ "epoch": 0.01226735159379732,
4599
+ "grad_norm": 0.09627658873796463,
4600
+ "learning_rate": 9.285644278484013e-05,
4601
+ "loss": 1.5093,
4602
+ "step": 640
4603
+ },
4604
+ {
4605
+ "epoch": 0.012286519330662628,
4606
+ "grad_norm": 0.13738052546977997,
4607
+ "learning_rate": 9.272905498988542e-05,
4608
+ "loss": 1.1338,
4609
+ "step": 641
4610
+ },
4611
+ {
4612
+ "epoch": 0.012305687067527937,
4613
+ "grad_norm": 0.11568105965852737,
4614
+ "learning_rate": 9.26002043247847e-05,
4615
+ "loss": 1.2151,
4616
+ "step": 642
4617
+ },
4618
+ {
4619
+ "epoch": 0.012324854804393246,
4620
+ "grad_norm": 0.11026597023010254,
4621
+ "learning_rate": 9.246989515065422e-05,
4622
+ "loss": 1.5823,
4623
+ "step": 643
4624
+ },
4625
+ {
4626
+ "epoch": 0.012344022541258553,
4627
+ "grad_norm": 0.10940872132778168,
4628
+ "learning_rate": 9.233813187797535e-05,
4629
+ "loss": 1.3081,
4630
+ "step": 644
4631
+ },
4632
+ {
4633
+ "epoch": 0.012363190278123862,
4634
+ "grad_norm": 0.12110668420791626,
4635
+ "learning_rate": 9.220491896644531e-05,
4636
+ "loss": 1.1608,
4637
+ "step": 645
4638
+ },
4639
+ {
4640
+ "epoch": 0.012382358014989171,
4641
+ "grad_norm": 0.1306304782629013,
4642
+ "learning_rate": 9.207026092482622e-05,
4643
+ "loss": 1.5766,
4644
+ "step": 646
4645
+ },
4646
+ {
4647
+ "epoch": 0.012401525751854478,
4648
+ "grad_norm": 0.11147546768188477,
4649
+ "learning_rate": 9.193416231079247e-05,
4650
+ "loss": 1.462,
4651
+ "step": 647
4652
+ },
4653
+ {
4654
+ "epoch": 0.012420693488719787,
4655
+ "grad_norm": 0.1513271927833557,
4656
+ "learning_rate": 9.179662773077646e-05,
4657
+ "loss": 1.2902,
4658
+ "step": 648
4659
+ },
4660
+ {
4661
+ "epoch": 0.012439861225585096,
4662
+ "grad_norm": 0.12458869814872742,
4663
+ "learning_rate": 9.165766183981272e-05,
4664
+ "loss": 1.6558,
4665
+ "step": 649
4666
+ },
4667
+ {
4668
+ "epoch": 0.012459028962450403,
4669
+ "grad_norm": 0.12529686093330383,
4670
+ "learning_rate": 9.151726934138035e-05,
4671
+ "loss": 1.519,
4672
+ "step": 650
4673
+ },
4674
+ {
4675
+ "epoch": 0.012478196699315712,
4676
+ "grad_norm": 0.1223490983247757,
4677
+ "learning_rate": 9.137545498724373e-05,
4678
+ "loss": 1.4077,
4679
+ "step": 651
4680
+ },
4681
+ {
4682
+ "epoch": 0.01249736443618102,
4683
+ "grad_norm": 0.15136773884296417,
4684
+ "learning_rate": 9.123222357729193e-05,
4685
+ "loss": 1.2649,
4686
+ "step": 652
4687
+ },
4688
+ {
4689
+ "epoch": 0.012516532173046328,
4690
+ "grad_norm": 0.08339743316173553,
4691
+ "learning_rate": 9.108757995937594e-05,
4692
+ "loss": 1.0947,
4693
+ "step": 653
4694
+ },
4695
+ {
4696
+ "epoch": 0.012535699909911636,
4697
+ "grad_norm": 0.12441645562648773,
4698
+ "learning_rate": 9.094152902914481e-05,
4699
+ "loss": 1.2436,
4700
+ "step": 654
4701
+ },
4702
+ {
4703
+ "epoch": 0.012554867646776945,
4704
+ "grad_norm": 0.12047876417636871,
4705
+ "learning_rate": 9.07940757298799e-05,
4706
+ "loss": 1.3707,
4707
+ "step": 655
4708
+ },
4709
+ {
4710
+ "epoch": 0.012574035383642254,
4711
+ "grad_norm": 0.11989863961935043,
4712
+ "learning_rate": 9.064522505232752e-05,
4713
+ "loss": 1.4951,
4714
+ "step": 656
4715
+ },
4716
+ {
4717
+ "epoch": 0.012593203120507561,
4718
+ "grad_norm": 0.09021518379449844,
4719
+ "learning_rate": 9.049498203453006e-05,
4720
+ "loss": 1.6233,
4721
+ "step": 657
4722
+ },
4723
+ {
4724
+ "epoch": 0.01261237085737287,
4725
+ "grad_norm": 0.17760628461837769,
4726
+ "learning_rate": 9.034335176165543e-05,
4727
+ "loss": 1.4375,
4728
+ "step": 658
4729
+ },
4730
+ {
4731
+ "epoch": 0.012631538594238179,
4732
+ "grad_norm": 0.11390668898820877,
4733
+ "learning_rate": 9.0190339365825e-05,
4734
+ "loss": 1.7167,
4735
+ "step": 659
4736
+ },
4737
+ {
4738
+ "epoch": 0.012650706331103486,
4739
+ "grad_norm": 0.13511599600315094,
4740
+ "learning_rate": 9.003595002593983e-05,
4741
+ "loss": 1.5552,
4742
+ "step": 660
4743
+ },
4744
+ {
4745
+ "epoch": 0.012669874067968795,
4746
+ "grad_norm": 0.12574054300785065,
4747
+ "learning_rate": 8.988018896750548e-05,
4748
+ "loss": 1.6231,
4749
+ "step": 661
4750
+ },
4751
+ {
4752
+ "epoch": 0.012689041804834104,
4753
+ "grad_norm": 0.10890061408281326,
4754
+ "learning_rate": 8.9723061462455e-05,
4755
+ "loss": 1.06,
4756
+ "step": 662
4757
+ },
4758
+ {
4759
+ "epoch": 0.01270820954169941,
4760
+ "grad_norm": 0.10770639032125473,
4761
+ "learning_rate": 8.95645728289707e-05,
4762
+ "loss": 1.5683,
4763
+ "step": 663
4764
+ },
4765
+ {
4766
+ "epoch": 0.01272737727856472,
4767
+ "grad_norm": 0.11729026585817337,
4768
+ "learning_rate": 8.94047284313039e-05,
4769
+ "loss": 1.3508,
4770
+ "step": 664
4771
+ },
4772
+ {
4773
+ "epoch": 0.012746545015430029,
4774
+ "grad_norm": 0.1106027290225029,
4775
+ "learning_rate": 8.924353367959359e-05,
4776
+ "loss": 1.3145,
4777
+ "step": 665
4778
+ },
4779
+ {
4780
+ "epoch": 0.012765712752295336,
4781
+ "grad_norm": 0.1163991391658783,
4782
+ "learning_rate": 8.908099402968317e-05,
4783
+ "loss": 1.2162,
4784
+ "step": 666
4785
+ },
4786
+ {
4787
+ "epoch": 0.012784880489160644,
4788
+ "grad_norm": 0.11139512062072754,
4789
+ "learning_rate": 8.891711498293591e-05,
4790
+ "loss": 1.6249,
4791
+ "step": 667
4792
+ },
4793
+ {
4794
+ "epoch": 0.012804048226025953,
4795
+ "grad_norm": 0.1063053160905838,
4796
+ "learning_rate": 8.875190208604863e-05,
4797
+ "loss": 1.7123,
4798
+ "step": 668
4799
+ },
4800
+ {
4801
+ "epoch": 0.012823215962891262,
4802
+ "grad_norm": 0.0996391698718071,
4803
+ "learning_rate": 8.858536093086406e-05,
4804
+ "loss": 1.4169,
4805
+ "step": 669
4806
+ },
4807
+ {
4808
+ "epoch": 0.01284238369975657,
4809
+ "grad_norm": 0.15188683569431305,
4810
+ "learning_rate": 8.841749715418151e-05,
4811
+ "loss": 1.3692,
4812
+ "step": 670
4813
+ },
4814
+ {
4815
+ "epoch": 0.012861551436621878,
4816
+ "grad_norm": 0.11893344670534134,
4817
+ "learning_rate": 8.824831643756612e-05,
4818
+ "loss": 1.263,
4819
+ "step": 671
4820
+ },
4821
+ {
4822
+ "epoch": 0.012880719173487187,
4823
+ "grad_norm": 0.11241691559553146,
4824
+ "learning_rate": 8.807782450715656e-05,
4825
+ "loss": 1.3337,
4826
+ "step": 672
4827
+ },
4828
+ {
4829
+ "epoch": 0.012899886910352494,
4830
+ "grad_norm": 0.12966130673885345,
4831
+ "learning_rate": 8.790602713347123e-05,
4832
+ "loss": 1.2688,
4833
+ "step": 673
4834
+ },
4835
+ {
4836
+ "epoch": 0.012919054647217803,
4837
+ "grad_norm": 0.12770654261112213,
4838
+ "learning_rate": 8.77329301312129e-05,
4839
+ "loss": 1.1834,
4840
+ "step": 674
4841
+ },
4842
+ {
4843
+ "epoch": 0.012938222384083112,
4844
+ "grad_norm": 0.14243365824222565,
4845
+ "learning_rate": 8.755853935907198e-05,
4846
+ "loss": 1.4371,
4847
+ "step": 675
4848
+ },
4849
+ {
4850
+ "epoch": 0.012938222384083112,
4851
+ "eval_loss": 1.4821537733078003,
4852
+ "eval_runtime": 2514.7611,
4853
+ "eval_samples_per_second": 36.881,
4854
+ "eval_steps_per_second": 18.441,
4855
+ "step": 675
4856
+ },
4857
+ {
4858
+ "epoch": 0.012938222384083112,
4859
+ "eval_loss": 1.5171287059783936,
4860
+ "eval_runtime": 2514.0016,
4861
+ "eval_samples_per_second": 36.893,
4862
+ "eval_steps_per_second": 18.446,
4863
+ "step": 675
4864
+ },
4865
+ {
4866
+ "epoch": 0.012957390120948419,
4867
+ "grad_norm": 0.09096322953701019,
4868
+ "learning_rate": 8.738286071952813e-05,
4869
+ "loss": 1.412,
4870
+ "step": 676
4871
+ },
4872
+ {
4873
+ "epoch": 0.012976557857813728,
4874
+ "grad_norm": 0.14551272988319397,
4875
+ "learning_rate": 8.720590015865057e-05,
4876
+ "loss": 1.2728,
4877
+ "step": 677
4878
+ },
4879
+ {
4880
+ "epoch": 0.012995725594679037,
4881
+ "grad_norm": 0.11868377774953842,
4882
+ "learning_rate": 8.702766366589681e-05,
4883
+ "loss": 1.6341,
4884
+ "step": 678
4885
+ },
4886
+ {
4887
+ "epoch": 0.013014893331544345,
4888
+ "grad_norm": 0.1134573444724083,
4889
+ "learning_rate": 8.684815727390988e-05,
4890
+ "loss": 1.6379,
4891
+ "step": 679
4892
+ },
4893
+ {
4894
+ "epoch": 0.013034061068409653,
4895
+ "grad_norm": 0.12391621619462967,
4896
+ "learning_rate": 8.666738705831421e-05,
4897
+ "loss": 1.3885,
4898
+ "step": 680
4899
+ },
4900
+ {
4901
+ "epoch": 0.013053228805274961,
4902
+ "grad_norm": 0.1294897496700287,
4903
+ "learning_rate": 8.648535913750994e-05,
4904
+ "loss": 1.7702,
4905
+ "step": 681
4906
+ },
4907
+ {
4908
+ "epoch": 0.01307239654214027,
4909
+ "grad_norm": 0.13557648658752441,
4910
+ "learning_rate": 8.630207967246585e-05,
4911
+ "loss": 1.5324,
4912
+ "step": 682
4913
+ },
4914
+ {
4915
+ "epoch": 0.013091564279005577,
4916
+ "grad_norm": 0.09349766373634338,
4917
+ "learning_rate": 8.611755486651088e-05,
4918
+ "loss": 1.6017,
4919
+ "step": 683
4920
+ },
4921
+ {
4922
+ "epoch": 0.013110732015870886,
4923
+ "grad_norm": 0.18742144107818604,
4924
+ "learning_rate": 8.593179096512411e-05,
4925
+ "loss": 1.4779,
4926
+ "step": 684
4927
+ },
4928
+ {
4929
+ "epoch": 0.013129899752736195,
4930
+ "grad_norm": 0.1266089230775833,
4931
+ "learning_rate": 8.574479425572338e-05,
4932
+ "loss": 1.425,
4933
+ "step": 685
4934
+ },
4935
+ {
4936
+ "epoch": 0.013149067489601502,
4937
+ "grad_norm": 0.12737752497196198,
4938
+ "learning_rate": 8.555657106745254e-05,
4939
+ "loss": 1.2625,
4940
+ "step": 686
4941
+ },
4942
+ {
4943
+ "epoch": 0.013168235226466811,
4944
+ "grad_norm": 0.16241122782230377,
4945
+ "learning_rate": 8.536712777096716e-05,
4946
+ "loss": 1.5357,
4947
+ "step": 687
4948
+ },
4949
+ {
4950
+ "epoch": 0.01318740296333212,
4951
+ "grad_norm": 0.14777013659477234,
4952
+ "learning_rate": 8.517647077821897e-05,
4953
+ "loss": 1.4624,
4954
+ "step": 688
4955
+ },
4956
+ {
4957
+ "epoch": 0.013206570700197427,
4958
+ "grad_norm": 0.14423668384552002,
4959
+ "learning_rate": 8.498460654223876e-05,
4960
+ "loss": 1.627,
4961
+ "step": 689
4962
+ },
4963
+ {
4964
+ "epoch": 0.013225738437062736,
4965
+ "grad_norm": 0.162040114402771,
4966
+ "learning_rate": 8.479154155691808e-05,
4967
+ "loss": 1.2931,
4968
+ "step": 690
4969
+ },
4970
+ {
4971
+ "epoch": 0.013244906173928045,
4972
+ "grad_norm": 0.12327907979488373,
4973
+ "learning_rate": 8.459728235678932e-05,
4974
+ "loss": 1.7891,
4975
+ "step": 691
4976
+ },
4977
+ {
4978
+ "epoch": 0.013264073910793353,
4979
+ "grad_norm": 0.11705397814512253,
4980
+ "learning_rate": 8.440183551680466e-05,
4981
+ "loss": 1.8122,
4982
+ "step": 692
4983
+ },
4984
+ {
4985
+ "epoch": 0.01328324164765866,
4986
+ "grad_norm": 0.10630516707897186,
4987
+ "learning_rate": 8.420520765211347e-05,
4988
+ "loss": 1.1619,
4989
+ "step": 693
4990
+ },
4991
+ {
4992
+ "epoch": 0.01330240938452397,
4993
+ "grad_norm": 0.15495729446411133,
4994
+ "learning_rate": 8.400740541783835e-05,
4995
+ "loss": 1.4287,
4996
+ "step": 694
4997
+ },
4998
+ {
4999
+ "epoch": 0.013321577121389278,
5000
+ "grad_norm": 0.14559215307235718,
5001
+ "learning_rate": 8.380843550885003e-05,
5002
+ "loss": 1.0827,
5003
+ "step": 695
5004
+ },
5005
+ {
5006
+ "epoch": 0.013340744858254585,
5007
+ "grad_norm": 0.14757879078388214,
5008
+ "learning_rate": 8.360830465954068e-05,
5009
+ "loss": 1.3853,
5010
+ "step": 696
5011
+ },
5012
+ {
5013
+ "epoch": 0.013359912595119894,
5014
+ "grad_norm": 0.11220613121986389,
5015
+ "learning_rate": 8.340701964359591e-05,
5016
+ "loss": 1.2396,
5017
+ "step": 697
5018
+ },
5019
+ {
5020
+ "epoch": 0.013379080331985203,
5021
+ "grad_norm": 0.1057950034737587,
5022
+ "learning_rate": 8.32045872737657e-05,
5023
+ "loss": 1.2326,
5024
+ "step": 698
5025
+ },
5026
+ {
5027
+ "epoch": 0.01339824806885051,
5028
+ "grad_norm": 0.10915949940681458,
5029
+ "learning_rate": 8.300101440163359e-05,
5030
+ "loss": 1.1097,
5031
+ "step": 699
5032
+ },
5033
+ {
5034
+ "epoch": 0.013417415805715819,
5035
+ "grad_norm": 0.11548012495040894,
5036
+ "learning_rate": 8.279630791738493e-05,
5037
+ "loss": 1.6202,
5038
+ "step": 700
5039
+ },
5040
+ {
5041
+ "epoch": 0.013436583542581128,
5042
+ "grad_norm": 0.19324012100696564,
5043
+ "learning_rate": 8.259047474957364e-05,
5044
+ "loss": 1.486,
5045
+ "step": 701
5046
+ },
5047
+ {
5048
+ "epoch": 0.013455751279446435,
5049
+ "grad_norm": 0.12308330833911896,
5050
+ "learning_rate": 8.238352186488769e-05,
5051
+ "loss": 1.4034,
5052
+ "step": 702
5053
+ },
5054
+ {
5055
+ "epoch": 0.013474919016311744,
5056
+ "grad_norm": 0.1256161630153656,
5057
+ "learning_rate": 8.217545626791327e-05,
5058
+ "loss": 1.7307,
5059
+ "step": 703
5060
+ },
5061
+ {
5062
+ "epoch": 0.013494086753177053,
5063
+ "grad_norm": 0.12383873015642166,
5064
+ "learning_rate": 8.19662850008978e-05,
5065
+ "loss": 1.4614,
5066
+ "step": 704
5067
+ },
5068
+ {
5069
+ "epoch": 0.013513254490042361,
5070
+ "grad_norm": 0.11147335171699524,
5071
+ "learning_rate": 8.175601514351145e-05,
5072
+ "loss": 1.2766,
5073
+ "step": 705
5074
+ },
5075
+ {
5076
+ "epoch": 0.013532422226907669,
5077
+ "grad_norm": 0.12207506597042084,
5078
+ "learning_rate": 8.154465381260771e-05,
5079
+ "loss": 1.3754,
5080
+ "step": 706
5081
+ },
5082
+ {
5083
+ "epoch": 0.013551589963772977,
5084
+ "grad_norm": 0.09853308647871017,
5085
+ "learning_rate": 8.133220816198227e-05,
5086
+ "loss": 1.2895,
5087
+ "step": 707
5088
+ },
5089
+ {
5090
+ "epoch": 0.013570757700638286,
5091
+ "grad_norm": 0.16966822743415833,
5092
+ "learning_rate": 8.111868538213106e-05,
5093
+ "loss": 1.1311,
5094
+ "step": 708
5095
+ },
5096
+ {
5097
+ "epoch": 0.013589925437503593,
5098
+ "grad_norm": 0.19110709428787231,
5099
+ "learning_rate": 8.090409270000685e-05,
5100
+ "loss": 1.9365,
5101
+ "step": 709
5102
+ },
5103
+ {
5104
+ "epoch": 0.013609093174368902,
5105
+ "grad_norm": 0.09257730841636658,
5106
+ "learning_rate": 8.068843737877462e-05,
5107
+ "loss": 1.5642,
5108
+ "step": 710
5109
+ },
5110
+ {
5111
+ "epoch": 0.013628260911234211,
5112
+ "grad_norm": 0.103863924741745,
5113
+ "learning_rate": 8.047172671756572e-05,
5114
+ "loss": 1.0652,
5115
+ "step": 711
5116
+ },
5117
+ {
5118
+ "epoch": 0.013647428648099518,
5119
+ "grad_norm": 0.117330402135849,
5120
+ "learning_rate": 8.025396805123084e-05,
5121
+ "loss": 1.3352,
5122
+ "step": 712
5123
+ },
5124
+ {
5125
+ "epoch": 0.013666596384964827,
5126
+ "grad_norm": 0.13342571258544922,
5127
+ "learning_rate": 8.003516875009178e-05,
5128
+ "loss": 1.5733,
5129
+ "step": 713
5130
+ },
5131
+ {
5132
+ "epoch": 0.013685764121830136,
5133
+ "grad_norm": 0.13681145012378693,
5134
+ "learning_rate": 7.98153362196919e-05,
5135
+ "loss": 1.3734,
5136
+ "step": 714
5137
+ },
5138
+ {
5139
+ "epoch": 0.013704931858695445,
5140
+ "grad_norm": 0.1097632646560669,
5141
+ "learning_rate": 7.959447790054562e-05,
5142
+ "loss": 1.5992,
5143
+ "step": 715
5144
+ },
5145
+ {
5146
+ "epoch": 0.013724099595560752,
5147
+ "grad_norm": 0.15187889337539673,
5148
+ "learning_rate": 7.937260126788639e-05,
5149
+ "loss": 1.3056,
5150
+ "step": 716
5151
+ },
5152
+ {
5153
+ "epoch": 0.01374326733242606,
5154
+ "grad_norm": 0.13137780129909515,
5155
+ "learning_rate": 7.91497138314139e-05,
5156
+ "loss": 1.8176,
5157
+ "step": 717
5158
+ },
5159
+ {
5160
+ "epoch": 0.01376243506929137,
5161
+ "grad_norm": 0.09313193708658218,
5162
+ "learning_rate": 7.89258231350397e-05,
5163
+ "loss": 1.3236,
5164
+ "step": 718
5165
+ },
5166
+ {
5167
+ "epoch": 0.013781602806156677,
5168
+ "grad_norm": 0.14475251734256744,
5169
+ "learning_rate": 7.8700936756632e-05,
5170
+ "loss": 1.7993,
5171
+ "step": 719
5172
+ },
5173
+ {
5174
+ "epoch": 0.013800770543021985,
5175
+ "grad_norm": 0.14910048246383667,
5176
+ "learning_rate": 7.847506230775914e-05,
5177
+ "loss": 1.402,
5178
+ "step": 720
5179
+ },
5180
+ {
5181
+ "epoch": 0.013819938279887294,
5182
+ "grad_norm": 0.11825945228338242,
5183
+ "learning_rate": 7.824820743343202e-05,
5184
+ "loss": 1.266,
5185
+ "step": 721
5186
+ },
5187
+ {
5188
+ "epoch": 0.013839106016752601,
5189
+ "grad_norm": 0.10240902751684189,
5190
+ "learning_rate": 7.802037981184523e-05,
5191
+ "loss": 1.3654,
5192
+ "step": 722
5193
+ },
5194
+ {
5195
+ "epoch": 0.01385827375361791,
5196
+ "grad_norm": 0.14030222594738007,
5197
+ "learning_rate": 7.779158715411727e-05,
5198
+ "loss": 1.2747,
5199
+ "step": 723
5200
+ },
5201
+ {
5202
+ "epoch": 0.013877441490483219,
5203
+ "grad_norm": 0.1306154876947403,
5204
+ "learning_rate": 7.756183720402953e-05,
5205
+ "loss": 1.6009,
5206
+ "step": 724
5207
+ },
5208
+ {
5209
+ "epoch": 0.013896609227348526,
5210
+ "grad_norm": 0.1406806856393814,
5211
+ "learning_rate": 7.733113773776421e-05,
5212
+ "loss": 1.3401,
5213
+ "step": 725
5214
+ },
5215
+ {
5216
+ "epoch": 0.013915776964213835,
5217
+ "grad_norm": 0.16746580600738525,
5218
+ "learning_rate": 7.709949656364105e-05,
5219
+ "loss": 1.7965,
5220
+ "step": 726
5221
+ },
5222
+ {
5223
+ "epoch": 0.013934944701079144,
5224
+ "grad_norm": 0.11773744970560074,
5225
+ "learning_rate": 7.686692152185316e-05,
5226
+ "loss": 1.488,
5227
+ "step": 727
5228
+ },
5229
+ {
5230
+ "epoch": 0.013954112437944453,
5231
+ "grad_norm": 0.1136757880449295,
5232
+ "learning_rate": 7.663342048420154e-05,
5233
+ "loss": 1.6238,
5234
+ "step": 728
5235
+ },
5236
+ {
5237
+ "epoch": 0.01397328017480976,
5238
+ "grad_norm": 0.10973573476076126,
5239
+ "learning_rate": 7.639900135382878e-05,
5240
+ "loss": 1.4109,
5241
+ "step": 729
5242
+ },
5243
+ {
5244
+ "epoch": 0.013992447911675069,
5245
+ "grad_norm": 0.11506867408752441,
5246
+ "learning_rate": 7.616367206495144e-05,
5247
+ "loss": 1.4051,
5248
+ "step": 730
5249
+ },
5250
+ {
5251
+ "epoch": 0.014011615648540377,
5252
+ "grad_norm": 0.16806761920452118,
5253
+ "learning_rate": 7.59274405825916e-05,
5254
+ "loss": 1.4472,
5255
+ "step": 731
5256
+ },
5257
+ {
5258
+ "epoch": 0.014030783385405685,
5259
+ "grad_norm": 0.0913873165845871,
5260
+ "learning_rate": 7.569031490230721e-05,
5261
+ "loss": 1.2027,
5262
+ "step": 732
5263
+ },
5264
+ {
5265
+ "epoch": 0.014049951122270993,
5266
+ "grad_norm": 0.12903502583503723,
5267
+ "learning_rate": 7.545230304992151e-05,
5268
+ "loss": 1.3709,
5269
+ "step": 733
5270
+ },
5271
+ {
5272
+ "epoch": 0.014069118859136302,
5273
+ "grad_norm": 0.13405589759349823,
5274
+ "learning_rate": 7.521341308125137e-05,
5275
+ "loss": 1.4219,
5276
+ "step": 734
5277
+ },
5278
+ {
5279
+ "epoch": 0.01408828659600161,
5280
+ "grad_norm": 0.09643625468015671,
5281
+ "learning_rate": 7.497365308183465e-05,
5282
+ "loss": 1.2863,
5283
+ "step": 735
5284
+ },
5285
+ {
5286
+ "epoch": 0.014107454332866918,
5287
+ "grad_norm": 0.11383571475744247,
5288
+ "learning_rate": 7.47330311666565e-05,
5289
+ "loss": 1.3964,
5290
+ "step": 736
5291
+ },
5292
+ {
5293
+ "epoch": 0.014126622069732227,
5294
+ "grad_norm": 0.10297911614179611,
5295
+ "learning_rate": 7.449155547987473e-05,
5296
+ "loss": 1.8177,
5297
+ "step": 737
5298
+ },
5299
+ {
5300
+ "epoch": 0.014145789806597534,
5301
+ "grad_norm": 0.12988147139549255,
5302
+ "learning_rate": 7.424923419454413e-05,
5303
+ "loss": 1.6083,
5304
+ "step": 738
5305
+ },
5306
+ {
5307
+ "epoch": 0.014164957543462843,
5308
+ "grad_norm": 0.10675617307424545,
5309
+ "learning_rate": 7.400607551233985e-05,
5310
+ "loss": 1.3063,
5311
+ "step": 739
5312
+ },
5313
+ {
5314
+ "epoch": 0.014184125280328152,
5315
+ "grad_norm": 0.1297062337398529,
5316
+ "learning_rate": 7.376208766327985e-05,
5317
+ "loss": 1.2958,
5318
+ "step": 740
5319
+ },
5320
+ {
5321
+ "epoch": 0.01420329301719346,
5322
+ "grad_norm": 0.12037523835897446,
5323
+ "learning_rate": 7.351727890544627e-05,
5324
+ "loss": 1.0633,
5325
+ "step": 741
5326
+ },
5327
+ {
5328
+ "epoch": 0.014222460754058768,
5329
+ "grad_norm": 0.1311262995004654,
5330
+ "learning_rate": 7.3271657524706e-05,
5331
+ "loss": 1.6545,
5332
+ "step": 742
5333
+ },
5334
+ {
5335
+ "epoch": 0.014241628490924077,
5336
+ "grad_norm": 0.14785340428352356,
5337
+ "learning_rate": 7.302523183443017e-05,
5338
+ "loss": 1.624,
5339
+ "step": 743
5340
+ },
5341
+ {
5342
+ "epoch": 0.014260796227789386,
5343
+ "grad_norm": 0.11753561347723007,
5344
+ "learning_rate": 7.277801017521278e-05,
5345
+ "loss": 1.2393,
5346
+ "step": 744
5347
+ },
5348
+ {
5349
+ "epoch": 0.014279963964654693,
5350
+ "grad_norm": 0.1260678768157959,
5351
+ "learning_rate": 7.253000091458846e-05,
5352
+ "loss": 1.3294,
5353
+ "step": 745
5354
+ },
5355
+ {
5356
+ "epoch": 0.014299131701520001,
5357
+ "grad_norm": 0.12359932065010071,
5358
+ "learning_rate": 7.22812124467492e-05,
5359
+ "loss": 1.799,
5360
+ "step": 746
5361
+ },
5362
+ {
5363
+ "epoch": 0.01431829943838531,
5364
+ "grad_norm": 0.14787715673446655,
5365
+ "learning_rate": 7.20316531922603e-05,
5366
+ "loss": 1.7779,
5367
+ "step": 747
5368
+ },
5369
+ {
5370
+ "epoch": 0.014337467175250617,
5371
+ "grad_norm": 0.1288924664258957,
5372
+ "learning_rate": 7.178133159777526e-05,
5373
+ "loss": 1.6288,
5374
+ "step": 748
5375
+ },
5376
+ {
5377
+ "epoch": 0.014356634912115926,
5378
+ "grad_norm": 0.1537061333656311,
5379
+ "learning_rate": 7.153025613574998e-05,
5380
+ "loss": 1.2679,
5381
+ "step": 749
5382
+ },
5383
+ {
5384
+ "epoch": 0.014375802648981235,
5385
+ "grad_norm": 0.14872634410858154,
5386
+ "learning_rate": 7.127843530415601e-05,
5387
+ "loss": 1.3101,
5388
+ "step": 750
5389
+ },
5390
+ {
5391
+ "epoch": 0.014375802648981235,
5392
+ "eval_loss": 1.4733232259750366,
5393
+ "eval_runtime": 2557.9542,
5394
+ "eval_samples_per_second": 36.259,
5395
+ "eval_steps_per_second": 18.129,
5396
+ "step": 750
5397
+ },
5398
+ {
5399
+ "epoch": 0.014375802648981235,
5400
+ "eval_loss": 1.5129666328430176,
5401
+ "eval_runtime": 2524.1983,
5402
+ "eval_samples_per_second": 36.744,
5403
+ "eval_steps_per_second": 18.372,
5404
+ "step": 750
5405
+ },
5406
+ {
5407
+ "epoch": 0.014394970385846544,
5408
+ "grad_norm": 0.14070995151996613,
5409
+ "learning_rate": 7.102587762619283e-05,
5410
+ "loss": 1.5705,
5411
+ "step": 751
5412
+ },
5413
+ {
5414
+ "epoch": 0.014414138122711851,
5415
+ "grad_norm": 0.1251671314239502,
5416
+ "learning_rate": 7.077259164999948e-05,
5417
+ "loss": 1.6186,
5418
+ "step": 752
5419
+ },
5420
+ {
5421
+ "epoch": 0.01443330585957716,
5422
+ "grad_norm": 0.16820262372493744,
5423
+ "learning_rate": 7.051858594836516e-05,
5424
+ "loss": 1.7081,
5425
+ "step": 753
5426
+ },
5427
+ {
5428
+ "epoch": 0.014452473596442469,
5429
+ "grad_norm": 0.12928839027881622,
5430
+ "learning_rate": 7.026386911843915e-05,
5431
+ "loss": 1.565,
5432
+ "step": 754
5433
+ },
5434
+ {
5435
+ "epoch": 0.014471641333307776,
5436
+ "grad_norm": 0.13493424654006958,
5437
+ "learning_rate": 7.000844978143971e-05,
5438
+ "loss": 1.6153,
5439
+ "step": 755
5440
+ },
5441
+ {
5442
+ "epoch": 0.014490809070173085,
5443
+ "grad_norm": 0.12037918716669083,
5444
+ "learning_rate": 6.975233658236241e-05,
5445
+ "loss": 1.7057,
5446
+ "step": 756
5447
+ },
5448
+ {
5449
+ "epoch": 0.014509976807038394,
5450
+ "grad_norm": 0.14160001277923584,
5451
+ "learning_rate": 6.949553818968743e-05,
5452
+ "loss": 1.3393,
5453
+ "step": 757
5454
+ },
5455
+ {
5456
+ "epoch": 0.0145291445439037,
5457
+ "grad_norm": 0.12361916899681091,
5458
+ "learning_rate": 6.923806329508627e-05,
5459
+ "loss": 1.6205,
5460
+ "step": 758
5461
+ },
5462
+ {
5463
+ "epoch": 0.01454831228076901,
5464
+ "grad_norm": 0.11223111301660538,
5465
+ "learning_rate": 6.897992061312742e-05,
5466
+ "loss": 1.8051,
5467
+ "step": 759
5468
+ },
5469
+ {
5470
+ "epoch": 0.014567480017634318,
5471
+ "grad_norm": 0.10139868408441544,
5472
+ "learning_rate": 6.872111888098156e-05,
5473
+ "loss": 1.1499,
5474
+ "step": 760
5475
+ },
5476
+ {
5477
+ "epoch": 0.014586647754499625,
5478
+ "grad_norm": 0.14185746014118195,
5479
+ "learning_rate": 6.846166685812576e-05,
5480
+ "loss": 1.6056,
5481
+ "step": 761
5482
+ },
5483
+ {
5484
+ "epoch": 0.014605815491364934,
5485
+ "grad_norm": 0.12362541258335114,
5486
+ "learning_rate": 6.8201573326047e-05,
5487
+ "loss": 1.0905,
5488
+ "step": 762
5489
+ },
5490
+ {
5491
+ "epoch": 0.014624983228230243,
5492
+ "grad_norm": 0.14459389448165894,
5493
+ "learning_rate": 6.794084708794496e-05,
5494
+ "loss": 1.4114,
5495
+ "step": 763
5496
+ },
5497
+ {
5498
+ "epoch": 0.014644150965095552,
5499
+ "grad_norm": 0.13407780230045319,
5500
+ "learning_rate": 6.767949696843406e-05,
5501
+ "loss": 1.4494,
5502
+ "step": 764
5503
+ },
5504
+ {
5505
+ "epoch": 0.014663318701960859,
5506
+ "grad_norm": 0.10757341235876083,
5507
+ "learning_rate": 6.74175318132448e-05,
5508
+ "loss": 1.6365,
5509
+ "step": 765
5510
+ },
5511
+ {
5512
+ "epoch": 0.014682486438826168,
5513
+ "grad_norm": 0.11026965826749802,
5514
+ "learning_rate": 6.71549604889244e-05,
5515
+ "loss": 1.435,
5516
+ "step": 766
5517
+ },
5518
+ {
5519
+ "epoch": 0.014701654175691477,
5520
+ "grad_norm": 0.12049650400876999,
5521
+ "learning_rate": 6.689179188253655e-05,
5522
+ "loss": 1.4351,
5523
+ "step": 767
5524
+ },
5525
+ {
5526
+ "epoch": 0.014720821912556784,
5527
+ "grad_norm": 0.10785556584596634,
5528
+ "learning_rate": 6.662803490136081e-05,
5529
+ "loss": 1.496,
5530
+ "step": 768
5531
+ },
5532
+ {
5533
+ "epoch": 0.014739989649422093,
5534
+ "grad_norm": 0.09526213258504868,
5535
+ "learning_rate": 6.636369847259102e-05,
5536
+ "loss": 1.3857,
5537
+ "step": 769
5538
+ },
5539
+ {
5540
+ "epoch": 0.014759157386287402,
5541
+ "grad_norm": 0.12694235146045685,
5542
+ "learning_rate": 6.609879154303313e-05,
5543
+ "loss": 1.5483,
5544
+ "step": 770
5545
+ },
5546
+ {
5547
+ "epoch": 0.014778325123152709,
5548
+ "grad_norm": 0.1330501288175583,
5549
+ "learning_rate": 6.583332307880244e-05,
5550
+ "loss": 1.4761,
5551
+ "step": 771
5552
+ },
5553
+ {
5554
+ "epoch": 0.014797492860018018,
5555
+ "grad_norm": 0.21376430988311768,
5556
+ "learning_rate": 6.556730206502014e-05,
5557
+ "loss": 1.491,
5558
+ "step": 772
5559
+ },
5560
+ {
5561
+ "epoch": 0.014816660596883326,
5562
+ "grad_norm": 0.14251284301280975,
5563
+ "learning_rate": 6.530073750550914e-05,
5564
+ "loss": 1.3677,
5565
+ "step": 773
5566
+ },
5567
+ {
5568
+ "epoch": 0.014835828333748633,
5569
+ "grad_norm": 0.14213839173316956,
5570
+ "learning_rate": 6.503363842248935e-05,
5571
+ "loss": 1.6587,
5572
+ "step": 774
5573
+ },
5574
+ {
5575
+ "epoch": 0.014854996070613942,
5576
+ "grad_norm": 0.13434764742851257,
5577
+ "learning_rate": 6.476601385627237e-05,
5578
+ "loss": 1.4309,
5579
+ "step": 775
5580
+ },
5581
+ {
5582
+ "epoch": 0.014874163807479251,
5583
+ "grad_norm": 0.12511897087097168,
5584
+ "learning_rate": 6.449787286495535e-05,
5585
+ "loss": 1.4375,
5586
+ "step": 776
5587
+ },
5588
+ {
5589
+ "epoch": 0.01489333154434456,
5590
+ "grad_norm": 0.12347516417503357,
5591
+ "learning_rate": 6.422922452411462e-05,
5592
+ "loss": 1.2932,
5593
+ "step": 777
5594
+ },
5595
+ {
5596
+ "epoch": 0.014912499281209867,
5597
+ "grad_norm": 0.0852687656879425,
5598
+ "learning_rate": 6.396007792649831e-05,
5599
+ "loss": 1.3767,
5600
+ "step": 778
5601
+ },
5602
+ {
5603
+ "epoch": 0.014931667018075176,
5604
+ "grad_norm": 0.14227139949798584,
5605
+ "learning_rate": 6.36904421817188e-05,
5606
+ "loss": 1.4536,
5607
+ "step": 779
5608
+ },
5609
+ {
5610
+ "epoch": 0.014950834754940485,
5611
+ "grad_norm": 0.13570551574230194,
5612
+ "learning_rate": 6.342032641594417e-05,
5613
+ "loss": 1.7646,
5614
+ "step": 780
5615
+ },
5616
+ {
5617
+ "epoch": 0.014970002491805792,
5618
+ "grad_norm": 0.14132581651210785,
5619
+ "learning_rate": 6.31497397715895e-05,
5620
+ "loss": 1.4213,
5621
+ "step": 781
5622
+ },
5623
+ {
5624
+ "epoch": 0.0149891702286711,
5625
+ "grad_norm": 0.13665030896663666,
5626
+ "learning_rate": 6.287869140700733e-05,
5627
+ "loss": 1.0851,
5628
+ "step": 782
5629
+ },
5630
+ {
5631
+ "epoch": 0.01500833796553641,
5632
+ "grad_norm": 0.1134626641869545,
5633
+ "learning_rate": 6.260719049617774e-05,
5634
+ "loss": 1.1517,
5635
+ "step": 783
5636
+ },
5637
+ {
5638
+ "epoch": 0.015027505702401717,
5639
+ "grad_norm": 0.1048184409737587,
5640
+ "learning_rate": 6.233524622839781e-05,
5641
+ "loss": 1.2068,
5642
+ "step": 784
5643
+ },
5644
+ {
5645
+ "epoch": 0.015046673439267026,
5646
+ "grad_norm": 0.10722368210554123,
5647
+ "learning_rate": 6.206286780797056e-05,
5648
+ "loss": 1.5125,
5649
+ "step": 785
5650
+ },
5651
+ {
5652
+ "epoch": 0.015065841176132334,
5653
+ "grad_norm": 0.1135949194431305,
5654
+ "learning_rate": 6.179006445389355e-05,
5655
+ "loss": 1.3569,
5656
+ "step": 786
5657
+ },
5658
+ {
5659
+ "epoch": 0.015085008912997643,
5660
+ "grad_norm": 0.14543752372264862,
5661
+ "learning_rate": 6.151684539954667e-05,
5662
+ "loss": 1.4925,
5663
+ "step": 787
5664
+ },
5665
+ {
5666
+ "epoch": 0.01510417664986295,
5667
+ "grad_norm": 0.18014617264270782,
5668
+ "learning_rate": 6.12432198923798e-05,
5669
+ "loss": 1.7051,
5670
+ "step": 788
5671
+ },
5672
+ {
5673
+ "epoch": 0.01512334438672826,
5674
+ "grad_norm": 0.14088796079158783,
5675
+ "learning_rate": 6.096919719359972e-05,
5676
+ "loss": 1.7405,
5677
+ "step": 789
5678
+ },
5679
+ {
5680
+ "epoch": 0.015142512123593568,
5681
+ "grad_norm": 0.10348264127969742,
5682
+ "learning_rate": 6.069478657785659e-05,
5683
+ "loss": 1.6423,
5684
+ "step": 790
5685
+ },
5686
+ {
5687
+ "epoch": 0.015161679860458875,
5688
+ "grad_norm": 0.20880816876888275,
5689
+ "learning_rate": 6.0419997332930257e-05,
5690
+ "loss": 1.375,
5691
+ "step": 791
5692
+ },
5693
+ {
5694
+ "epoch": 0.015180847597324184,
5695
+ "grad_norm": 0.14411678910255432,
5696
+ "learning_rate": 6.014483875941564e-05,
5697
+ "loss": 1.1963,
5698
+ "step": 792
5699
+ },
5700
+ {
5701
+ "epoch": 0.015200015334189493,
5702
+ "grad_norm": 0.11277009546756744,
5703
+ "learning_rate": 5.986932017040813e-05,
5704
+ "loss": 1.5241,
5705
+ "step": 793
5706
+ },
5707
+ {
5708
+ "epoch": 0.0152191830710548,
5709
+ "grad_norm": 0.11883819848299026,
5710
+ "learning_rate": 5.959345089118825e-05,
5711
+ "loss": 1.035,
5712
+ "step": 794
5713
+ },
5714
+ {
5715
+ "epoch": 0.015238350807920109,
5716
+ "grad_norm": 0.13488759100437164,
5717
+ "learning_rate": 5.9317240258906155e-05,
5718
+ "loss": 1.4593,
5719
+ "step": 795
5720
+ },
5721
+ {
5722
+ "epoch": 0.015257518544785418,
5723
+ "grad_norm": 0.15183618664741516,
5724
+ "learning_rate": 5.904069762226545e-05,
5725
+ "loss": 1.2563,
5726
+ "step": 796
5727
+ },
5728
+ {
5729
+ "epoch": 0.015276686281650725,
5730
+ "grad_norm": 0.14672145247459412,
5731
+ "learning_rate": 5.876383234120691e-05,
5732
+ "loss": 1.2782,
5733
+ "step": 797
5734
+ },
5735
+ {
5736
+ "epoch": 0.015295854018516034,
5737
+ "grad_norm": 0.1341315656900406,
5738
+ "learning_rate": 5.84866537865916e-05,
5739
+ "loss": 1.4439,
5740
+ "step": 798
5741
+ },
5742
+ {
5743
+ "epoch": 0.015315021755381342,
5744
+ "grad_norm": 0.11749543994665146,
5745
+ "learning_rate": 5.820917133988376e-05,
5746
+ "loss": 1.244,
5747
+ "step": 799
5748
+ },
5749
+ {
5750
+ "epoch": 0.015334189492246651,
5751
+ "grad_norm": 0.12214719504117966,
5752
+ "learning_rate": 5.793139439283322e-05,
5753
+ "loss": 1.3007,
5754
+ "step": 800
5755
+ },
5756
+ {
5757
+ "epoch": 0.015353357229111958,
5758
+ "grad_norm": 0.13016489148139954,
5759
+ "learning_rate": 5.765333234715756e-05,
5760
+ "loss": 1.469,
5761
+ "step": 801
5762
+ },
5763
+ {
5764
+ "epoch": 0.015372524965977267,
5765
+ "grad_norm": 0.16239777207374573,
5766
+ "learning_rate": 5.737499461422387e-05,
5767
+ "loss": 1.2896,
5768
+ "step": 802
5769
+ },
5770
+ {
5771
+ "epoch": 0.015391692702842576,
5772
+ "grad_norm": 0.13130241632461548,
5773
+ "learning_rate": 5.7096390614730276e-05,
5774
+ "loss": 1.5951,
5775
+ "step": 803
5776
+ },
5777
+ {
5778
+ "epoch": 0.015410860439707883,
5779
+ "grad_norm": 0.14913310110569,
5780
+ "learning_rate": 5.6817529778387e-05,
5781
+ "loss": 1.3024,
5782
+ "step": 804
5783
+ },
5784
+ {
5785
+ "epoch": 0.015430028176573192,
5786
+ "grad_norm": 0.12097875028848648,
5787
+ "learning_rate": 5.653842154359724e-05,
5788
+ "loss": 1.1658,
5789
+ "step": 805
5790
+ },
5791
+ {
5792
+ "epoch": 0.0154491959134385,
5793
+ "grad_norm": 0.18160229921340942,
5794
+ "learning_rate": 5.625907535713775e-05,
5795
+ "loss": 1.3462,
5796
+ "step": 806
5797
+ },
5798
+ {
5799
+ "epoch": 0.015468363650303808,
5800
+ "grad_norm": 0.1442558765411377,
5801
+ "learning_rate": 5.5979500673839004e-05,
5802
+ "loss": 1.3229,
5803
+ "step": 807
5804
+ },
5805
+ {
5806
+ "epoch": 0.015487531387169117,
5807
+ "grad_norm": 0.1372595578432083,
5808
+ "learning_rate": 5.5699706956265294e-05,
5809
+ "loss": 1.5033,
5810
+ "step": 808
5811
+ },
5812
+ {
5813
+ "epoch": 0.015506699124034426,
5814
+ "grad_norm": 0.13811466097831726,
5815
+ "learning_rate": 5.541970367439436e-05,
5816
+ "loss": 1.2323,
5817
+ "step": 809
5818
+ },
5819
+ {
5820
+ "epoch": 0.015525866860899733,
5821
+ "grad_norm": 0.09932932257652283,
5822
+ "learning_rate": 5.513950030529698e-05,
5823
+ "loss": 1.4305,
5824
+ "step": 810
5825
+ },
5826
+ {
5827
+ "epoch": 0.015545034597765042,
5828
+ "grad_norm": 0.1343100517988205,
5829
+ "learning_rate": 5.485910633281609e-05,
5830
+ "loss": 1.3607,
5831
+ "step": 811
5832
+ },
5833
+ {
5834
+ "epoch": 0.01556420233463035,
5835
+ "grad_norm": 0.1169649213552475,
5836
+ "learning_rate": 5.457853124724585e-05,
5837
+ "loss": 1.5473,
5838
+ "step": 812
5839
+ },
5840
+ {
5841
+ "epoch": 0.01558337007149566,
5842
+ "grad_norm": 0.10100696980953217,
5843
+ "learning_rate": 5.4297784545010445e-05,
5844
+ "loss": 1.2088,
5845
+ "step": 813
5846
+ },
5847
+ {
5848
+ "epoch": 0.015602537808360966,
5849
+ "grad_norm": 0.15452361106872559,
5850
+ "learning_rate": 5.4016875728342645e-05,
5851
+ "loss": 1.193,
5852
+ "step": 814
5853
+ },
5854
+ {
5855
+ "epoch": 0.015621705545226275,
5856
+ "grad_norm": 0.12977555394172668,
5857
+ "learning_rate": 5.373581430496215e-05,
5858
+ "loss": 1.5655,
5859
+ "step": 815
5860
+ },
5861
+ {
5862
+ "epoch": 0.015640873282091582,
5863
+ "grad_norm": 0.14951717853546143,
5864
+ "learning_rate": 5.3454609787753874e-05,
5865
+ "loss": 1.2403,
5866
+ "step": 816
5867
+ },
5868
+ {
5869
+ "epoch": 0.01566004101895689,
5870
+ "grad_norm": 0.15313448011875153,
5871
+ "learning_rate": 5.3173271694445934e-05,
5872
+ "loss": 1.3189,
5873
+ "step": 817
5874
+ },
5875
+ {
5876
+ "epoch": 0.0156792087558222,
5877
+ "grad_norm": 0.15912052989006042,
5878
+ "learning_rate": 5.289180954728744e-05,
5879
+ "loss": 1.7737,
5880
+ "step": 818
5881
+ },
5882
+ {
5883
+ "epoch": 0.01569837649268751,
5884
+ "grad_norm": 0.11720007658004761,
5885
+ "learning_rate": 5.2610232872726344e-05,
5886
+ "loss": 1.5078,
5887
+ "step": 819
5888
+ },
5889
+ {
5890
+ "epoch": 0.015717544229552818,
5891
+ "grad_norm": 0.1603204905986786,
5892
+ "learning_rate": 5.232855120108686e-05,
5893
+ "loss": 1.5153,
5894
+ "step": 820
5895
+ },
5896
+ {
5897
+ "epoch": 0.015736711966418127,
5898
+ "grad_norm": 0.1426832377910614,
5899
+ "learning_rate": 5.204677406624701e-05,
5900
+ "loss": 1.3705,
5901
+ "step": 821
5902
+ },
5903
+ {
5904
+ "epoch": 0.015755879703283432,
5905
+ "grad_norm": 0.18909388780593872,
5906
+ "learning_rate": 5.176491100531584e-05,
5907
+ "loss": 1.5634,
5908
+ "step": 822
5909
+ },
5910
+ {
5911
+ "epoch": 0.01577504744014874,
5912
+ "grad_norm": 0.11742043495178223,
5913
+ "learning_rate": 5.148297155831072e-05,
5914
+ "loss": 1.7318,
5915
+ "step": 823
5916
+ },
5917
+ {
5918
+ "epoch": 0.01579421517701405,
5919
+ "grad_norm": 0.1602964997291565,
5920
+ "learning_rate": 5.1200965267834384e-05,
5921
+ "loss": 1.2726,
5922
+ "step": 824
5923
+ },
5924
+ {
5925
+ "epoch": 0.01581338291387936,
5926
+ "grad_norm": 0.12343866378068924,
5927
+ "learning_rate": 5.091890167875197e-05,
5928
+ "loss": 1.344,
5929
+ "step": 825
5930
+ },
5931
+ {
5932
+ "epoch": 0.01581338291387936,
5933
+ "eval_loss": 1.467738151550293,
5934
+ "eval_runtime": 2532.0079,
5935
+ "eval_samples_per_second": 36.63,
5936
+ "eval_steps_per_second": 18.315,
5937
+ "step": 825
5938
+ },
5939
+ {
5940
+ "epoch": 0.01581338291387936,
5941
+ "eval_loss": 1.5087077617645264,
5942
+ "eval_runtime": 2531.6284,
5943
+ "eval_samples_per_second": 36.636,
5944
+ "eval_steps_per_second": 18.318,
5945
+ "step": 825
5946
+ },
5947
+ {
5948
+ "epoch": 0.015832550650744667,
5949
+ "grad_norm": 0.1388055682182312,
5950
+ "learning_rate": 5.0636790337867974e-05,
5951
+ "loss": 1.8056,
5952
+ "step": 826
5953
+ },
5954
+ {
5955
+ "epoch": 0.015851718387609976,
5956
+ "grad_norm": 0.14199969172477722,
5957
+ "learning_rate": 5.035464079360311e-05,
5958
+ "loss": 1.4404,
5959
+ "step": 827
5960
+ },
5961
+ {
5962
+ "epoch": 0.01587088612447528,
5963
+ "grad_norm": 0.12653231620788574,
5964
+ "learning_rate": 5.007246259567111e-05,
5965
+ "loss": 1.5827,
5966
+ "step": 828
5967
+ },
5968
+ {
5969
+ "epoch": 0.01589005386134059,
5970
+ "grad_norm": 0.12284441292285919,
5971
+ "learning_rate": 4.979026529475555e-05,
5972
+ "loss": 1.1822,
5973
+ "step": 829
5974
+ },
5975
+ {
5976
+ "epoch": 0.0159092215982059,
5977
+ "grad_norm": 0.13183721899986267,
5978
+ "learning_rate": 4.9508058442186563e-05,
5979
+ "loss": 1.6911,
5980
+ "step": 830
5981
+ },
5982
+ {
5983
+ "epoch": 0.015928389335071208,
5984
+ "grad_norm": 0.17767372727394104,
5985
+ "learning_rate": 4.922585158961757e-05,
5986
+ "loss": 1.2546,
5987
+ "step": 831
5988
+ },
5989
+ {
5990
+ "epoch": 0.015947557071936517,
5991
+ "grad_norm": 0.11520732939243317,
5992
+ "learning_rate": 4.894365428870203e-05,
5993
+ "loss": 1.3013,
5994
+ "step": 832
5995
+ },
5996
+ {
5997
+ "epoch": 0.015966724808801826,
5998
+ "grad_norm": 0.1350078135728836,
5999
+ "learning_rate": 4.866147609077002e-05,
6000
+ "loss": 1.8165,
6001
+ "step": 833
6002
+ },
6003
+ {
6004
+ "epoch": 0.015985892545667135,
6005
+ "grad_norm": 0.12163300812244415,
6006
+ "learning_rate": 4.837932654650515e-05,
6007
+ "loss": 1.5469,
6008
+ "step": 834
6009
+ },
6010
+ {
6011
+ "epoch": 0.01600506028253244,
6012
+ "grad_norm": 0.13528017699718475,
6013
+ "learning_rate": 4.8097215205621156e-05,
6014
+ "loss": 1.0834,
6015
+ "step": 835
6016
+ },
6017
+ {
6018
+ "epoch": 0.01602422801939775,
6019
+ "grad_norm": 0.1524435132741928,
6020
+ "learning_rate": 4.7815151616538764e-05,
6021
+ "loss": 1.3997,
6022
+ "step": 836
6023
+ },
6024
+ {
6025
+ "epoch": 0.016043395756263058,
6026
+ "grad_norm": 0.10823335498571396,
6027
+ "learning_rate": 4.7533145326062416e-05,
6028
+ "loss": 1.592,
6029
+ "step": 837
6030
+ },
6031
+ {
6032
+ "epoch": 0.016062563493128366,
6033
+ "grad_norm": 0.09441324323415756,
6034
+ "learning_rate": 4.725120587905729e-05,
6035
+ "loss": 1.3389,
6036
+ "step": 838
6037
+ },
6038
+ {
6039
+ "epoch": 0.016081731229993675,
6040
+ "grad_norm": 0.12699145078659058,
6041
+ "learning_rate": 4.6969342818126124e-05,
6042
+ "loss": 1.5813,
6043
+ "step": 839
6044
+ },
6045
+ {
6046
+ "epoch": 0.016100898966858984,
6047
+ "grad_norm": 0.16241148114204407,
6048
+ "learning_rate": 4.668756568328627e-05,
6049
+ "loss": 1.5295,
6050
+ "step": 840
6051
+ },
6052
+ {
6053
+ "epoch": 0.016120066703724293,
6054
+ "grad_norm": 0.14051668345928192,
6055
+ "learning_rate": 4.640588401164678e-05,
6056
+ "loss": 1.6318,
6057
+ "step": 841
6058
+ },
6059
+ {
6060
+ "epoch": 0.0161392344405896,
6061
+ "grad_norm": 0.10982175916433334,
6062
+ "learning_rate": 4.612430733708568e-05,
6063
+ "loss": 1.1175,
6064
+ "step": 842
6065
+ },
6066
+ {
6067
+ "epoch": 0.016158402177454907,
6068
+ "grad_norm": 0.11348648369312286,
6069
+ "learning_rate": 4.5842845189927214e-05,
6070
+ "loss": 1.4904,
6071
+ "step": 843
6072
+ },
6073
+ {
6074
+ "epoch": 0.016177569914320216,
6075
+ "grad_norm": 0.1736602485179901,
6076
+ "learning_rate": 4.556150709661925e-05,
6077
+ "loss": 1.5621,
6078
+ "step": 844
6079
+ },
6080
+ {
6081
+ "epoch": 0.016196737651185525,
6082
+ "grad_norm": 0.153645321726799,
6083
+ "learning_rate": 4.5280302579410976e-05,
6084
+ "loss": 1.6168,
6085
+ "step": 845
6086
+ },
6087
+ {
6088
+ "epoch": 0.016215905388050834,
6089
+ "grad_norm": 0.12852360308170319,
6090
+ "learning_rate": 4.4999241156030496e-05,
6091
+ "loss": 1.0716,
6092
+ "step": 846
6093
+ },
6094
+ {
6095
+ "epoch": 0.016235073124916143,
6096
+ "grad_norm": 0.10657412558794022,
6097
+ "learning_rate": 4.471833233936268e-05,
6098
+ "loss": 1.876,
6099
+ "step": 847
6100
+ },
6101
+ {
6102
+ "epoch": 0.016254240861781448,
6103
+ "grad_norm": 0.15090149641036987,
6104
+ "learning_rate": 4.443758563712728e-05,
6105
+ "loss": 1.3017,
6106
+ "step": 848
6107
+ },
6108
+ {
6109
+ "epoch": 0.016273408598646757,
6110
+ "grad_norm": 0.18283763527870178,
6111
+ "learning_rate": 4.415701055155704e-05,
6112
+ "loss": 1.8782,
6113
+ "step": 849
6114
+ },
6115
+ {
6116
+ "epoch": 0.016292576335512066,
6117
+ "grad_norm": 0.12587769329547882,
6118
+ "learning_rate": 4.3876616579076144e-05,
6119
+ "loss": 1.647,
6120
+ "step": 850
6121
+ },
6122
+ {
6123
+ "epoch": 0.016311744072377374,
6124
+ "grad_norm": 0.19330890476703644,
6125
+ "learning_rate": 4.3596413209978774e-05,
6126
+ "loss": 1.8159,
6127
+ "step": 851
6128
+ },
6129
+ {
6130
+ "epoch": 0.016330911809242683,
6131
+ "grad_norm": 0.16183598339557648,
6132
+ "learning_rate": 4.331640992810784e-05,
6133
+ "loss": 1.2802,
6134
+ "step": 852
6135
+ },
6136
+ {
6137
+ "epoch": 0.016350079546107992,
6138
+ "grad_norm": 0.1407604068517685,
6139
+ "learning_rate": 4.303661621053412e-05,
6140
+ "loss": 1.1006,
6141
+ "step": 853
6142
+ },
6143
+ {
6144
+ "epoch": 0.0163692472829733,
6145
+ "grad_norm": 0.15612633526325226,
6146
+ "learning_rate": 4.275704152723539e-05,
6147
+ "loss": 1.4314,
6148
+ "step": 854
6149
+ },
6150
+ {
6151
+ "epoch": 0.016388415019838606,
6152
+ "grad_norm": 0.1078529953956604,
6153
+ "learning_rate": 4.2477695340775884e-05,
6154
+ "loss": 1.8136,
6155
+ "step": 855
6156
+ },
6157
+ {
6158
+ "epoch": 0.016407582756703915,
6159
+ "grad_norm": 0.1912553310394287,
6160
+ "learning_rate": 4.2198587105986126e-05,
6161
+ "loss": 1.303,
6162
+ "step": 856
6163
+ },
6164
+ {
6165
+ "epoch": 0.016426750493569224,
6166
+ "grad_norm": 0.10706888884305954,
6167
+ "learning_rate": 4.1919726269642844e-05,
6168
+ "loss": 1.119,
6169
+ "step": 857
6170
+ },
6171
+ {
6172
+ "epoch": 0.016445918230434533,
6173
+ "grad_norm": 0.13584940135478973,
6174
+ "learning_rate": 4.164112227014926e-05,
6175
+ "loss": 1.1873,
6176
+ "step": 858
6177
+ },
6178
+ {
6179
+ "epoch": 0.016465085967299842,
6180
+ "grad_norm": 0.12513437867164612,
6181
+ "learning_rate": 4.136278453721558e-05,
6182
+ "loss": 1.1956,
6183
+ "step": 859
6184
+ },
6185
+ {
6186
+ "epoch": 0.01648425370416515,
6187
+ "grad_norm": 0.14521580934524536,
6188
+ "learning_rate": 4.108472249153991e-05,
6189
+ "loss": 1.3369,
6190
+ "step": 860
6191
+ },
6192
+ {
6193
+ "epoch": 0.016503421441030456,
6194
+ "grad_norm": 0.12698303163051605,
6195
+ "learning_rate": 4.080694554448936e-05,
6196
+ "loss": 1.6408,
6197
+ "step": 861
6198
+ },
6199
+ {
6200
+ "epoch": 0.016522589177895765,
6201
+ "grad_norm": 0.10518490523099899,
6202
+ "learning_rate": 4.052946309778153e-05,
6203
+ "loss": 1.6527,
6204
+ "step": 862
6205
+ },
6206
+ {
6207
+ "epoch": 0.016541756914761074,
6208
+ "grad_norm": 0.11144135892391205,
6209
+ "learning_rate": 4.025228454316622e-05,
6210
+ "loss": 1.451,
6211
+ "step": 863
6212
+ },
6213
+ {
6214
+ "epoch": 0.016560924651626382,
6215
+ "grad_norm": 0.1137765496969223,
6216
+ "learning_rate": 3.997541926210768e-05,
6217
+ "loss": 1.1639,
6218
+ "step": 864
6219
+ },
6220
+ {
6221
+ "epoch": 0.01658009238849169,
6222
+ "grad_norm": 0.11371007561683655,
6223
+ "learning_rate": 3.9698876625466985e-05,
6224
+ "loss": 1.5035,
6225
+ "step": 865
6226
+ },
6227
+ {
6228
+ "epoch": 0.016599260125357,
6229
+ "grad_norm": 0.17619284987449646,
6230
+ "learning_rate": 3.942266599318488e-05,
6231
+ "loss": 1.4435,
6232
+ "step": 866
6233
+ },
6234
+ {
6235
+ "epoch": 0.01661842786222231,
6236
+ "grad_norm": 0.1566302627325058,
6237
+ "learning_rate": 3.9146796713965005e-05,
6238
+ "loss": 1.4801,
6239
+ "step": 867
6240
+ },
6241
+ {
6242
+ "epoch": 0.016637595599087614,
6243
+ "grad_norm": 0.17392432689666748,
6244
+ "learning_rate": 3.887127812495748e-05,
6245
+ "loss": 1.2481,
6246
+ "step": 868
6247
+ },
6248
+ {
6249
+ "epoch": 0.016656763335952923,
6250
+ "grad_norm": 0.1386740505695343,
6251
+ "learning_rate": 3.859611955144288e-05,
6252
+ "loss": 1.4188,
6253
+ "step": 869
6254
+ },
6255
+ {
6256
+ "epoch": 0.016675931072818232,
6257
+ "grad_norm": 0.1529177874326706,
6258
+ "learning_rate": 3.8321330306516535e-05,
6259
+ "loss": 1.7615,
6260
+ "step": 870
6261
+ },
6262
+ {
6263
+ "epoch": 0.01669509880968354,
6264
+ "grad_norm": 0.13424637913703918,
6265
+ "learning_rate": 3.804691969077342e-05,
6266
+ "loss": 1.4151,
6267
+ "step": 871
6268
+ },
6269
+ {
6270
+ "epoch": 0.01671426654654885,
6271
+ "grad_norm": 0.11477918922901154,
6272
+ "learning_rate": 3.7772896991993334e-05,
6273
+ "loss": 1.3577,
6274
+ "step": 872
6275
+ },
6276
+ {
6277
+ "epoch": 0.01673343428341416,
6278
+ "grad_norm": 0.17588411271572113,
6279
+ "learning_rate": 3.749927148482647e-05,
6280
+ "loss": 1.551,
6281
+ "step": 873
6282
+ },
6283
+ {
6284
+ "epoch": 0.016752602020279464,
6285
+ "grad_norm": 0.1304953545331955,
6286
+ "learning_rate": 3.7226052430479594e-05,
6287
+ "loss": 1.2935,
6288
+ "step": 874
6289
+ },
6290
+ {
6291
+ "epoch": 0.016771769757144773,
6292
+ "grad_norm": 0.10543167591094971,
6293
+ "learning_rate": 3.695324907640256e-05,
6294
+ "loss": 1.2343,
6295
+ "step": 875
6296
+ },
6297
+ {
6298
+ "epoch": 0.01679093749401008,
6299
+ "grad_norm": 0.12932707369327545,
6300
+ "learning_rate": 3.668087065597534e-05,
6301
+ "loss": 1.8215,
6302
+ "step": 876
6303
+ },
6304
+ {
6305
+ "epoch": 0.01681010523087539,
6306
+ "grad_norm": 0.1890428364276886,
6307
+ "learning_rate": 3.640892638819539e-05,
6308
+ "loss": 1.9125,
6309
+ "step": 877
6310
+ },
6311
+ {
6312
+ "epoch": 0.0168292729677407,
6313
+ "grad_norm": 0.14469286799430847,
6314
+ "learning_rate": 3.61374254773658e-05,
6315
+ "loss": 1.521,
6316
+ "step": 878
6317
+ },
6318
+ {
6319
+ "epoch": 0.016848440704606008,
6320
+ "grad_norm": 0.12144976854324341,
6321
+ "learning_rate": 3.586637711278363e-05,
6322
+ "loss": 1.2526,
6323
+ "step": 879
6324
+ },
6325
+ {
6326
+ "epoch": 0.016867608441471317,
6327
+ "grad_norm": 0.2042318731546402,
6328
+ "learning_rate": 3.5595790468428974e-05,
6329
+ "loss": 1.351,
6330
+ "step": 880
6331
+ },
6332
+ {
6333
+ "epoch": 0.016886776178336622,
6334
+ "grad_norm": 0.15050017833709717,
6335
+ "learning_rate": 3.532567470265434e-05,
6336
+ "loss": 1.2813,
6337
+ "step": 881
6338
+ },
6339
+ {
6340
+ "epoch": 0.01690594391520193,
6341
+ "grad_norm": 0.1257251501083374,
6342
+ "learning_rate": 3.5056038957874806e-05,
6343
+ "loss": 1.4732,
6344
+ "step": 882
6345
+ },
6346
+ {
6347
+ "epoch": 0.01692511165206724,
6348
+ "grad_norm": 0.16458237171173096,
6349
+ "learning_rate": 3.478689236025853e-05,
6350
+ "loss": 1.169,
6351
+ "step": 883
6352
+ },
6353
+ {
6354
+ "epoch": 0.01694427938893255,
6355
+ "grad_norm": 0.1077469140291214,
6356
+ "learning_rate": 3.451824401941778e-05,
6357
+ "loss": 1.4696,
6358
+ "step": 884
6359
+ },
6360
+ {
6361
+ "epoch": 0.016963447125797858,
6362
+ "grad_norm": 0.18079222738742828,
6363
+ "learning_rate": 3.425010302810077e-05,
6364
+ "loss": 1.1604,
6365
+ "step": 885
6366
+ },
6367
+ {
6368
+ "epoch": 0.016982614862663167,
6369
+ "grad_norm": 0.1286560446023941,
6370
+ "learning_rate": 3.398247846188376e-05,
6371
+ "loss": 1.4951,
6372
+ "step": 886
6373
+ },
6374
+ {
6375
+ "epoch": 0.017001782599528472,
6376
+ "grad_norm": 0.13332948088645935,
6377
+ "learning_rate": 3.3715379378863995e-05,
6378
+ "loss": 1.18,
6379
+ "step": 887
6380
+ },
6381
+ {
6382
+ "epoch": 0.01702095033639378,
6383
+ "grad_norm": 0.1720653772354126,
6384
+ "learning_rate": 3.344881481935299e-05,
6385
+ "loss": 1.606,
6386
+ "step": 888
6387
+ },
6388
+ {
6389
+ "epoch": 0.01704011807325909,
6390
+ "grad_norm": 0.17775127291679382,
6391
+ "learning_rate": 3.3182793805570675e-05,
6392
+ "loss": 2.1922,
6393
+ "step": 889
6394
+ },
6395
+ {
6396
+ "epoch": 0.0170592858101244,
6397
+ "grad_norm": 0.1610146164894104,
6398
+ "learning_rate": 3.291732534134e-05,
6399
+ "loss": 1.4212,
6400
+ "step": 890
6401
+ },
6402
+ {
6403
+ "epoch": 0.017078453546989707,
6404
+ "grad_norm": 3.0537126064300537,
6405
+ "learning_rate": 3.26524184117821e-05,
6406
+ "loss": 2.2348,
6407
+ "step": 891
6408
+ },
6409
+ {
6410
+ "epoch": 0.017097621283855016,
6411
+ "grad_norm": 0.1203082874417305,
6412
+ "learning_rate": 3.2388081983012314e-05,
6413
+ "loss": 1.2908,
6414
+ "step": 892
6415
+ },
6416
+ {
6417
+ "epoch": 0.017116789020720325,
6418
+ "grad_norm": 0.13465985655784607,
6419
+ "learning_rate": 3.212432500183657e-05,
6420
+ "loss": 1.128,
6421
+ "step": 893
6422
+ },
6423
+ {
6424
+ "epoch": 0.01713595675758563,
6425
+ "grad_norm": 0.1260255128145218,
6426
+ "learning_rate": 3.1861156395448755e-05,
6427
+ "loss": 1.7501,
6428
+ "step": 894
6429
+ },
6430
+ {
6431
+ "epoch": 0.01715512449445094,
6432
+ "grad_norm": 0.19205020368099213,
6433
+ "learning_rate": 3.159858507112833e-05,
6434
+ "loss": 1.4086,
6435
+ "step": 895
6436
+ },
6437
+ {
6438
+ "epoch": 0.017174292231316248,
6439
+ "grad_norm": 0.11290293186903,
6440
+ "learning_rate": 3.1336619915939084e-05,
6441
+ "loss": 1.4479,
6442
+ "step": 896
6443
+ },
6444
+ {
6445
+ "epoch": 0.017193459968181557,
6446
+ "grad_norm": 0.12862160801887512,
6447
+ "learning_rate": 3.107526979642819e-05,
6448
+ "loss": 1.3166,
6449
+ "step": 897
6450
+ },
6451
+ {
6452
+ "epoch": 0.017212627705046866,
6453
+ "grad_norm": 0.12488026171922684,
6454
+ "learning_rate": 3.0814543558326143e-05,
6455
+ "loss": 1.2115,
6456
+ "step": 898
6457
+ },
6458
+ {
6459
+ "epoch": 0.017231795441912175,
6460
+ "grad_norm": 0.15966151654720306,
6461
+ "learning_rate": 3.055445002624737e-05,
6462
+ "loss": 1.5335,
6463
+ "step": 899
6464
+ },
6465
+ {
6466
+ "epoch": 0.01725096317877748,
6467
+ "grad_norm": 0.12605780363082886,
6468
+ "learning_rate": 3.0294998003391566e-05,
6469
+ "loss": 1.5669,
6470
+ "step": 900
6471
+ },
6472
+ {
6473
+ "epoch": 0.01725096317877748,
6474
+ "eval_loss": 1.46342933177948,
6475
+ "eval_runtime": 2529.5354,
6476
+ "eval_samples_per_second": 36.666,
6477
+ "eval_steps_per_second": 18.333,
6478
+ "step": 900
6479
+ },
6480
+ {
6481
+ "epoch": 0.01725096317877748,
6482
+ "eval_loss": 1.5044798851013184,
6483
+ "eval_runtime": 2568.8275,
6484
+ "eval_samples_per_second": 36.105,
6485
+ "eval_steps_per_second": 18.053,
6486
+ "step": 900
6487
  }
6488
  ],
6489
  "logging_steps": 1,
 
6498
  "should_evaluate": false,
6499
  "should_log": false,
6500
  "should_save": true,
6501
+ "should_training_stop": true
6502
  },
6503
  "attributes": {}
6504
  }
6505
  },
6506
+ "total_flos": 1.1870280980727398e+17,
6507
  "train_batch_size": 4,
6508
  "trial_name": null,
6509
  "trial_params": null