Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +8 -8
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +298 -298
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -12,24 +12,24 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "down_proj",
     "k_proj",
-    "q_proj",
     "gate_proj",
-    "v_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 96,
   "lora_bias": false,
+  "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 48,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "gate_proj",
+    "up_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f67fb93d73ef689e29fced3646888b9acac71ded7ce8bdc2e47a329b3d916111
-size 957942768

 version https://git-lfs.github.com/spec/v1
+oid sha256:cba0b76173da997b59cb7a5e1fcd715c9862b2f1bbf3b91d8ff2fc9c798e757d
+size 359270696

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74d8c8563d3fd92da4fa183b9c5a3bef0b8fabc91f3062232d31df923404a061
-size 1916174411

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbb604a23b99a11cbf1db6886d978776df8e140f11a8a277fc8b32f968eb15d7
+size 718831691

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5b517d1b8e2b0f837c8b00170b154961d4d989feba4326ac25583df7a55c57a
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3d312928d0bb60518eb9856d5ab0ae1674bcb745294bf27f615cb6d07b0463e
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c4e44404b58ce3af1b46c3d4a85a59edbbc386f340c476e894715a1199e1aed
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5418e0fc9a3a6a50ea3a7b440dfb8b2fa26686b28c8f28256150a09922035962
 size 1465

trainer_state.json CHANGED Viewed

@@ -11,702 +11,702 @@
   "log_history": [
     {
       "epoch": 0.05063291139240506,
-      "grad_norm": 59.950523376464844,
       "learning_rate": 0.0,
       "loss": 3.0474,
       "step": 1
     },
     {
       "epoch": 0.10126582278481013,
-      "grad_norm": 97.50016021728516,
-      "learning_rate": 3.3333333333333333e-06,
       "loss": 3.2925,
       "step": 2
     },
     {
       "epoch": 0.1518987341772152,
-      "grad_norm": 19.85240364074707,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 3.0614,
       "step": 3
     },
     {
       "epoch": 0.20253164556962025,
-      "grad_norm": 12.535090446472168,
-      "learning_rate": 1e-05,
-      "loss": 2.6279,
       "step": 4
     },
     {
       "epoch": 0.25316455696202533,
-      "grad_norm": 7.785061359405518,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 2.1835,
       "step": 5
     },
     {
       "epoch": 0.3037974683544304,
-      "grad_norm": 11.934365272521973,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 2.769,
       "step": 6
     },
     {
       "epoch": 0.35443037974683544,
-      "grad_norm": 14.708230972290039,
-      "learning_rate": 2e-05,
-      "loss": 2.5474,
       "step": 7
     },
     {
       "epoch": 0.4050632911392405,
-      "grad_norm": 9.574464797973633,
-      "learning_rate": 2.3333333333333336e-05,
-      "loss": 2.3995,
       "step": 8
     },
     {
       "epoch": 0.45569620253164556,
-      "grad_norm": 10.295364379882812,
-      "learning_rate": 2.6666666666666667e-05,
-      "loss": 2.7588,
       "step": 9
     },
     {
       "epoch": 0.5063291139240507,
-      "grad_norm": 9.11987590789795,
-      "learning_rate": 3e-05,
-      "loss": 2.5851,
       "step": 10
     },
     {
       "epoch": 0.5569620253164557,
-      "grad_norm": 9.329511642456055,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 2.7085,
       "step": 11
     },
     {
       "epoch": 0.6075949367088608,
-      "grad_norm": 169.67454528808594,
-      "learning_rate": 3.6666666666666666e-05,
-      "loss": 2.7721,
       "step": 12
     },
     {
       "epoch": 0.6582278481012658,
-      "grad_norm": 10.326493263244629,
-      "learning_rate": 4e-05,
-      "loss": 2.5592,
       "step": 13
     },
     {
       "epoch": 0.7088607594936709,
-      "grad_norm": 9.250118255615234,
-      "learning_rate": 4.3333333333333334e-05,
-      "loss": 2.1627,
       "step": 14
     },
     {
       "epoch": 0.759493670886076,
-      "grad_norm": 10.431126594543457,
-      "learning_rate": 4.666666666666667e-05,
-      "loss": 2.3183,
       "step": 15
     },
     {
       "epoch": 0.810126582278481,
-      "grad_norm": 12.514673233032227,
-      "learning_rate": 5e-05,
-      "loss": 2.7197,
       "step": 16
     },
     {
       "epoch": 0.8607594936708861,
-      "grad_norm": 8.918922424316406,
-      "learning_rate": 4.998292650357558e-05,
-      "loss": 2.482,
       "step": 17
     },
     {
       "epoch": 0.9113924050632911,
-      "grad_norm": 9.795475006103516,
-      "learning_rate": 4.993172933464471e-05,
-      "loss": 2.9793,
       "step": 18
     },
     {
       "epoch": 0.9620253164556962,
-      "grad_norm": 8.159234046936035,
-      "learning_rate": 4.984647842238185e-05,
-      "loss": 2.4679,
       "step": 19
     },
     {
       "epoch": 1.0,
-      "grad_norm": 9.91518497467041,
-      "learning_rate": 4.972729020927865e-05,
-      "loss": 2.3049,
       "step": 20
     },
     {
       "epoch": 1.0506329113924051,
-      "grad_norm": 7.462806701660156,
-      "learning_rate": 4.957432749209755e-05,
-      "loss": 1.9516,
       "step": 21
     },
     {
       "epoch": 1.1012658227848102,
-      "grad_norm": 11.39200210571289,
-      "learning_rate": 4.938779919951092e-05,
-      "loss": 1.7985,
       "step": 22
     },
     {
       "epoch": 1.1518987341772151,
-      "grad_norm": 38.71971130371094,
-      "learning_rate": 4.916796010672969e-05,
-      "loss": 1.9365,
       "step": 23
     },
     {
       "epoch": 1.2025316455696202,
-      "grad_norm": 12.706032752990723,
-      "learning_rate": 4.891511048751102e-05,
-      "loss": 1.9979,
       "step": 24
     },
     {
       "epoch": 1.2531645569620253,
-      "grad_norm": 7.104768753051758,
-      "learning_rate": 4.862959570402049e-05,
-      "loss": 1.5809,
       "step": 25
     },
     {
       "epoch": 1.3037974683544304,
-      "grad_norm": 9.931644439697266,
-      "learning_rate": 4.8311805735108894e-05,
-      "loss": 2.2397,
       "step": 26
     },
     {
       "epoch": 1.3544303797468356,
-      "grad_norm": 12.904341697692871,
-      "learning_rate": 4.796217464364808e-05,
-      "loss": 2.111,
       "step": 27
     },
     {
       "epoch": 1.4050632911392404,
-      "grad_norm": 9.214466094970703,
-      "learning_rate": 4.758117998365322e-05,
-      "loss": 1.8629,
       "step": 28
     },
     {
       "epoch": 1.4556962025316456,
-      "grad_norm": 8.815692901611328,
-      "learning_rate": 4.716934214800155e-05,
-      "loss": 1.8746,
       "step": 29
     },
     {
       "epoch": 1.5063291139240507,
-      "grad_norm": 6.838780879974365,
-      "learning_rate": 4.672722365763821e-05,
-      "loss": 1.5414,
       "step": 30
     },
     {
       "epoch": 1.5569620253164556,
-      "grad_norm": 8.139121055603027,
-      "learning_rate": 4.625542839324036e-05,
-      "loss": 1.6602,
       "step": 31
     },
     {
       "epoch": 1.6075949367088609,
-      "grad_norm": 7.884446620941162,
-      "learning_rate": 4.575460077038877e-05,
-      "loss": 1.8808,
       "step": 32
     },
     {
       "epoch": 1.6582278481012658,
-      "grad_norm": 7.442699432373047,
-      "learning_rate": 4.522542485937369e-05,
-      "loss": 1.6506,
       "step": 33
     },
     {
       "epoch": 1.7088607594936709,
-      "grad_norm": 8.191823959350586,
-      "learning_rate": 4.4668623450837085e-05,
-      "loss": 1.8345,
       "step": 34
     },
     {
       "epoch": 1.759493670886076,
-      "grad_norm": 11.364486694335938,
-      "learning_rate": 4.408495706852758e-05,
-      "loss": 1.9866,
       "step": 35
     },
     {
       "epoch": 1.810126582278481,
-      "grad_norm": 11.59144115447998,
-      "learning_rate": 4.347522293051648e-05,
-      "loss": 1.9569,
       "step": 36
     },
     {
       "epoch": 1.8607594936708862,
-      "grad_norm": 6.322240829467773,
-      "learning_rate": 4.284025386029381e-05,
-      "loss": 1.5203,
       "step": 37
     },
     {
       "epoch": 1.9113924050632911,
-      "grad_norm": 9.493250846862793,
-      "learning_rate": 4.218091714923157e-05,
-      "loss": 2.1347,
       "step": 38
     },
     {
       "epoch": 1.9620253164556962,
-      "grad_norm": 7.811888217926025,
-      "learning_rate": 4.149811337196807e-05,
-      "loss": 1.6241,
       "step": 39
     },
     {
       "epoch": 2.0,
-      "grad_norm": 211.09934997558594,
-      "learning_rate": 4.079277515633127e-05,
-      "loss": 2.5542,
       "step": 40
     },
     {
       "epoch": 2.050632911392405,
-      "grad_norm": 14.255730628967285,
-      "learning_rate": 4.0065865909481417e-05,
-      "loss": 1.3737,
       "step": 41
     },
     {
       "epoch": 2.1012658227848102,
-      "grad_norm": 8.713842391967773,
-      "learning_rate": 3.931837850201263e-05,
-      "loss": 1.4809,
       "step": 42
     },
     {
       "epoch": 2.151898734177215,
-      "grad_norm": 7.860729217529297,
-      "learning_rate": 3.855133391181124e-05,
-      "loss": 1.2102,
       "step": 43
     },
     {
       "epoch": 2.2025316455696204,
-      "grad_norm": 7.420332908630371,
-      "learning_rate": 3.7765779829522675e-05,
-      "loss": 1.1833,
       "step": 44
     },
     {
       "epoch": 2.2531645569620253,
-      "grad_norm": 10.270529747009277,
-      "learning_rate": 3.696278922753216e-05,
-      "loss": 1.4396,
       "step": 45
     },
     {
       "epoch": 2.3037974683544302,
-      "grad_norm": 10.930971145629883,
-      "learning_rate": 3.6143458894413465e-05,
-      "loss": 1.3466,
       "step": 46
     },
     {
       "epoch": 2.3544303797468356,
-      "grad_norm": 7.2761125564575195,
-      "learning_rate": 3.5308907936847594e-05,
-      "loss": 1.0504,
       "step": 47
     },
     {
       "epoch": 2.4050632911392404,
-      "grad_norm": 6.623189926147461,
-      "learning_rate": 3.446027625105776e-05,
-      "loss": 1.4782,
       "step": 48
     },
     {
       "epoch": 2.4556962025316453,
-      "grad_norm": 6.6565985679626465,
-      "learning_rate": 3.3598722965848204e-05,
-      "loss": 1.211,
       "step": 49
     },
     {
       "epoch": 2.5063291139240507,
-      "grad_norm": 7.586391448974609,
-      "learning_rate": 3.272542485937369e-05,
-      "loss": 0.99,
       "step": 50
     },
     {
       "epoch": 2.5569620253164556,
-      "grad_norm": 5.9524312019348145,
-      "learning_rate": 3.1841574751802076e-05,
-      "loss": 1.0821,
       "step": 51
     },
     {
       "epoch": 2.607594936708861,
-      "grad_norm": 8.896554946899414,
-      "learning_rate": 3.094837987606547e-05,
-      "loss": 0.9181,
       "step": 52
     },
     {
       "epoch": 2.6582278481012658,
-      "grad_norm": 6.550152778625488,
-      "learning_rate": 3.0047060228925256e-05,
-      "loss": 1.1579,
       "step": 53
     },
     {
       "epoch": 2.708860759493671,
-      "grad_norm": 9.528509140014648,
-      "learning_rate": 2.913884690460325e-05,
-      "loss": 1.5195,
       "step": 54
     },
     {
       "epoch": 2.759493670886076,
-      "grad_norm": 6.139204978942871,
-      "learning_rate": 2.8224980413255086e-05,
-      "loss": 1.0624,
       "step": 55
     },
     {
       "epoch": 2.810126582278481,
-      "grad_norm": 6.365853309631348,
-      "learning_rate": 2.7306708986582553e-05,
-      "loss": 1.0718,
       "step": 56
     },
     {
       "epoch": 2.8607594936708862,
-      "grad_norm": 14.753962516784668,
-      "learning_rate": 2.638528687289925e-05,
-      "loss": 1.0694,
       "step": 57
     },
     {
       "epoch": 2.911392405063291,
-      "grad_norm": 6.6717305183410645,
-      "learning_rate": 2.5461972623978247e-05,
-      "loss": 1.1045,
       "step": 58
     },
     {
       "epoch": 2.962025316455696,
-      "grad_norm": 10.40539836883545,
-      "learning_rate": 2.453802737602176e-05,
-      "loss": 1.3119,
       "step": 59
     },
     {
       "epoch": 3.0,
-      "grad_norm": 4.392307281494141,
-      "learning_rate": 2.361471312710075e-05,
-      "loss": 0.5706,
       "step": 60
     },
     {
       "epoch": 3.050632911392405,
-      "grad_norm": 5.2546257972717285,
-      "learning_rate": 2.2693291013417453e-05,
-      "loss": 0.6983,
       "step": 61
     },
     {
       "epoch": 3.1012658227848102,
-      "grad_norm": 5.815437316894531,
-      "learning_rate": 2.1775019586744923e-05,
-      "loss": 0.9768,
       "step": 62
     },
     {
       "epoch": 3.151898734177215,
-      "grad_norm": 5.194660186767578,
-      "learning_rate": 2.0861153095396748e-05,
-      "loss": 0.6243,
       "step": 63
     },
     {
       "epoch": 3.2025316455696204,
-      "grad_norm": 4.012391567230225,
-      "learning_rate": 1.995293977107475e-05,
-      "loss": 0.469,
       "step": 64
     },
     {
       "epoch": 3.2531645569620253,
-      "grad_norm": 5.675468444824219,
-      "learning_rate": 1.9051620123934537e-05,
-      "loss": 0.6084,
       "step": 65
     },
     {
       "epoch": 3.3037974683544302,
-      "grad_norm": 5.8908209800720215,
-      "learning_rate": 1.815842524819793e-05,
-      "loss": 0.648,
       "step": 66
     },
     {
       "epoch": 3.3544303797468356,
-      "grad_norm": 7.725429534912109,
-      "learning_rate": 1.7274575140626318e-05,
-      "loss": 0.6949,
       "step": 67
     },
     {
       "epoch": 3.4050632911392404,
-      "grad_norm": 6.168173313140869,
-      "learning_rate": 1.6401277034151798e-05,
-      "loss": 0.9213,
       "step": 68
     },
     {
       "epoch": 3.4556962025316453,
-      "grad_norm": 6.947693347930908,
-      "learning_rate": 1.5539723748942245e-05,
-      "loss": 0.7397,
       "step": 69
     },
     {
       "epoch": 3.5063291139240507,
-      "grad_norm": 5.9794206619262695,
-      "learning_rate": 1.4691092063152417e-05,
-      "loss": 0.5009,
       "step": 70
     },
     {
       "epoch": 3.5569620253164556,
-      "grad_norm": 5.66774320602417,
-      "learning_rate": 1.3856541105586545e-05,
-      "loss": 0.5204,
       "step": 71
     },
     {
       "epoch": 3.607594936708861,
-      "grad_norm": 8.234807014465332,
-      "learning_rate": 1.303721077246784e-05,
-      "loss": 0.8793,
       "step": 72
     },
     {
       "epoch": 3.6582278481012658,
-      "grad_norm": 8.785400390625,
-      "learning_rate": 1.223422017047733e-05,
-      "loss": 0.6229,
       "step": 73
     },
     {
       "epoch": 3.708860759493671,
-      "grad_norm": 6.376526832580566,
-      "learning_rate": 1.1448666088188764e-05,
-      "loss": 0.6154,
       "step": 74
     },
     {
       "epoch": 3.759493670886076,
-      "grad_norm": 7.004448413848877,
-      "learning_rate": 1.068162149798737e-05,
-      "loss": 0.7203,
       "step": 75
     },
     {
       "epoch": 3.810126582278481,
-      "grad_norm": 5.858279705047607,
-      "learning_rate": 9.934134090518593e-06,
-      "loss": 0.5153,
       "step": 76
     },
     {
       "epoch": 3.8607594936708862,
-      "grad_norm": 7.578220844268799,
-      "learning_rate": 9.207224843668732e-06,
-      "loss": 0.7153,
       "step": 77
     },
     {
       "epoch": 3.911392405063291,
-      "grad_norm": 7.869601249694824,
-      "learning_rate": 8.50188662803194e-06,
-      "loss": 0.6988,
       "step": 78
     },
     {
       "epoch": 3.962025316455696,
-      "grad_norm": 6.777385234832764,
-      "learning_rate": 7.819082850768434e-06,
-      "loss": 0.6007,
       "step": 79
     },
     {
       "epoch": 4.0,
-      "grad_norm": 6.161752223968506,
-      "learning_rate": 7.159746139706194e-06,
-      "loss": 0.4779,
       "step": 80
     },
     {
       "epoch": 4.050632911392405,
-      "grad_norm": 5.206139087677002,
-      "learning_rate": 6.524777069483526e-06,
-      "loss": 0.4173,
       "step": 81
     },
     {
       "epoch": 4.10126582278481,
-      "grad_norm": 4.832441329956055,
-      "learning_rate": 5.915042931472425e-06,
-      "loss": 0.4491,
       "step": 82
     },
     {
       "epoch": 4.151898734177215,
-      "grad_norm": 4.783233165740967,
-      "learning_rate": 5.33137654916292e-06,
-      "loss": 0.3311,
       "step": 83
     },
     {
       "epoch": 4.2025316455696204,
-      "grad_norm": 3.099482536315918,
-      "learning_rate": 4.7745751406263165e-06,
-      "loss": 0.2116,
       "step": 84
     },
     {
       "epoch": 4.253164556962025,
-      "grad_norm": 5.326932907104492,
-      "learning_rate": 4.245399229611238e-06,
-      "loss": 0.3897,
       "step": 85
     },
     {
       "epoch": 4.30379746835443,
-      "grad_norm": 4.431222915649414,
-      "learning_rate": 3.7445716067596503e-06,
-      "loss": 0.4973,
       "step": 86
     },
     {
       "epoch": 4.3544303797468356,
-      "grad_norm": 4.217422008514404,
-      "learning_rate": 3.2727763423617913e-06,
-      "loss": 0.182,
       "step": 87
     },
     {
       "epoch": 4.405063291139241,
-      "grad_norm": 5.346303462982178,
-      "learning_rate": 2.8306578519984527e-06,
-      "loss": 0.5239,
       "step": 88
     },
     {
       "epoch": 4.455696202531645,
-      "grad_norm": 8.100042343139648,
-      "learning_rate": 2.418820016346779e-06,
-      "loss": 0.2284,
       "step": 89
     },
     {
       "epoch": 4.506329113924051,
-      "grad_norm": 4.507992267608643,
-      "learning_rate": 2.0378253563519247e-06,
-      "loss": 0.3344,
       "step": 90
     },
     {
       "epoch": 4.556962025316456,
-      "grad_norm": 4.841477394104004,
-      "learning_rate": 1.6881942648911076e-06,
-      "loss": 0.2872,
       "step": 91
     },
     {
       "epoch": 4.6075949367088604,
-      "grad_norm": 4.839809417724609,
-      "learning_rate": 1.3704042959795132e-06,
-      "loss": 0.5436,
       "step": 92
     },
     {
       "epoch": 4.658227848101266,
-      "grad_norm": 3.7410666942596436,
-      "learning_rate": 1.0848895124889818e-06,
-      "loss": 0.3488,
       "step": 93
     },
     {
       "epoch": 4.708860759493671,
-      "grad_norm": 5.837460041046143,
-      "learning_rate": 8.320398932703144e-07,
-      "loss": 0.458,
       "step": 94
     },
     {
       "epoch": 4.759493670886076,
-      "grad_norm": 5.102079391479492,
-      "learning_rate": 6.122008004890851e-07,
-      "loss": 0.2965,
       "step": 95
     },
     {
       "epoch": 4.810126582278481,
-      "grad_norm": 4.543964385986328,
-      "learning_rate": 4.256725079024554e-07,
-      "loss": 0.2352,
       "step": 96
     },
     {
       "epoch": 4.860759493670886,
-      "grad_norm": 4.671619415283203,
-      "learning_rate": 2.7270979072135104e-07,
-      "loss": 0.3958,
       "step": 97
     },
     {
       "epoch": 4.911392405063291,
-      "grad_norm": 5.004724979400635,
-      "learning_rate": 1.5352157761815977e-07,
-      "loss": 0.3075,
       "step": 98
     },
     {
       "epoch": 4.962025316455696,
-      "grad_norm": 4.00545597076416,
-      "learning_rate": 6.827066535529946e-08,
-      "loss": 0.3152,
       "step": 99
     },
     {
       "epoch": 5.0,
-      "grad_norm": 5.139050483703613,
-      "learning_rate": 1.7073496424427348e-08,
-      "loss": 0.1744,
       "step": 100
     }
   ],
@@ -727,7 +727,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.0794717131554816e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.05063291139240506,
+      "grad_norm": 22.15937042236328,
       "learning_rate": 0.0,
       "loss": 3.0474,
       "step": 1
     },
     {
       "epoch": 0.10126582278481013,
+      "grad_norm": 36.183231353759766,
+      "learning_rate": 3.3333333333333335e-05,
       "loss": 3.2925,
       "step": 2
     },
     {
       "epoch": 0.1518987341772152,
+      "grad_norm": 5.320329189300537,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 3.0096,
       "step": 3
     },
     {
       "epoch": 0.20253164556962025,
+      "grad_norm": 4.796537399291992,
+      "learning_rate": 0.0001,
+      "loss": 2.6045,
       "step": 4
     },
     {
       "epoch": 0.25316455696202533,
+      "grad_norm": 2.9281771183013916,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 2.1625,
       "step": 5
     },
     {
       "epoch": 0.3037974683544304,
+      "grad_norm": 7.840775012969971,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 2.7606,
       "step": 6
     },
     {
       "epoch": 0.35443037974683544,
+      "grad_norm": 3.6150004863739014,
+      "learning_rate": 0.0002,
+      "loss": 2.5675,
       "step": 7
     },
     {
       "epoch": 0.4050632911392405,
+      "grad_norm": 3.3033154010772705,
+      "learning_rate": 0.00023333333333333333,
+      "loss": 2.3897,
       "step": 8
     },
     {
       "epoch": 0.45569620253164556,
+      "grad_norm": 4.086965560913086,
+      "learning_rate": 0.0002666666666666667,
+      "loss": 2.755,
       "step": 9
     },
     {
       "epoch": 0.5063291139240507,
+      "grad_norm": 3.734769105911255,
+      "learning_rate": 0.0003,
+      "loss": 2.5837,
       "step": 10
     },
     {
       "epoch": 0.5569620253164557,
+      "grad_norm": 3.2234697341918945,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 2.6353,
       "step": 11
     },
     {
       "epoch": 0.6075949367088608,
+      "grad_norm": 2.629314422607422,
+      "learning_rate": 0.00036666666666666667,
+      "loss": 2.732,
       "step": 12
     },
     {
       "epoch": 0.6582278481012658,
+      "grad_norm": 3.710653066635132,
+      "learning_rate": 0.0004,
+      "loss": 2.4126,
       "step": 13
     },
     {
       "epoch": 0.7088607594936709,
+      "grad_norm": 3.1855616569519043,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 2.0725,
       "step": 14
     },
     {
       "epoch": 0.759493670886076,
+      "grad_norm": 3.34596848487854,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 2.3351,
       "step": 15
     },
     {
       "epoch": 0.810126582278481,
+      "grad_norm": 3.2423255443573,
+      "learning_rate": 0.0005,
+      "loss": 2.7354,
       "step": 16
     },
     {
       "epoch": 0.8607594936708861,
+      "grad_norm": 3.6997056007385254,
+      "learning_rate": 0.0004998292650357557,
+      "loss": 2.6154,
       "step": 17
     },
     {
       "epoch": 0.9113924050632911,
+      "grad_norm": 3.3852779865264893,
+      "learning_rate": 0.0004993172933464471,
+      "loss": 2.9623,
       "step": 18
     },
     {
       "epoch": 0.9620253164556962,
+      "grad_norm": 5.298639297485352,
+      "learning_rate": 0.0004984647842238185,
+      "loss": 2.7019,
       "step": 19
     },
     {
       "epoch": 1.0,
+      "grad_norm": 4.402466773986816,
+      "learning_rate": 0.0004972729020927865,
+      "loss": 2.4495,
       "step": 20
     },
     {
       "epoch": 1.0506329113924051,
+      "grad_norm": 3.915959358215332,
+      "learning_rate": 0.0004957432749209755,
+      "loss": 1.9027,
       "step": 21
     },
     {
       "epoch": 1.1012658227848102,
+      "grad_norm": 2.6463258266448975,
+      "learning_rate": 0.0004938779919951092,
+      "loss": 1.6182,
       "step": 22
     },
     {
       "epoch": 1.1518987341772151,
+      "grad_norm": 3.179638385772705,
+      "learning_rate": 0.0004916796010672969,
+      "loss": 1.6585,
       "step": 23
     },
     {
       "epoch": 1.2025316455696202,
+      "grad_norm": 5.375019550323486,
+      "learning_rate": 0.0004891511048751102,
+      "loss": 1.9379,
       "step": 24
     },
     {
       "epoch": 1.2531645569620253,
+      "grad_norm": 3.4863626956939697,
+      "learning_rate": 0.00048629595704020493,
+      "loss": 1.5123,
       "step": 25
     },
     {
       "epoch": 1.3037974683544304,
+      "grad_norm": 2.945317506790161,
+      "learning_rate": 0.00048311805735108893,
+      "loss": 1.8359,
       "step": 26
     },
     {
       "epoch": 1.3544303797468356,
+      "grad_norm": 4.178781986236572,
+      "learning_rate": 0.0004796217464364808,
+      "loss": 1.8808,
       "step": 27
     },
     {
       "epoch": 1.4050632911392404,
+      "grad_norm": 3.691697597503662,
+      "learning_rate": 0.0004758117998365322,
+      "loss": 1.7988,
       "step": 28
     },
     {
       "epoch": 1.4556962025316456,
+      "grad_norm": 3.262970447540283,
+      "learning_rate": 0.00047169342148001547,
+      "loss": 1.8361,
       "step": 29
     },
     {
       "epoch": 1.5063291139240507,
+      "grad_norm": 3.550689220428467,
+      "learning_rate": 0.0004672722365763821,
+      "loss": 1.609,
       "step": 30
     },
     {
       "epoch": 1.5569620253164556,
+      "grad_norm": 3.615360736846924,
+      "learning_rate": 0.0004625542839324036,
+      "loss": 1.5563,
       "step": 31
     },
     {
       "epoch": 1.6075949367088609,
+      "grad_norm": 2.8636770248413086,
+      "learning_rate": 0.00045754600770388763,
+      "loss": 1.5551,
       "step": 32
     },
     {
       "epoch": 1.6582278481012658,
+      "grad_norm": 4.557415962219238,
+      "learning_rate": 0.0004522542485937369,
+      "loss": 1.7539,
       "step": 33
     },
     {
       "epoch": 1.7088607594936709,
+      "grad_norm": 3.1868419647216797,
+      "learning_rate": 0.0004466862345083708,
+      "loss": 1.7852,
       "step": 34
     },
     {
       "epoch": 1.759493670886076,
+      "grad_norm": 3.380448818206787,
+      "learning_rate": 0.0004408495706852758,
+      "loss": 1.7807,
       "step": 35
     },
     {
       "epoch": 1.810126582278481,
+      "grad_norm": 4.706411838531494,
+      "learning_rate": 0.00043475222930516476,
+      "loss": 1.9616,
       "step": 36
     },
     {
       "epoch": 1.8607594936708862,
+      "grad_norm": 2.568176031112671,
+      "learning_rate": 0.0004284025386029381,
+      "loss": 1.5545,
       "step": 37
     },
     {
       "epoch": 1.9113924050632911,
+      "grad_norm": 3.263295888900757,
+      "learning_rate": 0.00042180917149231567,
+      "loss": 1.7313,
       "step": 38
     },
     {
       "epoch": 1.9620253164556962,
+      "grad_norm": 5.326169967651367,
+      "learning_rate": 0.0004149811337196807,
+      "loss": 1.6959,
       "step": 39
     },
     {
       "epoch": 2.0,
+      "grad_norm": 4.056178569793701,
+      "learning_rate": 0.00040792775156331276,
+      "loss": 1.9885,
       "step": 40
     },
     {
       "epoch": 2.050632911392405,
+      "grad_norm": 2.816775321960449,
+      "learning_rate": 0.0004006586590948141,
+      "loss": 1.079,
       "step": 41
     },
     {
       "epoch": 2.1012658227848102,
+      "grad_norm": 3.266395330429077,
+      "learning_rate": 0.0003931837850201263,
+      "loss": 1.021,
       "step": 42
     },
     {
       "epoch": 2.151898734177215,
+      "grad_norm": 4.753467559814453,
+      "learning_rate": 0.00038551333911811237,
+      "loss": 1.0574,
       "step": 43
     },
     {
       "epoch": 2.2025316455696204,
+      "grad_norm": 4.696927547454834,
+      "learning_rate": 0.00037765779829522674,
+      "loss": 1.1594,
       "step": 44
     },
     {
       "epoch": 2.2531645569620253,
+      "grad_norm": 3.3051199913024902,
+      "learning_rate": 0.00036962789227532164,
+      "loss": 1.0123,
       "step": 45
     },
     {
       "epoch": 2.3037974683544302,
+      "grad_norm": 3.196387767791748,
+      "learning_rate": 0.0003614345889441346,
+      "loss": 1.2621,
       "step": 46
     },
     {
       "epoch": 2.3544303797468356,
+      "grad_norm": 3.5468530654907227,
+      "learning_rate": 0.0003530890793684759,
+      "loss": 1.0165,
       "step": 47
     },
     {
       "epoch": 2.4050632911392404,
+      "grad_norm": 2.5015392303466797,
+      "learning_rate": 0.0003446027625105776,
+      "loss": 1.216,
       "step": 48
     },
     {
       "epoch": 2.4556962025316453,
+      "grad_norm": 2.7021989822387695,
+      "learning_rate": 0.00033598722965848206,
+      "loss": 1.2118,
       "step": 49
     },
     {
       "epoch": 2.5063291139240507,
+      "grad_norm": 3.0691046714782715,
+      "learning_rate": 0.00032725424859373687,
+      "loss": 0.9781,
       "step": 50
     },
     {
       "epoch": 2.5569620253164556,
+      "grad_norm": 2.657027244567871,
+      "learning_rate": 0.0003184157475180208,
+      "loss": 0.9974,
       "step": 51
     },
     {
       "epoch": 2.607594936708861,
+      "grad_norm": 3.9573814868927,
+      "learning_rate": 0.00030948379876065467,
+      "loss": 0.8675,
       "step": 52
     },
     {
       "epoch": 2.6582278481012658,
+      "grad_norm": 2.825610876083374,
+      "learning_rate": 0.00030047060228925254,
+      "loss": 1.0503,
       "step": 53
     },
     {
       "epoch": 2.708860759493671,
+      "grad_norm": 4.903167724609375,
+      "learning_rate": 0.0002913884690460325,
+      "loss": 1.4037,
       "step": 54
     },
     {
       "epoch": 2.759493670886076,
+      "grad_norm": 2.883190393447876,
+      "learning_rate": 0.00028224980413255084,
+      "loss": 0.9242,
       "step": 55
     },
     {
       "epoch": 2.810126582278481,
+      "grad_norm": 2.112745523452759,
+      "learning_rate": 0.0002730670898658255,
+      "loss": 0.8504,
       "step": 56
     },
     {
       "epoch": 2.8607594936708862,
+      "grad_norm": 2.8920631408691406,
+      "learning_rate": 0.0002638528687289925,
+      "loss": 0.8863,
       "step": 57
     },
     {
       "epoch": 2.911392405063291,
+      "grad_norm": 2.817871570587158,
+      "learning_rate": 0.0002546197262397825,
+      "loss": 1.0101,
       "step": 58
     },
     {
       "epoch": 2.962025316455696,
+      "grad_norm": 3.5625603199005127,
+      "learning_rate": 0.0002453802737602176,
+      "loss": 1.138,
       "step": 59
     },
     {
       "epoch": 3.0,
+      "grad_norm": 2.3167858123779297,
+      "learning_rate": 0.00023614713127100752,
+      "loss": 0.5741,
       "step": 60
     },
     {
       "epoch": 3.050632911392405,
+      "grad_norm": 2.5570881366729736,
+      "learning_rate": 0.00022693291013417452,
+      "loss": 0.6103,
       "step": 61
     },
     {
       "epoch": 3.1012658227848102,
+      "grad_norm": 1.9336360692977905,
+      "learning_rate": 0.00021775019586744925,
+      "loss": 0.4277,
       "step": 62
     },
     {
       "epoch": 3.151898734177215,
+      "grad_norm": 2.514486789703369,
+      "learning_rate": 0.0002086115309539675,
+      "loss": 0.6049,
       "step": 63
     },
     {
       "epoch": 3.2025316455696204,
+      "grad_norm": 1.7973552942276,
+      "learning_rate": 0.0001995293977107475,
+      "loss": 0.3149,
       "step": 64
     },
     {
       "epoch": 3.2531645569620253,
+      "grad_norm": 1.9369994401931763,
+      "learning_rate": 0.00019051620123934537,
+      "loss": 0.4559,
       "step": 65
     },
     {
       "epoch": 3.3037974683544302,
+      "grad_norm": 2.178471803665161,
+      "learning_rate": 0.0001815842524819793,
+      "loss": 0.5129,
       "step": 66
     },
     {
       "epoch": 3.3544303797468356,
+      "grad_norm": 2.5989177227020264,
+      "learning_rate": 0.00017274575140626317,
+      "loss": 0.5667,
       "step": 67
     },
     {
       "epoch": 3.4050632911392404,
+      "grad_norm": 2.144813299179077,
+      "learning_rate": 0.00016401277034151795,
+      "loss": 0.575,
       "step": 68
     },
     {
       "epoch": 3.4556962025316453,
+      "grad_norm": 2.2235898971557617,
+      "learning_rate": 0.00015539723748942243,
+      "loss": 0.5374,
       "step": 69
     },
     {
       "epoch": 3.5063291139240507,
+      "grad_norm": 1.9977900981903076,
+      "learning_rate": 0.00014691092063152418,
+      "loss": 0.3938,
       "step": 70
     },
     {
       "epoch": 3.5569620253164556,
+      "grad_norm": 1.750430941581726,
+      "learning_rate": 0.00013856541105586545,
+      "loss": 0.3894,
       "step": 71
     },
     {
       "epoch": 3.607594936708861,
+      "grad_norm": 2.250420570373535,
+      "learning_rate": 0.0001303721077246784,
+      "loss": 0.4814,
       "step": 72
     },
     {
       "epoch": 3.6582278481012658,
+      "grad_norm": 2.961397409439087,
+      "learning_rate": 0.0001223422017047733,
+      "loss": 0.4686,
       "step": 73
     },
     {
       "epoch": 3.708860759493671,
+      "grad_norm": 2.334899425506592,
+      "learning_rate": 0.00011448666088188764,
+      "loss": 0.5233,
       "step": 74
     },
     {
       "epoch": 3.759493670886076,
+      "grad_norm": 2.6683523654937744,
+      "learning_rate": 0.00010681621497987371,
+      "loss": 0.4644,
       "step": 75
     },
     {
       "epoch": 3.810126582278481,
+      "grad_norm": 2.351604461669922,
+      "learning_rate": 9.934134090518593e-05,
+      "loss": 0.4128,
       "step": 76
     },
     {
       "epoch": 3.8607594936708862,
+      "grad_norm": 2.5051443576812744,
+      "learning_rate": 9.207224843668733e-05,
+      "loss": 0.3683,
       "step": 77
     },
     {
       "epoch": 3.911392405063291,
+      "grad_norm": 2.8908872604370117,
+      "learning_rate": 8.50188662803194e-05,
+      "loss": 0.3682,
       "step": 78
     },
     {
       "epoch": 3.962025316455696,
+      "grad_norm": 2.4416487216949463,
+      "learning_rate": 7.819082850768433e-05,
+      "loss": 0.5503,
       "step": 79
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.0517449378967285,
+      "learning_rate": 7.159746139706194e-05,
+      "loss": 0.3605,
       "step": 80
     },
     {
       "epoch": 4.050632911392405,
+      "grad_norm": 1.0866498947143555,
+      "learning_rate": 6.524777069483526e-05,
+      "loss": 0.1385,
       "step": 81
     },
     {
       "epoch": 4.10126582278481,
+      "grad_norm": 1.568613052368164,
+      "learning_rate": 5.9150429314724254e-05,
+      "loss": 0.2764,
       "step": 82
     },
     {
       "epoch": 4.151898734177215,
+      "grad_norm": 1.359748363494873,
+      "learning_rate": 5.3313765491629194e-05,
+      "loss": 0.2143,
       "step": 83
     },
     {
       "epoch": 4.2025316455696204,
+      "grad_norm": 1.2184932231903076,
+      "learning_rate": 4.7745751406263163e-05,
+      "loss": 0.1412,
       "step": 84
     },
     {
       "epoch": 4.253164556962025,
+      "grad_norm": 1.2645926475524902,
+      "learning_rate": 4.245399229611238e-05,
+      "loss": 0.1776,
       "step": 85
     },
     {
       "epoch": 4.30379746835443,
+      "grad_norm": 1.2445096969604492,
+      "learning_rate": 3.7445716067596506e-05,
+      "loss": 0.2054,
       "step": 86
     },
     {
       "epoch": 4.3544303797468356,
+      "grad_norm": 0.9805382490158081,
+      "learning_rate": 3.2727763423617915e-05,
+      "loss": 0.0969,
       "step": 87
     },
     {
       "epoch": 4.405063291139241,
+      "grad_norm": 1.2975034713745117,
+      "learning_rate": 2.8306578519984528e-05,
+      "loss": 0.1607,
       "step": 88
     },
     {
       "epoch": 4.455696202531645,
+      "grad_norm": 1.2653566598892212,
+      "learning_rate": 2.4188200163467787e-05,
+      "loss": 0.1053,
       "step": 89
     },
     {
       "epoch": 4.506329113924051,
+      "grad_norm": 1.334803581237793,
+      "learning_rate": 2.0378253563519245e-05,
+      "loss": 0.1769,
       "step": 90
     },
     {
       "epoch": 4.556962025316456,
+      "grad_norm": 1.574942946434021,
+      "learning_rate": 1.6881942648911074e-05,
+      "loss": 0.1549,
       "step": 91
     },
     {
       "epoch": 4.6075949367088604,
+      "grad_norm": 1.321705937385559,
+      "learning_rate": 1.3704042959795133e-05,
+      "loss": 0.2005,
       "step": 92
     },
     {
       "epoch": 4.658227848101266,
+      "grad_norm": 1.0175703763961792,
+      "learning_rate": 1.0848895124889818e-05,
+      "loss": 0.1525,
       "step": 93
     },
     {
       "epoch": 4.708860759493671,
+      "grad_norm": 1.5820319652557373,
+      "learning_rate": 8.320398932703144e-06,
+      "loss": 0.1657,
       "step": 94
     },
     {
       "epoch": 4.759493670886076,
+      "grad_norm": 1.1965199708938599,
+      "learning_rate": 6.12200800489085e-06,
+      "loss": 0.1327,
       "step": 95
     },
     {
       "epoch": 4.810126582278481,
+      "grad_norm": 1.2993100881576538,
+      "learning_rate": 4.256725079024554e-06,
+      "loss": 0.1132,
       "step": 96
     },
     {
       "epoch": 4.860759493670886,
+      "grad_norm": 1.2790327072143555,
+      "learning_rate": 2.7270979072135106e-06,
+      "loss": 0.1908,
       "step": 97
     },
     {
       "epoch": 4.911392405063291,
+      "grad_norm": 1.3205540180206299,
+      "learning_rate": 1.5352157761815977e-06,
+      "loss": 0.1363,
       "step": 98
     },
     {
       "epoch": 4.962025316455696,
+      "grad_norm": 1.3380309343338013,
+      "learning_rate": 6.827066535529947e-07,
+      "loss": 0.1689,
       "step": 99
     },
     {
       "epoch": 5.0,
+      "grad_norm": 1.3308898210525513,
+      "learning_rate": 1.7073496424427348e-07,
+      "loss": 0.0823,
       "step": 100
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 2.9265650012307456e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36aa9ca963d01db4b15535adad54feeec8ce1d204d5d897f4466eefee776e7af
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ba1f2914799e90728253ee6efdcfb4b949f06f16db0ce9229e365f91a8f35af
 size 6033