End of training

Browse files

Files changed (13) hide show

last-checkpoint/generation_config.json → generation_config.json +0 -0
last-checkpoint/config.json +0 -31
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/pytorch_model.bin +0 -3
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -5
last-checkpoint/spiece.model +0 -3
last-checkpoint/tokenizer_config.json +0 -12
last-checkpoint/trainer_state.json +0 -412
last-checkpoint/training_args.bin +0 -3
pytorch_model.bin +1 -1
runs/Jan26_09-04-05_e112ce585155/events.out.tfevents.1674723897.e112ce585155.6073.0 +2 -2

last-checkpoint/generation_config.json → generation_config.json RENAMED Viewed

File without changes

last-checkpoint/config.json DELETED Viewed

@@ -1,31 +0,0 @@
-{
-  "_name_or_path": "google/mt5-small",
-  "architectures": [
-    "MT5ForConditionalGeneration"
-  ],
-  "d_ff": 1024,
-  "d_kv": 64,
-  "d_model": 512,
-  "decoder_start_token_id": 0,
-  "dense_act_fn": "gelu_new",
-  "dropout_rate": 0.1,
-  "eos_token_id": 1,
-  "feed_forward_proj": "gated-gelu",
-  "initializer_factor": 1.0,
-  "is_encoder_decoder": true,
-  "is_gated_act": true,
-  "layer_norm_epsilon": 1e-06,
-  "model_type": "mt5",
-  "num_decoder_layers": 8,
-  "num_heads": 6,
-  "num_layers": 8,
-  "pad_token_id": 0,
-  "relative_attention_max_distance": 128,
-  "relative_attention_num_buckets": 32,
-  "tie_word_embeddings": false,
-  "tokenizer_class": "T5Tokenizer",
-  "torch_dtype": "float32",
-  "transformers_version": "4.26.0",
-  "use_cache": true,
-  "vocab_size": 250112
-}

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:92cbacc594fc4d03f876f678c8368ba06af5f801fe986d52c0c77eea78d9d059
-size 2401526789

last-checkpoint/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9171600923799fbd736ef09a97dae709568b02cf9feabddcab70945814d96c31
-size 1200772485

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7c2171553dfbbc27f33003f3725022aa0ab9cd0873edefc1d01d9617498a1ba4
-size 14575

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9937e95b70c0680ecf96691c44cc3b737c61cf8ec7c37caf61a209d12a4a70e7
-size 627

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,5 +0,0 @@
-{
-  "eos_token": "</s>",
-  "pad_token": "<pad>",
-  "unk_token": "<unk>"
-}

last-checkpoint/spiece.model DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
-size 4309802

last-checkpoint/tokenizer_config.json DELETED Viewed

@@ -1,12 +0,0 @@
-{
-  "additional_special_tokens": null,
-  "eos_token": "</s>",
-  "extra_ids": 0,
-  "model_max_length": 1000000000000000019884624838656,
-  "name_or_path": "google/mt5-small",
-  "pad_token": "<pad>",
-  "sp_model_kwargs": {},
-  "special_tokens_map_file": "/root/.cache/huggingface/hub/models--google--mt5-small/snapshots/38f23af8ec210eb6c376d40e9c56bd25a80f195d/special_tokens_map.json",
-  "tokenizer_class": "T5Tokenizer",
-  "unk_token": "<unk>"
-}

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,412 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 2.65152,
-  "global_step": 33144,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.04,
-      "learning_rate": 1.9733333333333336e-05,
-      "loss": 14.1239,
-      "step": 500
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 1.9466666666666668e-05,
-      "loss": 6.6454,
-      "step": 1000
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 1.9200000000000003e-05,
-      "loss": 5.9138,
-      "step": 1500
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 1.8933333333333334e-05,
-      "loss": 5.5971,
-      "step": 2000
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 1.866666666666667e-05,
-      "loss": 5.4037,
-      "step": 2500
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 1.8400000000000003e-05,
-      "loss": 5.2453,
-      "step": 3000
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 1.8133333333333335e-05,
-      "loss": 5.1776,
-      "step": 3500
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 1.7866666666666666e-05,
-      "loss": 5.0923,
-      "step": 4000
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 1.76e-05,
-      "loss": 5.0219,
-      "step": 4500
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 1.7333333333333336e-05,
-      "loss": 4.9679,
-      "step": 5000
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 1.706666666666667e-05,
-      "loss": 4.8737,
-      "step": 5500
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 1.6800000000000002e-05,
-      "loss": 4.8347,
-      "step": 6000
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 1.6533333333333333e-05,
-      "loss": 4.7651,
-      "step": 6500
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 1.6266666666666668e-05,
-      "loss": 4.7169,
-      "step": 7000
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 4.7314,
-      "step": 7500
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 1.5733333333333334e-05,
-      "loss": 4.6803,
-      "step": 8000
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 1.546666666666667e-05,
-      "loss": 4.627,
-      "step": 8500
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 1.5200000000000002e-05,
-      "loss": 4.5979,
-      "step": 9000
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 1.4933333333333335e-05,
-      "loss": 4.546,
-      "step": 9500
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 1.4666666666666666e-05,
-      "loss": 4.557,
-      "step": 10000
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 1.4400000000000001e-05,
-      "loss": 4.5273,
-      "step": 10500
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 1.4133333333333334e-05,
-      "loss": 4.4533,
-      "step": 11000
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 1.3866666666666669e-05,
-      "loss": 4.4465,
-      "step": 11500
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 1.3600000000000002e-05,
-      "loss": 4.4248,
-      "step": 12000
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 4.414,
-      "step": 12500
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 1.3066666666666668e-05,
-      "loss": 4.3951,
-      "step": 13000
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 1.2800000000000001e-05,
-      "loss": 4.3573,
-      "step": 13500
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 1.2533333333333336e-05,
-      "loss": 4.338,
-      "step": 14000
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 1.2266666666666667e-05,
-      "loss": 4.3254,
-      "step": 14500
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 1.2e-05,
-      "loss": 4.3212,
-      "step": 15000
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 1.1733333333333335e-05,
-      "loss": 4.2952,
-      "step": 15500
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 1.1466666666666668e-05,
-      "loss": 4.2643,
-      "step": 16000
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 1.1200000000000001e-05,
-      "loss": 4.2386,
-      "step": 16500
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 1.0933333333333334e-05,
-      "loss": 4.2501,
-      "step": 17000
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 1.0666666666666667e-05,
-      "loss": 4.2668,
-      "step": 17500
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 1.04e-05,
-      "loss": 4.2539,
-      "step": 18000
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 1.0133333333333335e-05,
-      "loss": 4.1889,
-      "step": 18500
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 9.866666666666668e-06,
-      "loss": 4.1985,
-      "step": 19000
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 9.600000000000001e-06,
-      "loss": 4.2305,
-      "step": 19500
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 9.333333333333334e-06,
-      "loss": 4.1754,
-      "step": 20000
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 9.066666666666667e-06,
-      "loss": 4.1607,
-      "step": 20500
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 8.8e-06,
-      "loss": 4.1668,
-      "step": 21000
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 8.533333333333335e-06,
-      "loss": 4.1535,
-      "step": 21500
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 8.266666666666667e-06,
-      "loss": 4.1269,
-      "step": 22000
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 4.135,
-      "step": 22500
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 7.733333333333334e-06,
-      "loss": 4.1194,
-      "step": 23000
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 7.4666666666666675e-06,
-      "loss": 4.1276,
-      "step": 23500
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 7.2000000000000005e-06,
-      "loss": 4.1375,
-      "step": 24000
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 6.9333333333333344e-06,
-      "loss": 4.1004,
-      "step": 24500
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 4.1036,
-      "step": 25000
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 6.4000000000000006e-06,
-      "loss": 4.0862,
-      "step": 25500
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 6.133333333333334e-06,
-      "loss": 4.0681,
-      "step": 26000
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 5.8666666666666675e-06,
-      "loss": 4.0587,
-      "step": 26500
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 5.600000000000001e-06,
-      "loss": 4.0543,
-      "step": 27000
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 5.333333333333334e-06,
-      "loss": 4.0743,
-      "step": 27500
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 5.0666666666666676e-06,
-      "loss": 4.0691,
-      "step": 28000
-    },
-    {
-      "epoch": 2.28,
-      "learning_rate": 4.800000000000001e-06,
-      "loss": 4.048,
-      "step": 28500
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 4.533333333333334e-06,
-      "loss": 4.0455,
-      "step": 29000
-    },
-    {
-      "epoch": 2.36,
-      "learning_rate": 4.266666666666668e-06,
-      "loss": 4.0462,
-      "step": 29500
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 4.000000000000001e-06,
-      "loss": 4.0445,
-      "step": 30000
-    },
-    {
-      "epoch": 2.44,
-      "learning_rate": 3.7333333333333337e-06,
-      "loss": 4.0473,
-      "step": 30500
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 3.4666666666666672e-06,
-      "loss": 4.0302,
-      "step": 31000
-    },
-    {
-      "epoch": 2.52,
-      "learning_rate": 3.2000000000000003e-06,
-      "loss": 4.0641,
-      "step": 31500
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 2.9333333333333338e-06,
-      "loss": 4.0391,
-      "step": 32000
-    },
-    {
-      "epoch": 2.6,
-      "learning_rate": 2.666666666666667e-06,
-      "loss": 4.0097,
-      "step": 32500
-    },
-    {
-      "epoch": 2.64,
-      "learning_rate": 2.4000000000000003e-06,
-      "loss": 4.0379,
-      "step": 33000
-    }
-  ],
-  "max_steps": 37500,
-  "num_train_epochs": 3,
-  "total_flos": 3.663240647442432e+16,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ad52c16538319a22a2678757517656a5b363f33d0a783ef91256d9af1c175a3f
-size 3643

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9171600923799fbd736ef09a97dae709568b02cf9feabddcab70945814d96c31
 size 1200772485

 version https://git-lfs.github.com/spec/v1
+oid sha256:b577154032eb078377be41ead41bc92034c6f36100e61033337adce202fa5c87
 size 1200772485

runs/Jan26_09-04-05_e112ce585155/events.out.tfevents.1674723897.e112ce585155.6073.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2227dd2ba5f1c2100beb623383cd368b1dff0623bb3c6e544b22afa5bb27d6b
-size 14533

 version https://git-lfs.github.com/spec/v1
+oid sha256:27ef48880cd80a699f9589646bd87d4f797011cc3778dbac18c89fb679ef8009
+size 16333