Upload 10 files

Browse files

Files changed (10) hide show

config.json +25 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +44 -0
tokenizer.json +0 -0
tokenizer_config.json +63 -0
trainer_state.json +349 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 2,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 3,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "transformers_version": "5.0.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 48000
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7a4ab5c612128a7524818797f72377a297776cb3302443c45bafca858308748
+size 26690208

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a049740d0cb30c75d9d73ae2de00b6e1fa19db334a474f51970d11d6a0d1f210
+size 53406202

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:192e4f48de44df0334782c2702af7748584e1fdfd2f007d10dfc04de90259bd7
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4d0153825bdf3e3e06de8250593f5678b61d96f9a6ce0b46efd9f2d8a5d1363
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_length": null,
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 512,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "truncation_side": "right",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,349 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.8294930875576036,
+  "eval_steps": 500,
+  "global_step": 22500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.018433179723502304,
+      "grad_norm": 2.7722034454345703,
+      "learning_rate": 4.969339477726575e-05,
+      "loss": 5.2387,
+      "step": 500
+    },
+    {
+      "epoch": 0.03686635944700461,
+      "grad_norm": 3.414055347442627,
+      "learning_rate": 4.938617511520738e-05,
+      "loss": 4.3585,
+      "step": 1000
+    },
+    {
+      "epoch": 0.055299539170506916,
+      "grad_norm": 2.91390061378479,
+      "learning_rate": 4.9078955453149006e-05,
+      "loss": 4.1208,
+      "step": 1500
+    },
+    {
+      "epoch": 0.07373271889400922,
+      "grad_norm": 2.3701863288879395,
+      "learning_rate": 4.877173579109063e-05,
+      "loss": 3.9869,
+      "step": 2000
+    },
+    {
+      "epoch": 0.09216589861751152,
+      "grad_norm": 2.441763162612915,
+      "learning_rate": 4.846451612903226e-05,
+      "loss": 3.8932,
+      "step": 2500
+    },
+    {
+      "epoch": 0.11059907834101383,
+      "grad_norm": 2.8250324726104736,
+      "learning_rate": 4.815729646697389e-05,
+      "loss": 3.8175,
+      "step": 3000
+    },
+    {
+      "epoch": 0.12903225806451613,
+      "grad_norm": 2.9016897678375244,
+      "learning_rate": 4.7850076804915513e-05,
+      "loss": 3.7022,
+      "step": 3500
+    },
+    {
+      "epoch": 0.14746543778801843,
+      "grad_norm": 2.2199313640594482,
+      "learning_rate": 4.7542857142857146e-05,
+      "loss": 3.6935,
+      "step": 4000
+    },
+    {
+      "epoch": 0.16589861751152074,
+      "grad_norm": 2.4812119007110596,
+      "learning_rate": 4.723563748079877e-05,
+      "loss": 3.6745,
+      "step": 4500
+    },
+    {
+      "epoch": 0.18433179723502305,
+      "grad_norm": 2.6783430576324463,
+      "learning_rate": 4.69284178187404e-05,
+      "loss": 3.5583,
+      "step": 5000
+    },
+    {
+      "epoch": 0.20276497695852536,
+      "grad_norm": 2.524801254272461,
+      "learning_rate": 4.662119815668203e-05,
+      "loss": 3.5784,
+      "step": 5500
+    },
+    {
+      "epoch": 0.22119815668202766,
+      "grad_norm": 2.821859836578369,
+      "learning_rate": 4.6313978494623653e-05,
+      "loss": 3.5481,
+      "step": 6000
+    },
+    {
+      "epoch": 0.23963133640552994,
+      "grad_norm": 2.7526915073394775,
+      "learning_rate": 4.6006758832565286e-05,
+      "loss": 3.5201,
+      "step": 6500
+    },
+    {
+      "epoch": 0.25806451612903225,
+      "grad_norm": 3.1275274753570557,
+      "learning_rate": 4.569953917050692e-05,
+      "loss": 3.4428,
+      "step": 7000
+    },
+    {
+      "epoch": 0.2764976958525346,
+      "grad_norm": 2.565107583999634,
+      "learning_rate": 4.539231950844854e-05,
+      "loss": 3.4385,
+      "step": 7500
+    },
+    {
+      "epoch": 0.29493087557603687,
+      "grad_norm": 2.554239511489868,
+      "learning_rate": 4.5085099846390175e-05,
+      "loss": 3.4189,
+      "step": 8000
+    },
+    {
+      "epoch": 0.31336405529953915,
+      "grad_norm": 2.702221155166626,
+      "learning_rate": 4.47778801843318e-05,
+      "loss": 3.413,
+      "step": 8500
+    },
+    {
+      "epoch": 0.3317972350230415,
+      "grad_norm": 2.413268804550171,
+      "learning_rate": 4.4470660522273425e-05,
+      "loss": 3.3684,
+      "step": 9000
+    },
+    {
+      "epoch": 0.35023041474654376,
+      "grad_norm": 2.424586296081543,
+      "learning_rate": 4.416344086021506e-05,
+      "loss": 3.3702,
+      "step": 9500
+    },
+    {
+      "epoch": 0.3686635944700461,
+      "grad_norm": 2.7243025302886963,
+      "learning_rate": 4.385622119815668e-05,
+      "loss": 3.2839,
+      "step": 10000
+    },
+    {
+      "epoch": 0.3870967741935484,
+      "grad_norm": 2.2430036067962646,
+      "learning_rate": 4.354900153609831e-05,
+      "loss": 3.3245,
+      "step": 10500
+    },
+    {
+      "epoch": 0.4055299539170507,
+      "grad_norm": 2.5448081493377686,
+      "learning_rate": 4.324178187403994e-05,
+      "loss": 3.2824,
+      "step": 11000
+    },
+    {
+      "epoch": 0.423963133640553,
+      "grad_norm": 2.6062798500061035,
+      "learning_rate": 4.293456221198157e-05,
+      "loss": 3.2928,
+      "step": 11500
+    },
+    {
+      "epoch": 0.4423963133640553,
+      "grad_norm": 2.51362681388855,
+      "learning_rate": 4.26273425499232e-05,
+      "loss": 3.2731,
+      "step": 12000
+    },
+    {
+      "epoch": 0.4608294930875576,
+      "grad_norm": 2.2453083992004395,
+      "learning_rate": 4.232012288786483e-05,
+      "loss": 3.2556,
+      "step": 12500
+    },
+    {
+      "epoch": 0.4792626728110599,
+      "grad_norm": 2.3285653591156006,
+      "learning_rate": 4.2012903225806455e-05,
+      "loss": 3.2397,
+      "step": 13000
+    },
+    {
+      "epoch": 0.4976958525345622,
+      "grad_norm": 2.4322783946990967,
+      "learning_rate": 4.170568356374808e-05,
+      "loss": 3.2348,
+      "step": 13500
+    },
+    {
+      "epoch": 0.5161290322580645,
+      "grad_norm": 2.180086374282837,
+      "learning_rate": 4.139846390168971e-05,
+      "loss": 3.2059,
+      "step": 14000
+    },
+    {
+      "epoch": 0.5345622119815668,
+      "grad_norm": 2.293834686279297,
+      "learning_rate": 4.109124423963134e-05,
+      "loss": 3.2066,
+      "step": 14500
+    },
+    {
+      "epoch": 0.5529953917050692,
+      "grad_norm": 2.4870762825012207,
+      "learning_rate": 4.078402457757296e-05,
+      "loss": 3.1875,
+      "step": 15000
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 2.4512012004852295,
+      "learning_rate": 4.0476804915514595e-05,
+      "loss": 3.1519,
+      "step": 15500
+    },
+    {
+      "epoch": 0.5898617511520737,
+      "grad_norm": 3.0072903633117676,
+      "learning_rate": 4.016958525345622e-05,
+      "loss": 3.194,
+      "step": 16000
+    },
+    {
+      "epoch": 0.6082949308755761,
+      "grad_norm": 2.5981032848358154,
+      "learning_rate": 3.986236559139785e-05,
+      "loss": 3.1575,
+      "step": 16500
+    },
+    {
+      "epoch": 0.6267281105990783,
+      "grad_norm": 2.6231231689453125,
+      "learning_rate": 3.9555145929339484e-05,
+      "loss": 3.1602,
+      "step": 17000
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 2.6723060607910156,
+      "learning_rate": 3.924792626728111e-05,
+      "loss": 3.1713,
+      "step": 17500
+    },
+    {
+      "epoch": 0.663594470046083,
+      "grad_norm": 2.222766876220703,
+      "learning_rate": 3.8940706605222735e-05,
+      "loss": 3.1258,
+      "step": 18000
+    },
+    {
+      "epoch": 0.6820276497695853,
+      "grad_norm": 2.3424344062805176,
+      "learning_rate": 3.863348694316437e-05,
+      "loss": 3.1091,
+      "step": 18500
+    },
+    {
+      "epoch": 0.7004608294930875,
+      "grad_norm": 2.849412679672241,
+      "learning_rate": 3.832626728110599e-05,
+      "loss": 3.1179,
+      "step": 19000
+    },
+    {
+      "epoch": 0.7188940092165899,
+      "grad_norm": 2.475759267807007,
+      "learning_rate": 3.8019047619047624e-05,
+      "loss": 3.1026,
+      "step": 19500
+    },
+    {
+      "epoch": 0.7373271889400922,
+      "grad_norm": 2.421753168106079,
+      "learning_rate": 3.771182795698925e-05,
+      "loss": 3.0828,
+      "step": 20000
+    },
+    {
+      "epoch": 0.7557603686635944,
+      "grad_norm": 2.5588021278381348,
+      "learning_rate": 3.7404608294930875e-05,
+      "loss": 3.1001,
+      "step": 20500
+    },
+    {
+      "epoch": 0.7741935483870968,
+      "grad_norm": 2.294607400894165,
+      "learning_rate": 3.709738863287251e-05,
+      "loss": 3.0791,
+      "step": 21000
+    },
+    {
+      "epoch": 0.7926267281105991,
+      "grad_norm": 2.657045841217041,
+      "learning_rate": 3.679016897081413e-05,
+      "loss": 3.0481,
+      "step": 21500
+    },
+    {
+      "epoch": 0.8110599078341014,
+      "grad_norm": 2.426490068435669,
+      "learning_rate": 3.648294930875576e-05,
+      "loss": 3.0674,
+      "step": 22000
+    },
+    {
+      "epoch": 0.8294930875576036,
+      "grad_norm": 2.5447800159454346,
+      "learning_rate": 3.617572964669739e-05,
+      "loss": 3.075,
+      "step": 22500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 81375,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1020914565120000.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d31e29813f8bde325b13382dbcc0ef127eb88f1dd6ebaa68705b96afe506de58
+size 4728