train_mnli_1744902587

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the mnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0908
  • Num Input Tokens Seen: 62984280

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1664 0.0091 200 0.2033 312896
0.1263 0.0181 400 0.1831 625472
0.1262 0.0272 600 0.1696 942656
0.1942 0.0362 800 0.1618 1256992
0.1606 0.0453 1000 0.1563 1572864
0.128 0.0543 1200 0.1486 1889696
0.1201 0.0634 1400 0.1470 2203360
0.1048 0.0724 1600 0.1401 2524096
0.1078 0.0815 1800 0.1369 2837312
0.1569 0.0905 2000 0.1344 3152992
0.1443 0.0996 2200 0.1330 3466976
0.1376 0.1086 2400 0.1293 3784000
0.0738 0.1177 2600 0.1327 4100288
0.1019 0.1268 2800 0.1290 4417024
0.1396 0.1358 3000 0.1241 4730880
0.1063 0.1449 3200 0.1226 5046976
0.1418 0.1539 3400 0.1214 5361952
0.1202 0.1630 3600 0.1206 5680768
0.1844 0.1720 3800 0.1193 5996256
0.0853 0.1811 4000 0.1195 6311552
0.0926 0.1901 4200 0.1171 6627776
0.0874 0.1992 4400 0.1181 6946240
0.0787 0.2082 4600 0.1154 7260672
0.0793 0.2173 4800 0.1139 7574432
0.1125 0.2264 5000 0.1122 7890496
0.1169 0.2354 5200 0.1120 8202528
0.112 0.2445 5400 0.1104 8516928
0.0991 0.2535 5600 0.1094 8828000
0.125 0.2626 5800 0.1113 9143776
0.1036 0.2716 6000 0.1094 9456800
0.0879 0.2807 6200 0.1100 9770496
0.1346 0.2897 6400 0.1077 10084544
0.058 0.2988 6600 0.1084 10400832
0.0847 0.3078 6800 0.1066 10713664
0.0856 0.3169 7000 0.1057 11028672
0.0644 0.3259 7200 0.1058 11347104
0.1209 0.3350 7400 0.1045 11658304
0.0756 0.3441 7600 0.1049 11969312
0.0624 0.3531 7800 0.1065 12283264
0.1088 0.3622 8000 0.1048 12595776
0.1069 0.3712 8200 0.1034 12911104
0.084 0.3803 8400 0.1072 13225632
0.048 0.3893 8600 0.1034 13544096
0.1109 0.3984 8800 0.1053 13857600
0.0715 0.4074 9000 0.1028 14172800
0.1104 0.4165 9200 0.1033 14487680
0.1023 0.4255 9400 0.1033 14807520
0.0888 0.4346 9600 0.1012 15117696
0.1095 0.4436 9800 0.1009 15433344
0.0821 0.4527 10000 0.1008 15748576
0.1144 0.4618 10200 0.1017 16064864
0.1126 0.4708 10400 0.1007 16386496
0.13 0.4799 10600 0.1005 16700128
0.0762 0.4889 10800 0.0993 17015072
0.0938 0.4980 11000 0.1022 17334080
0.0988 0.5070 11200 0.0997 17650336
0.0903 0.5161 11400 0.0999 17964032
0.0894 0.5251 11600 0.0992 18280704
0.1093 0.5342 11800 0.0997 18595744
0.1083 0.5432 12000 0.0987 18906592
0.0791 0.5523 12200 0.0986 19223392
0.0788 0.5614 12400 0.0977 19535520
0.0899 0.5704 12600 0.0984 19848032
0.0761 0.5795 12800 0.0995 20163616
0.0735 0.5885 13000 0.0974 20479520
0.1061 0.5976 13200 0.0973 20792320
0.0882 0.6066 13400 0.0967 21105472
0.1241 0.6157 13600 0.0968 21418912
0.0616 0.6247 13800 0.0993 21740320
0.0872 0.6338 14000 0.0971 22051936
0.0854 0.6428 14200 0.0972 22365376
0.0989 0.6519 14400 0.0968 22680000
0.0723 0.6609 14600 0.0981 22995520
0.1073 0.6700 14800 0.0961 23311072
0.0916 0.6791 15000 0.0963 23626112
0.0644 0.6881 15200 0.0959 23937568
0.0524 0.6972 15400 0.0960 24253504
0.0724 0.7062 15600 0.0952 24568160
0.0393 0.7153 15800 0.0965 24882112
0.0914 0.7243 16000 0.0953 25201792
0.0813 0.7334 16200 0.0960 25518176
0.1063 0.7424 16400 0.0957 25832000
0.1344 0.7515 16600 0.0953 26142144
0.1284 0.7605 16800 0.0950 26458432
0.0827 0.7696 17000 0.0947 26771360
0.0817 0.7787 17200 0.0946 27085568
0.0898 0.7877 17400 0.0945 27401344
0.0906 0.7968 17600 0.0944 27721120
0.0671 0.8058 17800 0.0941 28035200
0.1068 0.8149 18000 0.0974 28351968
0.0896 0.8239 18200 0.0941 28668224
0.0688 0.8330 18400 0.0939 28981824
0.1105 0.8420 18600 0.0940 29293792
0.0715 0.8511 18800 0.0949 29608320
0.077 0.8601 19000 0.0938 29922016
0.0706 0.8692 19200 0.0944 30237280
0.0726 0.8782 19400 0.0934 30550560
0.1088 0.8873 19600 0.0933 30861952
0.1051 0.8964 19800 0.0934 31176736
0.1033 0.9054 20000 0.0936 31490688
0.106 0.9145 20200 0.0931 31805440
0.0768 0.9235 20400 0.0938 32120672
0.0818 0.9326 20600 0.0930 32434592
0.096 0.9416 20800 0.0936 32746528
0.0528 0.9507 21000 0.0928 33062880
0.0889 0.9597 21200 0.0931 33380032
0.0858 0.9688 21400 0.0927 33698368
0.093 0.9778 21600 0.0930 34015424
0.1059 0.9869 21800 0.0927 34331520
0.0652 0.9959 22000 0.0926 34642688
0.0706 1.0050 22200 0.0926 34959928
0.0711 1.0140 22400 0.0942 35273880
0.0825 1.0231 22600 0.0926 35587832
0.1106 1.0321 22800 0.0923 35899672
0.0626 1.0412 23000 0.0927 36212824
0.0437 1.0503 23200 0.0921 36528792
0.0871 1.0593 23400 0.0922 36844024
0.1015 1.0684 23600 0.0939 37157784
0.1055 1.0774 23800 0.0922 37469272
0.0872 1.0865 24000 0.0925 37785112
0.1049 1.0955 24200 0.0931 38101496
0.125 1.1046 24400 0.0927 38418456
0.0936 1.1136 24600 0.0923 38735256
0.0534 1.1227 24800 0.0925 39051640
0.0977 1.1317 25000 0.0925 39365176
0.1145 1.1408 25200 0.0921 39684408
0.0719 1.1498 25400 0.0921 40000056
0.1144 1.1589 25600 0.0921 40316632
0.062 1.1680 25800 0.0918 40629528
0.0649 1.1770 26000 0.0918 40944536
0.0611 1.1861 26200 0.0918 41261208
0.1273 1.1951 26400 0.0916 41575992
0.0796 1.2042 26600 0.0920 41888504
0.0992 1.2132 26800 0.0919 42202072
0.0615 1.2223 27000 0.0921 42518168
0.0564 1.2313 27200 0.0922 42833560
0.0778 1.2404 27400 0.0914 43144152
0.1048 1.2494 27600 0.0916 43457272
0.0551 1.2585 27800 0.0923 43774104
0.0979 1.2675 28000 0.0915 44088120
0.0763 1.2766 28200 0.0915 44401112
0.1409 1.2857 28400 0.0916 44718232
0.1074 1.2947 28600 0.0916 45031416
0.1406 1.3038 28800 0.0915 45340984
0.0604 1.3128 29000 0.0912 45659256
0.1073 1.3219 29200 0.0912 45975384
0.0985 1.3309 29400 0.0914 46290296
0.1115 1.3400 29600 0.0911 46604312
0.0847 1.3490 29800 0.0913 46919192
0.1521 1.3581 30000 0.0913 47236440
0.0716 1.3671 30200 0.0911 47550744
0.0782 1.3762 30400 0.0911 47865912
0.071 1.3853 30600 0.0911 48183992
0.0927 1.3943 30800 0.0920 48495160
0.1004 1.4034 31000 0.0910 48813176
0.0941 1.4124 31200 0.0911 49129080
0.0467 1.4215 31400 0.0912 49444664
0.0541 1.4305 31600 0.0912 49756312
0.0456 1.4396 31800 0.0916 50068088
0.0632 1.4486 32000 0.0908 50382136
0.0693 1.4577 32200 0.0920 50700344
0.0643 1.4667 32400 0.0911 51012696
0.0637 1.4758 32600 0.0913 51328696
0.1053 1.4848 32800 0.0911 51641752
0.0929 1.4939 33000 0.0910 51954840
0.1294 1.5030 33200 0.0909 52269720
0.1023 1.5120 33400 0.0912 52585784
0.069 1.5211 33600 0.0913 52898904
0.1229 1.5301 33800 0.0914 53217208
0.0705 1.5392 34000 0.0910 53532408
0.0865 1.5482 34200 0.0909 53849208
0.0532 1.5573 34400 0.0911 54166040
0.0947 1.5663 34600 0.0908 54482232
0.0403 1.5754 34800 0.0911 54797880
0.0665 1.5844 35000 0.0909 55112536
0.089 1.5935 35200 0.0909 55427928
0.1076 1.6025 35400 0.0909 55741912
0.1445 1.6116 35600 0.0908 56057048
0.0985 1.6207 35800 0.0908 56371640
0.0985 1.6297 36000 0.0911 56683896
0.0866 1.6388 36200 0.0908 57003192
0.0972 1.6478 36400 0.0911 57318104
0.0784 1.6569 36600 0.0910 57632152
0.0779 1.6659 36800 0.0910 57948856
0.1336 1.6750 37000 0.0909 58266232
0.046 1.6840 37200 0.0911 58583544
0.0541 1.6931 37400 0.0909 58903288
0.0902 1.7021 37600 0.0910 59218296
0.0554 1.7112 37800 0.0911 59533240
0.0835 1.7203 38000 0.0910 59848664
0.0768 1.7293 38200 0.0910 60164984
0.0833 1.7384 38400 0.0910 60478328
0.1426 1.7474 38600 0.0909 60787576
0.1066 1.7565 38800 0.0910 61097848
0.0578 1.7655 39000 0.0911 61413432
0.1066 1.7746 39200 0.0910 61727320
0.1079 1.7836 39400 0.0910 62041848
0.0511 1.7927 39600 0.0908 62358168
0.0377 1.8017 39800 0.0909 62670392
0.0738 1.8108 40000 0.0910 62984280

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
4
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mnli_1744902587

Adapter
(2124)
this model

Evaluation results