train_qqp_1744902603

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the qqp dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0834
  • Num Input Tokens Seen: 50647232

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1182 0.0098 200 0.1251 254944
0.097 0.0195 400 0.1182 507488
0.0877 0.0293 600 0.1193 764128
0.1075 0.0391 800 0.1134 1016160
0.1151 0.0489 1000 0.1091 1268384
0.0955 0.0586 1200 0.1084 1520384
0.1019 0.0684 1400 0.1053 1773408
0.0941 0.0782 1600 0.1040 2028480
0.0916 0.0879 1800 0.1031 2280960
0.0902 0.0977 2000 0.1027 2536512
0.0967 0.1075 2200 0.1062 2790752
0.1077 0.1173 2400 0.1006 3043136
0.0862 0.1270 2600 0.1031 3298464
0.0747 0.1368 2800 0.0996 3556256
0.0991 0.1466 3000 0.1000 3809536
0.1045 0.1564 3200 0.0984 4064256
0.0986 0.1661 3400 0.0980 4319712
0.069 0.1759 3600 0.0973 4571104
0.111 0.1857 3800 0.0972 4822176
0.1023 0.1954 4000 0.0985 5073216
0.0738 0.2052 4200 0.0962 5327680
0.1025 0.2150 4400 0.0966 5582272
0.0725 0.2248 4600 0.0970 5834624
0.0821 0.2345 4800 0.0953 6085600
0.0709 0.2443 5000 0.0958 6339520
0.102 0.2541 5200 0.0949 6592160
0.0907 0.2638 5400 0.0943 6847232
0.1089 0.2736 5600 0.0938 7101984
0.117 0.2834 5800 0.0936 7357536
0.0747 0.2932 6000 0.0933 7610208
0.0821 0.3029 6200 0.0936 7868832
0.0961 0.3127 6400 0.0926 8121856
0.1111 0.3225 6600 0.0931 8372096
0.057 0.3323 6800 0.0931 8628064
0.0937 0.3420 7000 0.0918 8882496
0.0952 0.3518 7200 0.0925 9135616
0.1122 0.3616 7400 0.0917 9389184
0.0943 0.3713 7600 0.0913 9641344
0.0899 0.3811 7800 0.0913 9894624
0.076 0.3909 8000 0.0909 10144480
0.0707 0.4007 8200 0.0906 10398432
0.0946 0.4104 8400 0.0907 10650624
0.1103 0.4202 8600 0.0906 10901824
0.1203 0.4300 8800 0.0901 11155840
0.0817 0.4397 9000 0.0898 11413440
0.0799 0.4495 9200 0.0898 11666624
0.0884 0.4593 9400 0.0895 11917248
0.0873 0.4691 9600 0.0905 12168736
0.0986 0.4788 9800 0.0892 12423520
0.0762 0.4886 10000 0.0893 12673888
0.0848 0.4984 10200 0.0907 12924960
0.056 0.5081 10400 0.0890 13176640
0.0977 0.5179 10600 0.0915 13430912
0.0693 0.5277 10800 0.0895 13684288
0.0805 0.5375 11000 0.0888 13937504
0.0742 0.5472 11200 0.0888 14190304
0.0941 0.5570 11400 0.0882 14445312
0.0701 0.5668 11600 0.0881 14697344
0.0541 0.5766 11800 0.0881 14951296
0.0673 0.5863 12000 0.0885 15205152
0.1023 0.5961 12200 0.0879 15457696
0.0877 0.6059 12400 0.0886 15709984
0.0734 0.6156 12600 0.0877 15964384
0.0751 0.6254 12800 0.0875 16216768
0.0828 0.6352 13000 0.0877 16469792
0.1028 0.6450 13200 0.0909 16721536
0.0904 0.6547 13400 0.0877 16976192
0.0649 0.6645 13600 0.0882 17230496
0.0566 0.6743 13800 0.0877 17485120
0.1031 0.6840 14000 0.0879 17739872
0.0822 0.6938 14200 0.0868 17994144
0.0729 0.7036 14400 0.0876 18248736
0.0789 0.7134 14600 0.0875 18504672
0.0823 0.7231 14800 0.0875 18754208
0.1244 0.7329 15000 0.0866 19005696
0.0763 0.7427 15200 0.0865 19260320
0.0848 0.7524 15400 0.0864 19514944
0.1006 0.7622 15600 0.0863 19766912
0.058 0.7720 15800 0.0864 20018240
0.082 0.7818 16000 0.0862 20269632
0.0805 0.7915 16200 0.0863 20523232
0.0824 0.8013 16400 0.0863 20777376
0.1101 0.8111 16600 0.0862 21031776
0.0909 0.8209 16800 0.0862 21283328
0.0759 0.8306 17000 0.0859 21535072
0.0906 0.8404 17200 0.0876 21786304
0.0662 0.8502 17400 0.0860 22039232
0.0678 0.8599 17600 0.0861 22290976
0.1161 0.8697 17800 0.0862 22543904
0.0994 0.8795 18000 0.0854 22796480
0.1056 0.8893 18200 0.0863 23050080
0.064 0.8990 18400 0.0860 23304192
0.0608 0.9088 18600 0.0853 23557152
0.1118 0.9186 18800 0.0854 23808960
0.0877 0.9283 19000 0.0854 24063776
0.0662 0.9381 19200 0.0861 24317280
0.0871 0.9479 19400 0.0851 24573184
0.1173 0.9577 19600 0.0853 24826560
0.0958 0.9674 19800 0.0851 25081792
0.0641 0.9772 20000 0.0849 25332672
0.0975 0.9870 20200 0.0853 25584672
0.0865 0.9968 20400 0.0850 25834336
0.1012 1.0065 20600 0.0848 26090080
0.0979 1.0163 20800 0.0859 26343008
0.0619 1.0261 21000 0.0850 26598784
0.0691 1.0359 21200 0.0852 26851648
0.1061 1.0456 21400 0.0859 27103392
0.0629 1.0554 21600 0.0848 27361312
0.0901 1.0652 21800 0.0846 27616640
0.0472 1.0750 22000 0.0848 27874656
0.0882 1.0847 22200 0.0845 28122656
0.1014 1.0945 22400 0.0845 28376640
0.0815 1.1043 22600 0.0847 28629632
0.0922 1.1140 22800 0.0848 28884480
0.098 1.1238 23000 0.0846 29140832
0.0623 1.1336 23200 0.0844 29396960
0.0842 1.1434 23400 0.0847 29648032
0.0616 1.1531 23600 0.0846 29897312
0.0973 1.1629 23800 0.0846 30153920
0.0814 1.1727 24000 0.0849 30407616
0.0839 1.1824 24200 0.0855 30656768
0.0816 1.1922 24400 0.0849 30908480
0.1087 1.2020 24600 0.0847 31162176
0.0716 1.2118 24800 0.0844 31412736
0.0843 1.2215 25000 0.0841 31668000
0.0633 1.2313 25200 0.0851 31919712
0.0673 1.2411 25400 0.0842 32172256
0.0723 1.2508 25600 0.0843 32424512
0.0718 1.2606 25800 0.0845 32678176
0.1008 1.2704 26000 0.0841 32931456
0.0814 1.2802 26200 0.0846 33184096
0.0974 1.2899 26400 0.0840 33436864
0.0964 1.2997 26600 0.0858 33691232
0.0466 1.3095 26800 0.0845 33944640
0.0965 1.3193 27000 0.0847 34193536
0.066 1.3290 27200 0.0844 34445952
0.0864 1.3388 27400 0.0863 34698784
0.0785 1.3486 27600 0.0838 34950976
0.0729 1.3583 27800 0.0840 35204128
0.0678 1.3681 28000 0.0841 35455296
0.144 1.3779 28200 0.0841 35708160
0.0697 1.3877 28400 0.0839 35960608
0.0867 1.3974 28600 0.0839 36214944
0.082 1.4072 28800 0.0840 36466336
0.0916 1.4170 29000 0.0838 36720160
0.0552 1.4267 29200 0.0837 36971744
0.0639 1.4365 29400 0.0839 37226208
0.0597 1.4463 29600 0.0840 37479008
0.0783 1.4561 29800 0.0839 37732672
0.0779 1.4658 30000 0.0845 37984768
0.1078 1.4756 30200 0.0842 38237120
0.0764 1.4854 30400 0.0840 38490112
0.0828 1.4952 30600 0.0838 38742560
0.0647 1.5049 30800 0.0835 38994368
0.0771 1.5147 31000 0.0838 39248416
0.0685 1.5245 31200 0.0839 39501152
0.0458 1.5342 31400 0.0835 39756224
0.1114 1.5440 31600 0.0837 40012896
0.0689 1.5538 31800 0.0841 40268416
0.0552 1.5636 32000 0.0838 40522848
0.0955 1.5733 32200 0.0836 40775072
0.0847 1.5831 32400 0.0843 41031296
0.1092 1.5929 32600 0.0838 41287200
0.0667 1.6026 32800 0.0840 41541664
0.1234 1.6124 33000 0.0838 41793376
0.0845 1.6222 33200 0.0836 42044352
0.0915 1.6320 33400 0.0836 42295520
0.062 1.6417 33600 0.0837 42547680
0.0685 1.6515 33800 0.0838 42796992
0.0629 1.6613 34000 0.0838 43049888
0.0889 1.6710 34200 0.0838 43303328
0.0716 1.6808 34400 0.0838 43556672
0.0999 1.6906 34600 0.0834 43809088
0.0639 1.7004 34800 0.0838 44059712
0.0612 1.7101 35000 0.0837 44313216
0.0679 1.7199 35200 0.0839 44566336
0.0779 1.7297 35400 0.0836 44817984
0.0538 1.7395 35600 0.0835 45072416
0.0872 1.7492 35800 0.0836 45330336
0.0915 1.7590 36000 0.0839 45584800
0.0862 1.7688 36200 0.0838 45838848
0.0821 1.7785 36400 0.0837 46091136
0.0972 1.7883 36600 0.0836 46343744
0.0953 1.7981 36800 0.0835 46597920
0.0761 1.8079 37000 0.0838 46850336
0.0644 1.8176 37200 0.0841 47104992
0.0751 1.8274 37400 0.0836 47356992
0.0622 1.8372 37600 0.0838 47609472
0.0954 1.8469 37800 0.0838 47859360
0.0756 1.8567 38000 0.0839 48110912
0.0881 1.8665 38200 0.0837 48362560
0.0944 1.8763 38400 0.0837 48613184
0.0825 1.8860 38600 0.0837 48868096
0.056 1.8958 38800 0.0837 49125344
0.0808 1.9056 39000 0.0837 49380224
0.0699 1.9153 39200 0.0837 49633664
0.0922 1.9251 39400 0.0837 49887680
0.0801 1.9349 39600 0.0838 50139296
0.0674 1.9447 39800 0.0837 50391680
0.0657 1.9544 40000 0.0838 50647232

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
46
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qqp_1744902603

Adapter
(536)
this model

Evaluation results