train_mrpc_1744902653

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the mrpc dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1475
  • Num Input Tokens Seen: 69324064

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2535 0.9685 200 0.2181 346816
0.1935 1.9395 400 0.1938 694112
0.1583 2.9104 600 0.1876 1040448
0.1558 3.8814 800 0.1832 1386944
0.1808 4.8523 1000 0.1797 1733568
0.1821 5.8232 1200 0.1846 2080576
0.1617 6.7942 1400 0.1776 2428000
0.1341 7.7651 1600 0.1778 2772832
0.1318 8.7361 1800 0.1716 3119936
0.2027 9.7070 2000 0.1778 3464864
0.1594 10.6780 2200 0.1697 3812608
0.185 11.6489 2400 0.1672 4157312
0.1435 12.6199 2600 0.1626 4504256
0.1451 13.5908 2800 0.1677 4850880
0.1718 14.5617 3000 0.1636 5197664
0.1513 15.5327 3200 0.1631 5543392
0.1353 16.5036 3400 0.1591 5889024
0.1418 17.4746 3600 0.1645 6234688
0.146 18.4455 3800 0.1600 6580608
0.1312 19.4165 4000 0.1600 6926432
0.1828 20.3874 4200 0.1652 7272896
0.1562 21.3584 4400 0.1569 7618208
0.1356 22.3293 4600 0.1631 7965376
0.1228 23.3002 4800 0.1580 8312352
0.1189 24.2712 5000 0.1539 8657568
0.1358 25.2421 5200 0.1544 9004576
0.1265 26.2131 5400 0.1575 9351552
0.1371 27.1840 5600 0.1554 9699840
0.0618 28.1550 5800 0.1532 10045120
0.1358 29.1259 6000 0.1535 10392096
0.0989 30.0969 6200 0.1597 10738624
0.1229 31.0678 6400 0.1507 11084512
0.1087 32.0387 6600 0.1519 11432096
0.1548 33.0097 6800 0.1491 11779520
0.1599 33.9782 7000 0.1514 12126016
0.1041 34.9492 7200 0.1501 12472160
0.1436 35.9201 7400 0.1526 12819680
0.084 36.8910 7600 0.1487 13166368
0.1376 37.8620 7800 0.1538 13513280
0.1162 38.8329 8000 0.1475 13860256
0.0934 39.8039 8200 0.1563 14205856
0.157 40.7748 8400 0.1507 14553152
0.133 41.7458 8600 0.1496 14898752
0.1135 42.7167 8800 0.1575 15245344
0.0967 43.6877 9000 0.1516 15590560
0.1208 44.6586 9200 0.1524 15939776
0.0915 45.6295 9400 0.1554 16286016
0.0941 46.6005 9600 0.1480 16633088
0.14 47.5714 9800 0.1557 16978656
0.0902 48.5424 10000 0.1536 17325024
0.1128 49.5133 10200 0.1562 17673440
0.0796 50.4843 10400 0.1494 18018272
0.0703 51.4552 10600 0.1558 18364992
0.1162 52.4262 10800 0.1507 18710720
0.0754 53.3971 11000 0.1486 19057408
0.1029 54.3680 11200 0.1504 19403360
0.1063 55.3390 11400 0.1479 19749408
0.0767 56.3099 11600 0.1485 20096416
0.1196 57.2809 11800 0.1607 20442944
0.0822 58.2518 12000 0.1475 20789120
0.0704 59.2228 12200 0.1536 21136768
0.132 60.1937 12400 0.1507 21482944
0.0945 61.1646 12600 0.1556 21830400
0.0769 62.1356 12800 0.1545 22177696
0.0556 63.1065 13000 0.1570 22523776
0.0669 64.0775 13200 0.1556 22871744
0.097 65.0484 13400 0.1558 23218432
0.11 66.0194 13600 0.1656 23565280
0.0519 66.9879 13800 0.1580 23911616
0.1078 67.9588 14000 0.1517 24257984
0.0851 68.9298 14200 0.1576 24604960
0.1608 69.9007 14400 0.1662 24951648
0.07 70.8717 14600 0.1599 25297664
0.0999 71.8426 14800 0.1662 25644032
0.0794 72.8136 15000 0.1619 25989408
0.0886 73.7845 15200 0.1596 26337760
0.0817 74.7554 15400 0.1788 26684800
0.0716 75.7264 15600 0.1608 27029856
0.0673 76.6973 15800 0.1766 27376160
0.0645 77.6683 16000 0.1596 27723904
0.0654 78.6392 16200 0.1714 28071104
0.0611 79.6102 16400 0.1648 28417344
0.0894 80.5811 16600 0.1644 28766240
0.0945 81.5521 16800 0.1724 29111104
0.0976 82.5230 17000 0.1668 29456800
0.0842 83.4939 17200 0.1703 29804640
0.085 84.4649 17400 0.1774 30151168
0.0701 85.4358 17600 0.1724 30497536
0.0725 86.4068 17800 0.1663 30845536
0.0494 87.3777 18000 0.1690 31191456
0.0521 88.3487 18200 0.1714 31539136
0.08 89.3196 18400 0.1779 31884000
0.0912 90.2906 18600 0.1835 32231584
0.0675 91.2615 18800 0.1735 32577088
0.0567 92.2324 19000 0.1734 32924768
0.0365 93.2034 19200 0.1752 33271392
0.0657 94.1743 19400 0.1741 33619232
0.0887 95.1453 19600 0.1847 33965280
0.1005 96.1162 19800 0.1875 34311712
0.0704 97.0872 20000 0.1800 34658112
0.0478 98.0581 20200 0.1823 35004384
0.0763 99.0291 20400 0.1882 35351392
0.0507 99.9976 20600 0.1833 35698272
0.036 100.9685 20800 0.1888 36045088
0.1246 101.9395 21000 0.1927 36391968
0.0607 102.9104 21200 0.1880 36739040
0.042 103.8814 21400 0.1960 37084768
0.0724 104.8523 21600 0.1976 37431808
0.0619 105.8232 21800 0.1883 37779232
0.0738 106.7942 22000 0.1958 38126112
0.0883 107.7651 22200 0.1900 38472672
0.0492 108.7361 22400 0.1959 38818464
0.0623 109.7070 22600 0.2028 39165472
0.0457 110.6780 22800 0.2159 39511328
0.0462 111.6489 23000 0.2016 39858048
0.0973 112.6199 23200 0.1985 40205184
0.0384 113.5908 23400 0.1994 40552448
0.0548 114.5617 23600 0.2016 40899872
0.0715 115.5327 23800 0.2051 41246848
0.0876 116.5036 24000 0.1994 41593088
0.0593 117.4746 24200 0.2118 41938464
0.088 118.4455 24400 0.2084 42284064
0.0536 119.4165 24600 0.1981 42631296
0.1398 120.3874 24800 0.2030 42976992
0.0496 121.3584 25000 0.2091 43321920
0.0982 122.3293 25200 0.2074 43669344
0.0299 123.3002 25400 0.2149 44016096
0.0615 124.2712 25600 0.2049 44363232
0.0673 125.2421 25800 0.2152 44706400
0.0644 126.2131 26000 0.2136 45054080
0.0656 127.1840 26200 0.2099 45400864
0.0742 128.1550 26400 0.2124 45746688
0.0474 129.1259 26600 0.2143 46093216
0.0126 130.0969 26800 0.2202 46440960
0.0498 131.0678 27000 0.2176 46785984
0.0552 132.0387 27200 0.2174 47133856
0.0578 133.0097 27400 0.2132 47481088
0.0488 133.9782 27600 0.2149 47827904
0.0522 134.9492 27800 0.2223 48175392
0.0308 135.9201 28000 0.2149 48521536
0.0598 136.8910 28200 0.2150 48867904
0.0646 137.8620 28400 0.2283 49212704
0.037 138.8329 28600 0.2193 49561312
0.1095 139.8039 28800 0.2233 49907264
0.08 140.7748 29000 0.2283 50254720
0.0457 141.7458 29200 0.2263 50600480
0.0386 142.7167 29400 0.2259 50947456
0.077 143.6877 29600 0.2281 51295040
0.0485 144.6586 29800 0.2284 51641376
0.0586 145.6295 30000 0.2219 51988288
0.0525 146.6005 30200 0.2274 52334112
0.0557 147.5714 30400 0.2279 52683008
0.0848 148.5424 30600 0.2253 53028128
0.0336 149.5133 30800 0.2337 53374400
0.0299 150.4843 31000 0.2241 53720704
0.0367 151.4552 31200 0.2210 54067392
0.0392 152.4262 31400 0.2251 54414880
0.0687 153.3971 31600 0.2345 54760672
0.0249 154.3680 31800 0.2343 55106400
0.0597 155.3390 32000 0.2280 55452512
0.0454 156.3099 32200 0.2322 55798400
0.0333 157.2809 32400 0.2290 56146592
0.0384 158.2518 32600 0.2252 56493696
0.0639 159.2228 32800 0.2398 56840064
0.0453 160.1937 33000 0.2316 57186368
0.0541 161.1646 33200 0.2309 57532416
0.0326 162.1356 33400 0.2347 57880832
0.0379 163.1065 33600 0.2323 58227680
0.031 164.0775 33800 0.2313 58574880
0.0222 165.0484 34000 0.2305 58922528
0.0522 166.0194 34200 0.2305 59269760
0.0336 166.9879 34400 0.2310 59615872
0.0436 167.9588 34600 0.2332 59962368
0.0633 168.9298 34800 0.2313 60308640
0.0174 169.9007 35000 0.2386 60655616
0.056 170.8717 35200 0.2290 61003136
0.044 171.8426 35400 0.2322 61350016
0.0231 172.8136 35600 0.2346 61696224
0.0998 173.7845 35800 0.2360 62044256
0.0328 174.7554 36000 0.2323 62389792
0.0298 175.7264 36200 0.2385 62738496
0.0528 176.6973 36400 0.2342 63084544
0.0627 177.6683 36600 0.2315 63431712
0.0199 178.6392 36800 0.2317 63778656
0.0361 179.6102 37000 0.2377 64124736
0.0633 180.5811 37200 0.2342 64471808
0.0255 181.5521 37400 0.2331 64820352
0.0543 182.5230 37600 0.2334 65167904
0.0231 183.4939 37800 0.2298 65513280
0.0569 184.4649 38000 0.2354 65859136
0.0324 185.4358 38200 0.2410 66205888
0.016 186.4068 38400 0.2318 66552576
0.0554 187.3777 38600 0.2347 66899904
0.0162 188.3487 38800 0.2306 67245856
0.0417 189.3196 39000 0.2416 67591648
0.0473 190.2906 39200 0.2348 67937440
0.0704 191.2615 39400 0.2346 68285088
0.0242 192.2324 39600 0.2299 68631104
0.0199 193.2034 39800 0.2358 68978016
0.0791 194.1743 40000 0.2395 69324064

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mrpc_1744902653

Adapter
(540)
this model

Evaluation results