File size: 16,117 Bytes
2fcc2fe
 
 
 
 
 
eeb1803
2fcc2fe
 
 
 
 
 
 
 
 
 
 
eeb1803
2fcc2fe
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
---
library_name: peft
license: gemma
base_model: google/gemma-3-1b-it
tags:
- llama-factory
- prompt-tuning
- generated_from_trainer
model-index:
- name: train_mnli_1744902581
  results: []
---

<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->

# train_mnli_1744902581

This model is a fine-tuned version of [google/gemma-3-1b-it](https://huggingface.co/google/gemma-3-1b-it) on the mnli dataset.
It achieves the following results on the evaluation set:
- Loss: 0.1030
- Num Input Tokens Seen: 64338040

## Model description

More information needed

## Intended uses & limitations

More information needed

## Training and evaluation data

More information needed

## Training procedure

### Training hyperparameters

The following hyperparameters were used during training:
- learning_rate: 0.3
- train_batch_size: 4
- eval_batch_size: 4
- seed: 123
- gradient_accumulation_steps: 4
- total_train_batch_size: 16
- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
- lr_scheduler_type: cosine
- training_steps: 40000

### Training results

| Training Loss | Epoch  | Step  | Validation Loss | Input Tokens Seen |
|:-------------:|:------:|:-----:|:---------------:|:-----------------:|
| 0.2775        | 0.0091 | 200   | 0.3191          | 320544            |
| 0.3007        | 0.0181 | 400   | 0.3029          | 640416            |
| 0.2854        | 0.0272 | 600   | 0.2960          | 964160            |
| 0.2808        | 0.0362 | 800   | 0.2792          | 1285344           |
| 0.2978        | 0.0453 | 1000  | 0.2849          | 1608256           |
| 0.2865        | 0.0543 | 1200  | 0.2782          | 1932352           |
| 0.2818        | 0.0634 | 1400  | 0.2779          | 2252192           |
| 0.3173        | 0.0724 | 1600  | 0.3176          | 2579136           |
| 0.2923        | 0.0815 | 1800  | 0.3042          | 2898880           |
| 0.2769        | 0.0905 | 2000  | 0.2872          | 3221312           |
| 0.2714        | 0.0996 | 2200  | 0.2828          | 3542752           |
| 0.287         | 0.1086 | 2400  | 0.3334          | 3866688           |
| 0.2807        | 0.1177 | 2600  | 0.2905          | 4189440           |
| 0.2798        | 0.1268 | 2800  | 0.2849          | 4512768           |
| 0.289         | 0.1358 | 3000  | 0.2862          | 4833792           |
| 0.2829        | 0.1449 | 3200  | 0.2846          | 5157664           |
| 0.2767        | 0.1539 | 3400  | 0.2967          | 5479168           |
| 0.2876        | 0.1630 | 3600  | 0.3012          | 5803680           |
| 0.2648        | 0.1720 | 3800  | 0.2781          | 6125472           |
| 0.2817        | 0.1811 | 4000  | 0.2833          | 6448128           |
| 0.2783        | 0.1901 | 4200  | 0.2810          | 6771360           |
| 0.2857        | 0.1992 | 4400  | 0.2875          | 7097088           |
| 0.2633        | 0.2082 | 4600  | 0.2894          | 7418432           |
| 0.269         | 0.2173 | 4800  | 0.2656          | 7739200           |
| 0.2557        | 0.2264 | 5000  | 0.2610          | 8062528           |
| 0.2741        | 0.2354 | 5200  | 0.2584          | 8382240           |
| 0.2988        | 0.2445 | 5400  | 0.2665          | 8703872           |
| 0.2547        | 0.2535 | 5600  | 0.2421          | 9021760           |
| 0.2422        | 0.2626 | 5800  | 0.2421          | 9343744           |
| 0.2233        | 0.2716 | 6000  | 0.2371          | 9663168           |
| 0.2387        | 0.2807 | 6200  | 0.2398          | 9983680           |
| 0.2479        | 0.2897 | 6400  | 0.2342          | 10305504          |
| 0.25          | 0.2988 | 6600  | 0.2637          | 10628064          |
| 0.2427        | 0.3078 | 6800  | 0.2388          | 10947264          |
| 0.2575        | 0.3169 | 7000  | 0.2313          | 11268736          |
| 0.1964        | 0.3259 | 7200  | 0.2405          | 11593952          |
| 0.2264        | 0.3350 | 7400  | 0.2345          | 11912448          |
| 0.2502        | 0.3441 | 7600  | 0.2325          | 12230144          |
| 0.2107        | 0.3531 | 7800  | 0.2242          | 12551712          |
| 0.2147        | 0.3622 | 8000  | 0.2310          | 12870016          |
| 0.2032        | 0.3712 | 8200  | 0.2301          | 13192096          |
| 0.2076        | 0.3803 | 8400  | 0.2301          | 13513696          |
| 0.208         | 0.3893 | 8600  | 0.2289          | 13838880          |
| 0.2286        | 0.3984 | 8800  | 0.2467          | 14159072          |
| 0.1746        | 0.4074 | 9000  | 0.2457          | 14481184          |
| 0.2156        | 0.4165 | 9200  | 0.2148          | 14802624          |
| 0.2072        | 0.4255 | 9400  | 0.2231          | 15129216          |
| 0.1889        | 0.4346 | 9600  | 0.2265          | 15445632          |
| 0.2064        | 0.4436 | 9800  | 0.2181          | 15768224          |
| 0.16          | 0.4527 | 10000 | 0.2132          | 16090112          |
| 0.1826        | 0.4618 | 10200 | 0.2246          | 16413248          |
| 0.2195        | 0.4708 | 10400 | 0.2119          | 16741440          |
| 0.2392        | 0.4799 | 10600 | 0.2058          | 17061536          |
| 0.2079        | 0.4889 | 10800 | 0.2323          | 17383360          |
| 0.1962        | 0.4980 | 11000 | 0.2091          | 17708608          |
| 0.1877        | 0.5070 | 11200 | 0.2010          | 18032288          |
| 0.2268        | 0.5161 | 11400 | 0.2070          | 18353024          |
| 0.2023        | 0.5251 | 11600 | 0.2047          | 18677184          |
| 0.1784        | 0.5342 | 11800 | 0.2097          | 18999136          |
| 0.2128        | 0.5432 | 12000 | 0.1963          | 19316576          |
| 0.2027        | 0.5523 | 12200 | 0.1993          | 19640544          |
| 0.1875        | 0.5614 | 12400 | 0.2021          | 19959648          |
| 0.1781        | 0.5704 | 12600 | 0.1934          | 20279232          |
| 0.1793        | 0.5795 | 12800 | 0.2054          | 20601792          |
| 0.15          | 0.5885 | 13000 | 0.1877          | 20923456          |
| 0.2034        | 0.5976 | 13200 | 0.1895          | 21242368          |
| 0.1826        | 0.6066 | 13400 | 0.1850          | 21561952          |
| 0.1846        | 0.6157 | 13600 | 0.1824          | 21881856          |
| 0.1674        | 0.6247 | 13800 | 0.1785          | 22210080          |
| 0.1913        | 0.6338 | 14000 | 0.1811          | 22529216          |
| 0.1507        | 0.6428 | 14200 | 0.1810          | 22849376          |
| 0.1606        | 0.6519 | 14400 | 0.1719          | 23171168          |
| 0.1799        | 0.6609 | 14600 | 0.1709          | 23493152          |
| 0.1685        | 0.6700 | 14800 | 0.1744          | 23815360          |
| 0.1819        | 0.6791 | 15000 | 0.1688          | 24137696          |
| 0.1586        | 0.6881 | 15200 | 0.1647          | 24455584          |
| 0.151         | 0.6972 | 15400 | 0.1563          | 24779040          |
| 0.1721        | 0.7062 | 15600 | 0.1550          | 25099584          |
| 0.1593        | 0.7153 | 15800 | 0.1463          | 25420512          |
| 0.1241        | 0.7243 | 16000 | 0.1486          | 25746912          |
| 0.1473        | 0.7334 | 16200 | 0.1441          | 26070048          |
| 0.1564        | 0.7424 | 16400 | 0.1423          | 26389952          |
| 0.1587        | 0.7515 | 16600 | 0.1348          | 26706080          |
| 0.1786        | 0.7605 | 16800 | 0.1375          | 27029344          |
| 0.1294        | 0.7696 | 17000 | 0.1383          | 27349920          |
| 0.145         | 0.7787 | 17200 | 0.1326          | 27671008          |
| 0.1269        | 0.7877 | 17400 | 0.1315          | 27993280          |
| 0.1139        | 0.7968 | 17600 | 0.1309          | 28319712          |
| 0.0966        | 0.8058 | 17800 | 0.1425          | 28640832          |
| 0.1094        | 0.8149 | 18000 | 0.1317          | 28964096          |
| 0.1229        | 0.8239 | 18200 | 0.1245          | 29286752          |
| 0.1241        | 0.8330 | 18400 | 0.1286          | 29606528          |
| 0.1363        | 0.8420 | 18600 | 0.1233          | 29925408          |
| 0.1303        | 0.8511 | 18800 | 0.1244          | 30247104          |
| 0.1           | 0.8601 | 19000 | 0.1229          | 30566528          |
| 0.135         | 0.8692 | 19200 | 0.1257          | 30887744          |
| 0.1142        | 0.8782 | 19400 | 0.1215          | 31208352          |
| 0.138         | 0.8873 | 19600 | 0.1230          | 31526720          |
| 0.1149        | 0.8964 | 19800 | 0.1205          | 31848736          |
| 0.1121        | 0.9054 | 20000 | 0.1246          | 32169056          |
| 0.1145        | 0.9145 | 20200 | 0.1190          | 32490752          |
| 0.1123        | 0.9235 | 20400 | 0.1226          | 32813120          |
| 0.1024        | 0.9326 | 20600 | 0.1186          | 33133696          |
| 0.1231        | 0.9416 | 20800 | 0.1177          | 33452320          |
| 0.0835        | 0.9507 | 21000 | 0.1184          | 33776032          |
| 0.0963        | 0.9597 | 21200 | 0.1166          | 34099680          |
| 0.1404        | 0.9688 | 21400 | 0.1213          | 34424928          |
| 0.1327        | 0.9778 | 21600 | 0.1180          | 34748544          |
| 0.1162        | 0.9869 | 21800 | 0.1206          | 35071104          |
| 0.1028        | 0.9959 | 22000 | 0.1145          | 35388960          |
| 0.1034        | 1.0050 | 22200 | 0.1153          | 35712792          |
| 0.1443        | 1.0140 | 22400 | 0.1160          | 36032952          |
| 0.0886        | 1.0231 | 22600 | 0.1162          | 36353656          |
| 0.1369        | 1.0321 | 22800 | 0.1143          | 36671480          |
| 0.1125        | 1.0412 | 23000 | 0.1150          | 36990680          |
| 0.0936        | 1.0503 | 23200 | 0.1140          | 37312248          |
| 0.155         | 1.0593 | 23400 | 0.1151          | 37633848          |
| 0.114         | 1.0684 | 23600 | 0.1210          | 37954104          |
| 0.1355        | 1.0774 | 23800 | 0.1144          | 38272056          |
| 0.0903        | 1.0865 | 24000 | 0.1161          | 38594968          |
| 0.1406        | 1.0955 | 24200 | 0.1137          | 38918264          |
| 0.1252        | 1.1046 | 24400 | 0.1138          | 39242584          |
| 0.1068        | 1.1136 | 24600 | 0.1110          | 39566872          |
| 0.0815        | 1.1227 | 24800 | 0.1109          | 39889656          |
| 0.1231        | 1.1317 | 25000 | 0.1150          | 40209528          |
| 0.1084        | 1.1408 | 25200 | 0.1130          | 40535352          |
| 0.0951        | 1.1498 | 25400 | 0.1111          | 40858264          |
| 0.128         | 1.1589 | 25600 | 0.1104          | 41182296          |
| 0.0604        | 1.1680 | 25800 | 0.1114          | 41502296          |
| 0.1097        | 1.1770 | 26000 | 0.1106          | 41824280          |
| 0.0998        | 1.1861 | 26200 | 0.1115          | 42148504          |
| 0.1372        | 1.1951 | 26400 | 0.1101          | 42470008          |
| 0.0967        | 1.2042 | 26600 | 0.1089          | 42789400          |
| 0.1274        | 1.2132 | 26800 | 0.1097          | 43109688          |
| 0.0784        | 1.2223 | 27000 | 0.1125          | 43433720          |
| 0.1068        | 1.2313 | 27200 | 0.1107          | 43755288          |
| 0.0917        | 1.2404 | 27400 | 0.1095          | 44072376          |
| 0.1141        | 1.2494 | 27600 | 0.1093          | 44391832          |
| 0.0779        | 1.2585 | 27800 | 0.1094          | 44714776          |
| 0.0972        | 1.2675 | 28000 | 0.1079          | 45035480          |
| 0.1198        | 1.2766 | 28200 | 0.1098          | 45354808          |
| 0.1231        | 1.2857 | 28400 | 0.1092          | 45678200          |
| 0.0915        | 1.2947 | 28600 | 0.1105          | 45998328          |
| 0.1706        | 1.3038 | 28800 | 0.1110          | 46314552          |
| 0.0854        | 1.3128 | 29000 | 0.1068          | 46639640          |
| 0.1749        | 1.3219 | 29200 | 0.1067          | 46962616          |
| 0.1095        | 1.3309 | 29400 | 0.1074          | 47284152          |
| 0.1165        | 1.3400 | 29600 | 0.1075          | 47605208          |
| 0.094         | 1.3490 | 29800 | 0.1062          | 47925944          |
| 0.1375        | 1.3581 | 30000 | 0.1067          | 48250168          |
| 0.07          | 1.3671 | 30200 | 0.1081          | 48570040          |
| 0.129         | 1.3762 | 30400 | 0.1061          | 48891448          |
| 0.1064        | 1.3853 | 30600 | 0.1057          | 49216568          |
| 0.0995        | 1.3943 | 30800 | 0.1057          | 49535352          |
| 0.0876        | 1.4034 | 31000 | 0.1055          | 49859864          |
| 0.1298        | 1.4124 | 31200 | 0.1060          | 50183160          |
| 0.0842        | 1.4215 | 31400 | 0.1059          | 50505176          |
| 0.0993        | 1.4305 | 31600 | 0.1052          | 50823608          |
| 0.0891        | 1.4396 | 31800 | 0.1048          | 51142072          |
| 0.1022        | 1.4486 | 32000 | 0.1053          | 51462648          |
| 0.0892        | 1.4577 | 32200 | 0.1074          | 51788568          |
| 0.1001        | 1.4667 | 32400 | 0.1049          | 52107544          |
| 0.0961        | 1.4758 | 32600 | 0.1046          | 52430680          |
| 0.1437        | 1.4848 | 32800 | 0.1046          | 52750648          |
| 0.1479        | 1.4939 | 33000 | 0.1053          | 53070040          |
| 0.1133        | 1.5030 | 33200 | 0.1052          | 53392248          |
| 0.0933        | 1.5120 | 33400 | 0.1059          | 53715256          |
| 0.0873        | 1.5211 | 33600 | 0.1054          | 54035320          |
| 0.1075        | 1.5301 | 33800 | 0.1045          | 54359832          |
| 0.0649        | 1.5392 | 34000 | 0.1042          | 54681080          |
| 0.0861        | 1.5482 | 34200 | 0.1038          | 55004920          |
| 0.0814        | 1.5573 | 34400 | 0.1041          | 55328216          |
| 0.074         | 1.5663 | 34600 | 0.1040          | 55651352          |
| 0.0819        | 1.5754 | 34800 | 0.1038          | 55973688          |
| 0.064         | 1.5844 | 35000 | 0.1038          | 56295192          |
| 0.1199        | 1.5935 | 35200 | 0.1036          | 56617656          |
| 0.1077        | 1.6025 | 35400 | 0.1036          | 56938168          |
| 0.1226        | 1.6116 | 35600 | 0.1039          | 57260536          |
| 0.0921        | 1.6207 | 35800 | 0.1036          | 57581848          |
| 0.097         | 1.6297 | 36000 | 0.1035          | 57900760          |
| 0.1194        | 1.6388 | 36200 | 0.1040          | 58226104          |
| 0.0965        | 1.6478 | 36400 | 0.1035          | 58548024          |
| 0.0832        | 1.6569 | 36600 | 0.1033          | 58869400          |
| 0.0864        | 1.6659 | 36800 | 0.1034          | 59192472          |
| 0.1277        | 1.6750 | 37000 | 0.1033          | 59516888          |
| 0.0804        | 1.6840 | 37200 | 0.1031          | 59840056          |
| 0.0614        | 1.6931 | 37400 | 0.1033          | 60166712          |
| 0.1037        | 1.7021 | 37600 | 0.1033          | 60488984          |
| 0.0874        | 1.7112 | 37800 | 0.1031          | 60810360          |
| 0.0783        | 1.7203 | 38000 | 0.1031          | 61132280          |
| 0.0941        | 1.7293 | 38200 | 0.1032          | 61456312          |
| 0.0929        | 1.7384 | 38400 | 0.1031          | 61776888          |
| 0.1339        | 1.7474 | 38600 | 0.1031          | 62093144          |
| 0.0966        | 1.7565 | 38800 | 0.1032          | 62410264          |
| 0.0785        | 1.7655 | 39000 | 0.1032          | 62732824          |
| 0.0942        | 1.7746 | 39200 | 0.1031          | 63054168          |
| 0.1183        | 1.7836 | 39400 | 0.1031          | 63375640          |
| 0.0924        | 1.7927 | 39600 | 0.1031          | 63697560          |
| 0.0543        | 1.8017 | 39800 | 0.1031          | 64016568          |
| 0.0784        | 1.8108 | 40000 | 0.1030          | 64338040          |


### Framework versions

- PEFT 0.15.1
- Transformers 4.51.3
- Pytorch 2.6.0+cu124
- Datasets 3.5.0
- Tokenizers 0.21.1