Edit model card

collapse_gemma-2-2b_hs2_accumulate_iter20_sftsd0

This model is a fine-tuned version of google/gemma-2-2b on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 1.1003
  • Num Input Tokens Seen: 104630832

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 8e-06
  • train_batch_size: 8
  • eval_batch_size: 16
  • seed: 0
  • gradient_accumulation_steps: 16
  • total_train_batch_size: 128
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: constant_with_warmup
  • lr_scheduler_warmup_ratio: 0.05
  • num_epochs: 1

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
No log 0 0 1.3909 0
1.716 0.0026 5 1.3911 274624
1.6101 0.0052 10 1.3844 547320
1.7213 0.0078 15 1.3668 817472
1.6165 0.0104 20 1.3385 1085312
1.6294 0.0130 25 1.3026 1356488
1.4567 0.0156 30 1.2614 1625688
1.4254 0.0182 35 1.2384 1894504
1.2948 0.0208 40 1.2166 2171736
1.1986 0.0233 45 1.2016 2443368
1.0781 0.0259 50 1.2154 2710632
0.9945 0.0285 55 1.2453 2979272
0.8182 0.0311 60 1.2642 3249136
0.7713 0.0337 65 1.3092 3520200
0.5869 0.0363 70 1.3296 3792432
0.3992 0.0389 75 1.4041 4067168
0.4067 0.0415 80 1.3654 4329528
0.3497 0.0441 85 1.3315 4600696
0.3717 0.0467 90 1.3212 4874896
0.3023 0.0493 95 1.2923 5147640
0.2258 0.0519 100 1.2600 5413224
0.2768 0.0545 105 1.2478 5685832
0.2578 0.0571 110 1.2341 5957256
0.2309 0.0597 115 1.2365 6225408
0.2345 0.0623 120 1.2183 6499672
0.1605 0.0649 125 1.2223 6769456
0.1797 0.0674 130 1.2252 7038128
0.2308 0.0700 135 1.2081 7309376
0.1066 0.0726 140 1.2171 7579760
0.148 0.0752 145 1.2080 7855136
0.2081 0.0778 150 1.2019 8128928
0.1838 0.0804 155 1.1987 8400680
0.1415 0.0830 160 1.1975 8675064
0.1379 0.0856 165 1.1964 8950944
0.2083 0.0882 170 1.1948 9223752
0.2306 0.0908 175 1.1878 9494608
0.1422 0.0934 180 1.1856 9764504
0.249 0.0960 185 1.2066 10039928
0.1691 0.0986 190 1.1943 10308352
0.1571 0.1012 195 1.1828 10581752
0.1375 0.1038 200 1.1918 10858712
0.2177 0.1064 205 1.1849 11115328
0.1689 0.1090 210 1.1810 11382664
0.1722 0.1116 215 1.1812 11651744
0.1735 0.1141 220 1.1746 11918512
0.1676 0.1167 225 1.1743 12188408
0.1613 0.1193 230 1.1839 12454216
0.1049 0.1219 235 1.1764 12726848
0.1178 0.1245 240 1.1777 12997584
0.1308 0.1271 245 1.1817 13270656
0.1152 0.1297 250 1.1700 13537704
0.0899 0.1323 255 1.1725 13817400
0.1247 0.1349 260 1.1739 14092904
0.1018 0.1375 265 1.1681 14369256
0.0765 0.1401 270 1.1706 14638784
0.0989 0.1427 275 1.1768 14907256
0.1702 0.1453 280 1.1690 15179376
0.1135 0.1479 285 1.1630 15448752
0.1303 0.1505 290 1.1673 15719304
0.0822 0.1531 295 1.1640 15996104
0.1483 0.1557 300 1.1649 16264816
0.0884 0.1582 305 1.1655 16534424
0.1559 0.1608 310 1.1637 16802488
0.1557 0.1634 315 1.1603 17072088
0.1241 0.1660 320 1.1640 17345400
0.1277 0.1686 325 1.1573 17611776
0.1005 0.1712 330 1.1590 17876584
0.1254 0.1738 335 1.1616 18149144
0.13 0.1764 340 1.1623 18424184
0.1183 0.1790 345 1.1599 18696760
0.1063 0.1816 350 1.1551 18969232
0.2259 0.1842 355 1.1604 19230096
0.1062 0.1868 360 1.1589 19502800
0.1318 0.1894 365 1.1550 19778792
0.1188 0.1920 370 1.1571 20059488
0.1708 0.1946 375 1.1542 20329088
0.1379 0.1972 380 1.1570 20598304
0.1412 0.1998 385 1.1558 20874240
0.1036 0.2023 390 1.1531 21144064
0.1187 0.2049 395 1.1528 21415968
0.1144 0.2075 400 1.1544 21686632
0.139 0.2101 405 1.1560 21958456
0.1653 0.2127 410 1.1543 22231472
0.0924 0.2153 415 1.1554 22507752
0.181 0.2179 420 1.1506 22770488
0.1406 0.2205 425 1.1502 23043440
0.1473 0.2231 430 1.1517 23317896
0.1212 0.2257 435 1.1502 23591584
0.1757 0.2283 440 1.1481 23863856
0.1407 0.2309 445 1.1475 24133728
0.1317 0.2335 450 1.1517 24400592
0.1333 0.2361 455 1.1526 24676344
0.1395 0.2387 460 1.1502 24940432
0.1002 0.2413 465 1.1486 25210704
0.1905 0.2439 470 1.1481 25487704
0.1182 0.2464 475 1.1450 25763560
0.136 0.2490 480 1.1453 26040216
0.1636 0.2516 485 1.1461 26318032
0.1372 0.2542 490 1.1444 26577160
0.0943 0.2568 495 1.1422 26842672
0.1635 0.2594 500 1.1444 27117024
0.1525 0.2620 505 1.1427 27389600
0.0912 0.2646 510 1.1422 27659760
0.1092 0.2672 515 1.1417 27936376
0.1229 0.2698 520 1.1425 28206544
0.1342 0.2724 525 1.1465 28480784
0.1564 0.2750 530 1.1446 28754720
0.1526 0.2776 535 1.1403 29027288
0.1248 0.2802 540 1.1412 29299416
0.1321 0.2828 545 1.1432 29570464
0.0992 0.2854 550 1.1418 29847200
0.1759 0.2880 555 1.1376 30118616
0.1364 0.2906 560 1.1368 30384424
0.1066 0.2931 565 1.1412 30658728
0.1283 0.2957 570 1.1395 30930936
0.1477 0.2983 575 1.1354 31195504
0.0926 0.3009 580 1.1404 31471360
0.1215 0.3035 585 1.1416 31747584
0.1759 0.3061 590 1.1383 32018632
0.1114 0.3087 595 1.1375 32294872
0.1902 0.3113 600 1.1384 32573936
0.1495 0.3139 605 1.1367 32848552
0.1661 0.3165 610 1.1359 33114904
0.1025 0.3191 615 1.1360 33387616
0.1273 0.3217 620 1.1363 33653504
0.1328 0.3243 625 1.1354 33927704
0.1382 0.3269 630 1.1344 34197568
0.093 0.3295 635 1.1354 34468608
0.0825 0.3321 640 1.1369 34739504
0.0689 0.3347 645 1.1333 35009640
0.1842 0.3372 650 1.1321 35278544
0.1477 0.3398 655 1.1341 35546784
0.1309 0.3424 660 1.1318 35815424
0.0731 0.3450 665 1.1316 36081936
0.1444 0.3476 670 1.1337 36349872
0.1908 0.3502 675 1.1332 36625504
0.1288 0.3528 680 1.1303 36903568
0.1455 0.3554 685 1.1310 37168376
0.1587 0.3580 690 1.1295 37438008
0.1426 0.3606 695 1.1287 37706592
0.1113 0.3632 700 1.1295 37971760
0.0741 0.3658 705 1.1265 38240384
0.0992 0.3684 710 1.1284 38511088
0.1048 0.3710 715 1.1305 38779784
0.147 0.3736 720 1.1280 39050104
0.0875 0.3762 725 1.1268 39327024
0.1869 0.3788 730 1.1316 39601640
0.1136 0.3813 735 1.1307 39875080
0.1675 0.3839 740 1.1290 40153784
0.1276 0.3865 745 1.1274 40422520
0.121 0.3891 750 1.1244 40698128
0.0962 0.3917 755 1.1249 40972008
0.0805 0.3943 760 1.1260 41242168
0.1301 0.3969 765 1.1276 41515064
0.0664 0.3995 770 1.1263 41786720
0.1147 0.4021 775 1.1274 42057440
0.1098 0.4047 780 1.1290 42327624
0.1501 0.4073 785 1.1269 42606024
0.1321 0.4099 790 1.1259 42883472
0.1765 0.4125 795 1.1252 43149744
0.1008 0.4151 800 1.1237 43429112
0.0973 0.4177 805 1.1240 43706696
0.092 0.4203 810 1.1269 43982888
0.106 0.4229 815 1.1265 44251248
0.1341 0.4254 820 1.1249 44518760
0.1963 0.4280 825 1.1235 44788128
0.0904 0.4306 830 1.1242 45057480
0.1111 0.4332 835 1.1256 45332024
0.1538 0.4358 840 1.1240 45607080
0.132 0.4384 845 1.1231 45870912
0.0939 0.4410 850 1.1241 46144224
0.0757 0.4436 855 1.1260 46414416
0.0849 0.4462 860 1.1256 46682112
0.0825 0.4488 865 1.1244 46954088
0.1124 0.4514 870 1.1244 47229128
0.1349 0.4540 875 1.1224 47504032
0.0906 0.4566 880 1.1218 47776744
0.061 0.4592 885 1.1251 48041880
0.1252 0.4618 890 1.1276 48314824
0.0934 0.4644 895 1.1230 48588792
0.101 0.4670 900 1.1194 48861976
0.1211 0.4696 905 1.1208 49141304
0.1301 0.4721 910 1.1215 49414184
0.0991 0.4747 915 1.1192 49686016
0.1117 0.4773 920 1.1203 49958448
0.1183 0.4799 925 1.1219 50231936
0.1051 0.4825 930 1.1232 50500288
0.1583 0.4851 935 1.1237 50773264
0.0738 0.4877 940 1.1208 51043168
0.1193 0.4903 945 1.1206 51316464
0.0698 0.4929 950 1.1215 51589032
0.1228 0.4955 955 1.1208 51855792
0.1515 0.4981 960 1.1196 52127784
0.1304 0.5007 965 1.1198 52405864
0.0628 0.5033 970 1.1223 52670424
0.1231 0.5059 975 1.1235 52941040
0.0829 0.5085 980 1.1205 53215216
0.0972 0.5111 985 1.1188 53488912
0.113 0.5137 990 1.1219 53765608
0.1117 0.5162 995 1.1227 54031712
0.1229 0.5188 1000 1.1198 54305320
0.1169 0.5214 1005 1.1204 54578760
0.0884 0.5240 1010 1.1223 54850136
0.1089 0.5266 1015 1.1228 55117064
0.1343 0.5292 1020 1.1176 55391736
0.1224 0.5318 1025 1.1176 55657720
0.0934 0.5344 1030 1.1206 55931936
0.1104 0.5370 1035 1.1188 56212208
0.1026 0.5396 1040 1.1167 56478800
0.133 0.5422 1045 1.1202 56742088
0.1646 0.5448 1050 1.1208 57013056
0.1028 0.5474 1055 1.1182 57278840
0.1191 0.5500 1060 1.1166 57546456
0.1047 0.5526 1065 1.1163 57815472
0.1002 0.5552 1070 1.1166 58088736
0.1291 0.5578 1075 1.1149 58361360
0.0825 0.5603 1080 1.1149 58637656
0.1685 0.5629 1085 1.1157 58912096
0.0975 0.5655 1090 1.1147 59187552
0.1306 0.5681 1095 1.1154 59458184
0.131 0.5707 1100 1.1170 59725096
0.1421 0.5733 1105 1.1159 59991136
0.0415 0.5759 1110 1.1164 60258976
0.1087 0.5785 1115 1.1162 60535608
0.0675 0.5811 1120 1.1163 60811120
0.153 0.5837 1125 1.1161 61076968
0.0661 0.5863 1130 1.1148 61345256
0.1609 0.5889 1135 1.1157 61612816
0.1478 0.5915 1140 1.1156 61881160
0.1493 0.5941 1145 1.1147 62155744
0.213 0.5967 1150 1.1132 62424568
0.1001 0.5993 1155 1.1119 62696568
0.1504 0.6019 1160 1.1129 62966448
0.1081 0.6044 1165 1.1142 63241864
0.1363 0.6070 1170 1.1165 63511496
0.1489 0.6096 1175 1.1165 63780824
0.1227 0.6122 1180 1.1138 64048520
0.0623 0.6148 1185 1.1138 64319720
0.1511 0.6174 1190 1.1137 64598184
0.0856 0.6200 1195 1.1138 64874736
0.1107 0.6226 1200 1.1140 65153352
0.1279 0.6252 1205 1.1125 65417824
0.1414 0.6278 1210 1.1117 65685816
0.1748 0.6304 1215 1.1116 65963712
0.0846 0.6330 1220 1.1142 66237640
0.1313 0.6356 1225 1.1129 66508248
0.1576 0.6382 1230 1.1114 66772208
0.0878 0.6408 1235 1.1118 67047128
0.0523 0.6434 1240 1.1114 67319360
0.1038 0.6460 1245 1.1115 67598528
0.1218 0.6486 1250 1.1112 67880128
0.0988 0.6511 1255 1.1120 68144176
0.1595 0.6537 1260 1.1118 68414248
0.1114 0.6563 1265 1.1094 68683672
0.088 0.6589 1270 1.1105 68949456
0.1422 0.6615 1275 1.1095 69222944
0.1483 0.6641 1280 1.1088 69495776
0.0872 0.6667 1285 1.1075 69765256
0.1242 0.6693 1290 1.1073 70030464
0.09 0.6719 1295 1.1101 70306592
0.092 0.6745 1300 1.1128 70585120
0.0747 0.6771 1305 1.1109 70858144
0.1358 0.6797 1310 1.1091 71132752
0.0551 0.6823 1315 1.1081 71401184
0.1157 0.6849 1320 1.1118 71674272
0.1057 0.6875 1325 1.1113 71945264
0.1077 0.6901 1330 1.1075 72213728
0.1014 0.6927 1335 1.1076 72489288
0.1332 0.6952 1340 1.1110 72761704
0.0568 0.6978 1345 1.1108 73032896
0.0769 0.7004 1350 1.1090 73306464
0.1208 0.7030 1355 1.1094 73574192
0.1284 0.7056 1360 1.1101 73847024
0.1122 0.7082 1365 1.1091 74118120
0.1399 0.7108 1370 1.1087 74386544
0.1238 0.7134 1375 1.1076 74656936
0.0894 0.7160 1380 1.1077 74929048
0.101 0.7186 1385 1.1093 75202000
0.119 0.7212 1390 1.1095 75478328
0.1609 0.7238 1395 1.1096 75741360
0.121 0.7264 1400 1.1087 76017240
0.0817 0.7290 1405 1.1075 76287216
0.1366 0.7316 1410 1.1085 76563168
0.0853 0.7342 1415 1.1079 76835392
0.1003 0.7368 1420 1.1082 77100568
0.0783 0.7393 1425 1.1079 77370592
0.1313 0.7419 1430 1.1087 77641784
0.0961 0.7445 1435 1.1089 77912760
0.1182 0.7471 1440 1.1097 78186248
0.1139 0.7497 1445 1.1087 78456720
0.1163 0.7523 1450 1.1079 78728848
0.1504 0.7549 1455 1.1090 78993960
0.1127 0.7575 1460 1.1088 79262720
0.084 0.7601 1465 1.1069 79536160
0.1591 0.7627 1470 1.1062 79805664
0.1148 0.7653 1475 1.1062 80076272
0.1601 0.7679 1480 1.1081 80345880
0.1103 0.7705 1485 1.1109 80623320
0.095 0.7731 1490 1.1092 80896600
0.0765 0.7757 1495 1.1066 81167936
0.1369 0.7783 1500 1.1053 81436328
0.098 0.7809 1505 1.1058 81715176
0.1389 0.7834 1510 1.1061 81989600
0.0708 0.7860 1515 1.1040 82260328
0.1061 0.7886 1520 1.1054 82533968
0.1184 0.7912 1525 1.1059 82811712
0.1093 0.7938 1530 1.1054 83078272
0.1408 0.7964 1535 1.1050 83352592
0.1094 0.7990 1540 1.1051 83628256
0.0787 0.8016 1545 1.1054 83896128
0.0894 0.8042 1550 1.1057 84170368
0.1838 0.8068 1555 1.1056 84443680
0.0922 0.8094 1560 1.1053 84720936
0.0878 0.8120 1565 1.1056 84991280
0.119 0.8146 1570 1.1070 85266376
0.134 0.8172 1575 1.1064 85527880
0.083 0.8198 1580 1.1035 85803392
0.086 0.8224 1585 1.1036 86069952
0.1289 0.8250 1590 1.1042 86341424
0.0694 0.8276 1595 1.1046 86608888
0.0916 0.8301 1600 1.1045 86880656
0.1325 0.8327 1605 1.1052 87150656
0.1159 0.8353 1610 1.1048 87421992
0.1611 0.8379 1615 1.1026 87689936
0.0616 0.8405 1620 1.1017 87962640
0.086 0.8431 1625 1.1024 88233064
0.1509 0.8457 1630 1.1031 88504904
0.0949 0.8483 1635 1.1042 88778224
0.141 0.8509 1640 1.1054 89049064
0.1221 0.8535 1645 1.1047 89322512
0.1069 0.8561 1650 1.1037 89589672
0.0911 0.8587 1655 1.1043 89865152
0.1367 0.8613 1660 1.1040 90143112
0.152 0.8639 1665 1.1041 90417376
0.1041 0.8665 1670 1.1042 90690424
0.1947 0.8691 1675 1.1046 90966792
0.1343 0.8717 1680 1.1063 91235752
0.1491 0.8742 1685 1.1057 91508464
0.0623 0.8768 1690 1.1030 91783680
0.1136 0.8794 1695 1.1033 92052728
0.1123 0.8820 1700 1.1058 92324952
0.0936 0.8846 1705 1.1057 92598744
0.1418 0.8872 1710 1.1031 92873568
0.1034 0.8898 1715 1.1024 93151312
0.0717 0.8924 1720 1.1016 93419920
0.1187 0.8950 1725 1.1014 93686864
0.1236 0.8976 1730 1.1034 93964560
0.1112 0.9002 1735 1.1048 94237456
0.1082 0.9028 1740 1.1043 94508280
0.1275 0.9054 1745 1.1041 94779928
0.1312 0.9080 1750 1.1028 95060512
0.1151 0.9106 1755 1.1024 95331504
0.0875 0.9132 1760 1.1043 95597992
0.0897 0.9158 1765 1.1056 95871088
0.0904 0.9183 1770 1.1024 96143112
0.0981 0.9209 1775 1.1011 96411696
0.1145 0.9235 1780 1.1032 96689832
0.0778 0.9261 1785 1.1030 96954648
0.1091 0.9287 1790 1.1025 97224512
0.1311 0.9313 1795 1.1020 97490656
0.0952 0.9339 1800 1.1014 97756472
0.0709 0.9365 1805 1.1002 98020344
0.0606 0.9391 1810 1.1015 98292480
0.1449 0.9417 1815 1.1036 98563688
0.1069 0.9443 1820 1.1021 98828624
0.1182 0.9469 1825 1.1006 99098296
0.1127 0.9495 1830 1.1005 99361784
0.126 0.9521 1835 1.1004 99626592
0.1273 0.9547 1840 1.0996 99894880
0.094 0.9573 1845 1.1004 100166920
0.1138 0.9599 1850 1.1008 100441200
0.1154 0.9624 1855 1.1008 100720616
0.0715 0.9650 1860 1.1007 100993872
0.1398 0.9676 1865 1.0997 101260832
0.1156 0.9702 1870 1.0983 101535904
0.055 0.9728 1875 1.0994 101804960
0.0664 0.9754 1880 1.0994 102071392
0.104 0.9780 1885 1.1002 102346880
0.1057 0.9806 1890 1.0986 102608816
0.109 0.9832 1895 1.0978 102880240
0.1497 0.9858 1900 1.0982 103155816
0.0843 0.9884 1905 1.0983 103423176
0.1182 0.9910 1910 1.0992 103698136
0.1218 0.9936 1915 1.0990 103974240
0.0774 0.9962 1920 1.0986 104245048
0.0987 0.9988 1925 1.0997 104522816

Framework versions

  • Transformers 4.44.0
  • Pytorch 2.4.0+cu121
  • Datasets 2.20.0
  • Tokenizers 0.19.1
Downloads last month
9
Safetensors
Model size
2.61B params
Tensor type
BF16
·
Inference API
Unable to determine this model's library. Check the docs .

Model tree for RylanSchaeffer/collapse_gemma-2-2b_hs2_accumulate_iter20_sftsd0

Base model

google/gemma-2-2b
Finetuned
(423)
this model