flair-hipe-2022-ajmc-de / training.log

Upload folder using huggingface_hub

0e1a960 over 1 year ago

24 kB

	2023-10-13 08:32:58,176 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:58,176 Model: "SequenceTagger(
	(embeddings): TransformerWordEmbeddings(
	(model): BertModel(
	(embeddings): BertEmbeddings(
	(word_embeddings): Embedding(32001, 768)
	(position_embeddings): Embedding(512, 768)
	(token_type_embeddings): Embedding(2, 768)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(encoder): BertEncoder(
	(layer): ModuleList(
	(0-11): 12 x BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(pooler): BertPooler(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(activation): Tanh()
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=768, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-13 08:32:58,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:58,177 MultiCorpus: 1100 train + 206 dev + 240 test sentences
	- NER_HIPE_2022 Corpus: 1100 train + 206 dev + 240 test sentences - /root/.flair/datasets/ner_hipe_2022/v2.1/ajmc/de/with_doc_seperator
	2023-10-13 08:32:58,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:58,177 Train: 1100 sentences
	2023-10-13 08:32:58,177 (train_with_dev=False, train_with_test=False)
	2023-10-13 08:32:58,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:58,177 Training Params:
	2023-10-13 08:32:58,177 - learning_rate: "5e-05"
	2023-10-13 08:32:58,177 - mini_batch_size: "4"
	2023-10-13 08:32:58,177 - max_epochs: "10"
	2023-10-13 08:32:58,177 - shuffle: "True"
	2023-10-13 08:32:58,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:58,177 Plugins:
	2023-10-13 08:32:58,177 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-13 08:32:58,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:58,177 Final evaluation on model from best epoch (best-model.pt)
	2023-10-13 08:32:58,177 - metric: "('micro avg', 'f1-score')"
	2023-10-13 08:32:58,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:58,177 Computation:
	2023-10-13 08:32:58,177 - compute on device: cuda:0
	2023-10-13 08:32:58,177 - embedding storage: none
	2023-10-13 08:32:58,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:58,177 Model training base path: "hmbench-ajmc/de-dbmdz/bert-base-historic-multilingual-cased-bs4-wsFalse-e10-lr5e-05-poolingfirst-layers-1-crfFalse-3"
	2023-10-13 08:32:58,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:58,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:32:59,590 epoch 1 - iter 27/275 - loss 3.04714313 - time (sec): 1.41 - samples/sec: 1715.29 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 08:33:00,991 epoch 1 - iter 54/275 - loss 2.39413413 - time (sec): 2.81 - samples/sec: 1613.81 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 08:33:02,339 epoch 1 - iter 81/275 - loss 1.84617130 - time (sec): 4.16 - samples/sec: 1644.84 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 08:33:03,683 epoch 1 - iter 108/275 - loss 1.54588332 - time (sec): 5.50 - samples/sec: 1641.17 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 08:33:05,047 epoch 1 - iter 135/275 - loss 1.36800336 - time (sec): 6.87 - samples/sec: 1643.09 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 08:33:06,382 epoch 1 - iter 162/275 - loss 1.24026566 - time (sec): 8.20 - samples/sec: 1617.43 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 08:33:07,765 epoch 1 - iter 189/275 - loss 1.10610285 - time (sec): 9.59 - samples/sec: 1637.41 - lr: 0.000034 - momentum: 0.000000
	2023-10-13 08:33:09,127 epoch 1 - iter 216/275 - loss 1.00254786 - time (sec): 10.95 - samples/sec: 1630.58 - lr: 0.000039 - momentum: 0.000000
	2023-10-13 08:33:10,472 epoch 1 - iter 243/275 - loss 0.93102179 - time (sec): 12.29 - samples/sec: 1634.52 - lr: 0.000044 - momentum: 0.000000
	2023-10-13 08:33:11,832 epoch 1 - iter 270/275 - loss 0.86490296 - time (sec): 13.65 - samples/sec: 1631.39 - lr: 0.000049 - momentum: 0.000000
	2023-10-13 08:33:12,079 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:33:12,079 EPOCH 1 done: loss 0.8551 - lr: 0.000049
	2023-10-13 08:33:12,632 DEV : loss 0.19248613715171814 - f1-score (micro avg) 0.6941
	2023-10-13 08:33:12,637 saving best model
	2023-10-13 08:33:13,091 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:33:14,445 epoch 2 - iter 27/275 - loss 0.16238864 - time (sec): 1.35 - samples/sec: 1532.54 - lr: 0.000049 - momentum: 0.000000
	2023-10-13 08:33:15,900 epoch 2 - iter 54/275 - loss 0.18066758 - time (sec): 2.81 - samples/sec: 1584.43 - lr: 0.000049 - momentum: 0.000000
	2023-10-13 08:33:17,453 epoch 2 - iter 81/275 - loss 0.18789539 - time (sec): 4.36 - samples/sec: 1551.04 - lr: 0.000048 - momentum: 0.000000
	2023-10-13 08:33:18,974 epoch 2 - iter 108/275 - loss 0.18090485 - time (sec): 5.88 - samples/sec: 1580.07 - lr: 0.000048 - momentum: 0.000000
	2023-10-13 08:33:20,428 epoch 2 - iter 135/275 - loss 0.18258663 - time (sec): 7.34 - samples/sec: 1593.69 - lr: 0.000047 - momentum: 0.000000
	2023-10-13 08:33:21,915 epoch 2 - iter 162/275 - loss 0.17760713 - time (sec): 8.82 - samples/sec: 1571.78 - lr: 0.000047 - momentum: 0.000000
	2023-10-13 08:33:23,388 epoch 2 - iter 189/275 - loss 0.17570702 - time (sec): 10.30 - samples/sec: 1553.06 - lr: 0.000046 - momentum: 0.000000
	2023-10-13 08:33:24,843 epoch 2 - iter 216/275 - loss 0.17496155 - time (sec): 11.75 - samples/sec: 1554.44 - lr: 0.000046 - momentum: 0.000000
	2023-10-13 08:33:26,285 epoch 2 - iter 243/275 - loss 0.16582306 - time (sec): 13.19 - samples/sec: 1548.36 - lr: 0.000045 - momentum: 0.000000
	2023-10-13 08:33:27,687 epoch 2 - iter 270/275 - loss 0.16263694 - time (sec): 14.60 - samples/sec: 1531.95 - lr: 0.000045 - momentum: 0.000000
	2023-10-13 08:33:27,950 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:33:27,950 EPOCH 2 done: loss 0.1656 - lr: 0.000045
	2023-10-13 08:33:28,614 DEV : loss 0.14798402786254883 - f1-score (micro avg) 0.8053
	2023-10-13 08:33:28,620 saving best model
	2023-10-13 08:33:29,177 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:33:30,521 epoch 3 - iter 27/275 - loss 0.11126465 - time (sec): 1.34 - samples/sec: 1708.17 - lr: 0.000044 - momentum: 0.000000
	2023-10-13 08:33:31,839 epoch 3 - iter 54/275 - loss 0.13183460 - time (sec): 2.66 - samples/sec: 1745.63 - lr: 0.000043 - momentum: 0.000000
	2023-10-13 08:33:33,210 epoch 3 - iter 81/275 - loss 0.12195720 - time (sec): 4.03 - samples/sec: 1712.27 - lr: 0.000043 - momentum: 0.000000
	2023-10-13 08:33:34,559 epoch 3 - iter 108/275 - loss 0.10632686 - time (sec): 5.38 - samples/sec: 1687.34 - lr: 0.000042 - momentum: 0.000000
	2023-10-13 08:33:36,112 epoch 3 - iter 135/275 - loss 0.12078275 - time (sec): 6.93 - samples/sec: 1658.65 - lr: 0.000042 - momentum: 0.000000
	2023-10-13 08:33:37,472 epoch 3 - iter 162/275 - loss 0.12131658 - time (sec): 8.29 - samples/sec: 1634.39 - lr: 0.000041 - momentum: 0.000000
	2023-10-13 08:33:38,827 epoch 3 - iter 189/275 - loss 0.11383941 - time (sec): 9.65 - samples/sec: 1638.61 - lr: 0.000041 - momentum: 0.000000
	2023-10-13 08:33:40,153 epoch 3 - iter 216/275 - loss 0.11546269 - time (sec): 10.97 - samples/sec: 1636.87 - lr: 0.000040 - momentum: 0.000000
	2023-10-13 08:33:41,437 epoch 3 - iter 243/275 - loss 0.11394532 - time (sec): 12.26 - samples/sec: 1654.98 - lr: 0.000040 - momentum: 0.000000
	2023-10-13 08:33:42,750 epoch 3 - iter 270/275 - loss 0.11132217 - time (sec): 13.57 - samples/sec: 1650.18 - lr: 0.000039 - momentum: 0.000000
	2023-10-13 08:33:42,992 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:33:42,992 EPOCH 3 done: loss 0.1098 - lr: 0.000039
	2023-10-13 08:33:43,651 DEV : loss 0.15066391229629517 - f1-score (micro avg) 0.8683
	2023-10-13 08:33:43,655 saving best model
	2023-10-13 08:33:44,168 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:33:45,527 epoch 4 - iter 27/275 - loss 0.07288362 - time (sec): 1.36 - samples/sec: 1647.79 - lr: 0.000038 - momentum: 0.000000
	2023-10-13 08:33:46,866 epoch 4 - iter 54/275 - loss 0.08201905 - time (sec): 2.69 - samples/sec: 1633.87 - lr: 0.000038 - momentum: 0.000000
	2023-10-13 08:33:48,227 epoch 4 - iter 81/275 - loss 0.06593952 - time (sec): 4.06 - samples/sec: 1673.94 - lr: 0.000037 - momentum: 0.000000
	2023-10-13 08:33:49,487 epoch 4 - iter 108/275 - loss 0.07562373 - time (sec): 5.31 - samples/sec: 1664.35 - lr: 0.000037 - momentum: 0.000000
	2023-10-13 08:33:50,855 epoch 4 - iter 135/275 - loss 0.08332220 - time (sec): 6.68 - samples/sec: 1668.38 - lr: 0.000036 - momentum: 0.000000
	2023-10-13 08:33:52,160 epoch 4 - iter 162/275 - loss 0.08850509 - time (sec): 7.99 - samples/sec: 1682.81 - lr: 0.000036 - momentum: 0.000000
	2023-10-13 08:33:53,511 epoch 4 - iter 189/275 - loss 0.08602280 - time (sec): 9.34 - samples/sec: 1681.52 - lr: 0.000035 - momentum: 0.000000
	2023-10-13 08:33:54,809 epoch 4 - iter 216/275 - loss 0.08576882 - time (sec): 10.64 - samples/sec: 1672.65 - lr: 0.000035 - momentum: 0.000000
	2023-10-13 08:33:56,046 epoch 4 - iter 243/275 - loss 0.08711784 - time (sec): 11.87 - samples/sec: 1668.91 - lr: 0.000034 - momentum: 0.000000
	2023-10-13 08:33:57,413 epoch 4 - iter 270/275 - loss 0.08385358 - time (sec): 13.24 - samples/sec: 1688.44 - lr: 0.000034 - momentum: 0.000000
	2023-10-13 08:33:57,672 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:33:57,672 EPOCH 4 done: loss 0.0823 - lr: 0.000034
	2023-10-13 08:33:58,348 DEV : loss 0.16972072422504425 - f1-score (micro avg) 0.862
	2023-10-13 08:33:58,353 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:33:59,758 epoch 5 - iter 27/275 - loss 0.07002550 - time (sec): 1.40 - samples/sec: 1740.87 - lr: 0.000033 - momentum: 0.000000
	2023-10-13 08:34:01,112 epoch 5 - iter 54/275 - loss 0.06055068 - time (sec): 2.76 - samples/sec: 1732.26 - lr: 0.000032 - momentum: 0.000000
	2023-10-13 08:34:02,400 epoch 5 - iter 81/275 - loss 0.06519177 - time (sec): 4.05 - samples/sec: 1706.49 - lr: 0.000032 - momentum: 0.000000
	2023-10-13 08:34:03,705 epoch 5 - iter 108/275 - loss 0.06009494 - time (sec): 5.35 - samples/sec: 1700.34 - lr: 0.000031 - momentum: 0.000000
	2023-10-13 08:34:05,015 epoch 5 - iter 135/275 - loss 0.06524965 - time (sec): 6.66 - samples/sec: 1694.87 - lr: 0.000031 - momentum: 0.000000
	2023-10-13 08:34:06,339 epoch 5 - iter 162/275 - loss 0.05954754 - time (sec): 7.98 - samples/sec: 1666.38 - lr: 0.000030 - momentum: 0.000000
	2023-10-13 08:34:07,788 epoch 5 - iter 189/275 - loss 0.05966031 - time (sec): 9.43 - samples/sec: 1652.36 - lr: 0.000030 - momentum: 0.000000
	2023-10-13 08:34:09,041 epoch 5 - iter 216/275 - loss 0.06153642 - time (sec): 10.69 - samples/sec: 1656.70 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 08:34:10,238 epoch 5 - iter 243/275 - loss 0.05870686 - time (sec): 11.88 - samples/sec: 1696.66 - lr: 0.000029 - momentum: 0.000000
	2023-10-13 08:34:11,375 epoch 5 - iter 270/275 - loss 0.05725721 - time (sec): 13.02 - samples/sec: 1716.58 - lr: 0.000028 - momentum: 0.000000
	2023-10-13 08:34:11,615 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:34:11,615 EPOCH 5 done: loss 0.0598 - lr: 0.000028
	2023-10-13 08:34:12,370 DEV : loss 0.13807880878448486 - f1-score (micro avg) 0.8786
	2023-10-13 08:34:12,375 saving best model
	2023-10-13 08:34:12,930 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:34:14,288 epoch 6 - iter 27/275 - loss 0.05119173 - time (sec): 1.36 - samples/sec: 1736.70 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 08:34:15,602 epoch 6 - iter 54/275 - loss 0.04997304 - time (sec): 2.67 - samples/sec: 1775.66 - lr: 0.000027 - momentum: 0.000000
	2023-10-13 08:34:16,926 epoch 6 - iter 81/275 - loss 0.04700888 - time (sec): 3.99 - samples/sec: 1682.59 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 08:34:18,154 epoch 6 - iter 108/275 - loss 0.04478485 - time (sec): 5.22 - samples/sec: 1696.14 - lr: 0.000026 - momentum: 0.000000
	2023-10-13 08:34:19,394 epoch 6 - iter 135/275 - loss 0.04564487 - time (sec): 6.46 - samples/sec: 1723.93 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 08:34:20,689 epoch 6 - iter 162/275 - loss 0.04178622 - time (sec): 7.76 - samples/sec: 1718.19 - lr: 0.000025 - momentum: 0.000000
	2023-10-13 08:34:21,994 epoch 6 - iter 189/275 - loss 0.04548401 - time (sec): 9.06 - samples/sec: 1701.43 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 08:34:23,397 epoch 6 - iter 216/275 - loss 0.04335930 - time (sec): 10.47 - samples/sec: 1692.68 - lr: 0.000024 - momentum: 0.000000
	2023-10-13 08:34:24,713 epoch 6 - iter 243/275 - loss 0.04768471 - time (sec): 11.78 - samples/sec: 1713.43 - lr: 0.000023 - momentum: 0.000000
	2023-10-13 08:34:25,961 epoch 6 - iter 270/275 - loss 0.04520765 - time (sec): 13.03 - samples/sec: 1722.15 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 08:34:26,192 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:34:26,192 EPOCH 6 done: loss 0.0459 - lr: 0.000022
	2023-10-13 08:34:26,895 DEV : loss 0.13942967355251312 - f1-score (micro avg) 0.8851
	2023-10-13 08:34:26,901 saving best model
	2023-10-13 08:34:27,430 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:34:28,683 epoch 7 - iter 27/275 - loss 0.03084838 - time (sec): 1.25 - samples/sec: 1815.41 - lr: 0.000022 - momentum: 0.000000
	2023-10-13 08:34:29,955 epoch 7 - iter 54/275 - loss 0.02247843 - time (sec): 2.52 - samples/sec: 1693.69 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 08:34:31,233 epoch 7 - iter 81/275 - loss 0.03578498 - time (sec): 3.80 - samples/sec: 1744.88 - lr: 0.000021 - momentum: 0.000000
	2023-10-13 08:34:32,512 epoch 7 - iter 108/275 - loss 0.02970659 - time (sec): 5.08 - samples/sec: 1755.06 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 08:34:33,722 epoch 7 - iter 135/275 - loss 0.03215910 - time (sec): 6.29 - samples/sec: 1780.84 - lr: 0.000020 - momentum: 0.000000
	2023-10-13 08:34:34,977 epoch 7 - iter 162/275 - loss 0.03234887 - time (sec): 7.55 - samples/sec: 1779.39 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 08:34:36,309 epoch 7 - iter 189/275 - loss 0.03111690 - time (sec): 8.88 - samples/sec: 1782.54 - lr: 0.000019 - momentum: 0.000000
	2023-10-13 08:34:37,608 epoch 7 - iter 216/275 - loss 0.03139334 - time (sec): 10.18 - samples/sec: 1757.77 - lr: 0.000018 - momentum: 0.000000
	2023-10-13 08:34:38,916 epoch 7 - iter 243/275 - loss 0.02834597 - time (sec): 11.48 - samples/sec: 1758.49 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 08:34:40,177 epoch 7 - iter 270/275 - loss 0.03079822 - time (sec): 12.75 - samples/sec: 1754.29 - lr: 0.000017 - momentum: 0.000000
	2023-10-13 08:34:40,411 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:34:40,411 EPOCH 7 done: loss 0.0308 - lr: 0.000017
	2023-10-13 08:34:41,083 DEV : loss 0.15453596413135529 - f1-score (micro avg) 0.868
	2023-10-13 08:34:41,088 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:34:42,342 epoch 8 - iter 27/275 - loss 0.02109382 - time (sec): 1.25 - samples/sec: 1829.33 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 08:34:43,603 epoch 8 - iter 54/275 - loss 0.02025858 - time (sec): 2.51 - samples/sec: 1758.34 - lr: 0.000016 - momentum: 0.000000
	2023-10-13 08:34:44,808 epoch 8 - iter 81/275 - loss 0.01822485 - time (sec): 3.72 - samples/sec: 1807.99 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 08:34:45,995 epoch 8 - iter 108/275 - loss 0.02322727 - time (sec): 4.90 - samples/sec: 1864.65 - lr: 0.000015 - momentum: 0.000000
	2023-10-13 08:34:47,265 epoch 8 - iter 135/275 - loss 0.02349216 - time (sec): 6.18 - samples/sec: 1838.39 - lr: 0.000014 - momentum: 0.000000
	2023-10-13 08:34:48,489 epoch 8 - iter 162/275 - loss 0.02354132 - time (sec): 7.40 - samples/sec: 1839.28 - lr: 0.000014 - momentum: 0.000000
	2023-10-13 08:34:49,672 epoch 8 - iter 189/275 - loss 0.02656606 - time (sec): 8.58 - samples/sec: 1843.38 - lr: 0.000013 - momentum: 0.000000
	2023-10-13 08:34:50,879 epoch 8 - iter 216/275 - loss 0.02469785 - time (sec): 9.79 - samples/sec: 1814.71 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 08:34:52,072 epoch 8 - iter 243/275 - loss 0.02272723 - time (sec): 10.98 - samples/sec: 1825.49 - lr: 0.000012 - momentum: 0.000000
	2023-10-13 08:34:53,263 epoch 8 - iter 270/275 - loss 0.02072684 - time (sec): 12.17 - samples/sec: 1831.08 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 08:34:53,482 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:34:53,482 EPOCH 8 done: loss 0.0220 - lr: 0.000011
	2023-10-13 08:34:54,207 DEV : loss 0.1433096081018448 - f1-score (micro avg) 0.8977
	2023-10-13 08:34:54,212 saving best model
	2023-10-13 08:34:54,706 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:34:55,954 epoch 9 - iter 27/275 - loss 0.02665393 - time (sec): 1.25 - samples/sec: 1821.64 - lr: 0.000011 - momentum: 0.000000
	2023-10-13 08:34:57,125 epoch 9 - iter 54/275 - loss 0.01402467 - time (sec): 2.42 - samples/sec: 1798.96 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 08:34:58,276 epoch 9 - iter 81/275 - loss 0.01312050 - time (sec): 3.57 - samples/sec: 1846.45 - lr: 0.000010 - momentum: 0.000000
	2023-10-13 08:34:59,425 epoch 9 - iter 108/275 - loss 0.01317766 - time (sec): 4.72 - samples/sec: 1811.17 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 08:35:00,589 epoch 9 - iter 135/275 - loss 0.01744292 - time (sec): 5.88 - samples/sec: 1893.37 - lr: 0.000009 - momentum: 0.000000
	2023-10-13 08:35:01,743 epoch 9 - iter 162/275 - loss 0.01660356 - time (sec): 7.03 - samples/sec: 1934.90 - lr: 0.000008 - momentum: 0.000000
	2023-10-13 08:35:02,999 epoch 9 - iter 189/275 - loss 0.01454803 - time (sec): 8.29 - samples/sec: 1909.02 - lr: 0.000007 - momentum: 0.000000
	2023-10-13 08:35:04,237 epoch 9 - iter 216/275 - loss 0.01546288 - time (sec): 9.53 - samples/sec: 1892.29 - lr: 0.000007 - momentum: 0.000000
	2023-10-13 08:35:05,448 epoch 9 - iter 243/275 - loss 0.01444547 - time (sec): 10.74 - samples/sec: 1874.69 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 08:35:06,649 epoch 9 - iter 270/275 - loss 0.01579205 - time (sec): 11.94 - samples/sec: 1869.33 - lr: 0.000006 - momentum: 0.000000
	2023-10-13 08:35:06,875 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:35:06,875 EPOCH 9 done: loss 0.0162 - lr: 0.000006
	2023-10-13 08:35:07,535 DEV : loss 0.14539609849452972 - f1-score (micro avg) 0.8889
	2023-10-13 08:35:07,539 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:35:08,782 epoch 10 - iter 27/275 - loss 0.03744018 - time (sec): 1.24 - samples/sec: 1843.69 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 08:35:10,005 epoch 10 - iter 54/275 - loss 0.04391229 - time (sec): 2.46 - samples/sec: 1855.68 - lr: 0.000005 - momentum: 0.000000
	2023-10-13 08:35:11,278 epoch 10 - iter 81/275 - loss 0.02903518 - time (sec): 3.74 - samples/sec: 1869.23 - lr: 0.000004 - momentum: 0.000000
	2023-10-13 08:35:12,519 epoch 10 - iter 108/275 - loss 0.02592698 - time (sec): 4.98 - samples/sec: 1831.08 - lr: 0.000004 - momentum: 0.000000
	2023-10-13 08:35:13,713 epoch 10 - iter 135/275 - loss 0.02103490 - time (sec): 6.17 - samples/sec: 1824.56 - lr: 0.000003 - momentum: 0.000000
	2023-10-13 08:35:14,892 epoch 10 - iter 162/275 - loss 0.01951085 - time (sec): 7.35 - samples/sec: 1875.40 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 08:35:16,076 epoch 10 - iter 189/275 - loss 0.01714763 - time (sec): 8.54 - samples/sec: 1859.96 - lr: 0.000002 - momentum: 0.000000
	2023-10-13 08:35:17,272 epoch 10 - iter 216/275 - loss 0.01515363 - time (sec): 9.73 - samples/sec: 1849.93 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 08:35:18,480 epoch 10 - iter 243/275 - loss 0.01499240 - time (sec): 10.94 - samples/sec: 1835.33 - lr: 0.000001 - momentum: 0.000000
	2023-10-13 08:35:19,746 epoch 10 - iter 270/275 - loss 0.01408694 - time (sec): 12.21 - samples/sec: 1824.85 - lr: 0.000000 - momentum: 0.000000
	2023-10-13 08:35:19,970 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:35:19,971 EPOCH 10 done: loss 0.0138 - lr: 0.000000
	2023-10-13 08:35:20,618 DEV : loss 0.14501692354679108 - f1-score (micro avg) 0.8921
	2023-10-13 08:35:20,989 ----------------------------------------------------------------------------------------------------
	2023-10-13 08:35:20,991 Loading model from best epoch ...
	2023-10-13 08:35:22,653 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-object, B-object, E-object, I-object, S-date, B-date, E-date, I-date
	2023-10-13 08:35:23,442
	Results:
	- F-score (micro) 0.9062
	- F-score (macro) 0.8756
	- Accuracy 0.8366

	By class:
	precision recall f1-score support

	scope 0.8851 0.8750 0.8800 176
	pers 0.9919 0.9531 0.9721 128
	work 0.8533 0.8649 0.8591 74
	object 1.0000 1.0000 1.0000 2
	loc 1.0000 0.5000 0.6667 2

	micro avg 0.9147 0.8979 0.9062 382
	macro avg 0.9461 0.8386 0.8756 382
	weighted avg 0.9159 0.8979 0.9063 382

	2023-10-13 08:35:23,443 ----------------------------------------------------------------------------------------------------