metadata

language: da
tags:
  - bert
  - punctuation restoration
license: apache-2.0
datasets:
  - custom

Bert Punctuation Restoration Danish

This model performs the punctuation restoration task in Danish. The method used is sequence classification similar to how NER models are trained.

Model description

TODO

How to use

The model requires some additional inference code, hence we created an awesome little pip package for inference. The inference code is based on the TokenClassificationPipeline pipeline from huggingface.

First, install the little package by running

pip install punctfix

Then restoration is as simple as the following snippet:

>>> from punctfix import PunctFixer
>>> fixer = PunctFixer(language="da")

>>> example_text = "mit navn det er rasmus og jeg kommer fra firmaet alvenir det er mig som har trænet denne lækre model"
>>> print(fixer.punctuate(example_text))
'Mit navn det er Rasmus og jeg kommer fra firmaet Alvenir. Det er mig som har trænet denne lækre model.'

>>> example_text = "en dag bliver vi sku glade for at vi nu kan sætte punktummer og kommaer i en sætning det fungerer da meget godt ikke"
>>> print(fixer.punctuate(example_text)) 
'En dag bliver vi sku glade for, at vi nu kan sætte punktummer og kommaer i en sætning. Det fungerer da meget godt, ikke?'

Training data

To Do

Training procedure

To Do

Preprocessing

TODO

Evaluation results

TODO