File size: 1,445 Bytes
c87c19e cc69a8f c87c19e cc69a8f c87c19e cc69a8f 038a2be 1e048b1 c87c19e cc69a8f c87c19e cc69a8f 1c62c8c c87c19e 85434d8 cc69a8f 1c62c8c c87c19e cc69a8f c87c19e cc69a8f c87c19e |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 |
---
language: da
tags:
- bert
- punctuation restoration
license: apache-2.0
datasets:
- custom
---
# Bert Punctuation Restoration Danish
This model performs the punctuation restoration task in Danish. The method used is sequence classification similar to how NER models
are trained.
## Model description
TODO
### How to use
The model requires some additional inference code, hence we created an awesome little pip package for inference.
The inference code is based on the `TokenClassificationPipeline` pipeline from huggingface.
First, install the little package by running
```
pip install punctfix
```
Then restoration is as simple as the following snippet:
```python
>>> from punctfix import PunctFixer
>>> model = PunctFixer(language="da")
>>> example_text = "mit navn det er rasmus og jeg kommer fra firmaet alvenir det er mig som har trænet denne lækre model"
>>> print(model.punctuate(example_text))
'Mit navn det er Rasmus og jeg kommer fra firmaet Alvenir. Det er mig som har trænet denne lækre model.'
>>> example_text = "en dag bliver vi sku glade for at vi nu kan sætte punktummer og kommaer i en sætning det fungerer da meget godt ikke"
>>> print(fixer.punctuate(example_text))
'En dag bliver vi sku glade for, at vi nu kan sætte punktummer og kommaer i en sætning. Det fungerer da meget godt, ikke?'
```
## Training data
To Do
## Training procedure
To Do
### Preprocessing
TODO
## Evaluation results
TODO
|