File size: 1,445 Bytes
c87c19e
 
 
 
 
 
 
 
 
 
 
 
cc69a8f
c87c19e
 
 
cc69a8f
c87c19e
 
cc69a8f
038a2be
 
 
 
 
 
 
1e048b1
c87c19e
 
cc69a8f
922d302
c87c19e
cc69a8f
922d302
1c62c8c
c87c19e
85434d8
cc69a8f
1c62c8c
c87c19e
 
 
cc69a8f
 
c87c19e
cc69a8f
c87c19e
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
---
language: da
tags:
- bert
- punctuation restoration
license: apache-2.0
datasets:
- custom

---

# Bert Punctuation Restoration Danish
This model performs the punctuation restoration task in Danish. The method used is sequence classification similar to how NER models
are trained.

## Model description
TODO

### How to use
The model requires some additional inference code, hence we created an awesome little pip package for inference. 
The inference code is based on the `TokenClassificationPipeline` pipeline from huggingface. 

First, install the little package by running 

```
pip install punctfix
```
Then restoration is as simple as the following snippet:

```python
>>> from punctfix import PunctFixer
>>> fixer = PunctFixer(language="da")

>>> example_text = "mit navn det er rasmus og jeg kommer fra firmaet alvenir det er mig som har trænet denne lækre model"
>>> print(fixer.punctuate(example_text))
'Mit navn det er Rasmus og jeg kommer fra firmaet Alvenir. Det er mig som har trænet denne lækre model.'

>>> example_text = "en dag bliver vi sku glade for at vi nu kan sætte punktummer og kommaer i en sætning det fungerer da meget godt ikke"
>>> print(fixer.punctuate(example_text)) 
'En dag bliver vi sku glade for, at vi nu kan sætte punktummer og kommaer i en sætning. Det fungerer da meget godt, ikke?'
```

## Training data
To Do
 
## Training procedure
To Do

### Preprocessing

TODO

## Evaluation results
TODO