File size: 2,155 Bytes
0e5da39
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
#!/bin/sh

# Add EvaLatin tagger-only data
mkdir -p la_evalatin20
git -C la_evalatin20 clone --depth=1 https://github.com/CIRCSE/LT4HALA

echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-train.conllu
echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-dev.conllu

python3 get_evalatin20_split.py la_evalatin20/LT4HALA/data_and_doc/training_data_10-12-2019/*.conllu \
  --train=la_evalatin20/la_evalatin20-train.conllu --dev=la_evalatin20/la_evalatin20-dev.conllu

echo "# variant = la_ittb" >>la_evalatin20/la_evalatin20-train.conllu
python3 get_evalatin20_split.py ../ud-2.6/la_ittb/la_ittb-ud-train.conllu --ratio 0.6 --train=la_evalatin20/la_evalatin20-train.conllu --dev=/dev/null

echo "# variant = la_perseus" >>la_evalatin20/la_evalatin20-train.conllu
python3 get_evalatin20_split.py ../ud-2.6/la_perseus/la_perseus-ud-train.conllu --ratio 1 --train=la_evalatin20/la_evalatin20-train.conllu --dev=/dev/null

echo "# variant = la_proiel" >>la_evalatin20/la_evalatin20-train.conllu
python3 get_evalatin20_split.py ../ud-2.6/la_proiel/la_proiel-ud-train.conllu --ratio 1 --train=la_evalatin20/la_evalatin20-train.conllu --dev=/dev/null

sed '
  s#^14\tnescio\tnescio\tnescio\tVERB#14\tnescio\tnescio\tVERB#
  s#^9\tne\tPART#9\tne\tne\tPART#
  s#\(\t[^\t]*\)\{6\}$#\t_\t_\t_\t_\t_\t_#
' -i la_evalatin20/la_evalatin20-train.conllu

echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-test.conllu
echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-test-crossgenre.conllu
echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-test-crosstime.conllu
for f in la_evalatin20/LT4HALA/data_and_doc/gold_EvaLatin/*.conllu; do
  case "$(basename $f)" in
    Horatius-Carmina_GOLD.conllu) name=test-crossgenre;;
    SummaContraGentiles_IV_GOLD.conllu) name=test-crosstime;;
    *) name=test;;
  esac
  (echo "# newdoc id = $(basename $f)"; cat $f) >>la_evalatin20/la_evalatin20-$name.conllu
done

for conllu in la_evalatin20/la_evalatin20-dev.conllu la_evalatin20/la_evalatin20-test*.conllu; do
  perl ../ud-2.6/conllu_to_text.pl --language=la <$conllu >${conllu%.conllu}.txt
done

rm -rf la_evalatin20/LT4HALA