Skip to content

Commit 105ba96

Browse files
committed
Improving conversion of PDT-C 2.0.
1 parent 7903be3 commit 105ba96

File tree

1 file changed

+10
-0
lines changed

1 file changed

+10
-0
lines changed

udapi/block/ud/cs/fixedeprels.py

Lines changed: 10 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -38,6 +38,7 @@ class FixEdeprels(Block):
3838
# case. And include all other prepositions that have unambiguous morphological
3939
# case, even if they are not secondary.
4040
unambiguous = {
41+
'á': 'na:acc', # "á konto té záležitosti", ovšem "á konto" není ani spojeno jako složená předložka (význam = "na konto")
4142
'abi': 'aby',
4243
'aby_na': 'na:loc',
4344
'ačkoliv': 'ačkoli',
@@ -59,6 +60,7 @@ class FixEdeprels(Block):
5960
'bez_zřetel_k': 'bez_zřetele_k:dat',
6061
'bez_zřetel_na': 'bez_zřetele_na:acc',
6162
'blízko': 'blízko:dat',
63+
'blízko_k': 'blízko:dat',
6264
'blíž': 'blízko:dat',
6365
'cesta': 'cestou:gen',
6466
'coby': 'coby', # remove morphological case
@@ -86,6 +88,8 @@ class FixEdeprels(Block):
8688
'jakoby_pod': 'pod:ins',
8789
'jakožto': 'jako',
8890
'jelikož_do': 'jelikož',
91+
'jenom': 'jen',
92+
'jesli': 'jestli',
8993
'jestli_že': 'jestliže',
9094
'k': 'k:dat',
9195
'k_konec': 'ke_konci:gen',
@@ -98,6 +102,7 @@ class FixEdeprels(Block):
98102
'konec': 'koncem:gen',
99103
'krom': 'kromě:gen',
100104
'kromě': 'kromě:gen',
105+
'leda_když': 'ledaže',
101106
'li_jako': 'li',
102107
'liž': 'li',
103108
'mezi_uvnitř': 'uvnitř:gen',
@@ -131,6 +136,7 @@ class FixEdeprels(Block):
131136
'o_jako': 'jako',
132137
'o_o': 'o:acc',
133138
'od': 'od:gen',
139+
'od_počínaje': 'počínaje:ins', # od brambor počínaje a základní zeleninou konče
134140
'ohledně': 'ohledně:gen',
135141
'okolo': 'okolo:gen',
136142
'oproti': 'oproti:dat',
@@ -162,6 +168,7 @@ class FixEdeprels(Block):
162168
'před_během': 'během:gen', # před a během utkání
163169
'před_po': 'po:loc', # před a po vyloučení Schindlera
164170
'přes': 'přes:acc',
171+
'přes_přes': 'přes:acc', # annotation error
165172
'přestože': 'přestože', # remove morphological case
166173
'při': 'při:loc',
167174
'při_pro': 'při:loc',
@@ -183,6 +190,7 @@ class FixEdeprels(Block):
183190
'směr_k': 'směrem_k:dat',
184191
'směr_na': 'směrem_na:acc',
185192
'směr_od': 'směrem_od:gen',
193+
'směr_přes': 'směrem_přes:acc',
186194
'společně_s': 'společně_s:ins',
187195
'spolu': 'spolu_s:ins',
188196
'spolu_s': 'spolu_s:ins',
@@ -233,6 +241,7 @@ class FixEdeprels(Block):
233241
'v_služba': 've_službách:gen',
234242
'v_směr': 've_směru:gen',
235243
'v_směr_k': 've_směru_k:dat',
244+
'v_směr_na': 've_směru_k:dat', # same meaning as ve_směru_na:acc
236245
'v_smysl': 've_smyslu:gen',
237246
'v_součinnost_s': 'v_součinnosti_s:ins',
238247
'v_souhlas_s': 'v_souhlasu_s:ins',
@@ -319,6 +328,7 @@ def process_node(self, node):
319328
# flagged as solved.
320329
edep['deprel'] = re.sub(r'^advcl:do(?::gen)?$', r'obl:do:gen', edep['deprel']) # od nevidím do nevidím ###!!! Ale měli bychom opravit i závislost v základním stromu!
321330
edep['deprel'] = re.sub(r'^advcl:pro(?::acc)?$', r'advcl:aby', edep['deprel']) # byl by pro, abychom... ###!!! Opravit i konverzi stromu.
331+
edep['deprel'] = re.sub(r'^advcl:s(?::ins)?$', r'advcl', edep['deprel']) ###!!! "seděli jsme tam s Člověče, nezlob se!" Měla by se opravit konverze stromu.
322332
edep['deprel'] = re.sub(r'^acl:k(?::dat)?$', r'acl', edep['deprel'])
323333
edep['deprel'] = re.sub(r'^advcl:k(?::dat)?$', r'obl:k:dat', edep['deprel']) ###!!! Ale měli bychom opravit i závislost v základním stromu!
324334
edep['deprel'] = re.sub(r'^advcl:místo(?::gen)?$', r'obl:místo:gen', edep['deprel']) # 'v poslední době se množí bysem místo bych'

0 commit comments

Comments
 (0)