2006-garabik-o%20jednej%20skratke.pdf

(143 KB) Pobierz
4494815 UNPDF
O jednej skratke
Radovan Garabík
JÚLŠ SAV
813 64 Bratislava, Slovakia
XVI. kolokvium mladých jazykovedcov, Častá-Papiernička 8. – 10. 11. 2006
Abstract. Machine translation systems tend to be rather complicated and the results are often disappointing.
However, the difficulties involved in a successful translation diminish when dealing with a pair of very close
languages, and the translation can be ameliorated by strategic use of common morphological, grammar and
lexical features of the languages involved. Presented system can be used for translation on the orthographic and
lexical level between very close languages and was successfully applied to translation from standard Slovak into
the L. Štúr's Slovak language.
Úvod
Sistemi automatickjeho prekladu patrja k najkomplikovaňejším aplikácijám v oblasťi
počítačovjeho spracuvaňja prirodzenjeho jazika. Toto viplíva z potrebi urobiť hĺbkovú analízu
zdrojovjeho nárečja a transformovať zmisel puovodnjeho textu do cjelovjeho nárečja.
Schematicki muožeme proces prekladu znázorňiť diagramom podobním tomu na obr. 1.
Plocha trojuholňíka vijadruje oblasť, v ktorej pracujú tipickje sistemi automatickjeho
prekladu. Každá vodorovná čjara zodpovedá abstraktnej úrovňi transferu medzi zdrojovím a
cjelovím nárečím. Čím viššja úroveň, tím abstraktňejší transfer sa uskutočňuje, a vísledok je
tím bližší prirodzenjemu nárečju. Úroveň 1vá zodpovedá fonetike a na obrázku je uveďená
len kvuoli úplnosťi, pretože vo večšiňe sistemou automatickjeho prekladu (ako aj v našom
článku) iďe o písaní text. Úroveň 2há zodpovedá ortografii, transfer na tejto úrovňi znamená
len zmenu ortografickjeho sistemu (takíto transfer je použiťelní napríklad pri zmeňe
pravopisu jedného nárečja, alebo preklad medzi nárečjami, ktorje sa líšja iba ortografiou).
Úroveň 3ťja zodpovedá morfologii a je použiťelná pre preklad medzi nárečjami, ktorje sa
odlišujú maximálňe morfologiou (s istími obmedzeňjamí muože ísť o dve velmi blízkje
príbuzňje nárečja). Pri odlišňejších nárečjach dostaňeme na vístupe sintakticki a semanticki
ňezmiselní text. Úroveň 4tá zodpovedá sintaxi, na vístupe dostaňeme text sintakticki správni,
aj keď možno s ňezmiselním víznamom (alebo s víznamom ňezodpovedajúcim originálnemu
textu). Moderňje špičkovje sistemi automatickjeho prekladu sa k tejto úrovňi iba približujú.
Úroveň 5ta, semantika, zodpovedá pochopeňju víznamu slov a slovních spojení originálnjeho
textu a ich preklad na slovňje spojeňja s rovnakím víznamom – na tejto úrovňi pracujú
prekladaťelá-luďja. Úroveň 6ta, na diagrame znázorňená vrcholom trojuholňíka zodpovedá
užiťju interlingvi (medzireči), pri ktorom preklad prebehou už po stranách trojuholňíka a
transfer sa zredukovau na identicku operácju, pretože všetki črti puovodnjeho aj preloženjeho
textu sú obsjahnutje v medziprodukťe. Do diagramu sme ešťe doplňili sjedmu úroveň, ležjacu
nad vrcholom trojuholňíka. Táto úroveň bi sa dala opísať ako „pochopeňja toho, čo chceu
autor povedať“ a jej znázorňeňja je vjacmeňej iba akademickje, pretože k dosjahnuťju tejto
úrovňe dochádza velmi zrjedka.
Obrázok 1ví: Schematicki znázorňení trojuholňík prekladu
Preklad medzi velmi blízkimi nárečjamí
Blízkje (geneticki aj štrukturňe) nárečja majú vela podobních čŕt. Pri vzďalovaní nárečí
rozďjeli medzi ňimi celkom dobre sledujú úrovňe v uveďenom trojuholňíku – najprú sa zjavja
rozďjeli v fonetike (aj v rámci jednjeho nárečja či dokonca rozličnorečja), potom v ortografii
(pri kodifikácii alebo odšťjepení nárečja, často s politickou motiváciou). Pri morfologickích
rozďjeloch sme už oprávňení hovoriť o ruoznich nárečjach. Sintax často zostáva kompatibilná
aj pri nárečjach od seba značňe vzďjaleních, a v prípaďe dramatickích rozďjelou v lexike už
ňemuožeme hovoriť o blízkich nárečjach v našom poňímaní. Z automatickích prekladovích
4494815.001.png
sistemou medzi blízkimi nárečjami muožeme spomenúť preklad medzi Češťinou a
Slovenčinou[1] a preklad medzi Turečťinou a krimskou Tatárčinou[2].
Štúrovská Slovenčina
Spisovnuo Slovenskuo nárečje, tak ako ho definovau Ludevít Štúr v [3] sa od modernej
Slovenčini [4] líši na prví pohlad prevažňe ortografiou, pričom rozďjeli sú lahko algoritmicki
popísaťelňje. Hlavňje ortografickje rozďjeli spočívajú v absencii grafemi „y“, v inej realizácii
dvojhlások a v explicitnom povinnom značení mekkosťi spoluhlások d, t, n.
Lexikálňje rozďjeli sú subtílňejšje, na prví pohlad badaťelňje len v ňjektorích najčasťejších
slovách, ale v skutočnosťi mjerňe posúvajúce semantickí víznam celích trjed slov.
Technická realizácia
Pred prekladom je text najprú skonvertovaní zo vstupnjeho kódovaňja do Unicode, potom
normalizovaní na NFKC normalizácju Unicode a všetki ďalšje operácje prebjehajú duosledňe
v Unicode. Text je tokenizovaní na základňje jednotki – tokeni (slová), ku každjemu tokenu je
priraďená informácja o prípadních bjelich znakoch (whitespace; Leerraum) pred slovom, abi
sa po preklaďe mohlo zrekonštruovať vernuo rozložeňja textu. Po preklaďe je velkosť písmen
preloženjeho slova upravená tak, abi kopírovala velkosť písmen puovodnjeho slova – ak je
preloženuo slovo dlhšje ako puovodnuo, velkosť „nadbitočních“ písmen kopíruje velkosť
poslednej písmeni puovodnjeho slova. Toto zabezpečí verní preklad vlastních mjen a
prípadních slov písaních kapitálkamí. Ako víňimka sú koreňe slov „Sloven(čina, skí)“ a
„Vlád(a)“ vždi v preklaďe písaňje so začjatočním velkím písmenom, podla úzu užívanjeho L.
Štúrom.
Samotní preklad prebjeha v dvoch fázach: najprú sa aplikuje lexikálna transformácja, pri
ktorej sa nahrádzajú slová, ktorje sú v štúrovej Slovenčiňe inak reprezentovaňje. Víhodňe sa
dá viužiť prevažná ekvivalencja morfem medzi súčasnou a štúrovskou Slovenčinou a v
prekladovej tabulke stačí povečšiňe uvjesť iba prekladi koreňovích morfem, iba ňjekedi je
potrebnuo uvjesť preklad celích tvarov slov.
Druhá fáza prebjeha na ortografickej úrovňi. Prekladi v oboch fázach sú realizovaňje
jednoduchím nahrádzaňím originálnich reťazcou prekladovimí. Začjatki a konce slov sú
označeňje špecijálnimí znakmí (^ začjatok, $ koňjec), čo umožňuje efektívňe spracuvať
transformácje v príveskách slov a zabraňuje možním ňesprávnim nahraďeňjam. Vzhladom na
duosledňje značeňja palatalizovaních spoluhlások v štúrovskej Slovenčiňe je potrebnuo
duokladňe rozlišovať tvrdje a mekkje „i“ podla víslovnosťi (čo veďe k prekladom
politi→polity, diplo→dyplo, poézia→poesya) a takťjež bolo potrebnuo zavjesť tvrdje „e“ na
označeňja ňepalatalizujúceho „e“ (toto písmeno sme arbitrárňe označili znakom „ë“ –
U+00EB LATIN SMALL LETTER E WITH DIAERESIS, príkladi prekladou:
internet→intërnët). V druhej úrovňi budú tjeto slová transformovaňje na štúrovskí pravopis
(polity→politi, dyplo→diplo, poesya→poesia, intërnët→internet).
Naša skratka v prekladovom trojuholňíku potom sleduje transfer na ortografickej úrovňi, s
krátkim vibočeňím do oblasťi semantiki (vlastňe iba zámena ňjektorích lexikálnich
jednoťjek).
Obrázok 2hí: Trojuholňík prekladu so znázorňeňím našej skratki
4494815.002.png
lexikálni preklad
ortografickí preklad
u'grék' : u'rék',
u'gréc' : u'réc',
u'gréč' : u'réč',
u'maďar$' : u'uher$',
u'maďar' : u'uhr',
u'maďara' : u'uhra',
u'talian' : u'talyan',
u'^ľudovít' : u'^ludëvít',
u'slávneho' : u'slávnjëho',
# pieseň -> peseň
u'^pies' : u'^pes',
u'vidieť$' : u'videť$',
u'vedieť$' : u'vedeť$',
u'vedie' : u'vede',
u'erie$' : u'ere$',
u'erieš$' : u'ereš$',
u'^zmenši' : u'^umenši',
u'ov$' : u'ou$',
u'né$' : u'ňje$',
u'é$' : u'je$',
u'ého$' : u'jeho$',
u'ému$' : u'jemu$',
u'é' : u'e',
u'ý' : u'í',
u'y' : u'i',
u'ô' : u'uo',
u'ľ' : u'l',
u'ä' : u'e',
u'ë' : u'e',
u'ia' : u'ja',
u'dia' : u'ďja',
u'diakon' : u'diakon',
u'tia' : u'ťja',
u'nia' : u'ňja',
Tabulka 1vá – časť prekladovej lexikálnej a ortografickej tabulky
Popis funkcií programu
Program (nazvaní ludevít) je napísaní v programovacom jaziku Python. Hlavnuo zameraňja
programu je pre unixovje sistemi, ašak, súc napísaní len s užiťím štandardních pythonovskích
kňižňíc, funguje na velmi širokej množiňe sistemou a platform. Program funguje ako filter,
čítajúc štandardní vstup a zapisujúc preložení text na štandardní vístup.
Vístup je možno modifikovať ďalšimí argumentamí k programu:
-o súbor alebo --output-file súbor – vístup zapíše do súboru mjesto na štadardní vístup
-D alebo --nfkd – vístup buďe v NFKD normalizácii
-d alebo --nfkd-hack – písmeni ď a ť budú v NFKD normalizácii, ostatnje v NFKC
-e ENCODING alebo --encoding ENCODING – mjesto štandardnjeho koduvaňja utf-8,
predpokladá vstup a vístup v koduvaňí ENCODING, ktoruo muože biť hocijaké
koduvaňje podporovanuo pythonom, ale pravďepodobňe víznam má len jedno
z utf-8, iso8859_2, cp1250, cp852 alebo mac_latin2. Koduvaňja inuo ňež utf-8 ňje je
kompatibilnuo s volbamí -D a -d.
Kďe sa zvuki mekko vislovujú takjeto sa zmekčujúcou čjarkou viznačujú, ale písmeni „d“ a
„t“ ju v dobe modernej inakšje označujú, značka táto skoro ako dlhá čjarka má podobu. Abi sa
historická vernosť zachovala, tjeto dve písmeni je možno normalizovať na unicodovskí
4494815.003.png
Zgłoś jeśli naruszono regulamin