Pustil jsem se do tvorby glosáře / terminologické databáze, která by měla pomoct překladatelům jedné neziskovky, která se zabývá Tibetem. A protože je úplně jedno, jestli sestavujete glosář tibetských reálií nebo bezpečnosti jaderných elektráren, rozhodl jsem se, že svůj postup stručně sepíšu, protože by mohl přijít vhod nejen mnoha překladatelům a projektovým manažerům, ale také spoustě tlumočníků.

Překládám už pár pátků pro Evropskou komisi a díky její terminologické databázi IATE vím, o kolik je snazší překládat texty plné nejrůznějších termínů, když máte po ruce kvalitní glosář / terminologickou databázi, kterou navíc můžete vložit do programu počítačem podporovaného překladu (CAT). U každé věty vás pak program upozorní, že to či ono slovo je v terminologické databázi obsaženo, a v samostatném okénku vám ukáže jeho ekvivalent. Ještě déle spolupracuji s jednou organizací, která se zabývá tibetskou současností a minulostí, a proto vím i to, že při překladu textů o Tibetu překladatel narazí na pěknou řádku slov, která by se také dala považovat za termíny. A pokud nejde o člověka znalého problematiky, překlad většinou nedopadne moc dobře.

Proto jsem si řekl, že se pokusím vytvořit anglicko-český glosář / terminologickou databázi nejčastějších termínů, které se vyskytují v textech o Tibetu a Tibeťanech. Půjde tedy o nejrůznější reálie, vlastní jména ve správném českém přepisu (osobní i geografická), ale i některé časté termíny z oblasti buddhismu, politiky, státní správy a lidských práv.

Potřeboval jsem tedy 1) najít kandidáty na termíny, které do glosáře zahrnu, 2) a doplnit k nim ekvivalenty: některé znám z hlavy, jiné jsem musel ověřit nebo najít.

Jaké prameny jsem využil?

Nejdřív jsem samozřejmě shromáždil klasické zdroje terminologie v tištěné podobě, v nichž jsem ale vytipoval jen ty opravdu nejdůležitější termíny – zpracovával jsem koneckonců glosář, a ne obsáhlý slovník. Využil jsem konkrétně:

  • Slovníkové, encyklopedické a referenční publikace: např. Josef Kolmaš: Malá encyklopedie tibetského náboženství a mytologie nebo Josef Kolmaš: Slovník tibetské literatury,
  • Slovníčky otištěné v publikacích o Tibetu, např. slovníček tibetských reálií v Žagabpových Dějinách Tibetu nebo soupis tibetských osobních jmen otištěný v Kolmašově knize Pojednání o věcech tibetských.

Dále jsem vyšel z existujících glosářů, které jsem v minulosti sestavil buď já, nebo jiní překladatelé, kteří pro neziskovku překládali.

Hodně mi pomohla i Wikipedie, ve které jsem si vyhledal jednak konkrétní hesla, jednak jsem se nechal vést portálem Tibet (v české i anglické verzi).

A potom začala ta nejzajímavější fáze: hledání termínů a klíčových slov v autentických textech. Konkrétně jsem si dal dohromady texty, které jsem měl v elektronické podobě nebo jsem je do ní mohl převést (pomocí optického rozpoznávání znaků, OCR), tedy tematicky relevantní články a celé knihy. Obrovským pomocníkem byly korpusy, konkrétně korpusový portál Sketch Engine – tedy přesněji řečeno: ono by to bez korpusů vůbec nešlo. A hlavně to vám v tomto článku chci ukázat.

Sketch Engine totiž nabízí jednak celou řádku hotových korpusů, jednak možnost vytvořit si korpus uživatelský. A když si vytvoříte svůj vlastní korpus – v mém případě korpus textů o Tibetu –, můžete si ho srovnat s vybraným referenčním korpusem a na základě toho zjistit, která slova a slovní spojení jsou pro váš korpus charakteristická. A právě tímto způsobem snadno najdete kandidáty na termíny do terminologické databáze.

Já jsem měl texty jednak v angličtině, jednak v češtině. A tak jsem si na portálu Sketch Engine nechal spočítat klíčová slova jednak pro češtinu, jednak pro angličtinu. Je to jednoduché: jakmile máte na portálu vytvořený uživatelský korpus, stačí kliknout na volbu Keywords/terms a portál během chvilky vytvoří seznam jednoslovných a víceslovných klíčových slov. Toto je ukázka několika klíčových slov z dalajlamovy autobiografie Freedom in Exile (Svoboda v exilu).

FIE_en_keywords

Česká verze klíčových slov ze stejné knihy (v překladu Josefa Kolmaše) vypadala takto:

FIE_cs_keywords

Už tady vidíme, že se do glosáře nabízí například dalajlama (anglicky Dalai Lama), tedy slovo, ve kterém se často chybuje (v češtině se „lama the beast“ i „lama the priest“ píše stejně, tedy s krátkým a, a proto se píše krátce i dalajlama, navíc je počáteční d malé, protože nejde o vlastní jméno, ale o titul), potom například název paláce dalajlamů Potála (tentokrát s dlouhým á, anglicky Potala) nebo search party (česky vyhledávací skupina).

Některé texty jsem měl jak v originálu, tak v překladu, například už zmíněnou dalajlamovu autobiografii. A tak jsem pomocí speciálního programu (aligneru) z originálu a překladu vytvořil paralelní korpus / překladovou paměť. Tento soubor jsem nahrál na portál Sketch Engine a nechal jsem si vypočítat dvoujazyčný přehled klíčových slov. Sice v něm bylo mnoho slov, která rozhodně do terminologické databáze nepatřila (např. sever, sympatie, teorie), ale i tady jsem našel ledacos, co by mě zřejmě jinak nenapadlo, např. nunnery – ženský klášter.

tears_bilingvne

Jak termíny zpracovávám

Ze všech těchto seznamů kandidátů jsem vybral termíny / klíčová slova, která jsem považoval za užitečná, a tato slova jsem vložil do tabulek v Excelu. Tam jsem si kromě sloupců pro angličtinu a češtinu vytvořil i sloupec pro případnou vysvětlivku, informaci o zdroji, a také pro případný ekvivalent v tibetštině (jednak v tibetském písmu, jednak v transliteraci), čínštině (v čínských znacích a v pchin-jinu) a latině (pro rostliny a živočichy). V Excelu mi navíc mnohdy pomohla funkce SVYHLEDAT nebo filtrování.

excel

Při hledání ekvivalentů mi posloužily klasické dvoujazyčné konkordance na portálu Sketch Engine – zde například vyhledávám ekvivalent spojení cítítí bytost v dvoujazyčném korpusu vytvořeném z originálu a překladu už zmíněné knihy:

sentient being

V tuhle chvíli má můj glosář / terminologická databáze 764 položek – tak velká je hlavně kvůli vlastním jménům. Některé položky jsou navíc duplicitní a vymazat bude třeba i některá jména, která se v glosáři ocitla spíše náhodou. V další fázi bych také rád zapojil lidi, kteří mají k terminologii co říct, aby potvrdili správnost některých ekvivalentů a doplnili další termíny. Podstatné je ale to, že ve kterékoli fázi se dá z excelovských souborů vytvořit terminologická databáze pro programy CAT (podrobnější informace k vytvoření dvoujazyčného korpusu a k převedení excelovské tabulky na terminologickou databázi najdete v mé knize Technologie ve službách překladatele).

Mimochodem podobným způsobem si glosář může připravit i tlumočník, který se připravuje na konferenci nebo jednání. Stačí, když si z podkladů sestaví korpus, ten nahraje na Sketch Engine a nechá si vygenerovat přehled klíčových slov / termínů. A možná by se tyto nástroje daly využít při tvorbě rejstříků k naučným publikacím.

Tvoříte glosáře podobným způsobem i vy? Vyzkoušeli jste Sketch Engine? Budu rád, když mi dáte vědět.

O vytvoření korpusu ve Sketch Engine jsem psal v tomto článku.