Chtěli byste si vytvořit korpus na určité téma z textů postahovaných z internetu, ale nemáte čas na to, abyste je pracně vyhledávali a stahovali jeden po druhém? Vyzkoušejte program BootCaT, který to udělá za vás.

Při překládání občas hledáme inspiraci v jiných textech na stejné téma. Možná si za tím účelem tvoříte své vlastní malé korpusy, například korpus smluv nebo třeba korpus vědeckých textů o rozmnožování suchozemských želv. Možná se tématu věnujete dlouhodobě a máte v počítači dostatek textů, možná je ale pro vás téma nové a potom potřebujete texty snadno a rychle postahovat z internetu.

Můžete to udělat pomocí programu BootCaT. Nejdřív v něm pojmenujete korpus, vyberete jazyk a zadáte klíčová slova. Můžou být i víceslovná. Program potom slova náhodně zkombinuje a vytvoří z nich n-tice (anglicky tuples). Ty pošle do vyhledávače a z něj získá odkazy na stránky obsahující příslušné kombinace slov. Seznam odkazů můžete ručně pročistit. Nakonec program z nalezených odkazů postahuje texty, vyčistí je a uloží jako textové soubory.

BootCaT, n-tice

Obrázek. N-tice vytvořené ze zadaných slov

Dříve počítač komunikoval jen s vyhledávačem Bing. To vyžaduje, abyste se zaregistrovali u Microsoftu a získali klíč k API vyhledávací služby. V novějších verzích naštěstí program podporuje i vyhledávání prostřednictvím Googlu a k tomu žádný klíč nepotřebujete. Jen musíte nalezené stránky s výsledky otevřít a ručně je uložit (jako HTML) do správné složky. Potom už program všechno udělá sám.

Popsaným způsobem si můžete vytvořit i obecný korpus určitého jazyka. Nedávno jsem si například potřeboval vytvořit korpus obecné češtiny, a tak jsem zadal slova jako bejt, tý, kterej, takovej, svý, celej, nějakej, prej, vo, žádnej nebo nima. Korpus si tímto způsobem můžete vytvořit i v rámci přípravy na tlumočnickou akci. Můžete v něm například zjišťovat, s jakými jinými slovy se pojí určitý termín.