Large Corpora for Turkic Languages and Unsupervised Morphological Analysis

Varování

Publikace nespadá pod Ekonomicko-správní fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

BAISA Vít SUCHOMEL Vít

Rok publikování 2012
Druh Článek ve sborníku
Konference Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www http://www.lrec-conf.org/proceedings/lrec2012/workshops/02.Turkic%20Languages%20Proceedings.pdf
Obor Jazykověda
Klíčová slova corpus; turkic languages; unsupervised morphological analysis
Popis In this article we describe six new web corpora for Turkish, Azerbaijani, Kazakh, Turkmen, Kyrgyz and Uzbek languages. The data for these corpora was automatically crawled from the web by SpiderLing. Only minimal knowledge of these languages was required to obtain the data in raw form. Corpora are tokenized only since morphological analyzers and disambiguators for these languages are not available (except for Turkish). Subsequent experiment with unsupervised morphological segmentation was carried out on the Turkish corpus. In this experiment we achieved encouraging results. We used data provided for MorphoChallenge competition for the purpose of evaluation.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.