Utilizing Linguistic Resources: Theory and Practical Experience

Varování

Publikace nespadá pod Ekonomicko-správní fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Využití lingvistických zdrojů: teorie a praktické zkušenosti
Autoři

NĚMČÍK Václav

Rok publikování 2010
Druh Článek ve sborníku
Konference Proceedings of Recent Advances in Slavonic Natural Language Processing 2010
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www https://nlp.fi.muni.cz/raslan/2010/paper04.pdf
Obor Informatika
Klíčová slova linguistic resources; corpora; theory; practice
Popis Prague Dependency Treebank (dále PDT) je rozsáhlý soubor textů v českém jazyce. Obsahuje bohatou anotaci na několika rovinách, od morfologie po hloubkovou syntax. Jde o unikát co do svého rozsahu i teoretického pozadí, tím větší, že byl vytvořen pro češtinu, která je co do počtu mluvčích malým jazykem. V tomto článku uvádíme PDT 2.0 jako příklad, že komplexnost anotace s sebou může nést jak výhody, tak nevýhody. Zmiňujeme problémy, které mohou nastat při extrakci některých typů dat z PDT a korpusů s komplexní anotační strukturou obecně. Naznačujeme možné alternativní přístupy.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.