LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus
Název česky | LEMPAS: Lematizátor pro švédský korpus PAROLE |
---|---|
Autoři | |
Rok publikování | 2006 |
Druh | Článek v odborném periodiku |
Časopis / Zdroj | Prague Bulletin of Mathematical Linguistics |
Fakulta / Pracoviště MU | |
Citace | |
Obor | Informatika |
Klíčová slova | LEMPAS; PAROLE; Swedish; lemmatizer; rule-based |
Popis | LEMPAS, lemmatizátor pro švédský korpus PAROLE, vznikl jako vedlejší produkt práce s aplikací Sketch Engine (Kilgarrif a spol.) na švédštině, neboť řada užitečných funkcí této aplikace, jako například tvorba word sketches, je dostupná pouze pro lemmatizované korpusy. Něměli jsme přístup k žádným lexikálním zdrojům pro švédštinu a čas pro provedení lemmatizace byl velmi omezen. Lemmatizátor tedy neměl velké ambice. Nejprve jsme se pouze snažili spojit související slovní tvary do společných pre-lemmat s použitím obecných pravidel, aniž bychom tvořili seznamy konkrétních slov. Když prvotní pravidla dávala překvapivě dobré výsledky při lemmatizaci podstatných jmen, sloves a přídavných jmen, jsme se rozhodli převést pre-lemmata na skutečná lemmata. Finální program jsme testovali na manuálně lemmatizovaném korpus SUC (Stockholm-Umea Corpus) a provedli analýzu výsledků. |
Související projekty: |