Informace o projektu
Harvesting big text data for under-resourced languages (HaBiT)

Informace

Projekt nespadá pod Ekonomicko-správní fakultu, ale pod Fakultu informatiky. Oficiální stránka projektu je na webu muni.cz.

Kód projektu

7F14047

Období řešení

6/2014 - 4/2017

Investor / Programový rámec / typ projektu

Ministerstvo školství, mládeže a tělovýchovy ČR

Česko-norský výzkumný program (CZ09)

Fakulta / Pracoviště MU

Fakulta informatiky

Spolupracující organizace

Norwegian University of Science and Technology

Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem.
Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED
důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

Publikace

Počet publikací: 41

2017

Corpus Annotation Tool

RYCHLÝ Pavel

Software

Rok: 2017
HaBiT system

PALA Karel HORÁK Aleš RYCHLÝ Pavel SUCHOMEL Vít BAISA Vít JAKUBÍČEK Miloš KOVÁŘ Vojtěch NEVĚŘILOVÁ Zuzana RAMBOUSEK Adam GAMBÄCK Björn SIKDAR Utpal BUNGUM Lars

Software

Rok: 2017
Walking the tightrope between linguistics and language engineering

JAKUBÍČEK Miloš BAISA Vít BUŠTA Jan KOVÁŘ Vojtěch MICHELFEIT Jan RYCHLÝ Pavel SUCHOMEL Vít

Kapitola v knize

, rok: 2017

2016

Annotated Amharic Corpora

RYCHLÝ Pavel SUCHOMEL Vít

Článek ve sborníku

Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, rok: 2016
Annotation of Czech Texts with Language Mixing

NEVĚŘILOVÁ Zuzana

Článek ve sborníku

Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, rok: 2016
AQA: Automatic Question Answering System for Czech

MEDVEĎ Marek HORÁK Aleš

Článek ve sborníku

Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, rok: 2016
Czech Grammar Agreement Dataset for Evaluation of Language Models

BAISA Vít

Článek ve sborníku

RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, rok: 2016
DSL Shared task 2016: Perfect Is The Enemy of Good Language Discrimination Through Expectation-Maximization and Chunk-based Language Model

HERMAN Ondřej SUCHOMEL Vít BAISA Vít RYCHLÝ Pavel

Článek ve sborníku

Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial3), rok: 2016
English-French Document Alignment Based on Keywords and Statistical Translation

MEDVEĎ Marek KOVÁŘ Vojtěch JAKUBÍČEK Miloš

Článek ve sborníku

Proceedings of the First Conference on Machine Translation, Volume 2: Shared Task Papers, rok: 2016
European Union Language Resources in Sketch Engine

BAISA Vít MICHELFEIT Jan MEDVEĎ Marek JAKUBÍČEK Miloš

Článek ve sborníku

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), rok: 2016