First-order Frequent Patterns in Text Mining
Název česky | Prvořádové časté vzory v dolování v textu |
---|---|
Autoři | |
Rok publikování | 2005 |
Druh | Článek ve sborníku |
Konference | EPIA'05, 12th Portuguese Conference on Artificial Intelligence |
Fakulta / Pracoviště MU | |
Citace | |
Obor | Informatika |
Klíčová slova | machine learning; first-order frequent patterns; text mining; distributed mining |
Popis | V tomto článku představíme nové univerzální rozhraní využívající prvořádové časté vzory pro řešení úloh dolování v textu. Sestává ze systému RAP, což je systém ILP určený pro hledání maximálních častých vzorů, a dvou typů doménové znalosti. Jsou popsány dvě metody využití nalezených vzorů pro dolování v textu: propozicionalizace a CBA. Je představena nová verze CBA klasifikátoru. Použití systému je demonstrováno na třech úlohách z dolování textu: extrakci informace z biologických textů, kontextové kontrole pravopisu a morfologické desambiguaci. Diskutujeme také přínos distribuovaného vyhledávání častých vzorů. Je ukázáno, že časté vzory použité jako nové rysy v propozicionalizaci poskytují lepší výsledky než CBA. |
Související projekty: |