Reproducible experiments with Learned Metric Index Framework

Logo poskytovatele

Varování

Publikace nespadá pod Ekonomicko-správní fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

SLANINÁKOVÁ Terézia ANTOL Matej OĽHA Jaroslav DOHNAL Vlastislav LADRA Susana MARTÍNEZ-PRIETO Miguel A.

Rok publikování 2023
Druh Článek v odborném periodiku
Časopis / Zdroj Information systems
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www https://www.sciencedirect.com/science/article/pii/S0306437923000911
Doi http://dx.doi.org/10.1016/j.is.2023.102255
Klíčová slova Reproducible paper;Index structures;Learned index;Unstructured data;Content-based search;Metric space
Popis Tato práce je doprovodným reprodukovatelným článkem předchozího článku (Antol a kol., 2021), ve kterém jsme představili alternativu k tradičnímu paradigmatu vyhledávání podobnosti v metrických prostorech nazvanou Learned Metric Index. Inspirováni pokrokem v naučeném indexování strukturovaných dat jsme použili modely strojového učení, které nahradily rozhodování v podobnostním indexu pomocí pivotů, a postavili tak vyhledávání podle podobnosti jako klasifikační problém. Tato implementace se ukázala být více než konkurenceschopná s konvenčními metodami, pokud jde o rychlost a úplnost odpovědi, což dokazuje, že tento koncept je životaschopný. Cílem této publikace je zveřejnit náš zdrojový kód, datové sady a experimenty. Za tímto účelem vytváříme kolekci softwarových knihoven pro Python3, reprodukovatelných experimentálních souborů YAML a základních souborů JSON, které jsou sdruženy v obrazu Docker - Learned Metric Index Framework (LMIF) - který lze spustit pomocí libovolného operačního systému kompatibilního s Dockerem na procesoru s pokročilými vektorovými rozšířeními (AVX). Představujeme protokol reprodukovatelnosti našich experimentů s využitím LMIF a poskytujeme bližší pohled na experimentální proces. Dále představujeme nové experimentální výsledky spuštěním zde zavedeného protokolu reprodukovatelnosti a diskutujeme rozdíly s výsledky uvedenými v naší primární práci (Antol et al., 2021). Nakonec předkládáme argument, že tyto výsledky lze považovat za slabě reprodukovatelné (v obou metrikách výkonnosti), protože poukazují na stejné závěry odvozené v primární práci. [Překlad s pomocí deepl.com]
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.