Automatické stahování smluvních podmínek z webových stránek

Abstract

Práce se zabývá automatickým stahováním smluvních podmínek a zásad ochrany údajů z webových stránek. Je součástí většího projektu, který se zabývá analýzou obsahu těchto stránek a potřebuje pro ni trénovací dataset. Cílem je vytvořit aplikaci, která bude schopna tento dataset automaticky vytvořit. Jako základní řešení jsou použita pravidla založená na klíčových slovech. Toto řešení nám umožní získat dataset, pomocí kterého je vytvořena neuronová síť, která dále zlepšuje výsledky. Omezením kapacity sítě a zakrytím klíčových slov pak sítě dosahují zlepšení 6 až 9 % v f-míře, a až 71% snížení falešné pozitivity oproti klasifikaci pomocí klíčových slov.

Description

Subject(s)

zpracování přirozeného jazyka, strojové učení, sémantické reprezentace slov, získávání informací, klasifikace textu, neuronové sítě, fasttext

Citation

OPEN License Selector