Automatické stahování smluvních podmínek z webových stránek
Date issued
2021
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Práce se zabývá automatickým stahováním smluvních podmínek a zásad ochrany údajů z webových stránek. Je součástí většího projektu, který se zabývá analýzou obsahu těchto stránek a potřebuje pro ni trénovací dataset. Cílem je vytvořit aplikaci, která bude schopna tento dataset automaticky vytvořit. Jako základní řešení jsou použita pravidla založená na klíčových slovech. Toto řešení nám umožní získat dataset, pomocí kterého je vytvořena neuronová síť, která dále zlepšuje výsledky. Omezením kapacity sítě a zakrytím klíčových slov pak sítě dosahují zlepšení 6 až 9 % v f-míře, a až 71% snížení falešné pozitivity oproti klasifikaci pomocí klíčových slov.
Description
Subject(s)
zpracování přirozeného jazyka, strojové učení, sémantické reprezentace slov, získávání informací, klasifikace textu, neuronové sítě, fasttext