Automatické stahování smluvních podmínek z webových stránek

dc.contributor.advisorPražák Ondřej, Ing.
dc.contributor.authorBartička, Vojtěch
dc.contributor.refereePřibáň Pavel, Ing.
dc.date.accepted2021-6-15
dc.date.accessioned2021-06-25T12:33:23Z
dc.date.available2020-10-5
dc.date.available2021-06-25T12:33:23Z
dc.date.issued2021
dc.date.submitted2021-5-6
dc.description.abstractPráce se zabývá automatickým stahováním smluvních podmínek a zásad ochrany údajů z webových stránek. Je součástí většího projektu, který se zabývá analýzou obsahu těchto stránek a potřebuje pro ni trénovací dataset. Cílem je vytvořit aplikaci, která bude schopna tento dataset automaticky vytvořit. Jako základní řešení jsou použita pravidla založená na klíčových slovech. Toto řešení nám umožní získat dataset, pomocí kterého je vytvořena neuronová síť, která dále zlepšuje výsledky. Omezením kapacity sítě a zakrytím klíčových slov pak sítě dosahují zlepšení 6 až 9 % v f-míře, a až 71% snížení falešné pozitivity oproti klasifikaci pomocí klíčových slov.cs
dc.description.abstract-translatedThe thesis deals with the automatic scraping of terms and conditions and privacy protection information from web pages. It's a part of a larger project which focuses on the analysis of such pages and requires a dataset to train the system on. The goal is to create an application, which will be able to automatically create this dataset. As a baseline solution, a keyword-based system is used. This system allows us to create a dataset, on which we can train a neural network, which further enhances the results. By limiting the capacity of the network and hiding the keywords the network achieves a 6 to 9% improvement in f-score and up to 71% reduction in false positivity compared to the keywords-based system.en
dc.description.resultObhájenocs
dc.format55 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier86487
dc.identifier.urihttp://hdl.handle.net/11025/44238
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectzpracování přirozeného jazykacs
dc.subjectstrojové učenícs
dc.subjectsémantické reprezentace slovcs
dc.subjectzískávání informacícs
dc.subjectklasifikace textucs
dc.subjectneuronové sítěcs
dc.subjectfasttextcs
dc.subject.translatednatural language processingen
dc.subject.translatedmachine learningen
dc.subject.translatedsemantic word representationsen
dc.subject.translatedinformation retrievalen
dc.subject.translatedtext classificationen
dc.subject.translatedneural networksen
dc.subject.translatedfasttexten
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelBakalářskýcs
dc.thesis.degree-nameBc.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleAutomatické stahování smluvních podmínek z webových stránekcs
dc.title.alternativeAutomated scraping of licence agreements from websitesen
dc.typebakalářská prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=86487

Files

Original bundle
Showing 1 - 5 out of 6 results
No Thumbnail Available
Name:
prace.pdf
Size:
641.32 KB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A18B0169P_Posudek.pdf
Size:
251.46 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A18B0169P_Hodnoceni.pdf
Size:
234.93 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A18B0169P_Obhajoba.pdf
Size:
42.61 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce
No Thumbnail Available
Name:
A18B0169P_zadaniBP.pdf
Size:
17.42 KB
Format:
Adobe Portable Document Format
Description:
VŠKP - příloha
OPEN License Selector