Identifikace rodného jazyka pisatelů na základě anglicky psaných esejů

dc.contributor.authorBrada, Robert
dc.contributor.editorRendl, Jan
dc.date.accessioned2018-07-25T11:57:16Z
dc.date.available2018-07-25T11:57:16Z
dc.date.issued2018
dc.description.abstractCílem práce bylo najít systém, který bude mít co nejlepší přesnost klasifikace. Z dosažených výsledů je zřejmé, že takovým systémem je ten využívající Bag Of Words model, který měl o 13,3% lepší přesnost klasifikace než výchozí model. Tento model využíval jako příznaky trigramy slov a 11-gramy znaků. Výchozí model využíval jako příznaky jednotlivá slova. Přesnost klasifikace ovšem není jediným meřítkem, podle kterého se řídit, pokud chceme systém využít v praxi. Může docházet například k přetrénování, dále potřebujeme nějak interpretovat důležitost příznaků, podle kterých se klasifikátor rozhoduje a podobně. Tyto aspekty jsou rozebrány v originální práci. Závěrem je, že klasifikátor s nejlepší přesností je výrazně přetrénován a i systém využívající doc2vec model poskytuje i přes horší přesnost klasifikace velmi užitečné informace.cs
dc.format2 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier.citationRENDL, Jan ed. Studentská vědecká konference: bakalářské studijní programy, sborník rozšířených abstraktů, květen 2019, Plzeň. Plzeň: Západočeská univerzita v Plzni, 2018, s. 31-32. ISBN 978-80-261-0789-7.cs
dc.identifier.isbn978-80-261-0789-7
dc.identifier.urihttp://hdl.handle.net/11025/29858
dc.identifier.urisvk.fav.zcu.cz/download/sbornik_svkb_2018.pdf
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rights© Západočeská univerzita v Plznics
dc.rights.accessopenAccessen
dc.subjectpočítačové zpracování textucs
dc.subjectidentifikace rodného jazykacs
dc.subjectstrojové učenícs
dc.subject.translatedcomputer text processingen
dc.subject.translatednative language identificationen
dc.subject.translatedmachine learningen
dc.titleIdentifikace rodného jazyka pisatelů na základě anglicky psaných esejůcs
dc.typekonferenční příspěvekcs
dc.typeconferenceObjecten
dc.type.statusPeer-revieweden
dc.type.versionpublishedVersionen

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
Brada.pdf
Size:
575.65 KB
Format:
Adobe Portable Document Format
Description:
Plný text
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: