Sumarizace novinových článků

dc.contributor.advisorSido Jakub, Ing.
dc.contributor.authorSeják, Michal
dc.contributor.refereeFlek Lucie, Prof. Dr.
dc.date.accepted2022-6-20
dc.date.accessioned2022-07-18T22:33:53Z
dc.date.available2021-9-10
dc.date.available2022-07-18T22:33:53Z
dc.date.issued2022
dc.date.submitted2022-5-19
dc.description.abstractAutomatická sumarizace textu je důležitý úkol z oboru zpracování přirozeného jazyka s mnoha aplikacemi. V této práci se zaměřujeme na sumarizaci novinových článků. V práci představujeme nový sumarizační dataset vytvořený z článků ČTK. Na tomto datasetu jsme natrénovali některé z nejmodernějších modelů pro extraktivní sumarizaci s využitím neuronových sítí BERT a Longformer a zhodnotili je podle metrik ROUGE-N, ROUGE-L a BertScore. Z experimentů vyplývá, že nejlepší model dle BertScore je založený na předtrénovaném Longformeru (0.802), ale lze jej využít jen pokud je dopředu znám či zadán počet vět ve shrnutí. Pokud tato informace k dispozici není, nejlepším přístupem se jeví klasifikace jednotlivých vět s kontextem a pozičními metadaty pomocí předtrénovaného modelu BERT (0.79).cs
dc.description.abstract-translatedAutomatic text summarization is an important NLP task with many applications. Our particular area of focus is summarization of news articles. We introduce a new Czech summarization dataset created from CNA articles. Using this dataset, we trained multiple state-of-the-art approaches for extractive summarization using the BERT and Longformer model architectures and evaluate them using ROUGE-N, ROUGE-L and BertScore. We found that a pretrained Czech Longformer is the best approach regarding BertScore (0.802), when the number of summary sentences is known. If it is unknown, we found that the best approach is sentence-wise classification with context and positional metadata using a pretrained Czech BERT (BertScore 0.79).en
dc.description.resultObhájeno
dc.format75 s. (101778 znaků)
dc.identifier89770
dc.identifier.urihttp://hdl.handle.net/11025/49094
dc.language.isoen
dc.publisherZápadočeská univerzita v Plzni
dc.rightsPlný text práce je přístupný bez omezení
dc.subjectsumarizacecs
dc.subjectnlpcs
dc.subjectextraktivnícs
dc.subjectvícedokumentovács
dc.subjectbertcs
dc.subjectczertcs
dc.subjectlongformercs
dc.subject.translatedsummarizationen
dc.subject.translatednlpen
dc.subject.translatedextractiveen
dc.subject.translatedmulti-documenten
dc.subject.translatedberten
dc.subject.translatedczerten
dc.subject.translatedlongformeren
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-levelNavazující
dc.thesis.degree-nameIng.
dc.thesis.degree-programInženýrská informatika
dc.titleSumarizace novinových článkůcs
dc.title.alternativeSummarization of News Articlesen
dc.typediplomová práce
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=89770

Files

Original bundle
Showing 1 - 5 out of 6 results
No Thumbnail Available
Name:
masters.pdf
Size:
1.41 MB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A20N0106Phodnoceni-ved.pdf
Size:
119 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A20N0106Pposudek-op.pdf
Size:
1.22 MB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A20N0106Pobhajoba.pdf
Size:
552.7 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce
No Thumbnail Available
Name:
A20N0106P-zadani_DIP.pdf
Size:
17.2 KB
Format:
Adobe Portable Document Format
Description:
VŠKP - příloha

Collections