Unveiling the Effectiveness of NLP-based DL Methods for Urdu Text Analysis

dc.contributor.authorTahir, Noman
dc.contributor.authorNykl, Michal
dc.contributor.authorPražák, Ondřej
dc.contributor.authorJežek, Karel
dc.date.accessioned2025-06-20T08:24:17Z
dc.date.available2025-06-20T08:24:17Z
dc.date.issued2024
dc.date.updated2025-06-20T08:24:16Z
dc.description.abstractThe analysis of text data has become a significant challenge while its size is gradually increasing in massive amounts. Various textual analysis methods exist, dealing with different processing styles due to multiple data types, mainly for English. Therefore, the other low-resource languages are difficult to process due to the unavailability of intelligent methods. Similarly, Urdu, as a low-resource language, requires effective methods based on machine learning or deep learning mechanisms. Our study has identified the rarely used pure Urdu text dataset, an effective combination of embeddings, and the best combination of hyperparameters for DL methods trained on that dataset. According to the evaluation results, our study has also determined the best methods regarding embeddings, hyperparameters, and overall performance. Moreover, combining pre-trained BERT embeddings with the fine-tuned BiLSTM and BERT was the best method to cope with Urdu as a low-resource language. As per the findings, our study recommends the pre-trained embedding models and hyperparameters settings for Urdu text classification analysis.en
dc.description.abstractAnalýza textových dat se stala důležitou výzvou, jejíž oblast uplatněníse rychle rozšiřuje. Zejména pro angličtinu jsou vyvinuty různé metody pro analýzu textu, využívající různých stylů zpracování pro různé typy dat. Pro ostatní jazyky s tzv. chudšími zdroji je zpracování obtížné, vzhledem k nedostupnosti inteligentních metod. Podobně urdština, jako zdrojově chudý jazyk, potřebuje vyvinout efektivní metody založené na strojovém učení nebo na mechanismu hlubokého učení. Naše studie identifikovala zřídka používanou datovou sadu čistého textu v urdštině, efektivní kombinace vnořování a nejlepší kombinace hyperparametrů pro DL metody natrénované na této datové sadě. Dle výsledků hodnocení naše studie také určila nejlepší metody týkající se vnoření, hyperparametrů,a celkového výkonu. Navíc kombinace před-trénovaného BERT vnořování pomocí vyladěných metod BiLSTM a BERT byl nejlepší způsob, jak se vypořádat s urdštinou jako jazykem s chudými zdroji. Na základě zjištění naše studie doporučuje před-trénované modely vnořování a nastavení hyperparametrů pro klasifikační analýzu textu v urdštině.cz
dc.format12
dc.identifier.doi10.1007/978-3-031-75329-9_12
dc.identifier.isbn978-3-031-75328-2
dc.identifier.issn2195-4968
dc.identifier.obd43943892
dc.identifier.orcidTahir, Noman 0009-0005-0010-471X
dc.identifier.orcidNykl, Michal 0000-0002-5983-5825
dc.identifier.orcidPražák, Ondřej 0000-0001-5445-7792
dc.identifier.orcidJežek, Karel 0000-0002-4513-8885
dc.identifier.urihttp://hdl.handle.net/11025/59602
dc.language.isoen
dc.project.IDSGS-2022-016
dc.project.IDLM2018140
dc.publisherSpringer Cham
dc.relation.ispartofseries5th International Conference on Digital Age and Technological Advances for Sustainable Development, DATA 2024
dc.subjectNLP for Urduen
dc.subjectBERTen
dc.subjectBiLSTMen
dc.subjectUrdu text analysisen
dc.subjectdeep learning for Urduen
dc.subjectNLP pro urdštinucz
dc.subjectBERTcz
dc.subjectBiLSTMcz
dc.subjectanalýza textu v urdštiněcz
dc.subjecthluboké učení pro urdštinucz
dc.titleUnveiling the Effectiveness of NLP-based DL Methods for Urdu Text Analysisen
dc.titleOdhalení účinnosti DL metod naložených na NLP pro analýzu urdského textucz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPost-print
local.files.count1*
local.files.size5919131*
local.has.filesyes*
local.identifier.eid2-s2.0-85211943381

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
Noman-1_konf-our-part2.pdf
Size:
5.64 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: