Unveiling the Effectiveness of NLP-based DL Methods for Urdu Text Analysis

Tahir, Noman

Unveiling the Effectiveness of NLP-based DL Methods for Urdu Text Analysis

dc.contributor.author	Tahir, Noman
dc.contributor.author	Nykl, Michal
dc.contributor.author	Pražák, Ondřej
dc.contributor.author	Ježek, Karel
dc.date.accessioned	2025-06-20T08:24:17Z
dc.date.available	2025-06-20T08:24:17Z
dc.date.issued	2024
dc.date.updated	2025-06-20T08:24:16Z
dc.description.abstract	The analysis of text data has become a significant challenge while its size is gradually increasing in massive amounts. Various textual analysis methods exist, dealing with different processing styles due to multiple data types, mainly for English. Therefore, the other low-resource languages are difficult to process due to the unavailability of intelligent methods. Similarly, Urdu, as a low-resource language, requires effective methods based on machine learning or deep learning mechanisms. Our study has identified the rarely used pure Urdu text dataset, an effective combination of embeddings, and the best combination of hyperparameters for DL methods trained on that dataset. According to the evaluation results, our study has also determined the best methods regarding embeddings, hyperparameters, and overall performance. Moreover, combining pre-trained BERT embeddings with the fine-tuned BiLSTM and BERT was the best method to cope with Urdu as a low-resource language. As per the findings, our study recommends the pre-trained embedding models and hyperparameters settings for Urdu text classification analysis.	en
dc.description.abstract	Analýza textových dat se stala důležitou výzvou, jejíž oblast uplatněníse rychle rozšiřuje. Zejména pro angličtinu jsou vyvinuty různé metody pro analýzu textu, využívající různých stylů zpracování pro různé typy dat. Pro ostatní jazyky s tzv. chudšími zdroji je zpracování obtížné, vzhledem k nedostupnosti inteligentních metod. Podobně urdština, jako zdrojově chudý jazyk, potřebuje vyvinout efektivní metody založené na strojovém učení nebo na mechanismu hlubokého učení. Naše studie identifikovala zřídka používanou datovou sadu čistého textu v urdštině, efektivní kombinace vnořování a nejlepší kombinace hyperparametrů pro DL metody natrénované na této datové sadě. Dle výsledků hodnocení naše studie také určila nejlepší metody týkající se vnoření, hyperparametrů,a celkového výkonu. Navíc kombinace před-trénovaného BERT vnořování pomocí vyladěných metod BiLSTM a BERT byl nejlepší způsob, jak se vypořádat s urdštinou jako jazykem s chudými zdroji. Na základě zjištění naše studie doporučuje před-trénované modely vnořování a nastavení hyperparametrů pro klasifikační analýzu textu v urdštině.	cz
dc.format	12
dc.identifier.doi	10.1007/978-3-031-75329-9_12
dc.identifier.isbn	978-3-031-75328-2
dc.identifier.issn	2195-4968
dc.identifier.obd	43943892
dc.identifier.orcid	Tahir, Noman 0009-0005-0010-471X
dc.identifier.orcid	Nykl, Michal 0000-0002-5983-5825
dc.identifier.orcid	Pražák, Ondřej 0000-0001-5445-7792
dc.identifier.orcid	Ježek, Karel 0000-0002-4513-8885
dc.identifier.uri	http://hdl.handle.net/11025/59602
dc.language.iso	en
dc.project.ID	SGS-2022-016
dc.project.ID	LM2018140
dc.publisher	Springer Cham
dc.relation.ispartofseries	5th International Conference on Digital Age and Technological Advances for Sustainable Development, DATA 2024
dc.subject	NLP for Urdu	en
dc.subject	BERT	en
dc.subject	BiLSTM	en
dc.subject	Urdu text analysis	en
dc.subject	deep learning for Urdu	en
dc.subject	NLP pro urdštinu	cz
dc.subject	BERT	cz
dc.subject	BiLSTM	cz
dc.subject	analýza textu v urdštině	cz
dc.subject	hluboké učení pro urdštinu	cz
dc.title	Unveiling the Effectiveness of NLP-based DL Methods for Urdu Text Analysis	en
dc.title	Odhalení účinnosti DL metod naložených na NLP pro analýzu urdského textu	cz
dc.type	Stať ve sborníku (D)
dc.type	STAŤ VE SBORNÍKU
dc.type.status	Post-print
local.files.count	1	*
local.files.size	5919131	*
local.has.files	yes	*
local.identifier.eid	2-s2.0-85211943381

Files

Original bundle

Showing 1 - 1 out of 1 results

Name:: Noman-1_konf-our-part2.pdf
Size:: 5.64 MB
Format:: Adobe Portable Document Format

Download

License bundle

Showing 1 - 1 out of 1 results

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Conference papers (NTIS)