Unveiling the Effectiveness of NLP-based DL Methods for Urdu Text Analysis
| dc.contributor.author | Tahir, Noman | |
| dc.contributor.author | Nykl, Michal | |
| dc.contributor.author | Pražák, Ondřej | |
| dc.contributor.author | Ježek, Karel | |
| dc.date.accessioned | 2025-06-20T08:24:17Z | |
| dc.date.available | 2025-06-20T08:24:17Z | |
| dc.date.issued | 2024 | |
| dc.date.updated | 2025-06-20T08:24:16Z | |
| dc.description.abstract | The analysis of text data has become a significant challenge while its size is gradually increasing in massive amounts. Various textual analysis methods exist, dealing with different processing styles due to multiple data types, mainly for English. Therefore, the other low-resource languages are difficult to process due to the unavailability of intelligent methods. Similarly, Urdu, as a low-resource language, requires effective methods based on machine learning or deep learning mechanisms. Our study has identified the rarely used pure Urdu text dataset, an effective combination of embeddings, and the best combination of hyperparameters for DL methods trained on that dataset. According to the evaluation results, our study has also determined the best methods regarding embeddings, hyperparameters, and overall performance. Moreover, combining pre-trained BERT embeddings with the fine-tuned BiLSTM and BERT was the best method to cope with Urdu as a low-resource language. As per the findings, our study recommends the pre-trained embedding models and hyperparameters settings for Urdu text classification analysis. | en |
| dc.description.abstract | Analýza textových dat se stala důležitou výzvou, jejíž oblast uplatněníse rychle rozšiřuje. Zejména pro angličtinu jsou vyvinuty různé metody pro analýzu textu, využívající různých stylů zpracování pro různé typy dat. Pro ostatní jazyky s tzv. chudšími zdroji je zpracování obtížné, vzhledem k nedostupnosti inteligentních metod. Podobně urdština, jako zdrojově chudý jazyk, potřebuje vyvinout efektivní metody založené na strojovém učení nebo na mechanismu hlubokého učení. Naše studie identifikovala zřídka používanou datovou sadu čistého textu v urdštině, efektivní kombinace vnořování a nejlepší kombinace hyperparametrů pro DL metody natrénované na této datové sadě. Dle výsledků hodnocení naše studie také určila nejlepší metody týkající se vnoření, hyperparametrů,a celkového výkonu. Navíc kombinace před-trénovaného BERT vnořování pomocí vyladěných metod BiLSTM a BERT byl nejlepší způsob, jak se vypořádat s urdštinou jako jazykem s chudými zdroji. Na základě zjištění naše studie doporučuje před-trénované modely vnořování a nastavení hyperparametrů pro klasifikační analýzu textu v urdštině. | cz |
| dc.format | 12 | |
| dc.identifier.doi | 10.1007/978-3-031-75329-9_12 | |
| dc.identifier.isbn | 978-3-031-75328-2 | |
| dc.identifier.issn | 2195-4968 | |
| dc.identifier.obd | 43943892 | |
| dc.identifier.orcid | Tahir, Noman 0009-0005-0010-471X | |
| dc.identifier.orcid | Nykl, Michal 0000-0002-5983-5825 | |
| dc.identifier.orcid | Pražák, Ondřej 0000-0001-5445-7792 | |
| dc.identifier.orcid | Ježek, Karel 0000-0002-4513-8885 | |
| dc.identifier.uri | http://hdl.handle.net/11025/59602 | |
| dc.language.iso | en | |
| dc.project.ID | SGS-2022-016 | |
| dc.project.ID | LM2018140 | |
| dc.publisher | Springer Cham | |
| dc.relation.ispartofseries | 5th International Conference on Digital Age and Technological Advances for Sustainable Development, DATA 2024 | |
| dc.subject | NLP for Urdu | en |
| dc.subject | BERT | en |
| dc.subject | BiLSTM | en |
| dc.subject | Urdu text analysis | en |
| dc.subject | deep learning for Urdu | en |
| dc.subject | NLP pro urdštinu | cz |
| dc.subject | BERT | cz |
| dc.subject | BiLSTM | cz |
| dc.subject | analýza textu v urdštině | cz |
| dc.subject | hluboké učení pro urdštinu | cz |
| dc.title | Unveiling the Effectiveness of NLP-based DL Methods for Urdu Text Analysis | en |
| dc.title | Odhalení účinnosti DL metod naložených na NLP pro analýzu urdského textu | cz |
| dc.type | Stať ve sborníku (D) | |
| dc.type | STAŤ VE SBORNÍKU | |
| dc.type.status | Post-print | |
| local.files.count | 1 | * |
| local.files.size | 5919131 | * |
| local.has.files | yes | * |
| local.identifier.eid | 2-s2.0-85211943381 |
Files
Original bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- Noman-1_konf-our-part2.pdf
- Size:
- 5.64 MB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: