Unveiling the Effectiveness of NLP-based DL Methods for Urdu Text Analysis
Date issued
2024
Journal Title
Journal ISSN
Volume Title
Publisher
Springer Cham
Abstract
The analysis of text data has become a significant challenge while its size is gradually increasing in massive amounts. Various textual analysis methods exist, dealing with different processing styles due to multiple data types, mainly for English. Therefore, the other low-resource languages are difficult to process due to the unavailability of intelligent methods. Similarly, Urdu, as a low-resource language, requires effective methods based on machine learning or deep learning mechanisms. Our study has identified the rarely used pure Urdu text dataset, an effective combination of embeddings, and the best combination of hyperparameters for DL methods trained on that dataset. According to the evaluation results, our study has also determined the best methods regarding embeddings, hyperparameters, and overall performance. Moreover, combining pre-trained BERT embeddings with the fine-tuned BiLSTM and BERT was the best method to cope with Urdu as a low-resource language. As per the findings, our study recommends the pre-trained embedding models and hyperparameters settings for Urdu text classification analysis.
Analýza textových dat se stala důležitou výzvou, jejíž oblast uplatněníse rychle rozšiřuje. Zejména pro angličtinu jsou vyvinuty různé metody pro analýzu textu, využívající různých stylů zpracování pro různé typy dat. Pro ostatní jazyky s tzv. chudšími zdroji je zpracování obtížné, vzhledem k nedostupnosti inteligentních metod. Podobně urdština, jako zdrojově chudý jazyk, potřebuje vyvinout efektivní metody založené na strojovém učení nebo na mechanismu hlubokého učení. Naše studie identifikovala zřídka používanou datovou sadu čistého textu v urdštině, efektivní kombinace vnořování a nejlepší kombinace hyperparametrů pro DL metody natrénované na této datové sadě. Dle výsledků hodnocení naše studie také určila nejlepší metody týkající se vnoření, hyperparametrů,a celkového výkonu. Navíc kombinace před-trénovaného BERT vnořování pomocí vyladěných metod BiLSTM a BERT byl nejlepší způsob, jak se vypořádat s urdštinou jako jazykem s chudými zdroji. Na základě zjištění naše studie doporučuje před-trénované modely vnořování a nastavení hyperparametrů pro klasifikační analýzu textu v urdštině.
Analýza textových dat se stala důležitou výzvou, jejíž oblast uplatněníse rychle rozšiřuje. Zejména pro angličtinu jsou vyvinuty různé metody pro analýzu textu, využívající různých stylů zpracování pro různé typy dat. Pro ostatní jazyky s tzv. chudšími zdroji je zpracování obtížné, vzhledem k nedostupnosti inteligentních metod. Podobně urdština, jako zdrojově chudý jazyk, potřebuje vyvinout efektivní metody založené na strojovém učení nebo na mechanismu hlubokého učení. Naše studie identifikovala zřídka používanou datovou sadu čistého textu v urdštině, efektivní kombinace vnořování a nejlepší kombinace hyperparametrů pro DL metody natrénované na této datové sadě. Dle výsledků hodnocení naše studie také určila nejlepší metody týkající se vnoření, hyperparametrů,a celkového výkonu. Navíc kombinace před-trénovaného BERT vnořování pomocí vyladěných metod BiLSTM a BERT byl nejlepší způsob, jak se vypořádat s urdštinou jako jazykem s chudými zdroji. Na základě zjištění naše studie doporučuje před-trénované modely vnořování a nastavení hyperparametrů pro klasifikační analýzu textu v urdštině.
Description
Subject(s)
NLP for Urdu, BERT, BiLSTM, Urdu text analysis, deep learning for Urdu, NLP pro urdštinu, BERT, BiLSTM, analýza textu v urdštině, hluboké učení pro urdštinu