Des chercheurs de l’Universidad Europea del Atlántico (Université européenne de l’Atlantique, UNEATLANTICO), collaborent avec l’Universidad Internacional Iberoamericana (Université internationale ibéro-américaine, UNIB) dans une étude qui présente un algorithme de lemmatisation pour la langue ourdou.
Dans le domaine du traitement automatique du langage naturel (TALN), la traduction automatique (TA) optimise la communication entre les personnes en comblant la frontière linguistique. Dans la traduction automatique, la normalisation et l’analyse morphologique sont des modules importants pour la recherche d’informations (RI).
La dérivation et la lemmatisation sont souvent utilisées comme techniques pour trouver la racine correcte des mots dans une langue. Toutefois, les études sur les systèmes de RI pour la langue ourdou montrent que la lemmatisation est plus efficace que la dérivation en raison des infixes présents dans les mots ourdou. En sémantique, la lemmatisation a pour but de regrouper les formes infléchies d’un mot afin de les décomposer en une forme commune et de les analyser comme un terme de base. En d’autres termes, elle consiste à supprimer les terminaisons flexionnelles des mots pour les ramener à leur forme de base.
Il existe peu d’études sur la lemmatisation de l’ourdou, et ces études ont tendance à se concentrer sur les règles, laissant de côté des aspects élémentaires tels que l’identification des noms, le traitement des mots vides, les emprunts, etc. L’objectif de cette recherche est donc de présenter un algorithme de lemmatisation amélioré basé sur des modèles de réseaux neuronaux standard pour la langue ourdou. Il se concentre principalement sur la détection des noms propres, la lemmatisation des mots morphologiques, flexionnels et dérivationnels de l’ourdou, entre autres.
Résultats de la recherche
Les résultats ont montré que le modèle proposé est capable de traiter les domaines manquants de la lemmatisation de l’ourdou, tels que le traitement des emprunts, des mots vides, l’identification des noms et des mots ourdou comportant des signes diacritiques. De même, ce modèle gère efficacement la lemmatisation des mots morphologiques flexionnels et dérivationnels de l’ourdou.
L’intégration du modèle AFED a considérablement amélioré les performances du système, qui a atteint une exactitude, une précision, un rappel et un score F de 0,96, 0,95, 0,95 et 0,95 respectivement.
Si vous voulez en savoir plus sur cette étude fascinante, cliquez ici.
Pour lire d’autres recherches, consultez le référentiel d’UNEATLANTICO.