L’accès aux informations au moment de la pandémie de COVID-19 est entravé par la quantité et la fiabilité des informations, ainsi que par les nombreuses langues dans lesquelles elles sont fournies. Les technologies linguistiques peuvent aider. L’initiative COVID-19 MLIA, approuvée par la DG CNECT de la Commission européenne et coordonnée par l’Université de Padoue et ELRA/ELDA, a été lancée en juin 2020 pour améliorer l’accès aux informations multilingues dans ce contexte particulier.

Le premier cycle d’évaluation s’est achevé au tout début de l’année 2021. Cette initiative a suscité un grand intérêt : 14 équipes de 10 pays ont en fait présenté des épreuves pour les trois tâches. De nombreuses autres équipes se sont inscrites et devraient se joindre à elles pour les deuxième et troisième tours.

  • Pour la tâche n° 1, Extraction des informations, quatre équipes ont participé au 1er tour (deux entreprises et deux institutions académiques). Les langues couvertes étaient l’anglais, l’allemand, le grec moderne, l’italien et l’espagnol. L’objectif principal de cette tâche est d’identifier les informations médicales pertinentes dans les textes ayant trait à la pandémie de COVID-19.
  • Pour la tâche n° 2, Recherche sémantique multilingue, quatre participants universitaires ont soumis des épreuves, couvrant l’anglais, le français, l’allemand, l’italien, le grec moderne, l’espagnol, le suédois et l’ukrainien à la fois pour les épreuves monolingues et bilingues. L’objectif de la recherche sémantique multilingue est de recueillir des informations pertinentes pour la communauté, le grand public, y compris les autres parties prenantes, lors de la recherche de contenus sur la santé dans différentes langues et avec différents niveaux de connaissance sur le sujet particulier.
  • Pour la tâche n° 3, Traduction automatique, huit équipes, dont eTranslation, ont participé à ce cycle, couvrant les langues suivantes chacune traduite depuis l’anglais : allemand, français, espagnol, italien, grec moderne et suédois. L’objectif de la tâche de traduction automatique est d’évaluer les capacités des systèmes de TA à traduire des textes liés à la Covid-19, y compris avec de nouveaux termes et expressions.

Dans le cadre de la tâche d’acquisition des données, la collecte a été effectuée en deux parties.

Pour la traduction automatique, les données parallèles ont été construites à partir de sources Web bien connues dans le domaine de la santé et de la médecine, et enrichies avec l’ensemble de données COVID-19 identifiées. La taille des corpus résultants varie de 810 000 à 1,1 million de paires de phrases selon les combinaisons de langues (anglais à allemand, français, espagnol, italien, grec moderne et suédois). Les ressources linguistiques traitées ont été validées et seront progressivement mises à disposition sous forme de paquet d’évaluation à partir du répertoire ELRC-Share.

Pour l’extraction des informations et la recherche sémantique multilingue, le système Europe Media Monitoring (EMM) développé par le Centre commun de recherche de la Commission européenne a été utilisé et réglé pour collecter les métadonnées automatiquement extraites des articles de presse relatifs à la Covid-19. Cet ensemble de métadonnées est disponible sous la forme du jeu de données COVID-19 Medisys 2020 sur le portail Open Data.

Le deuxième cycle se déroulera en mars et avril 2021. Pour ce cycle, l’initiative envisage également d’ajouter de nouveaux sujets, d’améliorer la couverture linguistique en augmentant le nombre de langues de l’UE moins bien dotées et de favoriser l’enrichissement mutuel entre les tâches.

Enfin, on peut noter que des initiatives similaires traitant le problème d’accès aux informations sont menées dans le monde entier. Le jeu de données CORD-19, une collection d’articles sur la santé, provenant de sources de données biomédicales avec le soutien de l’OMS (Organisation mondiale de la Santé) est l’une d’entre elles. L’évaluation TREC-COVID des systèmes de recherche gérés par le NIST (National Institute of Standards and Technology) et utilisant le document CORD-19 en est une autre.

COVID-19 MLIA est soutenu par :

Vous trouverez de plus amples informations ici : COVID-MLIA et là Chaine Youtube COVID-19 MLIA  

Toutes les ressources produites au cours des cycles d’évaluation sont disponibles sur le site git repositories de l’initiative, sous licence CC-BY-SA 4.0.

-