Suite au récent atelier technique organisé par ELRC et la DG CNECT sur les Grands Modèles de Langues (LLM), il est intéressant de se pencher sur les développements européens dans ce domaine, en particulier lorsqu'ils concernent des langues moins populaires et riches en morphologie  comme le polonais.

-

L'Institut national du traitement de l'information (Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy - OPI PIB), un institut de recherche interdisciplinaire polonais, peut se targuer de réalisations intéressantes dans ce domaine. Les experts du Laboratoire d'ingénierie linguistique (LIL) ont développé le grand modèle polonais RoBERTa, qui a été entraîné sur le plus grand corpus de textes jamais utilisé pour le polonais. 

Les travaux ont commencé par l'extension du corpus de texte existant –  une collection d'environ 15 Go de données textuelles utilisées dans le passé pour former le modèle ELMo. Comme les modèles de type BERT ont une capacité beaucoup plus importante et nécessitent un ensemble de données correspondant pour exploiter pleinement leur potentiel, en décembre 2019, les experts de OPI PIB ont commencé à télécharger les données de Common Crawl, une archive publique contenant des pétaoctets de copies de pages web. Les données du Common Crawl de novembre-décembre 2019 et janvier 2020 ont permis–après filtrage et nettoyage– d'accumuler un ensemble suffisamment important. La formation effective du modèle a duré de février à mai 2020. Avec un corpus de 130 Go de données, soit l'équivalent de plus de 400 milles livres, le grand modèle polonais RoBERTa est devenu le plus grand modèle jamais formé en Pologne.  

Le modèle a été testé à l'aide de la liste d'évaluation complète des langues (benchmark KLEJ) développée par la société Allegro, qui a permis d'évaluer les performances du modèle sur la base de neuf tâches, telles que l'analyse des sentiments ou le test de similarité sémantique des textes. Selon l’analyse KLEJ, le modèle PIB du BPR a pris la première place dans ce classement. 

En 2021, des versions actualisées des modèles polonais RoBERTa et du modèle GPT-2 conçu pour les tâches de génération de texte ont été publiées. La partie de base de leur corpus de données est constituée de textes de haute qualité (Wikipédia, documents du parlement polonais, déclarations issues des médias sociaux, livres, articles, formes écrites plus longues). La partie web du corpus, quant à elle, comprend des extraits de sites web (projet CommonCrawl), qui ont été préalablement filtrés et correctement nettoyés.

Il faut environ 3 à 4 mois pour former un seul modèle neuronal d'une langue, mais les résultats sont très prometteurs. Tous les modèles neuronaux développés dans le cadre de OPI PIB concernent des textes en polonais, ce qui est particulièrement précieux, car la plupart des solutions de ce type sont développées pour l'anglais. Les modèles de types transformateur mentionné permettent une représentation précise de la syntaxe et de la sémantique du polonais et rendent possible la construction d'outils avancés de traitement du langage polonais. 

Il est à noter que l’institut met les modèles à la disposition du public et gratuitement : ils sont disponibles sur le site web de l'Institut :https://opi.org.pl/modele-uczenia-maszynowego-udostepnione-przez-opi-pib/

En septembre, des chercheurs de l'Institut devraient faire une présentation lors du 3e atelier National ELRC à Varsovie