-

Trop souvent, la recherche est entravée par un manque de coopération entre le monde universitaire et l’industrie. Les différences d’objectifs, de priorités, de méthodes de travail et, surtout, de conditions financières compliquent le rapprochement de ces deux mondes et leur collaboration sur un même projet. Cependant, lorsqu’ils parviennent à surmonter les obstacles, une certaine synergie apparaît et de grands résultats sont obtenus.

Ce type de collaboration s’est récemment concrétisé dans la communauté polonaise de la PNL. L’équipe de recherche ML d’Allegro.pl (un marché de commerce électronique populaire et la troisième plus grande entreprise de la Bourse de Varsovie) a commencé à travailler sur le développement d’un modèle basé sur BERT pour la compréhension de la langue polonaise (NLU) dans le cadre de leur infrastructure de PNL. Le principal problème qui s’est posé était l’absence d’un corpus important, diversifié et de haute qualité pouvant être utilisé pour entraîner le modèle. Ces critères sont satisfaits par le corpus national de polonais (NKJP), qui se compose de textes provenant de nombreuses sources différentes, telles que la littérature classique, les livres, les journaux, les revues, les transcriptions de conversations et les textes récupérés sur Internet.

Le projet R&D NKJP était une initiative conjointe de quatre institutions scientifiques : L’Institut d’informatique de l’Académie polonaise des sciences (ICS PAS, coordinateur), l’Institut de la langue polonaise de l’Académie polonaise des sciences, les Éditeurs scientifiques polonais PWN et le Département de linguistique informatique et de corpus de l’Université de Łódź. Le financement a été assuré par le ministère des Sciences et de l’Enseignement supérieur.

Le NKJP peut être exploré dans un moteur de recherche dédié. Toutefois, la collection de textes sources n’est pas accessible au public pour des raisons de droits d’auteur et ne peut être utilisée que par ces quatre membres du consortium. Grâce au travail conjoint des équipes juridiques d’Allegro et d’ICS PAS, et à l’obtention du consentement de PWN, propriétaire d’une grande partie des textes, tous les obstacles formels à l’utilisation du corpus ont été surmontés.

Cette coopération a abouti de former et de mettre en libre accès HerBERT, un modèle basé sur BERT pour la compréhension de la langue polonaise. Les expériences menées ont confirmé ses hautes performances dans un ensemble de onze tâches linguistiques diverses, HerBERT s’étant révélé le meilleur dans huit d’entre elles. En particulier, il s’agit de la meilleure version pour le modèle NLU polonais selon le benchmark KLEJ. Le modèle et son évaluation empirique sont présentés dans l’article de Mroczkowski et coll. (2021, à paraître sur BSNLP).

Les versions HerBERT Base et HerBERT Large sont publiées sous licence CC BY-SA 4.0 et font partie de la bibliothèque Transformers. Depuis son apparition dans le référentiel HuggingFace, le modèle a été très apprécié. HerBERT Base a été téléchargé plus de 13 500 fois au cours du dernier mois.