-

Viel zu oft wird die Forschung durch eine ungenügende Kooperation zwischen Wissenschaft und Industrie ausgebremst. Unterschiedliche Ziele, Prioritäten, Arbeitsweisen und nicht zuletzt die finanziellen Rahmenbedingungen machen es schwierig, diese beiden Welten unter einen Hut zu bringen und gemeinsam an einem Projekt zu arbeiten. Sobald diese Hindernisse jedoch überwunden sind, werden Synergien sichtbar und großartige Ergebnisse erzielt.

Diese Art der Zusammenarbeit fand kürzlich in der polnischen NLP-Community statt. Das ML-Forschungsteam von Allegro.pl ( einem beliebten E-Commerce-Marktplatz und dem drittgrößten Unternehmen an der Warschauer Börse) hat mit der Entwicklung eines BERT-basierten Modells für polnisches Sprachverständnis (NLU) als Teil ihrer NLP-Infrastruktur begonnen. Das Hauptproblem war das Fehlen eines großen, vielfältigen und qualitativ hochwertigen Korpus, der zum Trainieren des Modells verwendet werden konnte. Solche Kriterien erfüllt der Nationale Korpus der polnischen Sprache (NKJP), der aus Texten aus vielen verschiedenen Quellen besteht, wie z. B. klassischer Literatur, Büchern, Zeitungen, Zeitschriften, Gesprächsprotokollen und aus dem Internet gesammelten Texten.

Die Forschungs- und Entwicklungsleistung für das NKJP-Projekt bestand aus einer gemeinsamen Initiative von vier wissenschaftlichen Einrichtungen: Institut für Informatik an der Polnischen Akademie der Wissenschaften (ICS PAS, Koordinator), Institut für die Polnische Sprache an der Polnischen Akademie der Wissenschaften, Polnischer Wissenschaftsverlag PWN und die Abteilung für Computer- und Korpuslinguistik an der Universität Łódź und wurde vom Ministerium für Wissenschaft und Hochschulwesen finanziert.

NKJP kann in einer speziellen Suchmaschine recherchiert werden. Die Sammlung der Quelltexte ist jedoch aus urheberrechtlichen Gründen nicht öffentlich zugänglich und kann nur von diesen vier Mitgliedern des Konsortiums genutzt werden. Dank der gemeinsamen Arbeit der Rechtsabteilungen von Allegro und ICS PAS sowie der Einholung der Zustimmung von PWN, dem Rechteinhaber eines großen Teils der Texte, konnten alle formalen Hindernisse bei der Nutzung des Korpus überwunden werden.

Das Ergebnis der Zusammenarbeit war das Training und Open-Sourcing von HerBERT, einem BERT-basierten Modell zum Verstehen der polnischen Sprache. Die durchgeführten Experimente bestätigten die hohe Leistung von HerBERT bei elf verschiedenen linguistischen Aufgaben. Dabei erwies sich HerBERT bei acht von ihnen als das beste Modell. Insbesondere ist es das beste Modell für polnische NLU gemäß dem KLEJ-Benchmark. Das Modell und seine empirische Auswertung werden im Artikel von Mroczkowski et al. (2021, erscheint in BSNLP) vorgestellt.

Sowohl HerBERT Base als auch HerBERT Large werden als Teil der Transformers-Bibliothek unter der Lizenz CC BY-SA 4.0 veröffentlicht. Seit dem Erscheinen im HuggingFace-Repository ist das Modell sehr beliebt. HerBERT Base wurde im letzten Monat über 13.500 Mal heruntergeladen.