Nach dem jüngsten technischen Workshop von ELRC und GD CONNECT zu großen Sprachmodellen (LLM) lohnt es sich, die europäischen Entwicklungen in diesem Bereich genauer zu betrachten, insbesondere wenn sie weniger populäre und morphologisch reiche Sprachen wie Polnisch betreffen.
Das Nationale Institut für Informationsverarbeitung (Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy – OPI PIB), ein polnisches interdisziplinäres Forschungsinstitut, kann auf diesem Gebiet interessante Errungenschaften vorweisen. Die Experten des Laboratory of Linguistic Engineering (LIL) entwickelten das polnische RoBERTa large-Modell, das auf dem größten jemals für Polnisch verwendeten Textkorpus trainiert wurde.
Die Arbeiten begannen mit der Erweiterung des bestehenden Textkorpus – einer Sammlung von etwa 15 GB Textdaten, die in der Vergangenheit zum Trainieren des ELMo-Modells verwendet wurden. Da BERT-Modelle eine viel größere Kapazität haben und einen entsprechenden Datensatz benötigen, um ihr Potenzial voll auszuschöpfen, begannen OPI PIB-Experten im Dezember 2019 damit, Daten aus Common Crawl herunterzuladen, einem öffentlichen Archiv, das Petabytes von Webseitenkopien enthält. Die Common Crawl-Daten von November-Dezember 2019 und Januar 2020 ermöglichten es – nach Filterung und Bereinigung – einen ausreichend großen Satz zu akkumulieren. Die eigentliche Ausbildung des Modells dauerte von Februar bis Mai 2020. Mit einem Korpus von 130 GB Daten, was über 400.000 Büchern entspricht, wurde das polnische RoBERTa large zum größten Modell, das jemals in Polen trainiert wurde.
Getestet wurde das Modell anhand der von der Firma Allegro entwickelten Comprehensive Language Evaluation List (KLEJ Benchmark), die es ermöglichte, die Leistung des Modells anhand von neun Aufgaben zu bewerten, wie z. B. Sentimentanalyse oder semantische Ähnlichkeitsprüfung von Texten. Basierend auf der KLEJ-Analyse belegte das OPI-PIB-Modell den ersten Platz in diesem Ranking.
Im Jahr 2021 wurden aktualisierte Versionen der polnischen RoBERTa-Modelle und des GPT-2-Modells für Textgenerierungsaufgaben veröffentlicht. Der Basisteil des Datenkorpus besteht aus hochwertigen Texten (Wikipedia, Dokumente des polnischen Parlaments, Stellungnahmen aus sozialen Medien, Bücher, Artikel, längere schriftliche Formen). Der Web-Teil des Korpus hingegen enthält Auszüge aus Webseiten (CommonCrawl-Projekt), die zuvor gefiltert und gründlich bereinigt wurden.
Es dauert etwa 3-4 Monate, um ein einzelnes neuronales Modell einer Sprache zu trainieren, aber die Ergebnisse sind sehr vielversprechend. Alle in OPI PIB entwickelten neuronalen Modelle beziehen sich auf polnische Texte, was besonders wertvoll ist, da die meisten Lösungen dieses Typs für Englisch entwickelt wurden. Die erwähnten Transformer-Modelle ermöglichen eine genaue Darstellung der Syntax und Semantik des Polnischen und ermöglichen den Aufbau fortschrittlicher polnischer Sprachverarbeitungswerkzeuge.
Lobenswerterweise stellt das Institut die Modelle der Öffentlichkeit kostenlos zur Verfügung: sie sind auf der Website des Instituts verfügbar: https://opi.org.pl/modele-uczenia-maszynowego-udostepnione-przez-opi-pib/
Im September werden Forscher des Instituts voraussichtlich eine Präsentation beim 3. nationalen ELRC-Workshop in Warschau halten.