In Zusammenarbeit mit LT-Bridge organisiert das ELRC im Rahmen der WMT21 eine Gemeinsame Aufgabe zur europäischen ressourcenarmen mehrsprachigen Übersetzung, die sich auf die Mehrsprachigkeit im Bereich des kulturellen Erbes für die zwei indoeuropäischen Sprachfamilien Nordgermanisch und Romanisch konzentriert.
Massive mehrsprachige maschinelle Übersetzung hat beeindruckende Fähigkeiten gezeigt, einschließlich Zero-Shot- und Little-Shot-Übersetzung ressourcenarmer Sprachen. Allerdings werden diese Modelle oft aus dem Englischen heraus oder in das Englische hinein evaluiert (und trainiert), weil für diese Sprache die meisten Daten zur Verfügung stehen, und es wird angenommen, dass die Modelle auch für andere Sprachpaare und Sprachen mit geringen Ressourcen übernommen werden können.
Mit unserer gemeinsamen Aufgabe zur mehrsprachigen ressourcenarmen Übersetzung wollen wir erforschen, wie Informationen in einer Sprache auf andere, verwandte Sprachen übertragen werden können, indem wir die Übersetzungsqualität in ressourcenarmen Sprachpaaren bewerten, aber explizit die Verwendung von Daten der ressourcenstarken Sprachpaare der gleichen Familie fördern. So wollen wir herausfinden, inwieweit Englisch und/oder Spanisch erforderlich sind, um eine qualitativ hochwertige maschinelle Übersetzungsausgabe verwandter Sprachen zu erhalten - und wenn sich herausstellt, dass die Übersetzung ressourcenarmer Sprachen durch Transferlernen tatsächlich verbessert werden kann, wollen wir gemeinsam die besten Möglichkeiten zur Kombination der verfügbaren Daten ermitteln.
Die gemeinsame Aufgabe wird in zwei Teilaufgaben aufgeteilt: Die Europeana-These abstrahiert die Übersetzung (nordgermanischer Sprachen von/nach Isländisch, Norwegisch Bokmål und Schwedisch) und die Übersetzung von Wikipedia-Kulturerbe-Artikeln (romanische Sprachen von Katalanisch nach Okzitanisch, Rumänisch und Italienisch). Der Bewertungszeitraum läuft vom 29. Juni bis 6. Juli 2021.