Der Zugang zu Informationen zum Zeitpunkt der COVID-19-Pandemie wird durch die Menge und die Zuverlässigkeit der Informationen sowie durch die vielen Sprachen, in denen die Informationen bereitgestellt werden, erschwert. Sprachtechnologien können helfen. Die COVID-19 MLIA-Initiative, die von der GD CNECT der Europäischen Kommission unterstützt und von der Universität Padua und ELRA/ELDAkoordiniert wird, wurde im Juni 2020 gestartet, um den Zugang zu mehrsprachigen Informationen in diesem speziellen Kontext zu verbessern.

Die 1. Runde der Auswertung wurde Anfang 2021 abgeschlossen. Die Initiative stieß auf großes Interesse: 14 Teams aus 10 Ländern haben derzeitig Arbeiten für die 3 Aufgaben eingereicht. Viele weitere Teams hatten sich angemeldet und werden für Runde 2 und 3 erwartet.

  • Für die Aufgabe 1, Informationsgewinnung, nahmen 4 Teams an der 1. Runde teil (2 Unternehmen und 2 akademische Einrichtungen). Die behandelten Sprachen waren Englisch, Deutsch, Neugriechisch, Italienisch und Spanisch. Das Hauptziel dieser Aufgabe ist es, relevante medizinische Informationen in Texten zu identifizieren, die sich auf das Thema COVID-19 beziehen.
  • Für die Aufgabe 2, Multilinguale semantische Suche, reichten 4 akademische Teilnehmer Arbeiten ein, die die Sprachen Deutsch, Englisch, Französisch, Italienisch, Neugriechisch, Spanisch, Schwedisch und Ukrainisch abdeckten, sowohl für den einsprachigen als auch für den zweisprachigen Durchlauf. Das Ziel der Aufgabe „Multilinguale semantische Suche“ besteht darin, relevante Informationen für die Community, die allgemeine Öffentlichkeit einschließlich anderer Interessengruppen, bei der Suche nach Gesundheitsinhalt in verschiedenen Sprachen und mit unterschiedlichem Wissensstand über das spezifische Thema zu sammeln.
  • Für die Aufgabe 3, Maschinelle Übersetzung, nahmen 8 Teams, darunter auch eTranslation, an dieser Runde teil und deckten die folgenden Sprachpaare vom Englischen in jede der folgenden Sprachen ab: Deutsch, Französisch, Spanisch, Italienisch, Neugriechisch und Schwedisch. Das Ziel der Aufgabe „Maschinelle Übersetzung“ besteht darin, die Fähigkeiten der MT-Systeme zur Übersetzung von Texten zu beurteilen, die sich auf Covid-19 beziehen und neue Begriffe und Ausdrücke enthalten.

Innerhalb der Aufgabe „Datenerfassung“ wurde die Erfassung in 2 Teilen durchgeführt.

Für die maschinelle Übersetzung wurden die parallelen Daten aus bekannten Webquellen im Bereich Gesundheit und Medizin erstellt und mit dem identifizierten COVID-19-Datensatz angereichert. Die Größe der resultierenden Sammlungen reicht von 810K bis zu 1,1M Satzpaaren, abhängig von den Sprachpaaren (Englisch zu Deutsch, Französisch, Spanisch, Italienisch, Neugriechisch und Schwedisch). Die bearbeiteten Sprachressourcen wurden freigegeben und werden nach und nach als Auswertungspaket aus dem ELRC-Share-Repository zur Verfügung gestellt.

Für die Informationsextraktion und die mehrsprachige semantische Suche wurde das vom Joint Research Center der Europäischen Kommission entwickelte System Europe Media Monitoring (EMM) verwendet und darauf abgestimmt, Metadaten zu sammeln, die automatisch aus Nachrichtenartikeln mit Bezug zu Covid-19 extrahiert wurden. Dieser Satz von Metadaten ist als 2020 Medisys COVID-19-Datensatz auf dem Open Data Portal verfügbar.

Die zweite Runde wird im März und April 2021 durchgeführt. Für diese Runde prüft die Initiative auch die Hinzufügung neuer Themen, die Verbesserung der Sprachunterstützung durch die Erweiterung der Anzahl der weniger ressourcenstarken EU-Sprachen und die Förderung des gegenseitigen Ideenaustauschs zwischen den Aufgaben.

Abschließend kann festgehalten werden, dass ähnliche Initiativen, die sich mit der Frage des Informationszugangs befassen, überall auf der Welt durchgeführt werden. Der CORD-19-Datensatz, eine Sammlung von gesundheitsbezogener Literatur, aus biomedizinischen Datenquellen mit Unterstützung der WHO (Weltgesundheitsorganisation) ist eine davon. Eine weitere ist die TREC-COVID-Evaluierung von Suchsystemen, die vom NIST (National Institute of Standards and Technology) durchgeführt wird und das CORD-19-Dokument verwendet.

COVID-19 MLIA wird unterstützt von:

Weitere Informationen finden Sie hier: COVID-MLIA und dort COVID-19 MLIA Youtube-Kanal

Alle während der Evaluierungsrunden erstellten Ressourcen sind auf den Git-Repositories der Initiative unter der Lizenz CC-BY-SA 4.0 verfügbar.

-