Ein Jahr ist seit dem Start des OpenEuroLLM-Projekts vergangen. Dieses ambitionierte Vorhaben, das von einem Konsortium aus 20 führenden europäischen Forschungseinrichtungen, Unternehmen und EuroHPC-Zentren umgesetzt wird, wird von Jan Hajič (Charles University, Tschechien) koordiniert und gemeinsam mit AMD Silo AI geleitet. Ziel des Projekts ist die Entwicklung von Next-Generation Open-Source-Sprachmodellen zur Stärkung der europäischen KI-Kompetenzen.
Die Zielsetzung erfordert umfangreiche Forschung, Zugang zu Hochleistungsrechenressourcen sowie die strategische Zusammenarbeit mit weiteren bedeutenden europäischen Initiativen. Im ersten Jahr hat OpenEuroLLM wichtige Meilensteine erreicht und durch gezielte Arbeit in den Bereichen digitale Infrastruktur, Datenpraktiken, Modellentwicklung und Evaluationswerkzeuge zur Stärkung der regionalen KI-Souveränität beigetragen.
„Die Entwicklung eines offenen multilingualen LLM im öffentlichen Raum und innerhalb eines großen Konsortiums ist eine herausfordernde Aufgabe. Ich bin stolz darauf, dass das Projekt dank der Expertise, Begeisterung, des Engagements und der harten Arbeit insbesondere der Kernpartner seine Ziele im ersten Jahr erreicht hat. Allerdings bleiben weiterhin bedeutende Herausforderungen, insbesondere bei der Sicherung zusätzlicher Rechenressourcen für die finalen Modelle“, sagt Jan Hajič.
Infrastruktur
OpenEuroLLM entwickelt die digitale Infrastruktur, die notwendig ist, um die Hürden für KI-Produktentwicklung in Europa zu senken. Dazu gehören Systeme für großskaliges verteiltes Training, für die nahtlose Evaluation von Modellen über verschiedene europäische HPC-Cluster hinweg sowie robuste Software-Stacks für Experimente. Im ersten Projektjahr waren diese Schritte entscheidend, um die Abhängigkeit von einzelnen Clustern zu vermeiden und bestehende europäische HPC-Infrastrukturen effizient zu nutzen.
Daten
In Zusammenarbeit mit Open-Sci wurden Referenzmodelle für Datenauswahl und Skalierungstrends entwickelt. Diese dienen als Baselines für den Vergleich mit anderen Trainingsverfahren auf denselben offenen Referenzdatensätzen und erleichtern die Einordnung neuer Trainingsansätze im Verhältnis zu bestehenden Methoden.
Mit „MixtureVitae“, einem weiteren großskaligen offenen Web-Pretraining-Datensatz, entwickelt gemeinsam mit LAION, Ontocord und Open-Sci, wurde ein permissiver Datensatz geschaffen, der leistungsstarke nicht-permissive Datensätze wie FineWeb-Edu oder DCLM erreicht oder übertrifft – insbesondere bei Aufgaben in Mathematik und Programmierung.
Gemeinsam mit EuroLLM adressiert das Projekt zudem die Datenknappheit vieler europäischer Sprachen. Da aktuelle Datensammlungen Spracharmut nicht ausreichend kompensieren, wurde erstmals ein umfassender multilingualer synthetischer Pretraining-Datensatz erstellt.
Parallel wurde der OpenEuroLLM-Katalog für LLM-Trainingsdaten aufgebaut – eine strukturierte, gemeinschaftlich kuratierte und gut dokumentierte Sammlung potenzieller Trainingsdatensätze. Diese wurden auf EuroHPC-Systemen wie LUMI, Leonardo und MareNostrum als Read-Only-Versionen verfügbar gemacht, um redundante Arbeit und Speicherbedarf zu vermeiden.
Modelle und Evaluation
In Zusammenarbeit mit HPLT wurden 2B/100B-Referenzmodelle für verschiedene Sprachen veröffentlicht. Diese transparenten und reproduzierbaren Modelle ermöglichen den sprachübergreifenden Vergleich sowie die Analyse monolingualer Performance und gängiger Evaluationsaufgaben.
Zusätzlich wurden mehrere 2B/4TT-Modelle trainiert, um optimale Mischungsverhältnisse multilingualer Trainingsdaten zu untersuchen und so leistungsfähige mehrsprachige LLMs zu entwickeln.
Die Ergebnisse der 2B/100B- und 2B/4TT-Modelle fließen in das Scaling zukünftiger größerer Modelle ein.
Ausblick
Mit dem Eintritt in das zweite Projektjahr bleiben Transparenz, Offenheit und Community-Kollaboration zentrale Leitprinzipien.
OpenEuroLLM konnte den Zugang zu strategischen EuroHPC-Rechenressourcen sichern, darunter erhebliche Kapazitäten auf vier großen EuroHPC-Supercomputern für die verbleibende Projektlaufzeit. Dennoch werden zusätzliche Rechenressourcen benötigt, um diese zu ergänzen.
Geplant ist die Veröffentlichung eines 8B-Modells im kommenden Sommer, gefolgt von einem größeren Modell, das auf den gesicherten Rechenkapazitäten basiert. Zudem sind weitere Iterationen der Poro-Modellfamilie vorgesehen.