Ein Sprachmodell im Dienste der Gesellschaft

Zürich/Lausanne – Die ETH Zürich und die EPFL werden ein grosses Sprachmodell (LLM) veröffentlichen. Entwickelt und trainiert wurde es auf der öffentlichen Infrastruktur des Supercomputers «Alps» am nationalen Supercomputer-Zentrum CSCS. Es stellt einen Meilenstein für offene KI und mehrsprachige LLMs dar.
Diese Woche trafen sich in Genf rund 50 führende globale Initiativen und Organisationen, die sich für offene LLMs und vertrauenswürdige KI einsetzen, am International Open-Source LLM Builders Summit. Die von den KI-Zentren der EPFL und der ETH Zürich ausgerichtete Veranstaltung war ein wichtiger Schritt zum Aufbau eines dynamischen und kollaborativen internationalen Ökosystems für offene Basismodelle. Offene Sprachmodelle (LLMs) werden zunehmend als vertrauenswürdige Alternative zu kommerziellen Systemen erachtet, von denen die meisten in den USA oder China in nicht-nachvollziehbaren Prozessen entwickelt werden.
Die Teilnehmenden des Gipfels erhielten einen Ausblick auf die bevorstehende Veröffentlichung eines vollständig offenen und in transparenten Prozessen entwickelten LLM. Entwickelt haben es Forschende der EPFL, der ETH Zürich und anderer Schweizer Universitäten in enger Zusammenarbeit mit Ingenieurinnen und Ingenieuren des CSCS. Nach letzten Tests, die aktuell stattfinden, wird es möglich sein, das Modell unter einer Open-Source Lizenz herunterzuladen. Das Modell richtet den Fokus auf Transparenz, mehrsprachige Performance und breite Zugänglichkeit.
Das Modell wird vollständig offen sein: Quellcode und Gewichte werden öffentlich verfügbar sein, und die Trainingsdaten werden transparent und reproduzierbar sein. Diese Offenheit unterstützt die Verbreitung und Anwendung in Wissenschaft und Bildung sowie im öffentlichen und privaten Bereich. Dieser Ansatz soll sowohl die Innovation als auch das Vertrauen in KI fördern.
«Völlig offene Modelle ermöglichen Anwendungen, die ein hohes Mass an Vertrauenswürdigkeit gewährleisten, und sie sind notwendig, um die Forschung zu den Risiken und Chancen der KI voranzutreiben. Transparente Prozesse ermöglichen auch die Einhaltung der Rechtsvorschriften», sagt Imanol Schlag, Forscher am ETH AI Center, der das LLM-Projekt zusammen mit Antoine Bosselut und Martin Jaggi, Professoren der EPFL und Mitglieder des EPFL AI Center leitet.
Von Grund auf mehrsprachig
Ein charakteristisches Merkmal dieses LLM ist, dass es über 1000 Sprachen beherrscht. «Wir haben von Anfang an Wert darauf gelegt, dass die Modelle konsequent mehrsprachig sind», sagt Antoine Bosselut.
Das Basismodell wurde mit einem grossen Textdatensatz von über 1500 Sprachen trainiert – etwa 60 Prozent waren Englisch und 40 Prozent andere Sprachen – hinzukamen Code- und Mathematikdaten. Da Inhalte aus allen Sprachen und Kulturen vertreten sind, punktet das resultierende Modell mit einer hohen globalen Anwendbarkeit.
Konzipiert für Grösse und Inklusion
Das Modell wird in zwei Grössen – mit 8 Milliarden und mit 70 Milliarden Parametern – veröffentlicht werden und damit die Bedürfnisse eines breiten Spektrums an Nutzer:innen erfüllen. Die grössere Version wird zu den leistungsstärksten, vollständig offenen Modellen weltweit gehören. Die Anzahl der Parameter spiegelt dabei die Fähigkeit eines Modells wider, zu lernen und komplexe Antworten zu erzeugen.
Das Modell erreicht eine hohe Zuverlässigkeit, da es mit mehr als 15 Billionen qualitativ hochwertiger Trainingstoken trainiert wird (das sind Einheiten, die jeweils ein Wort oder einen Wortteil repräsentieren): Dieses Vorgehen ermöglicht ein robustes Sprachverständnis und vielseitige Anwendungsfälle.
Verantwortungsvoller Umgang mit Daten
Bei der Entwicklung des LLM werden die schweizerischen Datenschutzgesetze, das schweizerische Urheberrecht und die Transparenzverpflichtungen im Rahmen der KI-Verordnung der EU (EU AI Act) berücksichtigt. In einer externe Seiteaktuellen Studie haben die Projektleitenden nachgewiesen, dass es für die meisten alltäglichen Aufgaben und den allgemeinen Wissenserwerb praktisch keine Leistungseinbussen mit sich bringt, wenn bei der Datengewinnung die sogenannten Opt-outs für Web-Crawling respektiert werden — und damit gewisse Web-Inhalte nicht eingelesen werden.
Supercomputer als Wegbereiter für unabhängige KI
Das Modell wird auf dem Supercomputer «Alps» des Swiss National Supercomputing Centre CSCS in Lugano trainiert, einer der weltweit fortschrittlichsten KI-Plattformen, die mit über 10 000 NVIDIA Grace Hopper Superchips ausgestattet ist. Dank der Grösse und der Architektur des Systems war es möglich, das Modell effizient zu 100 Prozent mit klimaneutralem Strom zu trainieren.
Die erfolgreiche Realisierung von «Alps» wurde wesentlich durch die seit über 15 Jahren bestehende Zusammenarbeit mit den Technologieunternehmen NVIDIA und HPE/Cray erleichtert. Diese Partnerschaft hat entscheidend dazu beigetragen, die technischen Möglichkeiten von «Alps» zu entwickeln und sicherzustellen, dass er die hohen Anforderungen grosser KI-Workloads erfüllt, einschliesslich des Pre-Trainings komplexer LLMs.
«Das Trainieren dieses Modells ist nur dank unserer strategischen Investition in ‹Alps› möglich, einen speziell für KI konzipierten Supercomputer», sagt Thomas Schulthess, Direktor des CSCS und Professor an der ETH Zürich. «Unsere langfristige Zusammenarbeit mit NVIDIA und HPE ist ein Beispiel dafür, wie gemeinsame Anstrengungen von öffentlichen Forschungseinrichtungen und branchenführenden Unternehmen eine unabhängige Infrastruktur vorantreiben und offene Innovation fördern können – nicht nur für die Schweiz, sondern für Wissenschaft und Gesellschaft weltweit.»
Öffentlicher Zugang und globale Wiederverwendung
Das LLM wird in diesem Spätsommer unter der Apache-2.0-Lizenz veröffentlicht. Die Modellarchitektur, die Trainingsmethoden und die Nutzungsrichtlinien werden in einer begleitenden Dokumentation ausführlich beschrieben, um eine transparente Wiederverwendung und Weiterentwicklung zu ermöglichen. «Als Wissenschaftler:innen von öffentlichen Institutionen wollen wir offene Modelle voranbringen und damit Organisationen befähigen, auf diesen Modellen ihre eigenen Anwendungen aufzubauen», sagt Antoine Bosselut.
«Dadurch, dass wir auf volle Offenheit setzen, während kommerzielle Modelle hinter verschlossenen Türen entwickelt werden, wird unser Ansatz über multinationale Kooperationen, wie wir hoffen, die Innovation in der Schweiz und in ganz Europa vorantreiben. Ausserdem ist dies ein wichtiger Faktor, um Spitzentalente zu gewinnen und zu fördern», sagt EPFL-Professor Martin Jaggi. (ETH/mc/pg)