Teuken-7B: Erstes Sprachmodell der deutschen Initiative OpenGPT-X ab sofort “Open Source” für kommerzielle Zwecke verwendbar
Nun hat die deutsche Initiative OpenGPT-X mit “Teuken-7B” ihr erstes Large Language Model veröffentlicht, das über die Hochleistungsrechner in Jülich und an der TU Dresden multilingual trainiert wurde und Unternehmen & Wissenschaften auf der Grundlage von “Open Source” auch zur Nutzung kommerzieller Zwecke zur Verfügung steht. Der Download erfolgt über die US-Plattform HuggingFace.
Teuken-7B: Ein kommerzielles Modell und eines für die Forschung
OpenGPT-X hat insgesamt zwei Sprachmodelle veröffentlicht und zwar eines für den kommerziellen Bereich (Commercial), damit auch Unternehmen solch ein LLM etwa zum Aufbau eigener Produkte verwenden dürfen sowie ein weiteres Language Model, das ausschließlich für den Forschungsbereich (Research), also nicht-kommerziell genutzt werden kann. Dies sind die beiden Modelle:
Beide Varianten lassen sich kostenfrei über die Plattform HuggingFace und den Account von OpenGPT-X herunterladen. Zuvor wurden sie von Mitarbeitern der Initiative dort hochgeladen.
Mehr europäische Unabhängigkeit von geschlossenen LLMs
Ganz klar liegt der Fokus bei der Entwicklung von Sprachmodellen rund um die Initiative OpenGPT-X, zu der auch das Top-Institut Fraunhofer IAIS gehört, auf das Training und die Bereitstellung multilingualer & offener Sprachmodelle, die sich als Gegenpart zu den großen & geschlossenen US-Modellen wie ChatGPT (OpenAI) und Claude (Anthropic) verstehen. “Teuken-7B” wurde in allen 24 offiziellen EU-Sprachen trainiert, mit mehr als 50 % nicht-englischsprachigen Dateninput. Übrigens wird das medial gerne als “Open Source” angepriesen Llama von Meta in Fachkreisen per Definition nicht als offen angesehen, da es sich hinsichtlich der Lizenz nicht zu 100 % für kommerzielle Zwecke verwenden lässt. Bei Teuken-7B hingegen geht das schon!
European Leaderboard LLM: Multilingualer Vergleich von Benchmarks & offenen Sprachmodellen
Um das Können von “Teuken-7B” auf der Grundlage von speziellen Benchmarks z.B. im Rahmen von Multiple-Choice-Fragen etwa zur Logik oder zu mathematischen Lösungen zu testen, wurden Benchmarks wie der ACR-Datensatz oder GSM8K verwendet. Zusätzlich haben die Beteiligten von OpenGPT-X ein ganz eigenes Leaderboard auf HuggingFace hinsichtlich eines Spaces publiziert.
Mit Hilfe unseres European LLM Leaderboard ist es erstmals möglich, die Leistung von LLMs über fast alle EU-Sprachen hinweg zu vergleichen, anstatt wie bisher nur englischsprachige Evaluierungsdatensätze zu verwenden. Zu diesem Zweck wurden zunächst u.a. die Benchmark-Datensätze HellaSwag, ARC und TruthfulQA mittels hochwertiger maschineller Übersetzung in insgesamt 21 Sprachen übersetzt. Quelle: Fraunhofer IAIS
Im Vergleich tauchen dann offene Sprachmodelle wie Llama, Mistral oder Qwen auf, denen für jede Benchmark ein Wert zugewiesen wird, woraus sich dann der Durchschnitt (Average) ermittelt.