Neues Framework für plattformübergreifenden LLM-Einsatz

Mozilla stellt mit llamafile einen neuen Ansatz für die Verteilung und Ausführung von großen Sprachmodellen quelloffen zur Verfügung.

3

(Bild: Rita_Kochmarjova/Shutterstock.com)

30.11.2023, 12:29 Uhr

Lesezeit: 2 Min.

iX Magazin

Von

Robert Lippert

Mozilla llamafile ist ein neues Framework für KI-Entwickler, dass die Distribution und die Ausführung von Sprachmodellen vereinfachen soll. Es zielt speziell auf die Nutzung von LLM-Gewichten ab und erlaubt es, diese als Binärdatei in eigenen KI-Projekten zu nutzen. Solche Gewichte lassen sich auf diese Art reproduzierbar und plattformübergreifend verwenden.

Immer mehr Gewichte

LLM-Gewichte, oder Gewichte großer Sprachmodelle (Large Language Models, LLM), sind eine Sammlung von Parametern, die in einem neuronalen Netzwerk verwendet werden. Diese Gewichte sind das Ergebnis des Trainingsprozesses, bei dem das Modell lernt, Muster in den Trainingsdaten zu erkennen und darauf zu reagieren. Sie bestimmen, wie das Modell auf Eingabedaten reagiert und Vorhersagen oder Antworten generiert. Die Größe und Komplexität dieser Gewichte können erheblich sein, insbesondere bei großen Sprachmodellen wie GPT-3, die Milliarden von Parametern enthalten.

Lesen Sie auch

Metas Sprachmodell Llama 2 ist flexibler als der Vorgänger

Großes KI-Sprachmodell am eigenen Rechner: Ein LLaMA für die Westentasche?

Mistral 7B: Ehemalige Google- und Meta-Angestellte machen Llama 2 Konkurrenz

Nach Angaben von Mozilla können Anwender llamafile (GitHub-Repository) mit sechs gängigen Betriebssystemen (macOS, Windows, Linux, FreeBSD, OpenBSD und NetBSD) nutzen, ohne LLM-Gewichte jeweils neu kompilieren zu müssen. Unter der Haube setzt das Framework dazu auf llama.cpp, eine speichersparende Variante von Facebooks LLaMA-Modell in C/C++ und die Cosmopolitan Libc für seinen "Build once, run everywhere"-Ansatz. Damit möchte Mozilla sicherstellen, dass die llamafiles auf verschiedenen CPU-Mikroarchitekturen und -Architekturen laufen.

Zugriff auf moderne CPU-Features von ARM und x86

Möglich ist das durch ein neues Runtime-Dispatching, das aktuelleren Intel-Systemen Zugriff auf moderne CPU-Funktionen bietet, ohne die Unterstützung für ältere Computer aufzugeben. Zweitens können die llamafiles auf AMD64- und ARM64-Architekturen laufen, indem AMD64- und ARM64-Builds mit einem Shell-Skript zusammengefügt werden, das die passende Version startet. Das Dateiformat ist kompatibel mit WIN32 und den meisten UNIX-Shells und kann bei Bedarf leicht in das plattformspezifische Format konvertiert werden.

llamafile ist das Ergebnis einer Zusammenarbeit von Mozillas Innovation Group und Justine Tunney, der leitenden Entwicklerin von Cosmopolitan. Das Framework ist unter der Apache 2.0-Lizenz lizenziert, und Mozillas Anpassungen an llama.cpp unter der MIT-Lizenz.