Drei Fragen und Antworten: Was Sie beim KI-Betrieb im eigenen RZ beachten müssen

Datenschutz, keine teuren Cloud-Dienste, Unabhängigkeit bei den Modellen – für die KI aus dem eigenen RZ gibt es gute Gründe. Aber einfach ist das nicht.

1

(Bild: iX)

22.03.2024, 10:29 Uhr

Lesezeit: 4 Min.

iX Magazin

Von

Moritz Förster

Für die meisten Unternehmen führt aktuell kein Weg an KI-Diensten vorbei. Doch die Herausforderungen sind groß: Sich einfach KI-Assistenten von Cloud-Providern einzukaufen, ist selten der beste Weg – gerade beim Thema Datenschutz, aber auch aufgrund der potenziell hohen Kosten. Also einfach ein paar Nvidia-GPUs in den Server stecken und loslegen? Das genügt selten, erklärt Daniel Menzel im Interview zum Titelthema der neuen iX 4/2024: KI im eigenen Rechenzentrum.

Daniel Menzel ist Geschäftsführer der Menzel IT GmbH aus Berlin und baut mit seinem Team HPC-, ML- und Private-Cloud-Computing-Cluster.

Fürs Machine Learning braucht es einfach mehr Rechenpower – so die gängige Annahme. Warum ist das falsch?

Das hat zwei Gründe: Zum einen wird Machine Learning (mindestens im Training) nur mit GPUs wirklich effizient. Klassische Server mit größeren CPUs auszustatten, wird also für wirklich performante ML-Infrastrukturen nicht helfen. Zum anderen benötigt Machine Learning ein sehr durchsatzstarkes und latenzarmes Netzwerk auf Ethernet- oder gar InfiniBand-Basis und regelmäßig auch einen sehr leistungsstarken zentralen Storage. Der klassische FibreChannel-SAN ist hierfür in der Regel nicht annähernd ausreichend.

Viel lernen können Unternehmen vom HPC-Betrieb. Warum ist das so?

Das, was heute HPC ist, wird morgen schon Unternehmens-IT. Hochdichte Systeme, 100, 200 und 400G, RDMA – all diese Technologien wurden quasi zuerst im HPC und ML "erprobt", bevor sie in die Enterprise-IT kamen. Derzeit sehen wir diesen Übergang ganz stark in der Wasserkühlung: Vor gut 5 Jahren ein Nischenthema, spricht da heute fast jeder drüber, der mehr als zwei Racks im Keller stehen hat.

Welche Komponenten ihrer Infrastruktur vergessen IT-Abteilungen denn besonders gerne?

Definitiv das Netzwerk. Das muss nicht nur durchsatzstark, sondern im Jahr 2024 insbesondere latenzarm sein. Da heute in vielen, vor allem cloud-ähnlichen Infrastrukturen der Ost-West-Traffic durch Storage-Synchronisation, Microservices und allgemein Machinen-zu-Maschinen-Kommunikation oft schon größer als der Nord-Süd-Traffic ist, sollte man sich bei einem Redesign oder Update auch Gedanken machen, von klassischen Three-Tier- zu modernen Spine-Leaf-Architekturen zu wechseln.

Hinzu kommt: Einen ML-Storage, der für jedes Szenario passt, gibt es nicht. Die Daten liegen mal strukturiert, mal unstrukturiert, mal als Dateien, mal als Datenbanken vor. Bevor ein Storage designt werden soll, muss also mit den Anwendern geklärt werden, wie ihre Daten aussehen. Ein paar ganz grundlegende Regeln greifen aber sehr häufig. Zuallererst: "Viel hilft viel". Die Trainings- und Testdaten können durchaus in den oberen Tera- oder gar Petabytebereich gehen. Dann muss ML-Storage sehr performant, also latenzarm sein. Auch wird sehr häufig weitaus mehr gelesen als geschrieben.

Herr Menzel, vielen Dank für die Antworten! Alle Informationen dazu, was sich vom HPC-Betrieb alles fürs maschinelle Lernen im eigenen Rechenzentrum lernen lässt, findet sich in der neuen iX 4/2024. Das Aprilheft zeigt außerdem, wie Unternehmen ihr Netzwerk und ihren Storage korrekt für eigene KI-Dienste aufsetzen.

In der Serie "Drei Fragen und Antworten" will die iX die heutigen Herausforderungen der IT auf den Punkt bringen – egal ob es sich um den Blick des Anwenders vorm PC, die Sicht des Managers oder den Alltag eines Administrators handelt. Haben Sie Anregungen aus Ihrer tagtäglichen Praxis oder der Ihrer Nutzer? Wessen Tipps zu welchem Thema würden Sie gerne kurz und knackig lesen? Dann schreiben Sie uns gerne oder hinterlassen Sie einen Kommentar im Forum.