Technik & Modelle 1. Juni 2026

Welche Hardware lokale KI im Mittelstand braucht

Lokale KI heißt nicht Rechenzentrum. Was an Hardware nötig ist – und was der verbreitete „geht nur in der Cloud“-Reflex übersieht.

Der Sachverhalt

„KI lokal betreiben? Dafür braucht man doch ein Rechenzentrum.“ Dieser Satz fällt oft – und er verwechselt zwei sehr unterschiedliche Dinge. Das Training großer Modelle ist tatsächlich extrem aufwendig und findet in spezialisierten Rechenzentren statt. Im Unternehmen geht es aber fast nie ums Training, sondern um Inferenz: das Anwenden eines bereits fertigen Modells auf die eigene Frage.

Inferenz ist deutlich genügsamer. Für typische Lasten im Mittelstand genügt häufig ein einzelner Server mit einer modernen GPU – also Hardware, die in einen normalen Serverraum passt. Der mit Abstand wichtigste Faktor dabei ist nicht die reine Rechenleistung, sondern der Grafikspeicher: der VRAM.

Wie viel VRAM es ungefähr braucht

Als grobe Orientierung – die genauen Werte hängen von Modell, Kontextlänge und Quantisierung ab:

Kleinere bis mittlere Modelle (grob 7 bis 14 Milliarden Parameter) laufen 4-bit-quantisiert bereits mit moderatem VRAM – Größenordnung einstelliger bis niedriger zweistelliger Gigabyte-Bereich.
Größere Modelle brauchen entsprechend mehr VRAM – oder eben Quantisierung, um den Bedarf in einen handhabbaren Rahmen zu drücken.

Der Hebel heißt Quantisierung: Dabei werden die Modellgewichte mit geringerer Genauigkeit gespeichert – etwa in 4 statt 16 Bit. Das senkt den Speicherbedarf erheblich, oft auf etwa ein Viertel, bei meist nur geringen Qualitätseinbußen. So passen Modelle auf Hardware, die ohne Quantisierung überfordert wäre.

CPU-Inferenz ist ebenfalls möglich – ganz ohne GPU – aber spürbar langsamer. Für interaktive Anwendungen mit kurzen Antwortzeiten ist eine GPU die naheliegende Wahl.

Lokale KI ist eine Frage der passenden Stufe – nicht des Rechenzentrums.

Was der „geht nur in der Cloud“-Reflex übersieht

Der verbreitete Reflex übersieht genau diese Unterscheidung: Weil Training riesig ist, wird angenommen, jede KI-Nutzung sei es auch. Tatsächlich ist Inferenz moderat und lokal gut beherrschbar. Kein Rechenzentrum nötig – ein Server im eigenen Serverraum reicht für typische KMU-Lasten.

Steigt die Zahl gleichzeitiger Nutzer, skaliert man die Hardware mit: mehr oder größere GPUs, bei Bedarf ein zweiter Server. Die Dimensionierung richtet sich nach dem realen Bedarf – nicht nach einem pauschalen „nur die Cloud schafft das“.

Quellen

llama.cpp – LLM-Inferenz in C/C++ mit Quantisierung (u. a. 4-bit) sowie CPU- und GPU-Betrieb, GitHub – github.com
Ollama – Werkzeug zum lokalen Betrieb von Sprachmodellen, GitHub – github.com
Hugging Face – Dokumentation zu Quantisierung und Speicherbedarf von Modellen – huggingface.co

Dieser Beitrag dient der allgemeinen Information. Die genannten VRAM-Größen sind grobe Orientierungswerte; der tatsächliche Bedarf hängt von Modell, Kontextlänge und Quantisierung ab. Stand: 1. Juni 2026.

Welche Hardware passt zu Ihrem Bedarf?

Wir dimensionieren lokale KI passend zu Ihren Lasten – auf Hardware im eigenen Haus, ohne Datenabfluss und mit planbaren Kosten.

Kontakt aufnehmen →