Lokale KI & LLMs mit eGPU

Large Language Models lokal betreiben – ohne Cloud, ohne Abo, volle Kontrolle über deine Daten. Mit eGPU holst du dir die Rechenpower an deinen Laptop.

Warum lokale LLMs?

Trend geht Richtung lokale KI. Modelle werden besser, Hardware günstiger. Die wichtigsten Argumente:

Datenschutz ist Hauptgrund. Sensible Dokumente analysieren oder Code schreiben? Willst du nicht, dass alles durch US-Server läuft. Bei lokalen LLMs bleibt alles auf deinem Rechner.

Keine laufenden Kosten. ChatGPT Plus kostet 20€/Monat, Claude Pro auch. Läppert sich. Einmal GPU kaufen, fertig.

Offline nutzbar. Zug, Flugzeug, beim Kunden ohne WLAN – lokales LLM läuft immer.

Anpassbar. Modelle fine-tunen, eigene Prompts, volle Kontrolle über Parameter.

Nachteile: Hardware-Anforderungen sind hoch, Modelle kleiner als GPT-4 oder Claude, Ersteinrichtung braucht Zeit.

VRAM ist King

Der wichtigste Faktor für lokale LLMs ist VRAM. Die Modellgröße bestimmt, was auf deine GPU passt.

VRAM-Anforderungen (quantisiert Q4)

Modellgröße	VRAM benötigt	Empfohlene GPU
7B Parameter	~4-6 GB	RTX 4060, RX 7600
13B Parameter	~8-10 GB	RTX 4070, RX 7700 XT
30-34B Parameter	~20 GB	RTX 4090, 2x 4070
70B Parameter	~40 GB	Mehrere GPUs / CPU-Offload

Faustregel: Nimm die Parameteranzahl in Milliarden, teile durch 2 = benötigter VRAM in GB (bei 4-Bit Quantisierung).

Die besten Modelle für Einsteiger

1. Llama 3.2 (3B / 8B)

Von Meta, Open Source
Beste Qualität für die Größe
8B-Version läuft auf 8 GB VRAM

2. Mistral 7B / Mixtral 8x7B

Europäisches Modell (Frankreich)
Sehr effizient
Mixtral braucht ~26 GB VRAM

3. Phi-3 (Mini/Medium)

Von Microsoft
Extrem kompakt (3.8B)
Läuft auf fast jeder GPU

4. Qwen 2.5 (7B / 14B / 32B)

Von Alibaba
Sehr gut für Code
Verschiedene Größen verfügbar

Software-Setup

Option 1: Ollama (Empfohlen)

Am einfachsten für den Einstieg.

Installation:

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: Installer von ollama.com

Modell laden und starten:

ollama run llama3.2
# oder
ollama run mistral
ollama run phi3

GPU-Nutzung prüfen:

ollama ps
# Zeigt VRAM-Nutzung an

Option 2: LM Studio

Grafische Oberfläche
Modell-Browser integriert
Chat-Interface wie ChatGPT
Download: lmstudio.ai

Option 3: Text Generation WebUI (oobabooga)

Für Fortgeschrittene
Maximale Kontrolle
Viele Einstellungsmöglichkeiten

eGPU-spezifische Tipps

CUDA unter Thunderbolt

Thunderbolt-eGPUs funktionieren problemlos für LLMs. Die Bandbreite ist weniger kritisch als beim Gaming, da:

Modell wird einmal in VRAM geladen
Wenig Datentransfer während Inferenz
Latenz spielt keine Rolle

Performance-Verlust: ~5-10% vs. Desktop (kaum spürbar bei Text-Generierung)

OCuLink-Vorteil

Mit OCuLink erreichst du nahezu Desktop-Performance. Für LLMs aber kein Must-Have.

Mehrere GPUs

Ollama unterstützt Multi-GPU automatisch:

# Prüfen welche GPUs erkannt werden
nvidia-smi
# oder
rocm-smi  # AMD

Empfohlene GPU-Konfigurationen 2026

Mit neuer GPU-Generation haben sich Optionen verschoben. RTX 50 bringt mehr VRAM und schnellere Tensor-Cores.

Budget: RTX 4060 Ti 16GB (~350€)

Die RTX 4060 Ti 16GB ist das beste Preis-Leistungs-Verhältnis für lokale LLMs. 16 GB VRAM reichen für 13B-Modelle problemlos, und selbst 34B-Modelle laufen mit CPU-Offloading.

Die Karte ist nicht die schnellste, aber für Text-Generierung völlig ausreichend. Wenn du 30+ Tokens pro Sekunde bekommst, merkst du keinen Unterschied.

Sweet Spot: RTX 5070 16GB (~600€)

Die RTX 5070 ist der neue Sweet Spot. 16 GB VRAM, deutlich schnellere Tensor-Cores als die 40-Serie, und moderate Stromaufnahme. Für 7B-13B Modelle bekommst du 50-70 Tokens pro Sekunde.

Alternativ: Die RTX 4070 Super bleibt ein gutes Angebot, wenn du sie günstig findest.

High-End: RTX 5080 16GB (~1.000€)

Mit der RTX 5080 bekommst du die beste Single-GPU-Performance für lokale LLMs. 16 GB VRAM sind ausreichend für 30B-Modelle mit Quantisierung, und die Inferenz-Geschwindigkeit ist exzellent.

Achtung: Die 5080 braucht mindestens 550W Netzteil, besser 650W. Alle Details zur Netzteil-Wahl im Netzteil-Guide.

Maximum VRAM: RTX 4090 24GB (~1.600€ gebraucht)

Für 70B-Modelle brauchst du mehr VRAM. Die RTX 4090 mit 24 GB ist hier die beste Option. Gebraucht inzwischen bezahlbar, und mit CPU-Offloading laufen auch die größten Modelle.

Die RTX 5090 hat 32 GB VRAM, kostet aber über 2000€ und braucht ein 850W+ Netzteil – für die meisten eGPU-Setups überdimensioniert.

Alternative: AMD APUs mit Unified Memory (bis 128 GB)

Spannende Alternative für LLM-Enthusiasten: Mini-PCs mit AMD Ryzen AI oder Strix Point APUs. Nutzen Unified Memory, geteilt zwischen CPU und iGPU – bis zu 128 GB RAM möglich.

Warum interessant:

Riesiger “VRAM” – 70B-Modell braucht ca. 40 GB. Mit 128 GB RAM hast du Luft.
Kein PCIe-Bottleneck – GPU sitzt direkt auf dem Chip, kein Thunderbolt nötig.
Kompakt – Mini-PC-Formfaktor, kein separates eGPU-Gehäuse.
Energieeffizient – 65W TDP statt 300W+ für High-End-GPU.

Nachteile:

Langsamer als dedizierte GPU – Speicherbandbreite geringer als GDDR6X.
Teuer bei viel RAM – 128 GB DDR5 kosten 300-400€ extra.
Weniger Tensor-Cores – Keine CUDA-Optimierung, langsamere Inferenz.

Wann lohnt sich das?

Regelmäßig 70B+ Modelle und Geschwindigkeit zweitrangig? AMD APU liefert 5-15 Tokens/Sekunde bei großen Modellen – langsamer als RTX 4090, aber Modell läuft komplett im RAM ohne CPU-Offloading.

Hersteller: Minisforum, Beelink, GMKtec mit AMD Ryzen 9 7940HS, Ryzen AI 9 HX 370 oder Strix Point. Einige unterstützen bis zu 96/128 GB RAM.

Performance-Benchmarks 2026

Tokens pro Sekunde (t/s) bei verschiedenen Setups – getestet mit Q4_K_M Quantisierung:

Modell	RTX 4060 Ti	RTX 5070	RTX 5080
Llama 3.3 8B	~35 t/s	~55 t/s	~75 t/s
Mistral 7B	~40 t/s	~60 t/s	~80 t/s
Qwen 2.5 14B	~20 t/s	~35 t/s	~50 t/s
Llama 3.3 70B (Q4)	CPU-Offload	CPU-Offload	~12 t/s

Die RTX 50-Serie zeigt einen deutlichen Sprung gegenüber der 40er-Generation – vor allem bei größeren Modellen.

Zum Vergleich: Menschliche Lesegeschwindigkeit liegt bei 4-5 Wörtern pro Sekunde. Alles über 20 t/s fühlt sich praktisch instant an. Bei Chat-Anwendungen merkst du über 30 t/s keinen Unterschied mehr.

Praktische Anwendungen

1. Lokaler Coding-Assistent

ollama run codellama:13b
# oder
ollama run deepseek-coder:6.7b

Integration in VS Code mit “Continue” Extension.

2. Dokumente analysieren

Mit Retrieval Augmented Generation (RAG):

PrivateGPT
LocalGPT
AnythingLLM

3. Kreatives Schreiben

ollama run llama3.2:8b
# Gut für Texte, Stories, Zusammenfassungen

Troubleshooting

”CUDA out of memory”

Kleineres Modell wählen
Quantisierung erhöhen (Q4 statt Q8)
Andere Anwendungen schließen
Context-Länge reduzieren

Modell läuft auf CPU statt GPU

# NVIDIA-Treiber prüfen
nvidia-smi

# Ollama neu starten
sudo systemctl restart ollama

Langsame Generierung

GPU-Auslastung prüfen (sollte >90% sein)
Thermal Throttling ausschließen
Quantisiertes Modell verwenden

Fazit

Für lokale LLMs hast du mehrere Optionen:

Einsteiger (eGPU) – RTX 4060 Ti 16GB + Ollama + Llama 3.3 8B. Bestes Preis-Leistungs-Verhältnis. Flüssige Textgenerierung für alle gängigen Fälle.

Fortgeschritten (eGPU) – RTX 5070 oder RTX 5080 + LM Studio + Qwen 2.5 14B. Mehr Speed, mehr Möglichkeiten, genug VRAM für größere Modelle.

Maximum VRAM (eGPU) – RTX 4090 24GB oder Dual-GPU. Regelmäßig 70B-Modelle oder fine-tuning? Brauchst du das extra VRAM.

Große Modelle (AMD APU) – Mini-PC mit AMD Ryzen AI + 96-128 GB RAM. Langsamer als dedizierte GPU, aber 70B+ Modelle laufen komplett im Unified Memory.

eGPU-Lösung ist ideal, wenn du Laptop als Hauptrechner nutzt und flexibel bleiben willst. Thunderbolt-Overhead bei LLMs minimal – GPU wartet auf nächsten Token, nicht auf Daten durchs Kabel. Welche GPUs insgesamt am besten abschneiden, zeigen unsere GPU-Empfehlungen.

AMD APU-Alternative lohnt sich, wenn du primär große Modelle nutzt und Speed zweitrangig ist. Mini-PC mit 128 GB RAM ist kompakter und energieeffizienter als eGPU-Setup mit RTX 4090.

Wichtig: Für reines LLM-Inference lohnt sich OCuLink kaum vs. TB4. Flaschenhals liegt bei Modell-Berechnung, nicht bei Verbindung.

Zuletzt aktualisiert: Januar 2026

Dieser Artikel kann Affiliate-Links enthalten. Bei einem Kauf über diese Links erhalten wir eine kleine Provision – für dich entstehen keine Mehrkosten.