Lokale KI & LLMs mit eGPU
Large Language Models lokal betreiben – ohne Cloud, ohne Abo, volle Kontrolle über deine Daten. Mit eGPU holst du dir die Rechenpower an deinen Laptop.
Warum lokale LLMs?
Trend geht Richtung lokale KI. Modelle werden besser, Hardware günstiger. Die wichtigsten Argumente:
Datenschutz ist Hauptgrund. Sensible Dokumente analysieren oder Code schreiben? Willst du nicht, dass alles durch US-Server läuft. Bei lokalen LLMs bleibt alles auf deinem Rechner.
Keine laufenden Kosten. ChatGPT Plus kostet 20€/Monat, Claude Pro auch. Läppert sich. Einmal GPU kaufen, fertig.
Offline nutzbar. Zug, Flugzeug, beim Kunden ohne WLAN – lokales LLM läuft immer.
Anpassbar. Modelle fine-tunen, eigene Prompts, volle Kontrolle über Parameter.
Nachteile: Hardware-Anforderungen sind hoch, Modelle kleiner als GPT-4 oder Claude, Ersteinrichtung braucht Zeit.
VRAM ist King
Der wichtigste Faktor für lokale LLMs ist VRAM. Die Modellgröße bestimmt, was auf deine GPU passt.
VRAM-Anforderungen (quantisiert Q4)
| Modellgröße | VRAM benötigt | Empfohlene GPU |
|---|---|---|
| 7B Parameter | ~4-6 GB | RTX 4060, RX 7600 |
| 13B Parameter | ~8-10 GB | RTX 4070, RX 7700 XT |
| 30-34B Parameter | ~20 GB | RTX 4090, 2x 4070 |
| 70B Parameter | ~40 GB | Mehrere GPUs / CPU-Offload |
Faustregel: Nimm die Parameteranzahl in Milliarden, teile durch 2 = benötigter VRAM in GB (bei 4-Bit Quantisierung).
Die besten Modelle für Einsteiger
1. Llama 3.2 (3B / 8B)
- Von Meta, Open Source
- Beste Qualität für die Größe
- 8B-Version läuft auf 8 GB VRAM
2. Mistral 7B / Mixtral 8x7B
- Europäisches Modell (Frankreich)
- Sehr effizient
- Mixtral braucht ~26 GB VRAM
3. Phi-3 (Mini/Medium)
- Von Microsoft
- Extrem kompakt (3.8B)
- Läuft auf fast jeder GPU
4. Qwen 2.5 (7B / 14B / 32B)
- Von Alibaba
- Sehr gut für Code
- Verschiedene Größen verfügbar
Software-Setup
Option 1: Ollama (Empfohlen)
Am einfachsten für den Einstieg.
Installation:
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: Installer von ollama.com
Modell laden und starten:
ollama run llama3.2
# oder
ollama run mistral
ollama run phi3
GPU-Nutzung prüfen:
ollama ps
# Zeigt VRAM-Nutzung an
Option 2: LM Studio
- Grafische Oberfläche
- Modell-Browser integriert
- Chat-Interface wie ChatGPT
- Download: lmstudio.ai
Option 3: Text Generation WebUI (oobabooga)
- Für Fortgeschrittene
- Maximale Kontrolle
- Viele Einstellungsmöglichkeiten
eGPU-spezifische Tipps
CUDA unter Thunderbolt
Thunderbolt-eGPUs funktionieren problemlos für LLMs. Die Bandbreite ist weniger kritisch als beim Gaming, da:
- Modell wird einmal in VRAM geladen
- Wenig Datentransfer während Inferenz
- Latenz spielt keine Rolle
Performance-Verlust: ~5-10% vs. Desktop (kaum spürbar bei Text-Generierung)
OCuLink-Vorteil
Mit OCuLink erreichst du nahezu Desktop-Performance. Für LLMs aber kein Must-Have.
Mehrere GPUs
Ollama unterstützt Multi-GPU automatisch:
# Prüfen welche GPUs erkannt werden
nvidia-smi
# oder
rocm-smi # AMD
Empfohlene GPU-Konfigurationen 2026
Mit neuer GPU-Generation haben sich Optionen verschoben. RTX 50 bringt mehr VRAM und schnellere Tensor-Cores.
Budget: RTX 4060 Ti 16GB (~350€)
Die RTX 4060 Ti 16GB ist das beste Preis-Leistungs-Verhältnis für lokale LLMs. 16 GB VRAM reichen für 13B-Modelle problemlos, und selbst 34B-Modelle laufen mit CPU-Offloading.
Die Karte ist nicht die schnellste, aber für Text-Generierung völlig ausreichend. Wenn du 30+ Tokens pro Sekunde bekommst, merkst du keinen Unterschied.
Sweet Spot: RTX 5070 16GB (~600€)
Die RTX 5070 ist der neue Sweet Spot. 16 GB VRAM, deutlich schnellere Tensor-Cores als die 40-Serie, und moderate Stromaufnahme. Für 7B-13B Modelle bekommst du 50-70 Tokens pro Sekunde.
Alternativ: Die RTX 4070 Super bleibt ein gutes Angebot, wenn du sie günstig findest.
High-End: RTX 5080 16GB (~1.000€)
Mit der RTX 5080 bekommst du die beste Single-GPU-Performance für lokale LLMs. 16 GB VRAM sind ausreichend für 30B-Modelle mit Quantisierung, und die Inferenz-Geschwindigkeit ist exzellent.
Achtung: Die 5080 braucht mindestens 550W Netzteil, besser 650W. Alle Details zur Netzteil-Wahl im Netzteil-Guide.
Maximum VRAM: RTX 4090 24GB (~1.600€ gebraucht)
Für 70B-Modelle brauchst du mehr VRAM. Die RTX 4090 mit 24 GB ist hier die beste Option. Gebraucht inzwischen bezahlbar, und mit CPU-Offloading laufen auch die größten Modelle.
Die RTX 5090 hat 32 GB VRAM, kostet aber über 2000€ und braucht ein 850W+ Netzteil – für die meisten eGPU-Setups überdimensioniert.
Alternative: AMD APUs mit Unified Memory (bis 128 GB)
Spannende Alternative für LLM-Enthusiasten: Mini-PCs mit AMD Ryzen AI oder Strix Point APUs. Nutzen Unified Memory, geteilt zwischen CPU und iGPU – bis zu 128 GB RAM möglich.
Warum interessant:
- Riesiger “VRAM” – 70B-Modell braucht ca. 40 GB. Mit 128 GB RAM hast du Luft.
- Kein PCIe-Bottleneck – GPU sitzt direkt auf dem Chip, kein Thunderbolt nötig.
- Kompakt – Mini-PC-Formfaktor, kein separates eGPU-Gehäuse.
- Energieeffizient – 65W TDP statt 300W+ für High-End-GPU.
Nachteile:
- Langsamer als dedizierte GPU – Speicherbandbreite geringer als GDDR6X.
- Teuer bei viel RAM – 128 GB DDR5 kosten 300-400€ extra.
- Weniger Tensor-Cores – Keine CUDA-Optimierung, langsamere Inferenz.
Wann lohnt sich das?
Regelmäßig 70B+ Modelle und Geschwindigkeit zweitrangig? AMD APU liefert 5-15 Tokens/Sekunde bei großen Modellen – langsamer als RTX 4090, aber Modell läuft komplett im RAM ohne CPU-Offloading.
Hersteller: Minisforum, Beelink, GMKtec mit AMD Ryzen 9 7940HS, Ryzen AI 9 HX 370 oder Strix Point. Einige unterstützen bis zu 96/128 GB RAM.
Performance-Benchmarks 2026
Tokens pro Sekunde (t/s) bei verschiedenen Setups – getestet mit Q4_K_M Quantisierung:
| Modell | RTX 4060 Ti | RTX 5070 | RTX 5080 |
|---|---|---|---|
| Llama 3.3 8B | ~35 t/s | ~55 t/s | ~75 t/s |
| Mistral 7B | ~40 t/s | ~60 t/s | ~80 t/s |
| Qwen 2.5 14B | ~20 t/s | ~35 t/s | ~50 t/s |
| Llama 3.3 70B (Q4) | CPU-Offload | CPU-Offload | ~12 t/s |
Die RTX 50-Serie zeigt einen deutlichen Sprung gegenüber der 40er-Generation – vor allem bei größeren Modellen.
Zum Vergleich: Menschliche Lesegeschwindigkeit liegt bei 4-5 Wörtern pro Sekunde. Alles über 20 t/s fühlt sich praktisch instant an. Bei Chat-Anwendungen merkst du über 30 t/s keinen Unterschied mehr.
Praktische Anwendungen
1. Lokaler Coding-Assistent
ollama run codellama:13b
# oder
ollama run deepseek-coder:6.7b
Integration in VS Code mit “Continue” Extension.
2. Dokumente analysieren
Mit Retrieval Augmented Generation (RAG):
- PrivateGPT
- LocalGPT
- AnythingLLM
3. Kreatives Schreiben
ollama run llama3.2:8b
# Gut für Texte, Stories, Zusammenfassungen
Troubleshooting
”CUDA out of memory”
- Kleineres Modell wählen
- Quantisierung erhöhen (Q4 statt Q8)
- Andere Anwendungen schließen
- Context-Länge reduzieren
Modell läuft auf CPU statt GPU
# NVIDIA-Treiber prüfen
nvidia-smi
# Ollama neu starten
sudo systemctl restart ollama
Langsame Generierung
- GPU-Auslastung prüfen (sollte >90% sein)
- Thermal Throttling ausschließen
- Quantisiertes Modell verwenden
Fazit
Für lokale LLMs hast du mehrere Optionen:
Einsteiger (eGPU) – RTX 4060 Ti 16GB + Ollama + Llama 3.3 8B. Bestes Preis-Leistungs-Verhältnis. Flüssige Textgenerierung für alle gängigen Fälle.
Fortgeschritten (eGPU) – RTX 5070 oder RTX 5080 + LM Studio + Qwen 2.5 14B. Mehr Speed, mehr Möglichkeiten, genug VRAM für größere Modelle.
Maximum VRAM (eGPU) – RTX 4090 24GB oder Dual-GPU. Regelmäßig 70B-Modelle oder fine-tuning? Brauchst du das extra VRAM.
Große Modelle (AMD APU) – Mini-PC mit AMD Ryzen AI + 96-128 GB RAM. Langsamer als dedizierte GPU, aber 70B+ Modelle laufen komplett im Unified Memory.
eGPU-Lösung ist ideal, wenn du Laptop als Hauptrechner nutzt und flexibel bleiben willst. Thunderbolt-Overhead bei LLMs minimal – GPU wartet auf nächsten Token, nicht auf Daten durchs Kabel. Welche GPUs insgesamt am besten abschneiden, zeigen unsere GPU-Empfehlungen.
AMD APU-Alternative lohnt sich, wenn du primär große Modelle nutzt und Speed zweitrangig ist. Mini-PC mit 128 GB RAM ist kompakter und energieeffizienter als eGPU-Setup mit RTX 4090.
Wichtig: Für reines LLM-Inference lohnt sich OCuLink kaum vs. TB4. Flaschenhals liegt bei Modell-Berechnung, nicht bei Verbindung.
Zuletzt aktualisiert: Januar 2026