Der KI-Engineering-Stack, den ich wirklich nutze

Ein pragmatischer Blick auf die Tools, Modelle und Muster, die sich 2026 lohnen – von jemandem, der täglich damit baut.

KI-EngineeringToolsLLMsStack

Jede Woche gibt es ein neues Modell oder Framework, das alles verändern soll. Das meiste davon ist viel Lärm um nichts. Hier ist, was nach zwei Jahren KI-Projektentwicklung wirklich in meinem Stack steckt.

Modelle

Claude für die meisten Generierungsaufgaben – Coding-Unterstützung, Inhalte, strukturierte Ausgabe. Die Reasoning-Fähigkeiten bei komplexen, mehrstufigen Problemen sind durchgehend besser als bei den Alternativen, die ich ausprobiert habe.

Gemini Flash für hohe Volumen und latenzempfindliche Aufgaben, bei denen Kosten eine Rolle spielen. Das Verhältnis von Geschwindigkeit zu Qualität ist schwer zu schlagen – etwa bei Klassifizierung oder Zusammenfassung in großem Maßstab.

Lokale Modelle via Ollama wenn ich Offline-Fähigkeiten oder Datenschutzgarantien brauche. Mistral 7B und Llama 3 decken die meisten lokalen Anforderungen ab. Der Abstand zu Frontier-Modellen ist real, aber er schrumpft schnell.

Frameworks

Ich habe die meisten Orchestrierungsframeworks ausprobiert. Meine aktuellen Einschätzungen:

Anthropic SDK / OpenAI SDK direkt – Einfach diese verwenden. Sie sind gut, werden gepflegt, und man verbringt keine Stunden damit, zu debuggen, welche Abstraktionsschicht den Tool-Aufruf verschluckt hat.

Strukturierte Ausgabe – Ich mache fast alles strukturierte Extraktion mit JSON-Mode oder Tool-Use statt Parsing von unstrukturiertem Text. Deutlich zuverlässiger.

Entwicklungsumgebung

Claude Code – KI-unterstütztes Coding im Terminal. Ich nutze es für die meisten Dinge, für die ich früher eine Suchmaschine genommen hätte. Am nützlichsten bei Aufgaben mit klarem Kontext: Refactoring einer bestimmten Funktion, Boilerplate generieren, unbekannten Code erklären.

Antigravity – VS-Code-basierte IDE von Google. Vertraute Umgebung, saubere Integration ins Google-Ökosystem, schnell eingerichtet.

GitLab – Versionskontrolle und CI/CD in einem. Die integrierten Pipelines nehmen einem viel ab: testen, bauen, deployen – alles ohne externe Dienste. Für Solo-Projekte oft mehr als genug.

Claude Cowork – Für alles rund um Datenvorbereitung und Recherche. Strukturieren, zusammenfassen, einordnen – bevor der eigentliche Entwicklungsprozess beginnt. Spart viel Zeit bei der Vorarbeit.

Higgsfield.ai – KI-generierte Hintergrundgrafiken und Videos. Schnell zu passenden Visuals kommen, ohne Stunden in Bildbearbeitung zu investieren.

Das Wichtigste, was ich gelernt habe: Den Kontext eng halten. Ein kleines, fokussiertes Gespräch liefert bessere Ergebnisse als ein langes mit viel angesammeltem Kontext.

Was ich ändern würde

Wenn ich heute von vorne anfangen würde:

  • Ich würde früher mehr Zeit in Evaluierungen investieren. Das Schwierigste an KI-Engineering ist nicht der erste Aufbau – sondern zu wissen, wann es gut genug ist, um live zu gehen.
  • Ich wäre skeptischer gegenüber RAG als Standardantwort. Vektorsuche und Embeddings sind mächtig, aber es ist auch leicht, etwas zu bauen, das in Demos funktioniert und im Betrieb versagt.
  • Ich würde von Anfang an für Modell-Upgrades entwerfen. Modelle verbessern sich schnell. Wenn das System eng an die Eigenheiten eines bestimmten Modells gekoppelt ist, ist jedes Upgrade ein Migrationsprojekt.

Das Feld entwickelt sich schnell. Was ich hier geschrieben habe, wird in sechs Monaten zumindest teilweise veraltet sein.