Seit Februar 2026 ist ein klares Muster erkennbar: Die grossen Anbieter verschieben ihren USP weg von einzelnen Chat-Modellen hin zu kompletten Ausführungs-Stacks für agentische Workflows. Tool-Use, UI-Automation, Long-Context, Caching, strukturierte Ausgaben, integrierte Suche. Das prominenteste Beispiel ist GPT-5.4, das explizit als Konsolidierung von Reasoning, Coding und agentischen Workflows positioniert wird. Parallel dazu schliesst die lokale Open-Source-Seite die Lücke über bessere Reasoning-Modelle und OpenAI-kompatible API-Flächen. 2026 ist kein Modellkrieg mehr. Es ist ein Plattformkrieg.
Thinking als budgetiertes Inferenz-Regime
Die auffälligste technische Konvergenz: Alle fünf Ökosysteme bieten inzwischen eine Form von "Thinking/Reasoning" als Inferenz-Modus. Praktisch eine kontrollierbare Ausdehnung des Decoding-Regimes: mehr interne Schritte, mehr Tokens, mehr Compute, höhere Tool-Reliability.
ChatGPT (GPT-5.4 Thinking / Pro)
GPT-5.4 Thinking wird als "most capable reasoning" beschrieben, optimiert auf schwierige reale Arbeitsaufgaben: Dokumentverständnis, Tool-Use, Research über viele Web-Quellen, Spreadsheets, Slides. Die Oberfläche zeigt ein Preamble/Plan an, Nutzer können während des Thinking-Prozesses nachsteuern. Wichtige Trennung: ChatGPT-Produktlogik ("Instant" als Auto-Router zwischen GPT-5.3 Instant und GPT-5.4 Thinking) vs. API-Modell (gpt-5.4, gpt-5.4-pro). Kontext: bis 1M Tokens in der API.
Claude (Opus 4.6 / Sonnet 4.6)
Bei Claude ist Long-Context + Agentik stark betont: Opus 4.6 und Sonnet 4.6 werden mit 1M-Context (Beta) kommuniziert und explizit auf Agenten, Coding und Long-Context-Reasoning ausgerichtet. Ein aktuelles Agenten-UX-Signal: "Auto Mode" in Claude Code (experimentell), das kontrollierte Delegieren von Permissions an einen Klassifikator. Ein typisches Agenten-Sicherheitsmuster: schneller, aber mit Fehlklassifikationsrisiken.
Grok (Grok 4.20)
Grok positioniert sich technisch aggressiv über extrem grosse Kontextfenster: 2.000.000 Tokens, dazu "agentic tool calling" und strukturierte Outputs. Grok 4 wird als Reasoning-Modell geführt, aber ohne reasoning_effort-Parameter. Einige klassische Sampling-Controls (presencePenalty, frequencyPenalty, stop) sind laut Doku für Reasoning-Modelle nicht supported. Ein pragmatischer Trade-off.
Gemini (Gemini 3.1 Pro)
Gemini 3.1 Pro: reasoning-stark, nativ multimodal, 1M Context Window, Multi-Modal Inputs (Text, Audio, Images, Video, PDFs, Repos). Google fährt eine sehr aktive Preview/Deprecation-Strategie mit konkreten Migrationsdaten. Context Caching über Vertex AI, Grounding with Google Search als separates Feature mit eigener Preisstruktur.
Ollama (lokale Runtime)
Ollama "denkt" nicht selbst. Aber es bietet einen standardisierten Mechanismus, um Thinking-Modelle lokal zu betreiben: Qwen 3, GPT-OSS, DeepSeek R1 und DeepSeek-v3.1 sind als Thinking-fähige Modelle dokumentiert, inklusive think-Level. Wichtiger Hinweis aus der Doku: Thinking lässt sich nicht immer vollständig deaktivieren (modellabhängig).
API- und Agenten-Stack: Die echte Plattformdifferenz
Die eigentliche Differenzierung entsteht 2026 weniger durch isolierte Chat-Antwortqualität, sondern durch die Frage: Wie zuverlässig kann ein Modell in Production handeln? Technisch entscheidet das die Kombination aus API-Design, Tooling, Decoding-Constraints, Caching und Observability.
Tool-/Function-Calling
- ChatGPT: Tools in Responses API, Computer Use, Web/File Search, MCP-Integration
- Claude: Client- und Server-Tools, Tool Runner, Web Search, MCP native
- Grok: Function Calling mit Tool Invocation Costs, OpenAI-kompatible REST API
- Gemini: Function Calling, Tools inkl. Search/Grounding, Vertex AI Integration
- Ollama: Tools mit lokaler Ausführung, OpenAI-Kompatibilität, volle Kontrolle
Strukturierte Outputs
Alle fünf Stacks unterstützen JSON Schema als Output-Format. Das ist 2026 Baseline, nicht Differenzierung. Der Unterschied liegt in der Zuverlässigkeit: Wie oft weicht das Modell vom Schema ab? Bei Frontier-Modellen (GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro) liegt die Schema-Compliance bei über 99%. Bei lokalen Modellen via Ollama schwankt das je nach Modellgrösse und Quantisierung zwischen 90% und 98%.
Caching und Token-Ökonomie
- ChatGPT: Automatisches Prompt Caching, server-side Compaction, separate Tool-Search-Bepreisung
- Claude: Prompt Caching (Default 5 Min, optional 1h), programmatic Tool Calling zur Roundtrip-Reduktion
- Grok: Prompt Caching als API-Feature, zusätzliche Tool-Kosten (z.B. Search)
- Gemini: Context Caching (Vertex) mit Token-Stunden-Pricing, Thinking Tokens separat bepreist
- Ollama: Kein Provider-Caching, aber volle Kontrolle über lokale Parameter, Batching und Serving-Topologie
Grounding / Search
ChatGPT, Grok und Gemini bieten integrierte Web-Suche als API-Tool. Claude dokumentiert Web Search als Tool-Referenz. Ollama hat keine Built-in-Suche, kann aber via lokale Tools (eigene Web-Suche, RAG) nachgerüstet werden. Der pragmatische Unterschied: Bei Hosted-Anbietern zahlt man pro Suchanfrage. Bei Ollama kontrolliert man die Pipeline komplett.
Kosten: Subscription, Token-Preise und der Local-CapEx-Trade-off
Bei modernen Agentensystemen ist "Preis pro 1M Tokens" nicht nur FinOps. Es beeinflusst Architekturentscheidungen: Caching, Retrieval, Kompression, Tool-Granularität. Die Anbieter differenzieren 2026 stark über Bepreisungsmodi (Standard/Batch/Flex/Priority) und über separate Tool-Kosten.
API-Preise (gerundete Grössenordnungen, Stand März 2026)
- GPT-5.4: Short-Context und Long-Context separat bepreist, plus Tools (Web Search pro 1k Calls, File Search Storage, Container)
- Claude Opus 4.6: Tokenpreise gestaffelt, Prompt Caching als eigener Preisblock (Write/Read)
- Gemini 3.1 Pro: Kontextgrössen-Tiers (>200k Token teurer), Context Caching (Storage pro Token-Stunde), Grounding with Google Search separat
- Grok 4.20: Modell + Features, Tool Invocation Costs, Voice Agent API mit Minutenpreisen, OpenAI-REST-Kompatibilität
- Ollama: 0 USD Token-Kosten. Dafür: Hardware (GPU), Strom, Wartung, Kompetenz.
Consumer-Tiers: Reasoning als Premium-Compute
Bei den Chat-Produkten wird Reasoning zunehmend als Premium-Compute behandelt. ChatGPT listet Free/Go/Plus/Pro/Business/Enterprise mit unterschiedlichem Zugriff auf GPT-5.4 Thinking und Pro. Bei Grok existiert ein "Heavy"-Tier (um 300 USD/Monat) neben günstigeren Stufen ("Lite"). Claude zeigt die Schichtung über unterschiedliche Modell-Verfügbarkeit nach Plan.
Lokales Hosting: Wie weit kommt man mit Ollama?
Die ehrliche Antwort: Weiter als die meisten denken, aber nicht weit genug für alles.
Was lokal gut funktioniert (Stand März 2026)
- Coding-Assistenz: DeepSeek-v3.1 und Qwen 3 (32B/72B) liefern solide Ergebnisse bei Code-Generierung, Review und Refactoring. Auf einer RTX 4090 (24 GB VRAM) laufen 32B-Modelle flüssig in Q4-Quantisierung.
- RAG/Wissensabfragen: Lokale Modelle mit 8B-32B Parametern sind für interne Wissensbasen oft ausreichend. Vorteil: Keine Daten verlassen das Unternehmen.
- Strukturierte Datenextraktion: JSON-Output aus Dokumenten, E-Mails, Formularen. Zuverlässigkeit abhängig von Modellgrösse.
- Zusammenfassungen und Textverarbeitung: Für standardisierte Aufgaben (Meeting-Protokolle, E-Mail-Entwürfe) funktionieren lokale Modelle zuverlässig.
Wo Frontier-Modelle überlegen bleiben
- Komplexes Multi-Step-Reasoning: Aufgaben, die 10+ Reasoning-Schritte erfordern, zeigen bei lokalen Modellen signifikant höhere Fehlerquoten.
- Agentische Workflows: Tool-Calling über 5+ Tools mit konditionaler Logik. Die Frontier-Modelle sind hier deutlich zuverlässiger.
- Multimodalität: Bildverständnis, Video-Analyse, Audio-Transkription auf Frontier-Niveau gibt es lokal noch nicht.
- Sehr langer Kontext (>128k Tokens): Frontier-Modelle halten Kohärenz über 500k+ Tokens. Lokale Modelle degradieren deutlich früher.
Hardware-Realität für lokales Hosting
- Einstieg (8B Modelle): 16 GB VRAM reichen. RTX 4060 Ti (ca. 450 EUR). Für einfache Aufgaben brauchbar.
- Mittelklasse (32B Modelle): 24 GB VRAM nötig. RTX 4090 (ca. 1.800 EUR) oder RTX 5090 (ca. 2.200 EUR). Gutes Preis-Leistungs-Verhältnis für professionellen Einsatz.
- Oberklasse (72B+ Modelle): 48+ GB VRAM. Dual-GPU-Setups oder professionelle Karten (A6000, H100). Kostenbereich 5.000-30.000 EUR.
- Enterprise (405B Modelle): Multi-GPU-Cluster. Nicht mehr "lokal" im klassischen Sinne, sondern private Infrastruktur.
Architekturentscheidung: Wann lokal, wann hosted?
Die pragmatische Entscheidungsmatrix:
- Datensensitivität hoch + Aufgabe standardisiert: Lokal (Ollama). Keine Daten verlassen das Haus.
- Datensensitivität hoch + Aufgabe komplex: Hosted mit Vertragswerk (Claude API mit europäischem DPA, Azure OpenAI Service mit Datenresidenz).
- Datensensitivität niedrig + Aufgabe komplex: Frontier-API direkt. Maximale Qualität, minimaler Aufwand.
- Budgetoptimierung bei hohem Volumen: Hybrid. Einfache Aufgaben lokal routen, komplexe an Frontier-API. Provider-agnostische Abstraktionsschicht (LiteLLM, OpenRouter) nutzen.
Fazit: Der Stack gewinnt, nicht das Modell
2026 zeigt deutlich: Das einzelne Modell ist austauschbar geworden. Was zählt, ist der Stack drumherum. Tool-Reliability, Caching-Effizienz, Grounding-Qualität, Kostenstruktur und die Fähigkeit, Agenten-Workflows stabil in Production zu betreiben.
ChatGPT hat den breitesten Consumer-Stack. Claude hat die beste Agenten-/Coding-Integration. Grok hat den grössten Kontext. Gemini hat die tiefste Google-Cloud-Integration. Und Ollama hat etwas, das kein Hosted-Anbieter bieten kann: vollständige Kontrolle, null laufende Kosten und die Garantie, dass keine Daten das eigene Netzwerk verlassen.
Die klügste Strategie 2026: Nicht auf einen Anbieter setzen, sondern eine provider-agnostische Architektur bauen, die je nach Aufgabe den optimalen Stack wählt. Die Werkzeuge dafür sind da. Die Entscheidung liegt bei den Teams, die sie nutzen.
Quellen: OpenAI Docs (GPT-5.4 / Responses API), Anthropic Docs (Claude Models / Pricing), xAI Docs (Grok API / Models), Google AI Gemini API Docs, Ollama Docs (Tools / Thinking / Compatibility). Stand 31. März 2026.