Microsoft hat am 2. April 2026 drei hauseigene Foundation-Modelle vorgestellt: MAI-Transcribe-1, MAI-Voice-1 und MAI-Image-2. Die Modelle sind über Azure Foundry und den neuen MAI Playground verfügbar und zielen auf Enterprise- und Entwickler-Anwendungsfälle ab.
Die drei Modelle im Detail
- MAI-Transcribe-1 – Speech-to-Text mit niedriger Latenz und Mehrsprachigkeit, optimiert für Echtzeit-Szenarien wie Meetings, Callcenter und Live-Medien.
- MAI-Voice-1 – Sprachsynthese mit natürlichem Klang und längeren Audio-Outputs. Benötigt nur kleine Samples für Custom Voices – einsetzbar für Narration, Assistenten und autonome Sprachsysteme.
- MAI-Image-2 – Bildgenerierung mit Fokus auf professionelle Qualität: besseres Lighting, Texturen und eingebetteter Text, Schwachstellen vieler Konkurrenzmodelle.
Strategie: Weg von der OpenAI-Abhängigkeit
Die Veröffentlichung ist ein klares Signal. Obwohl die Partnerschaft mit OpenAI weiterhin besteht, baut Microsoft unter Führung des MAI Superintelligence Teams (gegründet 2025, geleitet von Mustafa Suleyman) systematisch eigene Kapazitäten auf.
Der Fokus liegt auf Skalierbarkeit und Kosteneffizienz – entscheidende Faktoren für Unternehmen, die von KI-Experimenten in den Produktivbetrieb wechseln. Durch die Integration in die bestehende Azure-Infrastruktur senkt Microsoft die Einstiegshürde für Entwickler deutlich.
Marktdruck auf Konkurrenz
Mit dem Dreierpack positioniert sich Microsoft direkt gegen Google und OpenAI in den Bereichen Sprache und Bildgenerierung. Der Wettbewerb verschiebt sich zunehmend von reiner Modell-Performance hin zu Effizienz, Kosten und Praxistauglichkeit im Enterprise-Umfeld.
Quellen: Times of AI, TechCrunch