Das französische KI-Startup Mistral AI hat mit Voxtral Transcribe 2 zwei neue Speech-to-Text-Modelle vorgestellt, die sich durch erstklassige Transkriptionsqualität und „ultraniedrige“ Latenzzeiten auszeichnen. Die Produktreihe umfasst Voxtral Mini Transcribe V2 für Batch-Transkriptionen und Voxtral Realtime für Live-Anwendungen. Diese Modelle zielen darauf ab, sich in einem zunehmend umkämpften Markt zu behaupten, der durch Technologien wie ChatGPT geprägt ist.
Voxtral Realtime wird unter der Apache 2.0-Lizenz als Open-Source-Modell bereitgestellt. Es ist speziell für Anwendungen konzipiert, bei denen eine niedrige Latenz entscheidend ist. Die neuartige Streaming-Architektur des Modells ermöglicht es, Audio in Echtzeit zu transkribieren, und liefert Transkriptionen mit einer Verzögerung von unter 200 Millisekunden. Laut Mistral eröffnet dies neue Möglichkeiten für sprachbasierte Anwendungen.
Die neue Sprachmodell-Familie unterstützt nativ 13 Sprachen, darunter Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch. In einem Markt, der von einer Vielzahl von Anbietern geprägt ist, stellt Mistral AI damit sein Engagement für Mehrsprachigkeit und Vielfalt unter Beweis.
Mit Voxtral Mini Transcribe V2 positioniert sich Mistral AI klar als ernstzunehmender Mitbewerber. Das Modell soll eine verbesserte Transkriptions- und Sprechererkennungsqualität bieten und zuverlässig in verschiedenen Sprachen und Anwendungsbereichen funktionieren. Mit einer Wortfehlerrate von rund vier Prozent im FLEURS-Benchmark erreicht es eine hohe Genauigkeit und kostet lediglich 0,003 US-Dollar pro Minute. Dies macht es zu einem der attraktivsten Angebote auf dem Markt.
Im direkten Vergleich zu ähnlichen Modellen wie GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova soll Voxtral Mini Transcribe V2 die Genauigkeit übertreffen. Darüber hinaus verarbeitet es Audiodaten etwa dreimal schneller als ElevenLabs Scribe v2, wobei die Qualität vergleichbar bleibt und die Kosten nur ein Fünftel betragen.
Technisch gesehen ist Voxtral 2 als kosteneffiziente Lösung für Unternehmen konzipiert. Das Context Biasing ist zunächst für Englisch optimiert, was bedeutet, dass das Modell auf bestimmte Wörter oder Phrasen trainiert wird, um diese präzise zu transkribieren. Zudem zeigt das Modell eine geringe Anfälligkeit gegenüber Störgeräuschen und soll auch in akustisch herausfordernden Umgebungen wie Fabrikhallen oder Call-Centern stabile Ergebnisse liefern.
Für Tests stellt das Unternehmen im Mistral Studio einen Audio-Playground zur Verfügung. Nutzer können bis zu zehn Audiodateien gleichzeitig hochladen, die Sprechererkennung aktivieren oder deaktivieren und die Granularität der Zeitstempel auswählen. Unterstützt werden gängige Audioformate wie MP3, WAV, M4A, FLAC und OGG, mit einer maximalen Dateigröße von einem Gigabyte pro Datei.
Als europäisches Unternehmen möchte Mistral AI durch Unabhängigkeit von US-Lösungen punkten. Beide neuen Voxtral-Modelle unterstützen DSGVO-konforme Deployments, einschließlich On-Premise- und privater Cloud-Umgebungen. Voxtral Mini Transcribe V2 ist ab sofort über eine API zum Preis von 0,003 Dollar pro Minute verfügbar. Zusätzlich steht Voxtral Realtime für Echtzeitanwendungen zu 0,006 Dollar pro Minute bereit und ist als Open-Weights-Modell auf Hugging Face verfügbar. Diese Entwicklungen könnten die Wettbewerbslandschaft im Bereich der Sprachtranskription nachhaltig verändern.
See also
US Advocates for Global Performance-Based AI Regulations to Counter China’s Influence
AIxCrypto and FF AI-Robotics Forge Partnership to Advance Web3 Infrastructure for EAI
Germany”s National Team Prepares for World Cup Qualifiers with Disco Atmosphere
95% of AI Projects Fail in Companies According to MIT
AI in Food & Beverages Market to Surge from $11.08B to $263.80B by 2032
















































