Connect with us

Hi, what are you looking for?

Top Stories

Mistral AI Launches Voxtral Transcribe 2 with 200ms Latency for Real-Time Transcription

Mistral AI unveils Voxtral Transcribe 2, delivering real-time transcription with under 200ms latency for just $0.006 per minute, revolutionizing speech-to-text technology.

Das französische KI-Startup Mistral AI hat mit Voxtral Transcribe 2 zwei neue Speech-to-Text-Modelle vorgestellt, die sich durch erstklassige Transkriptionsqualität und „ultraniedrige“ Latenzzeiten auszeichnen. Die Produktreihe umfasst Voxtral Mini Transcribe V2 für Batch-Transkriptionen und Voxtral Realtime für Live-Anwendungen. Diese Modelle zielen darauf ab, sich in einem zunehmend umkämpften Markt zu behaupten, der durch Technologien wie ChatGPT geprägt ist.

Voxtral Realtime wird unter der Apache 2.0-Lizenz als Open-Source-Modell bereitgestellt. Es ist speziell für Anwendungen konzipiert, bei denen eine niedrige Latenz entscheidend ist. Die neuartige Streaming-Architektur des Modells ermöglicht es, Audio in Echtzeit zu transkribieren, und liefert Transkriptionen mit einer Verzögerung von unter 200 Millisekunden. Laut Mistral eröffnet dies neue Möglichkeiten für sprachbasierte Anwendungen.

Die neue Sprachmodell-Familie unterstützt nativ 13 Sprachen, darunter Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch. In einem Markt, der von einer Vielzahl von Anbietern geprägt ist, stellt Mistral AI damit sein Engagement für Mehrsprachigkeit und Vielfalt unter Beweis.

Mit Voxtral Mini Transcribe V2 positioniert sich Mistral AI klar als ernstzunehmender Mitbewerber. Das Modell soll eine verbesserte Transkriptions- und Sprechererkennungsqualität bieten und zuverlässig in verschiedenen Sprachen und Anwendungsbereichen funktionieren. Mit einer Wortfehlerrate von rund vier Prozent im FLEURS-Benchmark erreicht es eine hohe Genauigkeit und kostet lediglich 0,003 US-Dollar pro Minute. Dies macht es zu einem der attraktivsten Angebote auf dem Markt.

Im direkten Vergleich zu ähnlichen Modellen wie GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova soll Voxtral Mini Transcribe V2 die Genauigkeit übertreffen. Darüber hinaus verarbeitet es Audiodaten etwa dreimal schneller als ElevenLabs Scribe v2, wobei die Qualität vergleichbar bleibt und die Kosten nur ein Fünftel betragen.

Technisch gesehen ist Voxtral 2 als kosteneffiziente Lösung für Unternehmen konzipiert. Das Context Biasing ist zunächst für Englisch optimiert, was bedeutet, dass das Modell auf bestimmte Wörter oder Phrasen trainiert wird, um diese präzise zu transkribieren. Zudem zeigt das Modell eine geringe Anfälligkeit gegenüber Störgeräuschen und soll auch in akustisch herausfordernden Umgebungen wie Fabrikhallen oder Call-Centern stabile Ergebnisse liefern.

Für Tests stellt das Unternehmen im Mistral Studio einen Audio-Playground zur Verfügung. Nutzer können bis zu zehn Audiodateien gleichzeitig hochladen, die Sprechererkennung aktivieren oder deaktivieren und die Granularität der Zeitstempel auswählen. Unterstützt werden gängige Audioformate wie MP3, WAV, M4A, FLAC und OGG, mit einer maximalen Dateigröße von einem Gigabyte pro Datei.

Als europäisches Unternehmen möchte Mistral AI durch Unabhängigkeit von US-Lösungen punkten. Beide neuen Voxtral-Modelle unterstützen DSGVO-konforme Deployments, einschließlich On-Premise- und privater Cloud-Umgebungen. Voxtral Mini Transcribe V2 ist ab sofort über eine API zum Preis von 0,003 Dollar pro Minute verfügbar. Zusätzlich steht Voxtral Realtime für Echtzeitanwendungen zu 0,006 Dollar pro Minute bereit und ist als Open-Weights-Modell auf Hugging Face verfügbar. Diese Entwicklungen könnten die Wettbewerbslandschaft im Bereich der Sprachtranskription nachhaltig verändern.

See also
Staff
Written By

The AiPressa Staff team brings you comprehensive coverage of the artificial intelligence industry, including breaking news, research developments, business trends, and policy updates. Our mission is to keep you informed about the rapidly evolving world of AI technology.

You May Also Like

AI Marketing

BusySeed unveils Rankxa, a tool tracking brand visibility across AI-generated responses, revealing 90% of brands lack meaningful presence in this new landscape.

AI Technology

A1 Public Relations helps entertainment brands enhance AI visibility in 2026 by integrating structured content and fresh, authoritative media, ensuring they are recognized by...

AI Finance

More than 55% of Americans now turn to AI tools for financial advice, risking personal data exposure despite rising privacy concerns.

Top Stories

Mistral unveils Medium 3.5, a cloud-based coding agent with a 256,000 token context and 91.4 τ³-Telecom score, revolutionizing productivity for teams.

Top Stories

Google DeepMind's AI co-clinician outperformed GPT-5.4 in doctor tests, achieving 67 preferences in primary care queries and a remarkable 95% quality score in open-ended...

Top Stories

Apple's CarPlay now supports third-party voice assistants like ChatGPT and Perplexity AI, with Perplexity outperforming ChatGPT in navigation and calendar management.

Top Stories

Mistral AI launches its 128-billion-parameter Medium 3.5 model, scoring 77.6% on key benchmarks, yet faces criticism for high pricing and mixed performance.

AI Tools

Mistral AI unveils Workflows, enabling enterprises to automate critical processes in days, significantly enhancing AI integration for clients like ASML and La Banque Postale.

© 2025 AIPressa · Part of Buzzora Media · All rights reserved. This website provides general news and educational content for informational purposes only. While we strive for accuracy, we do not guarantee the completeness or reliability of the information presented. The content should not be considered professional advice of any kind. Readers are encouraged to verify facts and consult appropriate experts when needed. We are not responsible for any loss or inconvenience resulting from the use of information on this site. Some images used on this website are generated with artificial intelligence and are illustrative in nature. They may not accurately represent the products, people, or events described in the articles.