Connect with us

Hi, what are you looking for?

Top Stories

Mistral AI Launches Voxtral Transcribe 2 with 200ms Latency for Real-Time Transcription

Mistral AI unveils Voxtral Transcribe 2, delivering real-time transcription with under 200ms latency for just $0.006 per minute, revolutionizing speech-to-text technology.

Das französische KI-Startup Mistral AI hat mit Voxtral Transcribe 2 zwei neue Speech-to-Text-Modelle vorgestellt, die sich durch erstklassige Transkriptionsqualität und „ultraniedrige“ Latenzzeiten auszeichnen. Die Produktreihe umfasst Voxtral Mini Transcribe V2 für Batch-Transkriptionen und Voxtral Realtime für Live-Anwendungen. Diese Modelle zielen darauf ab, sich in einem zunehmend umkämpften Markt zu behaupten, der durch Technologien wie ChatGPT geprägt ist.

Voxtral Realtime wird unter der Apache 2.0-Lizenz als Open-Source-Modell bereitgestellt. Es ist speziell für Anwendungen konzipiert, bei denen eine niedrige Latenz entscheidend ist. Die neuartige Streaming-Architektur des Modells ermöglicht es, Audio in Echtzeit zu transkribieren, und liefert Transkriptionen mit einer Verzögerung von unter 200 Millisekunden. Laut Mistral eröffnet dies neue Möglichkeiten für sprachbasierte Anwendungen.

Die neue Sprachmodell-Familie unterstützt nativ 13 Sprachen, darunter Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch. In einem Markt, der von einer Vielzahl von Anbietern geprägt ist, stellt Mistral AI damit sein Engagement für Mehrsprachigkeit und Vielfalt unter Beweis.

Mit Voxtral Mini Transcribe V2 positioniert sich Mistral AI klar als ernstzunehmender Mitbewerber. Das Modell soll eine verbesserte Transkriptions- und Sprechererkennungsqualität bieten und zuverlässig in verschiedenen Sprachen und Anwendungsbereichen funktionieren. Mit einer Wortfehlerrate von rund vier Prozent im FLEURS-Benchmark erreicht es eine hohe Genauigkeit und kostet lediglich 0,003 US-Dollar pro Minute. Dies macht es zu einem der attraktivsten Angebote auf dem Markt.

Im direkten Vergleich zu ähnlichen Modellen wie GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova soll Voxtral Mini Transcribe V2 die Genauigkeit übertreffen. Darüber hinaus verarbeitet es Audiodaten etwa dreimal schneller als ElevenLabs Scribe v2, wobei die Qualität vergleichbar bleibt und die Kosten nur ein Fünftel betragen.

Technisch gesehen ist Voxtral 2 als kosteneffiziente Lösung für Unternehmen konzipiert. Das Context Biasing ist zunächst für Englisch optimiert, was bedeutet, dass das Modell auf bestimmte Wörter oder Phrasen trainiert wird, um diese präzise zu transkribieren. Zudem zeigt das Modell eine geringe Anfälligkeit gegenüber Störgeräuschen und soll auch in akustisch herausfordernden Umgebungen wie Fabrikhallen oder Call-Centern stabile Ergebnisse liefern.

Für Tests stellt das Unternehmen im Mistral Studio einen Audio-Playground zur Verfügung. Nutzer können bis zu zehn Audiodateien gleichzeitig hochladen, die Sprechererkennung aktivieren oder deaktivieren und die Granularität der Zeitstempel auswählen. Unterstützt werden gängige Audioformate wie MP3, WAV, M4A, FLAC und OGG, mit einer maximalen Dateigröße von einem Gigabyte pro Datei.

Als europäisches Unternehmen möchte Mistral AI durch Unabhängigkeit von US-Lösungen punkten. Beide neuen Voxtral-Modelle unterstützen DSGVO-konforme Deployments, einschließlich On-Premise- und privater Cloud-Umgebungen. Voxtral Mini Transcribe V2 ist ab sofort über eine API zum Preis von 0,003 Dollar pro Minute verfügbar. Zusätzlich steht Voxtral Realtime für Echtzeitanwendungen zu 0,006 Dollar pro Minute bereit und ist als Open-Weights-Modell auf Hugging Face verfügbar. Diese Entwicklungen könnten die Wettbewerbslandschaft im Bereich der Sprachtranskription nachhaltig verändern.

See also
Staff
Written By

The AiPressa Staff team brings you comprehensive coverage of the artificial intelligence industry, including breaking news, research developments, business trends, and policy updates. Our mission is to keep you informed about the rapidly evolving world of AI technology.

You May Also Like

Top Stories

DeepSeek offers rapid, affordable coding solutions for developers, while ChatGPT enhances content creation with advanced multimodal features for broader user engagement.

AI Marketing

OpenAI's ChatGPT ad pilot faces hurdles as advertisers report only 15% ad spend utilization and lack robust data, jeopardizing projected $17B in revenue.

AI Generative

Local LLMs enhance privacy by enabling users to run powerful AI tasks on personal devices, circumventing the limitations of cloud-based rivals like ChatGPT.

Top Stories

Mistral AI proposes a revenue-based levy system for AI training data in Europe, aiming to level the playing field and support local content creation.

AI Government

UK government fails to initiate any trials with OpenAI's ChatGPT eight months post-agreement, raising concerns over accountability and public benefit.

AI Tools

1min.AI slashes its Advanced Business Plan lifetime subscription to $85 from $549, consolidating multiple AI tools into one platform for seamless workflows.

AI Education

University of Phoenix study finds generative AI tools enhance doctoral research efficiency while emphasizing the urgent need for ethical guidelines in academia

AI Generative

Study reveals that frequent use of generative AI tools like ChatGPT correlates with a 20% decline in critical thinking skills among younger students.

© 2025 AIPressa · Part of Buzzora Media · All rights reserved. This website provides general news and educational content for informational purposes only. While we strive for accuracy, we do not guarantee the completeness or reliability of the information presented. The content should not be considered professional advice of any kind. Readers are encouraged to verify facts and consult appropriate experts when needed. We are not responsible for any loss or inconvenience resulting from the use of information on this site. Some images used on this website are generated with artificial intelligence and are illustrative in nature. They may not accurately represent the products, people, or events described in the articles.