Einführung von Eleven v3 (Alpha)

3. Juni 2025 • 6 Minuten Lesezeit

Mati Staniszewski, Co-founder,

Piotr Dabkowski, Co-Founder, Research

Das ausdrucksstärkste Text to Speech Modell

Vertrieb kontaktieren Eleven v3 Prompting v3

Wir freuen uns, bekannt zu geben Eleven v3 (alpha) — das ausdrucksstärkste Text to Speech-Modell.

Diese Forschungsvorschau bietet beispiellose Kontrolle und Realismus in der Sprachgenerierung mit:

70+ Sprachen
Mehrsprecher-Dialog
Audio tags like [excited], [whispers], and [sighs]

Eleven v3 (alpha) erfordert mehr Prompt-Engineering als frühere Modelle — aber die Ergebnisse sind beeindruckend.

Wenn Sie an Videos, Hörbüchern oder Medientools arbeiten — dies eröffnet ein neues Maß an Ausdruckskraft. Für Echtzeit- und Konversationsanwendungen empfehlen wir vorerst v2.5 Turbo oder Flash. Eine Echtzeitversion von v3 ist in Entwicklung.

Eleven v3 ist ab heute auf unserer Website verfügbar. Öffentlicher API-Zugang kommt bald. Für frühzeitigen Zugang, bitte Vertrieb kontaktieren.

Die Nutzung des neuen Modells in der ElevenLabs-App ist bis Ende Juni um 80% reduziert. Melden Sie sich hier an.

Why we built v3

Warum wir v3 entwickelt habenexpressiveness. More exaggerated emotions, conversational interruptions, and believable back-and-forth were difficult to achieve.

Seit der Einführung von Multilingual v2 haben wir gesehen, dass Voice-KI in professionellen Filmen, der Spieleentwicklung, Bildung und Barrierefreiheit eingesetzt wird. Aber die konstante Einschränkung war nicht die Klangqualität — es war

Eleven v3 schließt diese Lücke. Es wurde von Grund auf entwickelt, um Stimmen zu liefern, die seufzen, flüstern, lachen und reagieren — und so eine Sprache erzeugen, die wirklich lebendig wirkt.

Feature	What it unlocks
Audio tags	Inline control of tone, emotion, and non-verbal reactions
Dialogue mode	Multi-speaker conversations with natural pacing and interruptions
70+ languages	Full coverage of high-demand global languages
Deeper text understanding	Better stress, cadence, and expressivity from text input

Hear v3 for yourself

Using audio tags

Verwendung von Audio-Tagsprompting guide for v3 in the docs.

Audio-Tags sind inline mit Ihrem Skript und werden mit Kleinbuchstaben in eckigen Klammern formatiert. Mehr über Audio-Tags erfahren Sie in unserem

1“[happily][shouts] We did it! [laughs].”

Zum Beispiel könnten Sie eingeben: „[flüstert] Etwas kommt… [seufzt] Ich kann es fühlen.“ Oder für mehr Ausdruckskontrolle können Sie mehrere Tags kombinieren:

Erstellung von Mehrsprecher-DialogenText to Dialogue API endpoint. Provide a structured array of JSON objects — each representing a speaker turn — and the model generates a cohesive, overlapping audio file:

1[
2  {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3  {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4  {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

Eleven v3 wird in unserem bestehenden Text to Speech-Endpunkt unterstützt. Zusätzlich führen wir einen neuen

Der Endpunkt verwaltet automatisch Sprecherwechsel, emotionale Veränderungen und Unterbrechungen.here.

v3 is our most expressive model

Erfahren Sie mehr

Plan	Launch promo	After 30 days
UI (self-serve)	80% off (~5× cheaper)	Same as Multilingual V2
API (self-serve & enterprise)	Same as Multilingual V2	Same
Enterprise UI	Same as Multilingual V2	Same

Preise und Verfügbarkeit

Use the Model Picker and select Eleven v3 (alpha)

Um v3 zu aktivieren:contact sales.

API-Zugang und Unterstützung im Studio kommen bald. Für frühzeitigen Zugang, bitte

Wann v3 nicht verwendet werden solltev3 documentation and FAQ.

Try it today

Log in to ElevenLabs UI
v3-Dokumentation 3 (alpha) in the model dropdown
Paste your script — use tags or dialogue
Generate audio

We’re excited to see how you bring v3 to life across new use cases — from immersive storytelling to cinematic production pipelines.

Eleven v3 is 80% off until the end of June 2025 for self-serve users using it through the UI.

They were generated with only the Eleven v3 model.

Text to Dialogue weaves multiple voices together to create a seamless interaction between them. Matching prosody, emotional range and taking cues from audio tags, Text to Dialogue is a leap forward in generating engaging conversations.

Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales.

Eleven v3 supports a wide variety of audio tags and are somewhat voice and context dependent. Read the prompting guide for further information.

Afrikaans (afr), Arabic (ara), Armenian (hye), Assamese (asm), Azerbaijani (aze), Belarusian (bel), Bengali (ben), Bosnian (bos), Bulgarian (bul), Catalan (cat), Cebuano (ceb), Chichewa (nya), Croatian (hrv), Czech (ces), Danish (dan), Dutch (nld), English (eng), Estonian (est), Filipino (fil), Finnish (fin), French (fra), Galician (glg), Georgian (kat), German (deu), Greek (ell), Gujarati (guj), Hausa (hau), Hebrew (heb), Hindi (hin), Hungarian (hun), Icelandic (isl), Indonesian (ind), Irish (gle), Italian (ita), Japanese (jpn), Javanese (jav), Kannada (kan), Kazakh (kaz), Kirghiz (kir), Korean (kor), Latvian (lav), Lingala (lin), Lithuanian (lit), Luxembourgish (ltz), Macedonian (mkd), Malay (msa), Malayalam (mal), Mandarin Chinese (cmn), Marathi (mar), Nepali (nep), Norwegian (nor), Pashto (pus), Persian (fas), Polish (pol), Portuguese (por), Punjabi (pan), Romanian (ron), Russian (rus), Serbian (srp), Sindhi (snd), Slovak (slk), Slovenian (slv), Somali (som), Spanish (spa), Swahili (swa), Swedish (swe), Tamil (tam), Telugu (tel), Thai (tha), Turkish (tur), Ukrainian (ukr), Urdu (urd), Vietnamese (vie), Welsh (cym)

Entdecken Sie Artikel des ElevenLabs-Teams

Product

Product

How we engineered RAG to be 50% faster

Tips from latency-sensitive RAG systems in production

Customer stories

Customer stories

Eagr.ai Supercharges Sales Training with ElevenLabs' Conversational AI Agents

Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden

1	[
2	{"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3	{"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4	{"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5	]
6

Einführung von Eleven v3 (Alpha)

Why we built v3

Eleven v3 schließt diese Lücke. Es wurde von Grund auf entwickelt, um Stimmen zu liefern, die seufzen, flüstern, lachen und reagieren — und so eine Sprache erzeugen, die wirklich lebendig wirkt.

Hear v3 for yourself

Using audio tags

Zum Beispiel könnten Sie eingeben: „[flüstert] Etwas kommt… [seufzt] Ich kann es fühlen.“ Oder für mehr Ausdruckskontrolle können Sie mehrere Tags kombinieren:

v3 is our most expressive model

Erfahren Sie mehr

API-Zugang und Unterstützung im Studio kommen bald. Für frühzeitigen Zugang, bitte

Try it today

How does the Eleven v3 80% discount work?

How were the samples in the video and website generated?

How does dialogue generation work?

Is this available over API?

What audio tags are supported?

What languages does it support?

Entdecken Sie Artikel des ElevenLabs-Teams

How we engineered RAG to be 50% faster

Eagr.ai Supercharges Sales Training with ElevenLabs' Conversational AI Agents