Vi presenterar Eleven v3 (alpha)

3 juni 2025 • 6 minuter lästid

Mati Staniszewski, Co-founder,

Piotr Dabkowski, Co-Founder, Research

Den mest uttrycksfulla Text to Speech-modellen

Kontakta försäljning Eleven v3 Prompting v3

Vi är glada att avslöja Eleven v3 (alpha) — den mest uttrycksfulla Text to Speech-modellen.

Denna forskningsförhandsvisning ger oöverträffad kontroll och realism till talgenerering med:

70+ språk
Dialog med flera talare
Audio tags like [excited], [whispers], and [sighs]

Eleven v3 (alpha) kräver mer promptteknik än tidigare modeller — men resultaten är fantastiska.

Om du arbetar med videor, ljudböcker eller medieverktyg — detta öppnar en ny nivå av uttrycksfullhet. För realtids- och konversationsanvändning rekommenderar vi att du stannar med v2.5 Turbo eller Flash för tillfället. En realtidsversion av v3 är under utveckling.

Eleven v3 är tillgänglig idag på vår webbplats. Offentlig API-åtkomst kommer snart. För tidig åtkomst, vänligen kontakta försäljning.

Användning av den nya modellen i ElevenLabs-appen är 80% rabatt fram till slutet av juni. Registrera dig här.

Why we built v3

Varför vi byggde v3expressiveness. More exaggerated emotions, conversational interruptions, and believable back-and-forth were difficult to achieve.

Sedan lanseringen av Multilingual v2 har vi sett AI-röster användas i professionell film, spelutveckling, utbildning och tillgänglighet. Men den konsekventa begränsningen var inte ljudkvaliteten — det var

Eleven v3 åtgärdar denna brist. Den byggdes från grunden för att leverera röster som suckar, viskar, skrattar och reagerar — och skapar tal som känns genuint responsivt och levande.

Feature	What it unlocks
Audio tags	Inline control of tone, emotion, and non-verbal reactions
Dialogue mode	Multi-speaker conversations with natural pacing and interruptions
70+ languages	Full coverage of high-demand global languages
Deeper text understanding	Better stress, cadence, and expressivity from text input

Hear v3 for yourself

Using audio tags

Använda ljudtaggarprompting guide for v3 in the docs.

Ljudtaggar finns inline med ditt manus och är formaterade med små bokstäver inom hakparenteser. Du kan se mer om ljudtaggar i vår

1“[happily][shouts] We did it! [laughs].”

Till exempel kan du ange: ”[viskar] Något är på väg… [suckar] Jag kan känna det.” Eller för mer uttrycksfull kontroll kan du kombinera flera taggar:

Skapa dialog med flera talareText to Dialogue API endpoint. Provide a structured array of JSON objects — each representing a speaker turn — and the model generates a cohesive, overlapping audio file:

1[
2  {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3  {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4  {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

Eleven v3 stöds i vår befintliga Text to Speech-endpoint. Dessutom introducerar vi en ny

Endpointen hanterar automatiskt talarövergångar, känslomässiga förändringar och avbrott.here.

v3 is our most expressive model

Läs mer

Plan	Launch promo	After 30 days
UI (self-serve)	80% off (~5× cheaper)	Same as Multilingual V2
API (self-serve & enterprise)	Same as Multilingual V2	Same
Enterprise UI	Same as Multilingual V2	Same

Prissättning och tillgänglighet

Use the Model Picker and select Eleven v3 (alpha)

För att aktivera v3:contact sales.

API-åtkomst och stöd i Studio kommer snart. För tidig åtkomst, vänligen

När du inte ska använda v3v3 documentation and FAQ.

Try it today

Log in to ElevenLabs UI
v3-dokumentationen 3 (alpha) in the model dropdown
Paste your script — use tags or dialogue
Generate audio

We’re excited to see how you bring v3 to life across new use cases — from immersive storytelling to cinematic production pipelines.

Eleven v3 is 80% off until the end of June 2025 for self-serve users using it through the UI.

They were generated with only the Eleven v3 model.

Text to Dialogue weaves multiple voices together to create a seamless interaction between them. Matching prosody, emotional range and taking cues from audio tags, Text to Dialogue is a leap forward in generating engaging conversations.

Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales.

Eleven v3 supports a wide variety of audio tags and are somewhat voice and context dependent. Read the prompting guide for further information.

Afrikaans (afr), Arabic (ara), Armenian (hye), Assamese (asm), Azerbaijani (aze), Belarusian (bel), Bengali (ben), Bosnian (bos), Bulgarian (bul), Catalan (cat), Cebuano (ceb), Chichewa (nya), Croatian (hrv), Czech (ces), Danish (dan), Dutch (nld), English (eng), Estonian (est), Filipino (fil), Finnish (fin), French (fra), Galician (glg), Georgian (kat), German (deu), Greek (ell), Gujarati (guj), Hausa (hau), Hebrew (heb), Hindi (hin), Hungarian (hun), Icelandic (isl), Indonesian (ind), Irish (gle), Italian (ita), Japanese (jpn), Javanese (jav), Kannada (kan), Kazakh (kaz), Kirghiz (kir), Korean (kor), Latvian (lav), Lingala (lin), Lithuanian (lit), Luxembourgish (ltz), Macedonian (mkd), Malay (msa), Malayalam (mal), Mandarin Chinese (cmn), Marathi (mar), Nepali (nep), Norwegian (nor), Pashto (pus), Persian (fas), Polish (pol), Portuguese (por), Punjabi (pan), Romanian (ron), Russian (rus), Serbian (srp), Sindhi (snd), Slovak (slk), Slovenian (slv), Somali (som), Spanish (spa), Swahili (swa), Swedish (swe), Tamil (tam), Telugu (tel), Thai (tha), Turkish (tur), Ukrainian (ukr), Urdu (urd), Vietnamese (vie), Welsh (cym)

Utforska artiklar av ElevenLabs-teamet

Product

Product

How we engineered RAG to be 50% faster

Tips from latency-sensitive RAG systems in production

Customer stories

Customer stories

Eagr.ai Supercharges Sales Training with ElevenLabs' Conversational AI Agents

Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in

1	[
2	{"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3	{"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4	{"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5	]
6

Vi presenterar Eleven v3 (alpha)

Why we built v3

Eleven v3 åtgärdar denna brist. Den byggdes från grunden för att leverera röster som suckar, viskar, skrattar och reagerar — och skapar tal som känns genuint responsivt och levande.

Hear v3 for yourself

Using audio tags

Till exempel kan du ange: ”[viskar] Något är på väg… [suckar] Jag kan känna det.” Eller för mer uttrycksfull kontroll kan du kombinera flera taggar:

v3 is our most expressive model

Läs mer

API-åtkomst och stöd i Studio kommer snart. För tidig åtkomst, vänligen

Try it today

How does the Eleven v3 80% discount work?

How were the samples in the video and website generated?

How does dialogue generation work?

Is this available over API?

What audio tags are supported?

What languages does it support?

Utforska artiklar av ElevenLabs-teamet

How we engineered RAG to be 50% faster

Eagr.ai Supercharges Sales Training with ElevenLabs' Conversational AI Agents