Czym są tagi audio Eleven v3 — i dlaczego są ważne

6 cze 2025 • 4 minut czytania

A man with glasses and a beard looking to the side in a room with bookshelves.

Tagi audio ElevenLabs kontrolują emocje głosu AI, tempo i efekty dźwiękowe.

Wraz z wydaniem Eleven v3, podpowiadanie audio stało się niezbędną umiejętnością. Zamiast wpisywać lub wklejać słowa, które ma wypowiedzieć głos AI, możesz teraz użyć nowej funkcji — Tagi Audio — aby kontrolować wszystko, od emocji po sposób dostarczania.

Eleven v3 to wersja alfa podgląd badawczy nowego modelu. Wymaga więcej projektowania podpowiedzi niż poprzednie modele — ale efekty są oszałamiające.

Tagi Audio ElevenLabs to słowa w nawiasach kwadratowych, które nowy model Eleven v3 może interpretować i używać do kierowania akcją dźwiękową. Mogą to być [podekscytowany], [szept], [westchnienie] aż po [strzał], [oklaski] i [eksplozja].

Tagi Audio pozwalają kształtować brzmienie głosów AI, w tym niewerbalne sygnały jak ton, pauzy i tempo. Niezależnie od tego, czy tworzysz wciągające audiobooki, interaktywne postacie, czy media oparte na dialogach, te proste narzędzia na poziomie skryptu dają precyzyjną kontrolę nad emocjami i sposobem dostarczania.

Reżyserowanie występu za pomocą Tagów Audio

Możesz umieszczać Tagi Audio w dowolnym miejscu w skrypcie, aby kształtować sposób dostarczania w czasie rzeczywistym. Możesz także używać kombinacji tagów w skrypcie lub nawet w zdaniu. Tagi dzielą się na główne kategorie:

Emocje

Te tagi pomagają ustawić emocjonalny ton głosu — czy to poważny, intensywny, czy radosny. Na przykład możesz użyć jednego lub kombinacji [smutny], [zły], [radosny] i [żałobny].

Kierunek dostarczania

Chodzi bardziej o ton i wykonanie. Możesz używać tych tagów do regulacji głośności i energii w scenach wymagających powściągliwości lub siły. Przykłady to: [szept], [krzyk] a nawet [x akcent].

Reakcje ludzkie

Prawdziwa naturalna mowa zawiera reakcje. Możesz użyć tego, aby dodać realizmu, wprowadzając naturalne, nieskryptowane momenty do mowy. Na przykład: [śmiech], [chrząknięcie] i [westchnienie].

Zbudowane na bardziej ekspresyjnym modelu

Podstawą tych funkcji jest nowa architektura v3. Model rozumie kontekst tekstu na głębszym poziomie, co oznacza, że może naturalniej podążać za emocjonalnymi wskazówkami, zmianami tonu i przejściami między mówcami. W połączeniu z Tagami Audio, to odblokowuje większą ekspresję niż było to wcześniej możliwe w TTS.

Możesz teraz także tworzyć dialogi wieloosobowe które wydają się spontaniczne — obsługując przerwania, zmiany nastroju i niuanse konwersacyjne przy minimalnym podpowiadaniu.

Dostępne teraz

Profesjonalne Klony Głosowe (PVC) nie są jeszcze w pełni zoptymalizowane dla Eleven v3, co może skutkować niższą jakością klonów w porównaniu do wcześniejszych modeli. W tej fazie podglądu badawczego najlepiej znaleźć Instant Voice Clone (IVC) lub zaprojektowany głos do projektu, jeśli potrzebujesz funkcji v3. Optymalizacja PVC dla v3 pojawi się wkrótce.80% off until the end of June. Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales. Whether you’re experimenting or deploying at scale, now’s the time to explore what’s possible.

Przeglądaj artykuły zespołu ElevenLabs

Materiały

Materiały

Eleven v3 Audio Tags: Świadomość sytuacyjna dla audio AI

Ulepsz mowę AI z Eleven v3 Audio Tags. Kontroluj ton, emocje i tempo dla naturalnej rozmowy. Dodaj świadomość sytuacyjną do zamiany tekstu na mowę.

Product

Product

How we engineered RAG to be 50% faster

Tips from latency-sensitive RAG systems in production

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się