Avec la sortie de Eleven v3, l'audio prompting est devenu une compétence essentielle. Au lieu de taper ou coller les mots que vous voulez que la voix IA dise, vous pouvez maintenant utiliser une nouvelle capacité — Tags Audio — pour tout contrôler, de l'émotion à la livraison.
Eleven v3 est une version alpha aperçu de recherche du nouveau modèle. Cela nécessite plus d'ingénierie de promptque les modèles précédents — mais les générations sont époustouflantes.
Les Tags Audio d'ElevenLabs sont des mots entre crochets que le nouveau modèle Eleven v3 peut interpréter et utiliser pour diriger l'action audible. Ils peuvent être [excité], [chuchote], et [soupire] jusqu'à [coup de feu], [applaudissements] et [explosion].
Les Tags Audio vous permettent de façonner le son des voix IA, y compris les indices non verbaux comme le ton, les pauses et le rythme. Que vous créiez des livres audio immersifs, des personnages interactifs ou des médias axés sur le dialogue, ces outils simples au niveau du script vous donnent un contrôle précis sur l'émotion et la livraison.
Diriger la performance avec les Tags Audio
Vous pouvez placer des Tags Audio n'importe où dans votre script pour façonner la livraison en temps réel. Vous pouvez également utiliser des combinaisons de tags dans un script ou même une phrase. Les tags se répartissent en catégories principales :
Émotions
Ces tags peuvent vous aider à définir le ton émotionnel de la voix — qu'il soit sombre, intense ou joyeux. Par exemple, vous pourriez utiliser une ou une combinaison de [triste], [en colère], [joyeusement] et [chagriné].
Direction de la livraison
Il s'agit davantage du ton et de la performance. Vous pouvez utiliser ces tags pour ajuster le volume et l'énergie pour des scènes nécessitant retenue ou force. Exemples : [chuchote], [crie] et même [accent x].
Réactions humaines
Le véritable discours naturel inclut des réactions. Par exemple, vous pouvez utiliser cela pour ajouter du réalisme en intégrant des moments naturels et non scriptés dans le discours. Par exemple : [rit], [se racle la gorge] et [soupire].
Construit sur un modèle plus expressif
Sous-tendant ces fonctionnalités, la nouvelle architecture derrière v3. Le modèle comprend le contexte du texte à un niveau plus profond, ce qui signifie qu'il peut suivre les indices émotionnels, les changements de ton et les transitions de locuteur plus naturellement. Combiné avec les Tags Audio, cela permet une expressivité plus grande qu'auparavant dans le TTS.
Vous pouvez maintenant aussi créer des dialogues multi-locuteurs qui semblent spontanés — gérant les interruptions, les changements d'humeur et les nuances conversationnelles avec un minimum de sollicitation.
Disponible maintenant
Les clones vocaux professionnels (PVC) ne sont actuellement pas entièrement optimisés pour Eleven v3, ce qui peut entraîner une qualité de clone potentiellement inférieure par rapport aux modèles précédents. Pendant cette phase de prévisualisation de recherche, il serait préférable de trouver un clone vocal instantané (IVC) ou une voix conçue pour votre projet si vous devez utiliser les fonctionnalités de v3. L'optimisation des PVC pour v3 arrive bientôt.80% off until the end of June. Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales. Whether you’re experimenting or deploying at scale, now’s the time to explore what’s possible.
Améliorez la parole IA avec les Étiquettes Audio Eleven v3. Contrôlez le ton, l'émotion et le rythme pour une conversation naturelle. Ajoutez une conscience situationnelle à votre Text to Speech.
Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.