Eleven v3 ऑडियो टैग्स क्या हैं — और ये क्यों महत्वपूर्ण हैं

ElevenLabs के ऑडियो टैग्स AI वॉइस की भावना, गति और साउंड इफेक्ट्स को नियंत्रित करते हैं।

Audio tags

के रिलीज़ के साथ Eleven v3, ऑडियो प्रॉम्प्टिंग अब एक आवश्यक कौशल बन गया है। जिस वाक्य को आप AI वॉइस से कहलवाना चाहते हैं, उसे टाइप या पेस्ट करने के बजाय, अब आप एक नई क्षमता का उपयोग कर सकते हैं — ऑडियो टैग्स — जिससे आप भावना से लेकर डिलीवरी तक सब कुछ नियंत्रित कर सकते हैं।

Eleven v3 एक अल्फा रिलीज़ है रिसर्च प्रीव्यू नए मॉडल का। इसमें अधिक प्रॉम्प्ट इंजीनियरिंगकी आवश्यकता होती है पिछले मॉडलों की तुलना में — लेकिन जनरेशन अद्भुत हैं।

ElevenLabs ऑडियो टैग्स वे शब्द हैं जो वर्ग कोष्ठकों में होते हैं और नया Eleven v3 मॉडल उन्हें सुनने योग्य क्रिया को निर्देशित करने के लिए समझ सकता है। ये कुछ भी हो सकते हैं जैसे [उत्साहित], [फुसफुसाहट], और [आहें] से लेकर [बंदूक की गोली], [ताली] और [विस्फोट]।

ऑडियो टैग्स आपको AI आवाज़ों की ध्वनि को आकार देने देते हैं, जिसमें गैर-मौखिक संकेत जैसे टोन, विराम, और गति शामिल हैं। चाहे आप इमर्सिव ऑडियोबुक्स बना रहे हों, इंटरैक्टिव कैरेक्टर्स, या संवाद-चालित मीडिया, ये सरल स्क्रिप्ट-स्तरीय उपकरण आपको भावना और डिलीवरी पर सटीक नियंत्रण देते हैं।

ऑडियो टैग्स के साथ प्रदर्शन निर्देशित करना

आप अपने स्क्रिप्ट में कहीं भी ऑडियो टैग्स रख सकते हैं ताकि वास्तविक समय में डिलीवरी को आकार दे सकें। आप स्क्रिप्ट या यहां तक कि एक वाक्य के भीतर टैग्स के संयोजन का भी उपयोग कर सकते हैं। टैग्स मुख्य श्रेणियों में आते हैं:

भावनाएँ

ये टैग्स आपको आवाज़ के भावनात्मक टोन को सेट करने में मदद कर सकते हैं — चाहे वह गंभीर हो, तीव्र हो, या खुशमिजाज। उदाहरण के लिए आप [दुखी], [गुस्सा], [खुशी से] और [विषादपूर्ण] का उपयोग कर सकते हैं।

Background
Background

डिलीवरी दिशा

ये अधिक टोन और प्रदर्शन के बारे में हैं। आप इन टैग्स का उपयोग उन दृश्यों के लिए वॉल्यूम और ऊर्जा को समायोजित करने के लिए कर सकते हैं जिन्हें संयम या बल की आवश्यकता होती है। उदाहरण शामिल हैं: [फुसफुसाहट], [चिल्लाना] और यहां तक कि [x उच्चारण]।

Background
Background

मानव प्रतिक्रियाएँ

सच्ची प्राकृतिक वाणी में प्रतिक्रियाएँ शामिल होती हैं। उदाहरण के लिए, आप इसे प्राकृतिक, बिना स्क्रिप्ट के क्षणों को भाषण में एम्बेड करके यथार्थवाद जोड़ने के लिए उपयोग कर सकते हैं। उदाहरण: [हंसना], [गला साफ करना] और [आहें]।

Background
Background

एक अधिक अभिव्यक्त मॉडल पर निर्मित

इन विशेषताओं के पीछे v3 की नई आर्किटेक्चर है। मॉडल टेक्स्ट के संदर्भ को गहराई से समझता है, जिसका मतलब है कि यह भावनात्मक संकेतों, टोन शिफ्ट्स, और वक्ता के संक्रमणों को अधिक स्वाभाविक रूप से समझ सकता है। ऑडियो टैग्स के साथ मिलकर, यह TTS में पहले से संभव से अधिक अभिव्यक्ति को अनलॉक करता है।

अब आप मल्टी-स्पीकर संवाद भी बना सकते हैं जो सहज महसूस होते हैं — न्यूनतम संकेत के साथ रुकावटों, मूड शिफ्ट्स, और संवादात्मक बारीकियों को संभालते हैं।

अब उपलब्ध

प्रोफेशनल वॉइस क्लोन (PVCs) फिलहाल Eleven v3 के लिए पूरी तरह से अनुकूलित नहीं हैं, जिससे पहले के मॉडल की तुलना में क्लोन की गुणवत्ता कम हो सकती है। इस रिसर्च प्रीव्यू चरण के दौरान, अगर आपको v3 फीचर्स का उपयोग करना है, तो आपके प्रोजेक्ट के लिए एक इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई वॉइस ढूंढना बेहतर होगा। v3 के लिए PVC का अनुकूलन जल्द ही आ रहा है।80% off until the end of June. Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales. Whether you’re experimenting or deploying at scale, now’s the time to explore what’s possible.

ElevenLabs टीम के लेखों को देखें

रिसोर्सेज़
v3

Eleven v3 ऑडियो टैग्स: AI ऑडियो को स्थिति की जानकारी देना

Eleven v3 ऑडियो टैग्स के साथ AI स्पीच को बेहतर बनाएं। प्राकृतिक बातचीत के लिए टोन, भावना, और गति को नियंत्रित करें। अपने टेक्स्ट टू स्पीच में स्थिति की जानकारी जोड़ें।

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें