.webp&w=3840&q=95)
How we engineered RAG to be 50% faster
Tips from latency-sensitive RAG systems in production
सिंथेटिक आवाज़ें बनाने के लिए पहला जनरेटिव मॉडल यहाँ है
पिछले महीने हमने घोषणा की कि हमारी वॉइस क्रिएशन के लिए जनरेटिव मॉडल आ रहा है। यह आखिरकार यहाँ है और अपने तरह का पहला है - हम इसे Voice Design कहते हैं। यह फीचर आपको जेंडर, उम्र और एक्सेंट जैसी मुख्य विशेषताओं का चयन करके नई आवाज़ें बनाने देता है। और भले ही मुख्य पैरामीटर सेटिंग्स समान हों, हमारा मॉडल हर बार जब आप जनरेट करते हैं तो रैंडमनेस जोड़ता है ताकि हर आवाज़ जो आप सुनें, पूरी तरह से अनोखी हो। वॉइस डिज़ाइन का हिस्सा है हमारा व्यापक प्रयास, प्रकाशकों और क्रिएटर्स को सबसे बहुमुखी AI स्टोरीटेलिंग टूल्स से लैस करने का।
वॉइस डिज़ाइन के पीछे का मॉडल मुख्य रूप से हमारे स्पीच सिंथेसिस और वॉइस क्लोनिंग पर शोध का परिणाम है, हालांकि स्वतंत्र रूप से हमें हमेशा स्पीच के लिए एक जनरेटिव टूल का विचार पसंद आया। हमने पहले ही जनरेटिव टेक्स्ट-टू-इमेज और चैटबॉट मॉडल के लिए व्यावहारिक अनुप्रयोग देखे हैं लेकिन ऑडियो के लिए एक समान टूल गायब था। हमारी लॉन्च के बाद से हमें हमारे बैंक में अधिक स्पीकर्स जोड़ने के अनुरोध मिल रहे थे। लाइब्रेरी को अनगिनत आवाज़ों से भरने और आपको यह सुनने के लिए मजबूर करने के बजाय कि कौन कौन है, हमने स्क्रिप्ट को पलटने और आपको स्पीकर की पहचान निर्धारित करने का निर्णय लिया, जबकि इन सीमाओं के भीतर अनंत विविधता की अनुमति दी।
वॉइस चयन में नियंत्रण की डिग्री जोड़ना महत्वपूर्ण था क्योंकि हमारे यूज़र्स अक्सर अपने स्क्रिप्ट्स के लिए ठोस भाषण विशेषताओं की तलाश करते हैं। यह सुनिश्चित करना कि प्रत्येक जनरेट की गई आवाज़ अनोखी हो, उतना ही महत्वपूर्ण था क्योंकि कई उपयोग के मामले, या कम से कम, एक आवाज़ के लिए विशेष पहुंच होने से लाभान्वित होते हैं। यूज़र्स को एक नया रचनात्मक आउटलेट प्रदान करने के अलावा, वॉइस डिज़ाइन के साथ जनरेट की गई आवाज़ें पूरी तरह से कृत्रिम हैं और किसी वास्तविक व्यक्ति से संबंधित नहीं हैं।
हमारे मुख्य स्पीच सिंथेसिस टूल के साथ लेखन को उच्च गुणवत्ता वाले ऑडियो में आसानी से बदलने के अलावा, पुस्तक लेखक अब वॉइस डिज़ाइन का उपयोग करके वर्णन पर कलात्मक नियंत्रण कर सकते हैं और प्रत्येक चरित्र की व्यक्तित्व को विशेष आवाज़ों के साथ आकार दे सकते हैं।
समाचार प्रकाशक जो ऑडियो में कदम रख रहे हैं, उन्हें अपनी कहानियों के लिए आवाज़ों की आवश्यकता होती है। क्योंकि कथाकार उन प्रकाशनों के साथ पहचाने जाते हैं जिन्हें वे प्रस्तुत करते हैं, सही वॉइसओवर चुनना एक महत्वपूर्ण कार्य बन जाता है जो अक्सर दोहराया नहीं जाता। वॉइस डिज़ाइन प्रकाशकों को तुरंत अनगिनत कथाकारों को चुनने और तुलना करने की अनुमति देता है। यह उन्हें यह सुनिश्चित करने की शांति भी देता है कि एक विशेष आवाज़ केवल उन्हें ही प्रस्तुत करती है।
गेम डेवलपर्स अब यह चुनने की आवश्यकता नहीं है कि क्या कोई विशेष चरित्र रिकॉर्डिंग लागत को सही ठहराता है। हजारों पहले मूक NPCs अब अनोखी व्यक्तित्व प्राप्त कर सकते हैं, आभासी इमर्शन की सीमाओं को आगे बढ़ाते हुए।
चाहे आप एक कंटेंट क्रिएटर अपने अगले रिलीज़ पर काम कर रहे हों या एक कॉर्पोरेट अधिकारी कंपनी संचार को आवाज़ देने की तलाश में हों, विशेष उपयोग के मामलों और दर्शकों के लिए जीवन्त, आकर्षक ऑडियो डिज़ाइन करने की संभावनाएं अब असीमित हैं।
वॉइस डिज़ाइन उन कई विशेषताओं में से एक है जो हम इस वर्ष वर्णन संपादन के लिए पेश करने की योजना बना रहे हैं। अगला है स्टूडियो - हमारा नया वर्कस्टेशन जो बड़े टेक्स्ट्स को संरचित करने, विराम डालने, ऑडियो के टुकड़ों को पुनः उत्पन्न करने और टेक्स्ट के भागों को विभिन्न स्पीकर्स को असाइन करने के लिए है। स्टूडियो मार्च के अंत में आ रहा है और इसे इस वर्ष की दूसरी तिमाही में इंटोनेशन एडिटिंग सपोर्ट द्वारा पूरक किया जाएगा।
Tips from latency-sensitive RAG systems in production
Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.
ElevenLabs द्वारा संचालित एजेंट्स