.webp&w=3840&q=95)
How we engineered RAG to be 50% faster
Tips from latency-sensitive RAG systems in production
हमारा वर्तमान डीप लर्निंग दृष्टिकोण अधिक डेटा, अधिक कंप्यूटेशनल पावर, और नई तकनीकों का उपयोग करता है ताकि हमारा सबसे उन्नत स्पीच सिंथेसिस मॉडल प्रदान किया जा सके
आज हम Eleven Multilingual v1 लॉन्च करने के लिए उत्साहित हैं - हमारा उन्नत स्पीच सिंथेसिस मॉडल जो सात नई भाषाओं का समर्थन करता है: फ्रेंच, जर्मन, हिंदी, इटालियन, पोलिश, पुर्तगाली, और स्पेनिश. Eleven Monolingual v1 को शक्ति देने वाले शोध पर आधारित, हमारा वर्तमान डीप लर्निंग दृष्टिकोण अधिक डेटा, अधिक कंप्यूटेशनल पावर और नए तकनीकों का उपयोग करता है, जो एक परिष्कृत मॉडल के अंदर पाठ्य सूक्ष्मताओं को समझने और भावनात्मक रूप से समृद्ध प्रदर्शन देने में सक्षम है। यह प्रगति रचनाकारों, गेम डेवलपर्स और प्रकाशकों के लिए रचनात्मक क्षितिज का विस्तार करती है और अधिक स्थानीयकृत, सुलभ और कल्पनाशील सामग्री बनाने के लिए जनरेटिव मीडिया के उपयोग का मार्ग प्रशस्त करती है।
नया मॉडल सभी सब्सक्रिप्शन योजनाओं में उपलब्ध है और आप इसे हमारे बीटा प्लेटफॉर्म पर अभी आज़मा सकते हैं।
इसे उपयोग करने के लिए, बस स्पीच सिंथेसिस पैनल में नए जोड़े गए ड्रॉप-डाउन मेनू से इसे चुनें।
अपने पूर्ववर्ती की तरह, नया मॉडल पूरी तरह से हमारे इन-हाउस शोध पर आधारित है। यह सभी ताकतों को बनाए रखता है जिसने Eleven Monolingual v1 को एक उत्कृष्ट कहानी कहने का उपकरण बनाया, जैसे कि संदर्भ के आधार पर डिलीवरी को समायोजित करने और इरादे और भावनाओं को अत्यधिक वास्तविक रूप से व्यक्त करने की क्षमता। इन विशेषताओं को अब बहुभाषी डेटा प्रशिक्षण के माध्यम से नई समर्थित भाषाओं में विस्तारित किया गया है।
मॉडल की एक उल्लेखनीय विशेषता इसकी बहुभाषी पाठ की पहचान करने और उसे उपयुक्त रूप से व्यक्त करने की क्षमता है। अब आप एक ही प्रॉम्प्ट का उपयोग करके कई भाषाओं में स्पीच जनरेट कर सकते हैं जबकि प्रत्येक वक्ता की अनूठी आवाज़ की विशेषताओं को बनाए रखते हुए। सर्वोत्तम परिणामों के लिए, हम एक ही भाषा प्रॉम्प्ट प्रदान करने की सलाह देते हैं। हालांकि मॉडल पहले से ही एक साथ कई भाषाओं के साथ अच्छी तरह से प्रदर्शन कर सकता है, फिर भी और सुधार की आवश्यकता है।
नया मॉडल अन्य VoiceLab विशेषताओं जैसे कि इंस्टेंट वॉइस क्लोनिंग और वॉइस डिज़ाइन के साथ संगत है। सभी बनाई गई आवाज़ों से उम्मीद की जाती है कि वे अपनी मूल भाषण विशेषताओं को सभी भाषाओं में बनाए रखेंगी, जिसमें उनका मूल उच्चारण भी शामिल है।
यह कहा जा रहा है, मॉडल की ज्ञात सीमाएँ हैं: संख्याएँ, संक्षेपाक्षर, और विदेशी शब्द कभी-कभी किसी अन्य भाषा में प्रॉम्प्ट किए जाने पर अंग्रेजी में डिफ़ॉल्ट हो जाते हैं। उदाहरण के लिए, संख्या "11", या शब्द “रेडियो”, स्पेनिश प्रॉम्प्ट में टाइप किए जाने पर अंग्रेजी में उच्चारित हो सकते हैं। हम सुधार पर काम कर रहे हैं, इसलिए हम लक्ष्य भाषा में संक्षेपाक्षर और संख्याएँ लिखने की सलाह देते हैं।
ElevenLabs की शुरुआत इस सपने के साथ हुई थी कि सभी सामग्री को किसी भी भाषा और किसी भी आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए। हमारी टीम के सदस्य पूरे यूरोप, एशिया और अमेरिका से आते हैं। जैसे-जैसे हमारी टीम और दुनिया अधिक बहुभाषी होती जा रही है, हम हर भाषा में मानव-गुणवत्ता वाली AI आवाज़ें उपलब्ध कराने के दृष्टिकोण के पीछे और अधिक एकजुट हो रहे हैं।
हमारे टेक्स्ट टू स्पीच (TTS) मॉडल का नवीनतम संस्करण इस दृष्टिकोण को वास्तविकता बनाने के हमारे मार्ग पर सिर्फ एक प्रारंभिक कदम है। मानव-गुणवत्ता वाली AI आवाज़ों के आगमन के साथ, उपयोगकर्ता और व्यवसाय अब अपनी आवश्यकताओं, प्राथमिकताओं और पसंद के अनुसार ऑडियो सामग्री तैयार और अनुकूलित कर सकते हैं। इसने पहले ही रचनाकारों, छोटे व्यवसायों और स्वतंत्र कलाकारों के लिए खेल के मैदान को समतल करने की क्षमता दिखाई है। AI ऑडियो की शक्ति का उपयोग करके, उपयोगकर्ता अब उच्च-गुणवत्ता वाले श्रवण अनुभव विकसित कर सकते हैं जो अधिक संसाधनों वाले बड़े संगठनों द्वारा उत्पादित अनुभवों के बराबर हैं।
ये लाभ अब बहुभाषी, बहुसांस्कृतिक और शैक्षिक अनुप्रयोगों तक विस्तारित होते हैं, उपयोगकर्ताओं, कंपनियों और संस्थानों को व्यापक दर्शकों के साथ प्रतिध्वनित होने वाली प्रामाणिक ऑडियो का उत्पादन करने में सक्षम बनाते हैं। आवाज़ों, उच्चारणों और भाषाओं की एक विस्तृत श्रृंखला प्रदान करके, AI सांस्कृतिक अंतराल को पाटने और वैश्विक समझ को बढ़ावा देने में मदद करता है। Eleven में, हम मानते हैं कि यह नई सुलभता अंततः अधिक रचनात्मकता, नवाचार और विविधता को बढ़ावा देती है।
सामग्री निर्माता जो विविध दर्शकों के साथ जुड़ना चाहते हैं अब उनके पास सांस्कृतिक अंतराल को पाटने और समावेशिता को बढ़ावा देने के उपकरण हैं।
गेम डेवलपर्स और प्रकाशक अंतरराष्ट्रीय दर्शकों के लिए इमर्सिव, स्थानीयकृत अनुभव बना सकते हैं, भाषा बाधाओं को पार करते हुए खिलाड़ियों और श्रोताओं के साथ जुड़ सकते हैं, और गुणवत्ता या सटीकता में कोई कमी किए बिना जुड़ाव और दक्षता को अधिकतम कर सकते हैं।
शैक्षिक संस्थान अब अपने लक्षित भाषाओं में विभिन्न उपयोगकर्ताओं के लिए ऑडियो सामग्री तैयार करने के साधन रखते हैं, भाषा समझ और यहां तक कि उच्चारण कौशल को बढ़ावा देते हैं, साथ ही विभिन्न शिक्षण शैलियों और सीखने की आवश्यकताओं को पूरा करते हैं।
सुलभता संस्थान अब दृष्टिबाधित या सीखने में कठिनाई वाले लोगों को और अधिक सशक्त बना सकते हैं, उन्हें कम सुलभ संसाधनों को उनकी आवश्यकताओं के अनुसार सामग्री और रूप में अनुकूल माध्यम में आसानी से परिवर्तित करने के साधन प्रदान करके।
हम यह देखने के लिए इंतजार नहीं कर सकते कि हमारे वर्तमान और भविष्य के रचनाकार और डेवलपर्स क्या संभव है इसकी सीमाओं को कैसे आगे बढ़ाते हैं!
Tips from latency-sensitive RAG systems in production
Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.
ElevenLabs द्वारा संचालित एजेंट्स