.webp&w=3840&q=95)
How we engineered RAG to be 50% faster
Tips from latency-sensitive RAG systems in production
लंदन, यूनाइटेड किंगडम - लॉन्च कियाElevenLabsने, जो AI ऑडियो सॉफ़्टवेयर में विश्व नेता है, आज एक नया बहुभाषी वॉइस जनरेशन मॉडल लॉन्च किया जो 30 भाषाओं में "भावनात्मक समृद्धि" के साथ AI वॉइस उत्पन्न करने में सक्षम है।
यह प्रगति, जो पूरी तरह से आंतरिक अनुसंधान पर आधारित है, क्रिएटर्स को यूरोप, एशिया और मध्य पूर्व के अंतरराष्ट्रीय बाजारों के लिए ऑडियो नेटिव कंटेंट बनाने की अनुमति देगी। ElevenLabs ने पिछले अठारह महीनों में मानव भाषण संकेतों का विश्लेषण किया है, भाषण उत्पन्न करने में संदर्भ को समझने और भावनाओं को व्यक्त करने के लिए नए तंत्र बनाए हैं, साथ ही नई और अनूठी आवाज़ों को इकट्ठा किया है।
Eleven Multilingual v2 मॉडल, जब ElevenLabs के टेक्स्ट टू स्पीच प्लेटफ़ॉर्म में टेक्स्ट डाला जाता है, लगभग 30 लिखित भाषाओं को स्वचालित रूप से पहचानने और उनमें भाषण उत्पन्न करने की क्षमता प्रदान करता है, वह भी अभूतपूर्व प्रामाणिकता के स्तर पर।
इस बीच, चाहे आवाज़ कृत्रिम हो या क्लोन की गई, वक्ता की अनूठी आवाज़ की विशेषताएं सभी भाषाओं में संरक्षित रहेंगी, जिसमें उनकी मूल लहजा भी शामिल है। इसका मतलब है कि एक ही आवाज़ का उपयोग 30 अलग-अलग भाषाओं में कंटेंट को जीवंत बनाने के लिए किया जा सकता है।
यह प्रकाशनसभी कंटेंट क्रिएटर्स के लिए प्लेटफ़ॉर्म पर प्रोफेशनल वॉइस क्लोनिंग के सार्वजनिक रिलीज़ का अनुसरण करता है। यह प्रोडक्ट अपडेट, जो अतिरिक्त सुरक्षा और सुरक्षा सुविधाओं के साथ जारी किया गया है, उपयोगकर्ताओं को अपनी आवाज़ की एक डिजिटल प्रति बनाने की अनुमति देता है; एक वर्चुअल संस्करण
जो मूल से अलग नहीं किया जा सकता। आज का रिलीज़ आपके आवाज़ को लगभग 30 भाषाओं में बोलने की क्षमता प्रदान करता है जो बहुभाषी मॉडल द्वारा पेश की जाती हैं।
समर्थित भाषाओं में शामिल हैं; कोरियाई, डच, तुर्की, स्वीडिश, इंडोनेशियाई, वियतनामी, फिलिपिनो, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बल्गेरियाई, मलेशियाई, हंगेरियन, नॉर्वेजियन, स्लोवाक, क्रोएशियाई, क्लासिकल अरबी और तमिल। ये पहले से उपलब्ध भाषाओं में शामिल हो गई हैं जिनमें अंग्रेजी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इटालियन, हिंदी और पुर्तगाली शामिल हैं।
ElevenLabs ने, हाल ही में फीचर्स के लॉन्च और प्लेटफ़ॉर्म के निरंतर सुधार के बाद, आज पुष्टि की कि प्लेटफ़ॉर्म आधिकारिक तौर पर बीटा संस्करण से बाहर आ जाएगा। यह संक्रमण कंपनी की अपने एक मिलियन से अधिक वैश्विक उपयोगकर्ताओं को विश्वसनीय और उन्नत उपकरण प्रदान करने की प्रतिबद्धता में एक महत्वपूर्ण क्षण का प्रतिनिधित्व करता है।
भविष्य को देखते हुए, ElevenLabs उपयोगकर्ताओं को प्लेटफ़ॉर्म पर आवाज़ें साझा करने और नई आवाज़ के विकास का लाभ उठाने की अनुमति देने के लिए एक तंत्र पेश करने की योजना बना रहा है, जिससे मानव और AI के बीच सहयोग के अवसर बढ़ेंगे।
ElevenLabs के सीईओ और सह-संस्थापक माटी स्टानिस्ज़व्स्की ने टिप्पणी की:
"ElevenLabs ने एक सपने के साथ शुरुआत की कि सभी कंटेंट को किसी भी भाषा और किसी भी आवाज़ में वैश्विक रूप से उपलब्ध कराया जाए। Eleven Multilingual v2 के रिलीज़ ने हमें इस सपने को वास्तविकता में बदलने के एक कदम और करीब ला दिया है और मानव गुणवत्ता वाली AI आवाज़ों को हर लहजे में उपलब्ध कराया है।
"हमारे टेक्स्ट टू स्पीच टूल्स सभी कंटेंट क्रिएटर्स के लिए उच्च गुणवत्ता वाली बोली जाने वाली क्षमताएं प्रदान करते हैं। ये लाभ अब लगभग 30 भाषाओं में बहुभाषी अनुप्रयोगों तक विस्तारित हो गए हैं। हम अंततः AI की मदद से अधिक भाषाओं और आवाज़ों को कवर करने की उम्मीद करते हैं, और कंटेंट के लिए भाषा बाधाओं को दूर करते हैं। ElevenLabs में, हमें विश्वास है कि ये पहुंच में सुधार अंततः अधिक रचनात्मकता, नवाचार और विविधता को बढ़ावा देंगे।"
कई भाषाओं में उच्च गुणवत्ता वाले ऑडियो कंटेंट बनाने के लिए आवश्यक लागत और संसाधनों को कम करके, ElevenLabs कंपनियों और क्रिएटर्स को अधिक रचनात्मक और सुलभ कंटेंट बनाने की अनुमति देता है जो संस्कृतियों और भाषाओं के बीच गूंजता है।
बहुभाषी स्पीच जनरेशन टूल गेम डेवलपर्स और स्वतंत्र प्रकाशकों के लिए नई संभावनाएं प्रदान करता है, जिससे गेमिंग अनुभवों और ऑडियो कंटेंट का अंतरराष्ट्रीय दर्शकों के लिए अनुवाद किया जा सके, और खिलाड़ियों और श्रोताओं के साथ उनकी अपनी भाषाओं में संवाद किया जा सके, बिना बोले गए शब्द की गुणवत्ता या सटीकता से समझौता किए।
इसी तरह, शैक्षिक संस्थानों के पास अब लक्षित भाषाओं में सटीक ऑडियो कंटेंट प्रदान करने के साधन हैं, जिससे भाषा समझ और उच्चारण कौशल को बढ़ावा मिलता है, साथ ही विभिन्न शिक्षण शैलियों और अंतरराष्ट्रीय छात्रों की सीखने की जरूरतों को पूरा किया जाता है।
सभी प्रकार के क्रिएटर्स ElevenLabs के टूल का उपयोग कर सकते हैं ताकि दृष्टिबाधित या अतिरिक्त सीखने की जरूरतों वाले लोगों के लिए कंटेंट की पहुंच को बेहतर बनाया जा सके, दृश्य सामग्री को कई भाषाओं में उपलब्ध भाषण के साथ पूरक करके।
जनवरी 2023 में अनावरण किए गए AI ऑडियो टूल्स के अपने प्रारंभिक सेट में किसी भी टेक्स्ट को पहले से डिज़ाइन की गई कृत्रिम आवाज़ों की एक श्रृंखला के माध्यम से भाषण में बदलने की क्षमता और अपनी आवाज़ की एक प्रति बनाने की क्षमता शामिल थी। बहुभाषी स्पीच सिंथेसिस टूल ElevenLabs के मिशन में एक और कदम है कि सभी कंटेंट को किसी भी भाषा और किसी भी आवाज़ में वैश्विक रूप से उपलब्ध कराया जाए।
कई क्षेत्रों और रचनात्मक क्षेत्रों ने पहले ही इस तकनीक को अपनाया है, जिसमें स्वतंत्र लेखकों को ऑडियोबुक बनाने में सक्षम बनाना, वीडियो गेम में सहायक पात्रों को आवाज़ देना, दृष्टिबाधित लोगों को ऑनलाइन लिखित सामग्री तक पहुंचने में मदद करना, और दुनिया के पहले AI रेडियो चैनल को संचालित करना शामिल है। ElevenLabs ने कई प्रमुख कंटेंट क्रिएटर्स और स्टूडियो के साथ साझेदारी की है, जिसमें AI वीडियो जनरेटर D-ID, दुनिया के सबसे बड़े ऑडियोबुक प्रकाशकों में से एक Storytel, ओपन एक्सेस साइंटिफिक वीडियो प्लेटफ़ॉर्म ScienceCast जो arXiv पर प्रकाशित वैज्ञानिक शोध पत्रों को संक्षेपित करता है, वैश्विक कंटेंट क्रिएटर प्लेटफ़ॉर्म TheSoul Publishing, और अद्भुत गेम डेवलपर्स जैसे Embark Studios और Paradox Interactive, और MNTN मीडिया प्लेटफ़ॉर्म शामिल हैं।
Tips from latency-sensitive RAG systems in production
Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.
ElevenLabs द्वारा संचालित एजेंट्स