.webp&w=3840&q=95)
How we engineered RAG to be 50% faster
Tips from latency-sensitive RAG systems in production
यूके लंदन - वॉइस AI सॉफ़्टवेयर के क्षेत्र में एक वैश्विक नेता ElevenLabsने आज 'भावनात्मक रूप से समृद्ध' AI ऑडियो को सटीक रूप से उत्पन्न करने में सक्षम 30 भाषाओं में एक नया बहुभाषी वॉइस जनरेशन मॉडल लॉन्च किया।
पूरी तरह से अपनी रिसर्च पर आधारित इस कदम से क्रिएटर्स यूरोप, एशिया और मध्य पूर्व के अंतरराष्ट्रीय बाजारों को लक्षित कर स्थानीयकृत ऑडियो सामग्री बना सकते हैं। ElevenLabs ने पिछले 18 महीनों में मानव भाषण संकेतकों का विश्लेषण किया है, भाषण निर्माण में संदर्भ को समझने और भावनाओं को व्यक्त करने के लिए नए तंत्र बनाए हैं, और नई और अनोखी आवाज़ों का सिंथेसिस किया है।
Eleven Multilingual v2 के साथ, जब टेक्स्ट ElevenLabs टेक्स्ट टू स्पीच प्लेटफॉर्म में डाला जाता है, नया मॉडल लगभग 30 लिपि भाषाओं को स्वचालित रूप से पहचानता है और उस भाषा में अभूतपूर्व स्तर की प्रामाणिकता के साथ आवाज उत्पन्न कर सकता है।
साथ ही, चाहे सिंथेटिक वॉइस का उपयोग हो या क्लोन की गई आवाज़ का, वक्ता की अनूठी आवाज़ की विशेषताएं, मूल लहजे सहित, सभी भाषाओं में बनी रहती हैं। यानी, आप एक ही आवाज़ का उपयोग करके 30 भाषाओं में सामग्री को जीवंत बना सकते हैं।
यह वितरण प्लेटफॉर्म के सभी क्रिएटर्स के लिए Professional Voice Cloning के सार्वजनिक रूप से उपलब्ध होने के बाद आता है। अतिरिक्त सुरक्षा और सुरक्षा सुविधाओं के साथ लॉन्च किए गए इस प्रोडक्ट अपडेट के माध्यम से, उपयोगकर्ता अपनी आवाज़ की लगभग अप्रभेद्य डिजिटल
प्रतिलिपि बना सकते हैं। आज का रिलीज़ लगभग 30 भाषाओं में बहुभाषी मॉडल की आवाज़ों को उपलब्ध कराने का संकेत देता है।
समर्थित भाषाओं में कोरियाई, डच, तुर्की, स्वीडिश, इंडोनेशियाई, वियतनामी, फिलिपिनो, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बुल्गारियाई, मलय, हंगेरियन, नॉर्वेजियन, स्लोवाक, क्रोएशियाई, क्लासिकल अरबी और तमिल शामिल हैं। ये अंग्रेजी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इटालियन, हिंदी और पुर्तगाली जैसी पहले से उपलब्ध भाषाओं में शामिल हो गए हैं।
हाल के फीचर लॉन्च और प्लेटफॉर्म के निरंतर सुधार के बाद, ElevenLabs ने आज पुष्टि की कि प्लेटफॉर्म आधिकारिक तौर पर बीटा संस्करण में लॉन्च हो गया है। यह परिवर्तन 10 लाख से अधिक वैश्विक उपयोगकर्ताओं को विश्वसनीय अत्याधुनिक उपकरण प्रदान करने के लिए कंपनी की प्रतिबद्धता में एक महत्वपूर्ण क्षण का जश्न मनाता है।
आगे चलकर ElevenLabs उपयोगकर्ताओं को प्लेटफॉर्म पर आवाज़ें साझा करने और नई ऑडियो विकास के लाभों का आनंद लेने के लिए तंत्र पेश करके मानव-AI सहयोग के अवसरों को बढ़ावा देने की योजना बना रहा है।
ElevenLabs के सीईओ और सह-संस्थापक Mati Staniszewski कहते हैं:
“ElevenLabs का सपना था कि हर भाषा और आवाज़ में हर सामग्री तक सभी की पहुँच हो सके। Eleven Multilingual v2 के लॉन्च के साथ हम इस सपने को वास्तविकता में बदलने के लिए एक कदम और
“TTS (टेक्स्ट टू स्पीच) उत्पादन उपकरण खेल के मैदान को समान करते हैं और सभी क्रिएटर्स को उच्चतम गुणवत्ता की वॉइस ऑडियो क्षमताएं प्रदान करते हैं। ये फायदे अब लगभग 30 भाषाओं में बहुभाषी एप्लिकेशन के रूप में विस्तारित होते हैं। हम AI की मदद से अधिक भाषाओं और आवाज़ों को कवर करने और सामग्री के भाषाई बाधाओं को हटाने की
कई भाषाओं में उच्च गुणवत्ता वाली ऑडियो सामग्री बनाने की लागत और संसाधनों को कम करके ElevenLabs कंपनियों और क्रिएटर्स को अधिक कल्पनाशील और सुलभ सामग्री बनाने में मदद करता है जो संस्कृति और भाषा के पार सहानुभूति पैदा कर सके।
स्वतंत्र गेम डेवलपर्स और प्रकाशकों के लिए बहुभाषी वॉइस जनरेशन टूल्स अंतरराष्ट्रीय दर्शकों के लिए गेम अनुभव और ऑडियो सामग्री का अनुवाद करने के नए अवसर प्रदान करते हैं, जिससे वे अपनी भाषा में खिलाड़ियों और श्रोताओं से जुड़ सकते हैं बिना वॉइस ऑडियो की गुणवत्ता या सटीकता को प्रभावित किए।
इसी तरह, शैक्षणिक संस्थान अब शिक्षार्थियों को लक्षित भाषा में सटीक ऑडियो सामग्री तुरंत प्रदान कर सकते हैं, भाषा समझ और उच्चारण कौशल को मजबूत कर सकते हैं, और अंतरराष्ट्रीय छात्रों के लिए विभिन्न शिक्षण शैलियों और सीखने की आवश्यकताओं को पूरा कर सकते हैं।
सभी प्रकार के क्रिएटर्स ElevenLabs के टूल्स का उपयोग करके कई भाषाओं में उपलब्ध आवाज़ों के साथ दृश्य सामग्री को पूरक कर सकते हैं, जिससे दृष्टिबाधित या अतिरिक्त सीखने की आवश्यकता वाले लोगों के लिए सामग्री की पहुँच को बढ़ा सकते हैं।
जनवरी 2023 में जारी किए गए प्रारंभिक AI वॉइस टूल्स में पूर्व-डिज़ाइन किए गए सिंथेटिक वॉइस विकल्पों के माध्यम से किसी भी टेक्स्ट को आवाज़ में बदलने की क्षमता और अपनी आवाज़ की प्रतिलिपि बनाने की क्षमता शामिल थी। बहुभाषी वॉइस सिंथेसिस टूल्स ElevenLabs के मिशन के लिए एक और प्रगति है कि हर भाषा और आवाज़ में हर सामग्री तक सभी की पहुँच हो।
यह तकनीक पहले ही कई रचनात्मक क्षेत्रों और क्षेत्रों में अपनाई जा चुकी है, जिसमें इंडी लेखकों को ऑडियोबुक बनाने में सक्षम बनाना, वीडियो गेम में सहायक पात्रों को आवाज़ देना, दृष्टिबाधित लोगों को ऑनलाइन लिखित सामग्री तक पहुँच प्रदान करना, और दुनिया के पहले AI रेडियो चैनल को शक्ति प्रदान करना शामिल है। ElevenLabs ने AI वीडियो जनरेटर D-ID, दुनिया के सबसे बड़े ऑडियोबुक प्रकाशकों में से एक Storytel, arXiv पर प्रकाशित वैज्ञानिक शोध पत्रों को संक्षेपित करने वाला ओपन एक्सेस साइंस वीडियो प्लेटफॉर्म ScienceCast, प्रमुख वैश्विक सामग्री निर्माता प्लेटफॉर्म TheSoul Publishing, Embark Studios और Paradox Interactive, जैसे अद्भुत गेम डेवलपर्स, मीडिया प्लेटफॉर्म MNTN सहित विभिन्न प्रमुख सामग्री निर्माताओं और स्टूडियो के साथ साझेदारी की है।
Tips from latency-sensitive RAG systems in production
Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.
ElevenLabs द्वारा संचालित एजेंट्स