.webp&w=3840&q=95)
How we engineered RAG to be 50% faster
Tips from latency-sensitive RAG systems in production
कंपनी ने क्रिएटर्स और पब्लिशर्स को लंबी सामग्री का वर्णन करने के लिए डिज़ाइन किए गए बीटा प्लेटफ़ॉर्म का एक्सेस खोला
2023-01-23, लंदन, यूके |ElevenLabs, एक AI वॉइस टेक्नोलॉजी स्टार्टअप, जीवन्त स्पीच सिंथेसिस टूल्स बना रहा है जिसका दीर्घकालिक लक्ष्य भाषाओं के बीच बोले गए ऑडियो को तुरंत बदलना है। आज, उन्होंने Credo Ventures के नेतृत्व में $2 मिलियन की प्री-सीड फंडिंग राउंड के बाद अपना बीटा प्लेटफ़ॉर्म लॉन्च करने की घोषणा की, जिसमें Concept Ventures और अन्य व्यक्तिगत निवेशकों ने भी भाग लिया।
कंपनी का प्लेटफ़ॉर्म क्रिएटर्स और पब्लिशर्स को लंबे फॉर्मेट के कंटेंट को नैरेट करने और ऑडियो फॉर्मेट में विस्तार करने की अनुमति देता है। इसकी विशेषताएं इन-हाउस विकसित डीप लर्निंग मॉडल द्वारा संचालित हैं जो मानव स्वर और उतार-चढ़ाव को यथार्थ रूप से प्रस्तुत करता है, और संदर्भ के आधार पर डिलीवरी को समायोजित कर सकता है। ElevenLabs वॉइस क्लोनिंग और सिंथेटिक वॉइस डिज़ाइन के लिए टूल्स का एक सेट भी प्रदान करता है, जिसका उद्देश्य यूज़र्स को नए क्रिएटिव आउटलेट्स प्रदान करना है। कंपनी वर्तमान में वॉइसओवर एडिटिंग के लिए एक समर्पित वर्कस्टेशन पर चयनित पब्लिशर्स के साथ काम कर रही है, जिसे फरवरी की शुरुआत में प्लेटफ़ॉर्म में जोड़ा जाएगा। ElevenLabs का लक्ष्य पहला AI नैरेटर बनना है जो समाचार और ऑडियोबुक्स को बड़े पैमाने पर आवाज़ देने के लिए आवश्यक गुणवत्ता प्रदान करता है।
क्षमता में छलांग नवाचार की मांग करती है, यही कारण है कि ElevenLabs खुद को सबसे पहले एक अनुसंधान कंपनी मानता है। अब तक का अधिकांश अनुसंधान नए टेक्स्ट टू स्पीच मॉडल्स विकसित करने पर केंद्रित था, जो उच्च संपीड़न और संदर्भ समझ पर निर्भर करते हैं ताकि मानव भाषण को अल्ट्रा-रियलिस्टिक रूप से प्रस्तुत किया जा सके। कंपनी ने वॉइस क्लोनिंग के लिए एक नया मॉडल भी बनाया है जो बिना किसी प्रशिक्षण (बिना फाइन-ट्यूनिंग) के उच्च आउटपुट समानता प्राप्त करता है, केवल 5 सेकंड के नमूनों पर - एक उपलब्धि जो पहले कभी नहीं सुनी गई थी। डेवलपर्स इन सभी विशेषताओं तक API के माध्यम से पहुंच सकते हैं।
यह अनुसंधान प्लेटफ़ॉर्म की वर्तमान विशेषताओं को शक्ति प्रदान करता है लेकिन यह कंपनी के अंतिम लक्ष्य को साकार करने में भी योगदान देता है, जो भाषाओं के बीच बोले गए ऑडियो को तुरंत बदलना है। उनका AI डबिंग टूल, जिसका विमोचन इस वर्ष के अंत में किया जाएगा, यूज़र्स को किसी भी ऑडियो या वीडियो को एक अलग भाषा में स्वचालित रूप से पुनः आवाज़ देने की अनुमति देगा, जबकि मूल वक्ता की आवाज़ को बनाए रखेगा। ElevenLabs शुरू में शिक्षा क्षेत्र में ग्राहकों को आकर्षित करने की उम्मीद करता है, जबकि इसका दीर्घकालिक लक्ष्य स्ट्रीमिंग, ऑडियोबुक्स, गेमिंग, मूवीज़ और यहां तक कि वास्तविक समय की बातचीत में ऑन-डिमांड बहुभाषी ऑडियो समर्थन को वास्तविकता बनाना है।
कंपनी के स्पीच सिंथेसिस और डबिंग टूल्स उतने ही पूरक हैं जितने कि वे समय पर हैं: दोनों ऑडियो और वीडियो को व्यापक दर्शकों तक पहुंचाने का वादा करते हैं और दोनों ऐसे समय में आते हैं जब ऑडियो स्पेस तेजी से बढ़ रहा है। शुरुआती परीक्षकों का एक समूह, जिनमें YouTube क्रिएटर्स, पब्लिशर्स और डेवलपर्स शामिल हैं, पहले से ही प्लेटफ़ॉर्म का दैनिक उपयोग कर रहे हैं ताकि वीडियो, कहानियों और पात्रों को आवाज़ दी जा सके, और कंपनी को उम्मीद है कि जेनरेटिव स्पीच के संभावित अनुप्रयोगों का क्षेत्र केवल विस्तारित होगा। समाचार पब्लिशर्स ने पहले ही पाया है कि अपनी ऑडियो उपस्थिति को बढ़ाना ग्राहकों को जोड़ने और बनाए रखने का एक शानदार तरीका है। लेकिन वॉइस ऐक्टर्स को अनुबंधित करना महंगा है, जैसे कि रिपोर्टर्स को अपनी कहानियाँ पढ़ने के लिए रखना। पुस्तक और न्यूज़लेटर लेखक, और यहां तक कि गेम डेवलपर्स, समान चुनौतियों का सामना करते हैं: पूर्व अपने काम को स्वयं नैरेट करने की ओर बढ़ रहे हैं और बाद वाले को यह तय करना होता है कि क्या कोई विशेष पात्र रिकॉर्डिंग लागत को सही ठहराता है। जो लोग मौजूदा टेक्स्ट टू स्पीच सॉफ़्टवेयर का उपयोग करते हैं, वे पैसे बचाते हैं लेकिन गुणवत्ता पर समझौता करके एक अलग कीमत चुकाते हैं। ElevenLabs जोर देता है कि अब समझौता करने की कोई आवश्यकता नहीं है क्योंकि वे क्रिएटर्स और पब्लिशर्स को सबसे उन्नत और बहुमुखी AI स्टोरीटेलिंग टूल्स से लैस करने की तैयारी कर रहे हैं।
“हम जो प्लेटफ़ॉर्म लॉन्च कर रहे हैं वह टेक्स्ट को उच्च गुणवत्ता वाले बोले गए ऑडियो में बदलने के बारे में है। हम चाहते हैं कि लोग अपनी पसंदीदा किताब या न्यूज़लेटर का आनंद लें, उन सभी लेखकों, क्रिएटर्स और डेवलपर्स को आवाज़ देकर जो इसे वहन नहीं कर सकते थे” - कहते हैं माती स्टानिस्ज़ेव्स्की, सह-संस्थापक। “हमारा अंतिम लक्ष्य है कि लोग किसी भी सामग्री का आनंद लें जो उन्हें प्रासंगिक और दिलचस्प लगे, चाहे वे कोई भी भाषा बोलते हों” - जोड़ते हैं पियोटर डाबकोव्स्की, सह-संस्थापक।
Credo Ventures में हम CEE क्षेत्र के स्मार्ट और महत्वाकांक्षी संस्थापकों के साथ काम करना चाहते हैं। हमने माती और पियोटर की आँखों में भूख और चिंगारी देखी थी हमारी पहली मुलाकात में। कुछ महीनों बाद वे OpenAI-ग्रेड स्पीच टेक्नोलॉजी रिसर्च हब बन रहे हैं जो कृत्रिम ऑडियो में सबसे बड़ी चुनौतियों को पार कर रहे हैं। उनकी सिंथेसाइज़्ड आवाज़ें पहले से ही वास्तविक से अप्रभेद्य हैं और इस सफलता ने न केवल अभूतपूर्व गुणवत्ता और निष्ठा में सामग्री उत्पन्न करने की बाधाओं को बड़े पैमाने पर कम कर दिया है, बल्कि जल्द ही यह क्रिएटर्स को बहुभाषी होकर अपनी दर्शकों को व्यापक रूप से बढ़ाने की अनुमति देगा। – कहते हैं मैकिक ग्नुटेक, जनरल पार्टनर Credo Ventures में।
मनोरंजन और व्यवसाय दोनों में सामान्य होने के बावजूद, ऑडियो को हाल के अनुसंधान में अपेक्षाकृत उपेक्षित किया गया है। हम माती और पियोटर का समर्थन करने के लिए इस जेनरेटिव AI के स्वर्ण युग में अधिक उत्साहित नहीं हो सकते, और विश्वास करते हैं कि ElevenLabs वह टीम है जो इस तकनीक को जनता तक पहुंचाएगी, एक आवाज़ में। - कहते हैं ओलिवर किक्स, प्रिंसिपल Concept Ventures में।
ElevenLabs के बारे में:
ElevenLabs एक अनुसंधान कंपनी है जो क्रिएटर्स और पब्लिशर्स के लिए AI वॉइस सिंथेसिस सॉफ़्टवेयर विकसित कर रही है। कंपनी के टूल्स असाधारण रूप से जीवन्त भाषण प्रस्तुत करते हैं और संदर्भ या यूज़र निर्देश के आधार पर स्वर और उतार-चढ़ाव को समायोजित कर सकते हैं। कंपनी का प्लेटफ़ॉर्म समाचार, न्यूज़लेटर्स, किताबें और वीडियो को आवाज़ देने के लिए आवश्यक गुणवत्ता और बहुमुखी प्रतिभा प्रदान करने का प्रयास करता है। प्रमुख विशेषताओं में शामिल हैं: टेक्स्ट-आधारित स्पीच जनरेशन, वॉइस क्लोनिंग, वॉइस डिज़ाइन और जल्द ही नैरेशन एडिटिंग के लिए प्रोजेक्ट वर्कफ़्लो। ElevenLabs की स्थापना 2022 में पियोटर, एक पूर्व-गूगल मशीन लर्निंग इंजीनियर, और माती, एक पूर्व-पैलेंटिर डिप्लॉयमेंट स्ट्रैटेजिस्ट द्वारा की गई थी। कंपनी का दीर्घकालिक लक्ष्य है कि बोले गए कंटेंट को किसी भी भाषा और आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए।
वेंचर कैपिटल द्वारा प्रदान किया गया Credo Ventures और Concept Ventures. व्यक्तिगत निवेशकों में शामिल हैं पीटर चज़बान, टाइटस सिटोव्स्की, टाल्फन इवांस, डॉ. फातिमा गोडाल, टोमाज़ कारवाटका, पियोटर कारवाटका, अखिल पॉल, बार्टेक पुसेक, मार्टा पिरज़िक, कार्ल्स रेना, परिन शाह, चार्ली सॉन्गहर्स्ट और हैरी सॉन्गहर्स्ट।
संपर्क करें
press@elevenlabs.seobdtools.com
Tips from latency-sensitive RAG systems in production
Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.
ElevenLabs द्वारा संचालित एजेंट्स