टेक्स्ट टू वॉइस: लेखकों के लिए एक आवश्यक उपकरण

1 सित॰ 2023 • 9 मिनट पढ़ने का समय

टेक्स्ट टू स्पीच के साथ, कहानियाँ प्रकाशित होते ही विभिन्न आवाज़ों और शैलियों में सुनी जा सकती हैं

इस पेज पर

परिचय
मुख्य बिंदु सारांश:
टेक्स्ट टू स्पीच तकनीक का परिचय
प्रकाशन प्रतिमान: टेक्स्ट टू स्पीच के लाभ
Eleven अलग कैसे है?
स्टूडियो के साथ लंबी सामग्री उत्पन्न करना
- शुरू करना
- फीचर हाइलाइट्स
- संगतता
- क्षितिज का विस्तार: हमारा नया बहुभाषी मॉडल
- वॉइस डिज़ाइन: अद्वितीय कथाएं बनाना
- प्रोफेशनल वॉइस क्लोनिंग के माध्यम से दक्षता
- प्रकाशक वॉइस क्लोनिंग से कैसे लाभ उठा सकते हैं
- निष्कर्ष
- सामान्य प्रश्न

A cluttered workspace with a laptop, open books, a cup of coffee, a typewriter, headphones, sticky notes, and various papers on a desk and wall.

मुख्य बिंदु सारांश:

उन्नत टेक्स्ट टू स्पीच तकनीक मानव जैसी सिंथेसाइज़्ड आवाज़।
प्रकाशन उद्योग के लिए टेक्स्ट टू स्पीच
ElevenLabs के अनोखे स्पीच सिंथेसिस मॉडल का अवलोकन
परिचय स्टूडियो, लंबी ऑडियो सामग्री बनाने के लिए एक व्यापक उपकरण।
हमारा बहुभाषी मॉडल जो 28 भाषाओं का समर्थन करता है वैश्विक पहुंच के लिए।
वॉइस डिज़ाइन और प्रोफेशनल वॉइस क्लोनिंग तकनीकें विशिष्ट और प्रामाणिक आवाज़ें बनाने के लिए।

टेक्स्ट टू स्पीच तकनीक का परिचय

Text to Speech (TTS) तकनीक, मूल रूप से, लिखित सामग्री को श्रव्य आवाज़ में बदलती है। हाल के वर्षों में, मशीन लर्निंग में महत्वपूर्ण प्रगति के साथ, TTS तकनीक इस स्तर तक विकसित हो गई है कि सिंथेसाइज़्ड आवाज़ मानव कथन से लगभग अप्रभेद्य है। आधुनिक TTS सिस्टम द्वारा प्राप्त यथार्थवाद और अभिव्यक्ति विशेष रूप से प्रकाशन उद्योग के लिए अद्वितीय संभावनाएं प्रदान करते हैं।

प्रकाशन प्रतिमान: टेक्स्ट टू स्पीच के लाभ

समाचार प्रकाशकों के लिए, ध्वनि परिदृश्य केवल एक उभरता हुआ क्षेत्र नहीं है बल्कि जुड़ाव के लिए आवश्यक है। ऑडियो उपस्थिति बढ़ाने से उपयोगकर्ता प्रतिधारण और संतुष्टि में सुधार हुआ है। जबकि पारंपरिक मार्ग में वॉइस ऐक्टर को नियुक्त करना या रिपोर्टरों को कथन के लिए लाना शामिल होगा, ये तरीके न तो समय और न ही लागत-कुशल हैं। टेक्स्ट टू स्पीच के साथ, कहानियों को प्रकाशन के तुरंत बाद आवाज़ दी जा सकती है, यह सुनिश्चित करते हुए कि सामग्री ताज़ा, प्रासंगिक और उच्च गुणवत्ता की बनी रहे।

Eleven अलग कैसे है?

हम लंबे टेक्स्ट पर भी मानव जैसी डिलीवरी कैसे प्राप्त करते हैं, यह हमारे मॉडल के निर्माण के तरीके पर निर्भर करता है।हमारा मॉडल। इसे यह समझने के लिए प्रशिक्षित किया गया है कि क्या कहा जा रहा है और तदनुसार डिलीवरी को समायोजित करने के लिए। यह न केवल शब्दों के अर्थ को बल्कि प्रत्येक कथन के आसपास के संदर्भ को भी ध्यान में रखकर करता है।

पारंपरिक स्पीच जनरेशन एल्गोरिदम वाक्य-दर-वाक्य आधार पर कथन उत्पन्न करते हैं। यह कम्प्यूटेशनल रूप से कम मांग वाला है लेकिन तुरंत रोबोटिक लगता है। भावनाएं और स्वर अक्सर एक विशेष विचारधारा को जोड़ने के लिए कई वाक्यों में फैलने और गूंजने की आवश्यकता होती है। स्वर और गति इरादे को व्यक्त करते हैं जो वास्तव में भाषण को मानव जैसा बनाता है। इसलिए प्रत्येक कथन को अलग से उत्पन्न करने के बजाय, हमारा मॉडल पूरे उत्पन्न सामग्री में उचित प्रवाह और प्रोसोडी बनाए रखते हुए आसपास के संदर्भ को ध्यान में रखता है। यह भावनात्मक गहराई, प्रमुख ऑडियो गुणवत्ता के साथ मिलकर, उपयोगकर्ताओं को सबसे प्रामाणिक और आकर्षक कथन उपकरण प्रदान करती है।

स्टूडियो के साथ लंबी सामग्री उत्पन्न करना

स्टूडियो हमारी एंड-टू-एंड वर्कफ़्लो है जो मिनटों में ऑडियोबुक बनाने के लिए है। यह आपके ऑडियो निर्माणों पर अभूतपूर्व स्तर का नियंत्रण प्रदान करता है, जिसमें विशिष्ट ऑडियो खंडों को पुनः उत्पन्न करने, विशेष टेक्स्ट खंडों को विभिन्न वक्ताओं को असाइन करने, कई प्रारूप फ़ाइलों को सीधे आयात करने की क्षमता और अधिक शामिल है।

शुरू करना

स्टूडियो को नेविगेट करना आसान और सहज है।

शीर्ष बार मेनू से स्टूडियो चुनें।
नया प्रोजेक्ट बनाएं पर क्लिक करें।
चुनें कि आप अपने प्रोजेक्ट को कैसे प्रारंभ करना चाहते हैं।
अपना टेक्स्ट बनाना शुरू करें।
अपने पूरे प्रोजेक्ट को एक बार में रेंडर करने के लिए कन्वर्ट पर क्लिक करें, या विशिष्ट खंडों का परीक्षण करने के लिए प्ले और रीजेनरेट का उपयोग करें।

00:00 / 00:00

फीचर हाइलाइट्स

स्टूडियो एक सीधा उपयोगकर्ता अनुभव प्रदान करता है, जैसे कि Google Docs का उपयोग करना, एक सहज, उपयोगकर्ता-केंद्रित इंटरफ़ेस के साथ जो विभिन्न संपादन सुविधाओं का समर्थन करता है:

पूर्ण रूपांतरण: अपने पूरे प्रोजेक्ट को एक बार में रेंडर करने के लिए एक बटन का उपयोग करें, या विशिष्ट खंडों का परीक्षण करने के लिए प्ले और रीजेनरेट का उपयोग करें।
वक्ता असाइनमेंट: विभिन्न टेक्स्ट खंडों को विभिन्न वक्ताओं को असाइन करें; शीर्षकों और पैराग्राफ के लिए डिफ़ॉल्ट आवाज़ें चुनें।
ऑडियो खंडों को पुनः उत्पन्न करें: बड़े ऑडियो खंडों के भीतर विशिष्ट खंडों को सहजता से पुनः उत्पन्न करें जबकि संदर्भ को बरकरार रखें।
विराम डालें (इस सप्ताह के अंत में आ रहा है): भाषण खंडों के बीच विराम की लंबाई को मैन्युअल रूप से समायोजित करें (शुरुआत में 3 सेकंड तक) गति को ठीक करने के लिए।
अध्याय द्वारा खंडित करें: अपने टेक्स्ट को अनुभागों में संरचित करें ताकि एक समय में एक विशेष खंड पर ध्यान केंद्रित किया जा सके।
प्रगति को सहेजें और पुनः आरंभ करें: अपने काम को सुविधाजनक रूप से रोकें और वहीं से पुनः आरंभ करें जहां आपने छोड़ा था।
फ़ाइलें आयात करें: स्टूडियो .epub, .pdf और .txt फ़ाइलों का समर्थन करता है, साथ ही अधिक सुव्यवस्थित वर्कफ़्लो के लिए URL भी।
बुद्धिमान पुनः-उत्पादन: पहले से उत्पन्न प्रोजेक्ट पर काम फिर से शुरू करते समय, आपको केवल बदले गए खंडों के पुनः उत्पन्न करने के लिए शुल्क लिया जाएगा, पूरे प्रोजेक्ट के लिए नहीं।

स्टूडियो

Screenshot of an audiobook editing interface with highlighted text and two book cover images titled "Discover Daily" and "Dune."

किताबों को ऑडियोबुक और स्क्रिप्ट को पॉडकास्ट में बदलने के लिए आपका पूरा वर्कफ़्लो

संगतता

स्टूडियो के साथ खड़ा है स्पीच सिंथेसिस, वॉइसलैब, और Voice Library, लंबी ऑडियो सिंथेसिस के लिए एक व्यापक समाधान के रूप में सेवा कर रहा है। इसके अतिरिक्त, यह प्रोफेशनल वॉइस क्लोनिंग, वॉइस लाइब्रेरी और हमारे बहुभाषी मॉडल के साथ सहजता से एकीकृत है।

प्रोफेशनल वॉइस क्लोनिंग: अपनी खुद की आवाज़ में लंबी ऑडियो सामग्री उत्पन्न करें। आप अपनी प्रो वॉइस क्लोन को वॉइस लाइब्रेरी के माध्यम से भी साझा कर सकते हैं और जब अन्य लोग आपकी आवाज़ का उपयोग करके प्रोजेक्ट बनाते हैं तो कैरेक्टर रिवार्ड्स कमा सकते हैं।
वॉइस लाइब्रेरी: हमारे समुदाय द्वारा बनाई गई अनगिनत आवाज़ों में से अपनी कथा के लिए सही आवाज़ चुनें। ऑडियोबुक आवाज़ों की विस्तृत श्रृंखला से चुनें: महाकाव्य, बैरिटोन, एल्टो, टेनर, नसली, हस्की, सुल्त्री, सेडक्टिव, रास्पी, क्रीपी, और अधिक। चाहे आपको एक वयस्क पुरुष या महिला, वृद्ध पुरुष या महिला, बुद्धिमान मार्गदर्शक, भविष्यवादी रोबोट, या साहसी के लिए आपकी उत्सव कहानी, रोमांटिक कहानी, या महाकाव्य गाथा।
Eleven बहुभाषी: चाहे आप एक पूर्व-निर्मित आवाज़ चुनें, एक क्लोन की गई आवाज़ या अपनी खुद की आवाज़, आप उन्हें हमारे बहुभाषी मॉडल द्वारा समर्थित सभी भाषाओं में सहजता से बोल सकते हैं।

क्षितिज का विस्तार: हमारा नया बहुभाषी मॉडल

ElevenLabs में, नवाचार के प्रति हमारी प्रतिबद्धता ने एक नए बहुभाषी मॉडल के लॉन्च का नेतृत्व किया है। यह एक ही कथा को अनुवादित और आवाज़ देने की अनुमति देता है 28 भाषाओं में। प्रकाशकों के लिए, इसका मतलब है अभूतपूर्व वैश्विक पहुंच, विभिन्न संस्कृतियों और क्षेत्रों में कहानियों की गूंज, सभी एक सुसंगत और एकीकृत आवाज़ में।

अब समर्थित भाषाओं में शामिल हैं: अंग्रेजी, कोरियाई, डच, चीनी, तुर्की, स्वीडिश, इंडोनेशियाई, फिलिपिनो, जापानी, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बुल्गारियाई, मलय, स्लोवाक, क्रोएशियाई, क्लासिक अरबी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इतालवी, हिंदी, पुर्तगाली, और तमिल।

वॉइस डिज़ाइन: अद्वितीय कथाएं बनाना

हमारा स्वामित्व Voice Design उपकरण प्रकाशकों के लिए एक परिवर्तनकारी अनुभव प्रदान करता है। यह चयनित मापदंडों जैसे आयु, लिंग और उच्चारण के आधार पर पूरी तरह से अद्वितीय आवाज़ें बनाने की सुविधा प्रदान करता है। हर उत्पन्न आवाज़ अद्वितीय होती है, यह सुनिश्चित करते हुए कि प्रकाशक एक विशेष आवाज़ चुन सकते हैं जो उनके ब्रांड या प्रकाशन के पर्याय बन जाए।

प्रोफेशनल वॉइस क्लोनिंग के माध्यम से दक्षता

प्रोफेशनल वॉइस क्लोनिंग (PVC) तकनीक ElevenLabs में अनुकूलन की एक और परत प्रदान करती है। एक प्रकाशन के रिपोर्टरों की आवाज़ों को क्लोन करके, हम उनकी अनूठी टोन में ऑडियो कहानियां बना सकते हैं। यह न केवल प्रामाणिकता प्रदान करता है बल्कि पारंपरिक रिकॉर्डिंग प्रक्रियाओं पर लागत और समय को भी काफी कम करता है। इसके अलावा, हमारा बहुभाषी मॉडल प्रोफेशनल वॉइस क्लोनिंग के साथ संगत है, यह सुनिश्चित करते हुए कि एक रिपोर्टर की आवाज़ अब सभी समर्थित भाषाओं में बोल सकती है।

वॉइस क्लोनिंग

A blue and silver abstract spherical shape next to a gray microphone icon.

वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें

हमारे प्रोफेशनल वॉइस क्लोनिंग टूल के साथ उत्पन्न एक पॉडकास्ट एपिसोड सुनें:

00:00 / 00:00

प्रकाशक वॉइस क्लोनिंग से कैसे लाभ उठा सकते हैं

प्रकाशकों के लिए, प्रोफेशनल वॉइस क्लोनिंग (PVC) कई फायदे प्रदान करता है:

विशिष्ट ब्रांड आवाज़: एक अनूठी आवाज़ को क्लोन करके, प्रकाशक एक पहचानने योग्य श्रव्य ब्रांड स्थापित कर सकते हैं, जो उनकी सामग्री को अलग करता है।
सामग्री स्थिरता: वॉइस क्लोनिंग बिना विभिन्न वॉइस ऐक्टर की आवश्यकता के कई लेखों और प्रकाशनों में एक सुसंगत वोकल शैली सुनिश्चित करता है।
दक्षता: क्या आपको वॉइस-ओवर संशोधन की आवश्यकता है? पुनः रिकॉर्डिंग के बजाय, बस क्लोन की गई आवाज़ के साथ आवश्यक कथन उत्पन्न करें, समय बचाएं और एकरूपता बनाए रखें।
संवर्धित जुड़ाव: वैश्विक पाठकों के लिए, एक परिचित क्लोन की गई आवाज़ सामग्री में कनेक्शन और विश्वास को बढ़ाती है।

टेक्स्ट टू वॉइस तकनीक के साथ संयुक्त होने पर, प्रकाशकों के पास समृद्ध, विविध और वैश्विक श्रव्य सामग्री का उत्पादन करने के लिए एक अत्याधुनिक टूलकिट होता है। प्रोफेशनल वॉइस क्लोनिंग तकनीक की क्षमताओं को अपनाना प्रकाशकों के लिए एक प्रगतिशील कदम है, जो अनगिनत अवसरों के द्वार खोलता है।

निष्कर्ष

प्रकाशन का भविष्य केवल लिखित शब्द में नहीं है बल्कि उन शब्दों को कैसे व्यक्त किया जाता है। टेक्स्ट टू वॉइस जैसे उपकरणों के साथ, प्रकाशकों के पास अपनी सामग्री वितरण में क्रांति लाने की क्षमता है, यह सुनिश्चित करते हुए कि पहुंच, विशिष्टता और वैश्विक पहुंच बनी रहे। ElevenLabs में, हम इस परिवर्तन के अग्रणी हैं, ऐसी तकनीक की पेशकश कर रहे हैं जो एक समृद्ध, अधिक विविध श्रव्य अनुभव का मार्ग प्रशस्त करती है।

अपडेट: जनवरी 2025 से, प्रोजेक्ट्स को अब स्टूडियो कहा जाता है और यह सभी मुफ्त उपयोगकर्ताओं के लिए उपलब्ध है।

सामान्य प्रश्न

टेक्स्ट टू वॉइस, या TTS, लिखित सामग्री को बोले गए कथनों में बदलता है। यह तकनीक उन्नत एल्गोरिदम का उपयोग करती है जो मानव जैसी ध्वनियों को उत्पन्न करती है।

प्रकाशक अपने लेखों या कहानियों को तुरंत उच्च-गुणवत्ता वाले ऑडियो में बदल सकते हैं, उपयोगकर्ता जुड़ाव को बढ़ा सकते हैं, रिकॉर्डिंग लागतों को बचा सकते हैं, और बहुभाषी क्षमताओं के साथ अपनी वैश्विक पहुंच का विस्तार कर सकते हैं।

हमारा नया बहुभाषी मॉडल सामग्री को 28 विभिन्न भाषाओं में आवाज़ दे सकता है, प्रकाशकों के लिए एक व्यापक वैश्विक पहुंच प्रदान करता है।

हाँ, ElevenLabs में वॉइस डिज़ाइन टूल विशेष मापदंडों के आधार पर पूरी तरह से विशिष्ट आवाज़ें उत्पन्न करने के लिए डिज़ाइन किया गया है, यह सुनिश्चित करते हुए कि प्रत्येक प्रकाशक के पास एक आवाज़ हो जो उनके ब्रांड पहचान के साथ मेल खाती हो।

ElevenLabs में, हम नैतिक विचारों को प्राथमिकता देते हैं। हमारी प्रोफेशनल वॉइस क्लोनिंग तकनीक व्यक्तिगत पहचान का सम्मान और सुरक्षा करने के लिए डिज़ाइन की गई है। हम केवल संबंधित व्यक्तियों की सहमति और प्राधिकरण के साथ आवाज़ों के क्लोनिंग की अनुमति देकर जिम्मेदार उपयोग सुनिश्चित करते हैं।

ElevenLabs टीम के लेखों को देखें

Product

Product

How we engineered RAG to be 50% faster

Tips from latency-sensitive RAG systems in production

Customer stories

Customer stories

Eagr.ai Supercharges Sales Training with ElevenLabs' Conversational AI Agents

Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें