Tradução de voz IA

26 de set. de 2023 • 4 minutos de leitura

Ferramenta de AI Dubbing chegando em outubro

Tradução de voz / AI Dubbing

Estamos lançando a ferramenta de tradução de voz IA no próximo mês. Isso permite que os usuários convertam qualquer conteúdo de áudio ou vídeo para um idioma diferente, mantendo a voz original do locutor. Nosso objetivo é simples: tornar o conteúdo multilíngue acessível e autêntico em mídias como streaming, jogos e filmes.

Vimos Spotify e OpenAI apresentarem seus avanços em tradução de voz e capacidades de fala, e estamos animados para compartilhar novidades sobre nossos próprios desenvolvimentos.

This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023

A ferramenta que está por vir não é apenas sobre tradução; é sobre preservar a identidade do locutor e os padrões de fala originais entre idiomas, permitindo uma experiência mais conectada e imersiva do que o que a legendagem tradicional pode oferecer.

Imagine um vídeo educacional em inglês. Se alguém só fala espanhol (mas acharia o assunto interessante), isso é um problema. Queremos ser capazes de gerar a pessoa original falando a mensagem original naturalmente em espanhol nativo.

Isso requer combinar conversão de voz, clonagem de voz e multilíngue síntese de fala em uma única nova ferramenta. Aqui, a clonagem de voz nos permite preservar a identidade do locutor - o som da sua voz. Usamos a síntese de fala para gerar novas falas em um idioma diferente como se fosse a mesma pessoa falando. A conversão de voz entra em cena porque queremos preservar as emoções, a intenção e o estilo de entrega originais para máxima imersão.

VOICE CLONING

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatize locuções de vídeos, leituras de anúncios, podcasts e mais, com a sua própria voz

Investimos muita pesquisa e inovação no desenvolvimento de tecnologia que pode reproduzir a fala humana de forma ultra-realista, entender o contexto e codificar perfis de voz. Nossa ferramenta de tradução de voz IA é um passo significativo para permitir que criadores ampliem seu alcance e ajudem públicos potenciais a descobrir conteúdos que considerem relevantes e cativantes, independentemente do idioma que entendam.

O que são dublagem, conversão de voz e síntese de fala?

Dublagem é um processo para fornecer a um vídeo uma trilha sonora em um idioma diferente, substituindo as vozes dos atores originais pelas de intérpretes falando outro idioma - também conhecido como "re-voicing" - tradicionalmente uma tarefa cara e demorada. Na Eleven, nosso objetivo é fazer isso automaticamente enquanto preservamos as vozes originais entre idiomas.

A conversão de voz permite que uma pessoa fale na voz de outra. Ela usa clonagem de voz para codificar uma voz alvo e sobrepô-la à voz de origem. O resultado é a mensagem original aparentemente falada por outra pessoa.

Text-to-speech (TTS) é a base de toda tecnologia de síntese de fala. TTS melhorou radicalmente ao longo dos anos, embora ainda muitas vezes soe robótico. Isso porque pronunciar palavras fluentemente por si só é insuficiente para dar qualidade humana à fala. É o tom e o ritmo orientados pela intenção que vêm da compreensão do que está sendo dito que a fazem soar natural. Na Eleven, tentamos alcançar exatamente isso: expondo nosso modelo a uma riqueza de dados de fala humana, treinamos para entender tanto o contexto lógico quanto emocional das falas e ajustar a entrega de acordo.

TEXT TO SPEECH

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

Crie vozes naturais com nosso sistema de Text to Speech (TTS), desenvolvido para narração de alta qualidade, jogos, vídeos e acessibilidade. Vozes expressivas, suporte multilíngue e integração com API facilitam a expansão de projetos pessoais para fluxos de trabalho empresariais.

Em breve

Estamos ansiosos para o lançamento em outubro e para mudar a forma como interagimos com conteúdo multilíngue.

Explore artigos da equipe ElevenLabs

Product

Product

How we engineered RAG to be 50% faster

Tips from latency-sensitive RAG systems in production

Customer stories

Customer stories

Eagr.ai Supercharges Sales Training with ElevenLabs' Conversational AI Agents

Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.

Crie com o áudio IA da mais alta qualidade

Comece agora - é grátis

Já tem uma conta? Entrar