5 ferramentas para clonar sua voz com IA
Recentemente todo mundo foi a loucura com o Youtuber que teve a voz clonada e dublada em várias línguas. Vamos mergulhar mais nesse submundo.
Recentemente a internet foi a loucura com esse vídeo do Castanhari sendo dublado em várias línguas com AI usando o mesmo timbre de voz dele adaptado para cada língua.
Mas, quem está ligado aqui sabe que isso é mais velho que sentar de cócoras. Um exemplo disso é esse outro vídeo do Leonardo DiCaprio falando na ONU e sendo redobrado com a voz de: Steve Jobs, Homem de Ferro, Bill Gates e várias outras personalidades.
Ficou bem óbvio que o Castanhari está do lado dos alarmistas de inteligência artificial, arriscando até falar umas coisas bem controversas, e de fato numa primeira vista, é bem alarmante pensar que ficou tão fácil colocar palavras na sua boca.
Mas, só acredita que a AI não podia avançar mais porque ela não é benéfica, quem acha que ela já não avançou a ponto de destruir tudo. Ela já avançou, você só não tem acesso. E por isso, o que nos resta é tentar tirar o máximo de proveito dessa tecnologia. E aqui é que entramos com as oportunidades e ferramentas que você mesmo pode usar.
Como Clonagem de Voz com IA funciona?
Vamos pensar em como nós, humanos, aprendemos a imitar outras vozes. Nós ouvimos atentamente, notamos as peculiaridades, as mudanças de tom, velocidade e entonação. Então, tentamos replicar usando nossas próprias cordas vocais. A tecnologia de clonagem de voz, de maneira bem simplificada, funciona de maneira similar.
A inteligência artificial é "treinada" através do que chamamos de técnica de aprendizado profundo, onde ela é exposta a centenas ou até milhares de horas de gravações de voz. Isso permite que a IA aprenda padrões de como uma pessoa específica fala, inflexões vocais, tons, sotaques e outros detalhes únicos.
E daí você se pergunta: mas como minha voz vira dados dentro do computador?
Vamos pensar nos dados de áudio como uma canção. Quando cantamos uma canção, produzimos uma variedade de sons em distintas frequências e volumes em intervalos diferentes de tempo. Para um computador entender isso, precisamos transformar essa canção em uma partitura, na qual cada nota, velocidade, volume e timbre estejam bem especificados, algo que um computador possa ler e compreender.
A tecnologia de clonagem de voz com IA funciona de maneira similar. Quando falamos em um microfone, nossas vozes criam variações de pressão no ar que são capturadas e transformadas em um sinal elétrico pelo microfone. Esse sinal é uma forma simplificada da nossa voz, quase como uma partitura. O computador então pega essa "partitura" e a transforma em uma sequência digital de 0s e 1s, formando o que chamamos de dados digitais. Expliquei mais tecnicamente aqui neste artigo. Este outro artigo explica de forma ainda mais profunda.
Por fim, a inteligência artificial entra em ação. Com base nesta sequência de números, a IA é capaz de analisar e compreender os padrões nessas 'partituras' digitais. Ela estuda a forma como mudamos nosso tom, a velocidade com que falamos, a intensidade da nossa voz e muitos outros detalhes sutis que compõem a nossa forma única de falar.
Depois de analisar e aprender com esses dados, a IA é capaz de recriar essa 'canção' única que é a nossa voz. Com a 'partitura digital', ela pode sintetizar uma nova fala com a melodia e ritmo exatos da voz original.
Como tirar proveito de clonagem de voz?
Sempre pensamos em IA como um salva-tempo para nossas vidas, e se você, por exemplo, é criador de conteúdo como eu, imagine não precisar gastar tempo recriando seu conteúdo de podcast, ou até mesmo redublando seu conteúdo para atingir mais pessoas.
Narração de audiolivros: Use sua voz, ou a voz do seu ator favorito, para narrar um audiolivro. DeepZen narrou um audiolivro usando a voz de Edward Herrmann.
Podcasts: Grave novos episódios a qualquer momento, em qualquer lugar. Seth Godin usou a IA para narrar este episódio do seu podcast Akimbo.
Canais do YouTube: Narre roteiros de vídeos, ou crie canais no YouTube sem mostrar o rosto. Shan Ruthra compartilha como você pode usar sua voz clonada para criar voiceovers para vídeos do YouTube.
Tradução/localização: Atingir um público mais amplo falando mais idiomas. A ActionPark Media usou a Veritone Voice Network para expandir o Victory the Podcast para novos mercados.
Filmes: Um dublador pode dublar muitos filmes de uma vez. Flawless dublou o filme The Fall para o japonês e espanhol.
As 5 ferramentas que estão usando lá fora para clonar vozes
Antes de você cair bonito em cima das ferramentas, vale ressaltar que, embora a tecnologia de clonagem de voz possa ter seus encantos, é importante estarmos alertas para seus desafios. A impessoalidade é algo a se considerar. Drew Carey, por exemplo, usou a IA para produzir um episódio de 'Friday Night Freakout', e a recepção não foi a mais calorosa - parece que a falta de um toque humano não agradou aos fãs.
Além disso, estamos diante de uma realidade em que golpistas podem abusar dessa tecnologia. Eles poderiam utilizar a falsificação de voz para simular um sequestro, obter acesso a sistemas restritos, roubar dinheiro, entre outras ações mal-intencionadas. O mais preocupante é que tudo isso pode ser feito com apenas três segundos de uma gravação da sua voz. Isso nos lembra de que, com o incrível avanço dessa tecnologia, devemos também ser cautelosos e conscientes sobre suas potenciais implicações para a nossa privacidade e segurança. Informação e prudência podem ser nossas melhores defesas.
Agora que demos o disclaimer, aqui vai:
ElevenLabs: Clonagem de voz realista para criadores e editores.
Descript: Clonagem de voz realista.
DubPro.AI: Clone sua voz e nuances vocais.
Respeecher: Clonagem de voz para cineastas, desenvolvedores de jogos e outros criadores de conteúdo.
ResembleAI: Crie conteúdo de voz dinâmico e único.
Acontecendo no Mundo
Uma leitura para descontrair mostrando que nem os principais tomadores de decisão das organizações estão protegidos em relação aos seus empregos. Eu até acho interessante, mas sinceramente acho que o COO está mais em cheque do que o CEO. Comecem as apostas!
O Elzo, brasileiro como nós, usou o ChatGPT para se livrar de uma multa de trânsito e contou tudo como foi nesse post. O link eu achei na newsletter dos amigos da DataHackers.
DeepMind descobre uma forma melhor de ordenar
A DeepMind, empresa porreta de AI, mas que perdeu o holofote pro ChatGPT, sempre dedicou sua tecnologia de inteligência artificial para a ciência. Dessa vez o algoritmo descobriu uma forma mais eficiente de ordenação. E isso pode ser excelente para diminuir o custo computacional.
Israel já dedicou 20% dos trabalhos militares em AI
O exército de Israel, um dos mais sofisticados, bem treinados e engenhosos do mundo, acabaram de abrir que estão se voltando para AI com força. Disseram que no dia a dia 20% do esforço do time é voltado para algum projeto que envolve inteligência artificial. Lembrando que esses são os caras que inventaram o melhor anti-míssel do mundo.
Funding & M&As
Runway anunciou rodada de $141 milhões na série C
Typeface anunciou rodada de $100 milhões a $1 bilhão de valuation
Empresa da Semana
Tão simples quanto isso. O Framer, uma empresa no-code de criação de sites - quando você pode criar sites e aplicações sem precisar saber programar - criou uma versão que você nem precisa saber pensar em como faz o site. Você só descreve o negócio nasce pronto.