🗣️ A revolução das interfaces de voz

Há alguns anos atrás, quando pensávamos no futuro com IA, as primeiras imagens que vinham à cabeça eram quase sempre cenas de ficção científica: robôs andando lado a lado com humanos, carros voadores cortando os céus ou hologramas complexos. Mas às vezes, a verdadeira revolução da interface pode acontecer através de algo que fazemos desde que nascemos: falar.

Grant Harvey conta que, há alguns dias atrás, viu sua mãe de 64 anos ditar um e-mail perfeito para o seu médico usando AirPods. Só... falando. Enquanto isso, continuamos digitando no teclado como se fosse 1874 — sim, o layout QWERTY foi inventado na época da Guerra Civil americana. Estamos usando tecnologia de 150 anos para nos comunicar com inteligência artificial.

A previsão é ousada: até 2027, metade das suas interações digitais serão por voz. Não porque voz seja perfeita, mas porque finalmente ficou boa o suficiente. E "bom o suficiente" vence "perfeito" quando é 4x mais rápido.

Por que agora?

Três coisas convergiram ao mesmo tempo:

  1. Reconhecimento de voz deixou de ser horrível: O modelo Whisper da OpenAI alcançou precisão humana em 2022, funcionando em mais de 100 idiomas (entendendo sotaques e contextos). A Meta foi ainda mais longe e treinou modelos para 1.100 idiomas usando textos religiosos como a Bíblia (que, aparentemente, é um ótimo dado de treinamento).

  2. Microfones estão em todo lugar: Celular, relógio, fones, carro, TV, geladeira. Estamos cercados de dispositivos que escutam — e finalmente isso está ficando útil, não só assustador.

  3. LLMs tornaram os assistentes de voz bons o suficiente para valer a pena conversar: AIs como ChatGPT e Gemini agora conseguem manter conversas fluidas, não apenas responder comandos robóticos como a antiga Alexa.

O cenário atual

Se voz é o futuro, a pergunta seguinte é: onde vai morar essa voz? A resposta fica dividida em dois times. De um lado, fones de ouvido. Do outro, óculos inteligentes.

  1. O Time Fones (Apple, Amazon) aposta na simplicidade: AirPods são socialmente invisíveis — ninguém sabe que você está falando com IA. A bateria dura o dia inteiro. Perfeito para multitarefa: cozinhar, passear com o cachorro, dirigir, tudo enquanto a IA lê seus e-mails ou responde perguntas.

  2. O Time Óculos (Meta, futura Apple AR) quer tudo de uma vez: Misturam voz com o que você vê (possuem microfone, alto falante e câmera). Podem traduzir placas ou dar direções visuais, mas enfrentam problemas de bateria e privacidade (o fator "esquisito" de ter uma câmera na cara).

Provavelmente vamos usar os dois. Fones para inteligência ambiente do dia a dia, óculos para tarefas visuais específicas. Como celulares e notebooks: ferramentas diferentes para momentos diferentes.

O futuro é Always-On

Imagine uma IA que está sempre pronta para ajudar. Não de um jeito assustador, mas como um assistente que realmente te entende. Saindo de casa: "Não esquece o crachá — você vai precisar no escritório." No meio de uma reunião: "O número do orçamento que mencionaram era 2,3 milhões, não 3,2 milhões." Cozinhando: "Abaixa o fogo, seu molho vai queimar."

A tecnologia está quase lá. Reconhecimento de fala em tempo real já roda no seu celular. Mas os desafios são grandes. Privacidade vira questão séria: você confia em alguma empresa com microfones sempre ligados? O timing de fala também é importante. Se uma IA fica toda hora te interrompendo enquanto você conversa com um amigo, pode ser mega irritante.

Algumas empresas já estão testando assistentes de voz para casos de uso interessantes: o Google tem um recurso que espera na linha do SAC por você e outro que liga para lojas checando estoque e preços. O Copilot da Microsoft lê seus e-mails e te ajuda a responder sem digitar nada.

O assistente always-on é inevitável. A única questão é quem vai acertar o equilíbrio entre útil e invasivo. A empresa que resolver essa equação vai definir como interagimos com tecnologia na próxima década.

Um insight: você fala mais rápido do que digita, mas lê mais rápido do que ouve. Então use voz para dar contexto (em vez de escrever um prompt gigantesco para o ChatGPT, use o microfone), depois leia a resposta como faria com qualquer documento.

🎙️ ElevenLabs: a startup que fatura US$ 300 milhões fazendo você falar com IA

A ElevenLabs nasceu de uma frustração. Na Polônia, filmes estrangeiros são dublados por uma única voz monótona — o mesmo narrador para todos os personagens, homens e mulheres. Uma experiência horrível. Os fundadores pensaram: e se a tecnologia pudesse manter a voz original do ator, com todas as emoções, só trocando o idioma?

Três anos depois, a empresa fatura US$ 300 milhões por ano, tem 350 funcionários e 5 milhões de usuários. O CEO Mati Staniszewski conta como a voz está virando a principal forma de interagir com tecnologia — e mostrou casos de uso que parecem coisa de filme.

De "resolver problema" para "ajudar a vender"

O exemplo mais interessante vem da Meesho, o maior e-commerce da Índia. No começo, eles usavam agentes de voz para o básico: "cadê meu pedido?" e "quero meu dinheiro de volta".

Hoje é diferente. Você entra no site, ativa o assistente de voz e fala: "me ajuda a achar um presente para minha mãe". O agente entende o que você quer, mostra produtos, explica as diferenças e pode até finalizar a compra por você.

A mudança parece pequena, mas é enorme: o agente deixou de ser um custo (apagar incêndio) e virou fonte de receita (ajudar a vender). A Square, empresa de pagamentos, está fazendo o mesmo com restaurantes — o assistente de voz que antes só recebia pedidos agora ajuda o cliente a descobrir o cardápio.

Casos de uso que parecem ficção científica

Alguns exemplos que a ElevenLabs está rodando são impensáveis há alguns anos atrás:

MasterClass + Chris Voss: Chris Voss é o ex-negociador do FBI que escreveu o livro "Never Split the Difference" e tem um curso na MasterClass. Agora, além de assistir às aulas, você pode ligar para ele e treinar uma negociação. O agente responde como o Chris responderia, te provocando e desafiando em tempo real.

Chess.com: Você pode aprender xadrez com a voz do Magnus Carlsen ou Hikaru Nakamura como professor. Não é áudio gravado — é um tutor que reage às suas jogadas e explica de acordo com seu nível.

Fortnite + Darth Vader: A Epic Games colocou Darth Vader no jogo de video game com voz interativa. Milhões de jogadores podem conversar com o personagem ao vivo, dentro do game.

O padrão é claro: conteúdo parado está virando experiência de conversa. Não basta mais assistir — você participa.

O primeiro governo movido a agentes de IA

O caso mais ambicioso é o da Ucrânia. A ElevenLabs está ajudando o governo a criar o que chamam de "governo agêntico" — basicamente, colocar agentes de IA em todos os ministérios.

O que isso significa na prática? Agentes de voz que respondem dúvidas sobre benefícios e burocracia, avisam cidadãos sobre coisas importantes, e até ensinam com tutoria personalizada.

O mais impressionante é a execução: cada ministério tem um líder de tecnologia próprio que cria soluções específicas e conecta tudo a uma estrutura central. É uma reinvenção de como um governo pode funcionar — e está acontecendo em um país em guerra.

O futuro: quando todo mundo tiver a mesma tecnologia

Mati é bem direto sobre o que vem pela frente: em 2 a 4 anos, a qualidade dos modelos de voz vai ficar parecida entre todos os players. Não vai mais ser um diferencial.

O que vai separar os vencedores? Tudo que está em volta: conexão com sistemas de empresas, vozes de celebridades licenciadas, soluções prontas para problemas específicos. Por isso a ElevenLabs investe pesado em parcerias (Epic Games, MasterClass, Chess.com) e numa plataforma flexível.

E qual vai ser o maior uso de voz no futuro? Mati aposta em educação: um professor particular por voz, disponível a qualquer hora, que entende seu ritmo e adapta as explicações. Imagina aprender física com a voz de Einstein te explicando no seu tempo. Isso está a poucos anos de virar realidade.

Enquanto todo mundo debate se a IA vai roubar empregos, a ElevenLabs está mudando algo mais fundamental: como a gente interage com qualquer coisa digital. Daqui a alguns anos, digitar num teclado para pedir comida ou aprender algo pode parecer tão estranho quanto discar um telefone fixo.

⚡ Quick Hits

  • O Google anunciou tradução em tempo real para videochamadas. Reunião com pessoas de países diferentes, cada um falando seu idioma, todo mundo se entendendo. O futuro das calls internacionais. 🌍🗣️

  • 1 ano de progresso em robôs humanoides: de um salto meio desajeitado para robôs performando em um show ao vivo. A evolução é assustadora. 🤖

  • Fazenda 100% automatizada na China planta, cultiva e colhe sem humanos. Não é ficção científica — é tecnologia redefinindo a agricultura. 🌾

  • Usuário usando o Grok (AI do X) em seu Tesla para achar lojas próximas e montar o melhor itinerário.

  • Pequenos negócios estão usando modelos de vídeo com IA para criar anúncios virais. Uma cafeteria em Miami está bombando com milhões de views usando "fake news broadcasts" gerados por IA. A era do conteúdo caseiro profissional chegou. 🎬

🔧 Cool AI tools

  • Relay: crie agentes de IA que trabalham para você sem precisar programar. Conecta seus apps (Gmail, Slack, Notion, Google Sheets) e automatiza tarefas complexas — desde qualificar leads até escrever follow-ups de reunião. É tipo um Zapier turbinado com IA, mas com interface muito mais simples e vários templates prontos.

Por hoje é só.

Obrigado por ler o AI Around the Horn.

Perdeu alguma edição? Recupere todos os posts anteriores aqui.

Keep Reading

No posts found