Diarização de áudio: o que é e por que falha em PT-BR
Você abre a transcrição da reunião de ontem e a primeira linha diz: "Speaker 2: então o prazo fica pro dia 10". Só que quem falou do prazo foi a Marina, e a tal "Speaker 2" às vezes é ela, às vezes é o estagiário que sentou do lado, às vezes é você. Em algum ponto da call de seis pessoas a etiqueta embaralhou, e agora a ata diz que o estagiário assumiu uma entrega que era da diretora. Esse trabalho de carimbar cada frase com o nome de quem disse tem um nome técnico: diarização. E é a parte da transcrição que mais quebra em silêncio — você só descobre relendo.
A pergunta que traz a maioria das pessoas até aqui é simples: o que é diarização de áudio, afinal, e por que a IA erra tanto em quem falou o quê?
O que é diarização de áudio, em uma frase
A documentação da CPqD — centro de pesquisa brasileiro que desenvolve reconhecimento de fala em português — define diarização como o "conjunto de dados e algoritmos que permitem identificar e segmentar, ao longo do tempo, as diferentes vozes presentes em um áudio" (CPqD, Reconhecimento de Fala). Em bom português de reunião: é a IA descobrindo onde uma pessoa para de falar e a outra começa, e mantendo a conta de quem é quem do início ao fim.
Vale separar duas coisas que muita gente mistura. Transcrição é virar fala em texto — o "o quê". Diarização é dizer de quem é cada texto — o "quem". São tarefas diferentes, e uma boa transcrição com diarização ruim ainda te dá uma ata inútil: as palavras certas, atribuídas à pessoa errada. A diarização também não é reconhecimento de locutor (que cola o nome real "Marina" na voz). Ela só agrupa: aqui está o Falante 1, ali o Falante 2, sem saber quem são — por isso a maioria das ferramentas mostra "Speaker 1, Speaker 2" e deixa você renomear.
"O modelo de diarização é treinado a partir de grandes bases de fala com múltiplos locutores" e "aprende características acústicas que distinguem uma voz da outra" — é assim que ele agrupa trechos por pessoa sem saber o nome dela (CPqD, documentação de Reconhecimento de Fala, 2026). A qualidade desse agrupamento depende de quão parecidas com o treino são as vozes que você joga nele.
Como a IA decide quem falou: as etapas por dentro
Ninguém precisa do detalhe de engenharia pra usar a ferramenta, mas ele explica por que ela erra — e onde. O pipeline de diarização moderno tem quatro passos principais, segundo o guia técnico da AssemblyAI (AssemblyAI, 17/mar/2026):
- Detecção de fala (VAD). Primeiro a IA varre o áudio e marca o que é voz e o que é silêncio, ruído de teclado, ar-condicionado ou o cachorro do colega. Só o que é fala segue adiante.
- Segmentação. O áudio com fala é fatiado em pedacinhos, normalmente de 0,5 a 10 segundos. Aqui já mora um problema: a própria AssemblyAI registra uma "queda mensurável na capacidade de atribuir corretamente um trecho a um falante quando os trechos têm menos de um segundo". Resposta curta de uma palavra é onde a etiqueta escorrega.
- Vetor de voz (embedding). Cada pedaço vira um vetor — um punhado de números que descreve o timbre, a altura, o jeito daquela voz. É a impressão digital acústica do trecho.
- Agrupamento e rótulo. A IA junta os vetores parecidos em grupos. Cada grupo "soa como a mesma pessoa" e ganha um rótulo: Falante 1, Falante 2. Depois cola esse rótulo de volta em cada frase da transcrição.
O ponto frágil é o passo 3 e 4. A IA não sabe quantas pessoas existem na sala — ela estima, agrupando vozes parecidas. Se duas pessoas têm timbre próximo (dois homens graves, duas mulheres na mesma faixa), os vetores caem perto demais e os grupos se fundem: vira um falante só. Se a mesma pessoa fala animada e depois cansada, os vetores se afastam e ela vira dois falantes. O resultado é o que você já viu: a transcrição com sete "speakers" numa reunião de quatro pessoas.
Por que a diarização erra: a conta do DER
Existe uma régua pra medir isso, e ela tem nome: DER, ou taxa de erro de diarização (diarization error rate). É a fração do tempo de áudio que foi rotulada errado, somando três tipos de erro (pyannoteAI, 27/mai/2026):
- Fala perdida — alguém falou e o sistema não detectou (acontece muito quando duas pessoas falam juntas e ele só ouve uma).
- Falso alarme — o sistema "ouviu" fala onde só havia ruído.
- Confusão de falante — detectou a fala certa, mas grudou no falante errado. A pyannoteAI chama esse de "o tipo de erro mais danoso para a experiência do usuário", e é exatamente o "Speaker 2" que era a Marina.
Quanto é bom? Sistemas de ponta ficam em 5% a 8% de DER em benchmarks controlados, e 15% a 25% em áudio real e difícil (pyannoteAI, mai/2026). Acima de 20%, a mesma fonte avisa, o sistema "fica não-confiável a ponto de a revisão manual levar quase tanto tempo quanto ouvir o áudio original" — ou seja, você refaz a ata no braço, que era justamente o que queria evitar.
A confusão de falante é o tipo de erro mais danoso para a experiência do usuário: o texto está certo, mas atribuído à pessoa errada.
E o número cresce rápido com a sala cheia. A AssemblyAI cita que a taxa de erro por palavra na diarização "salta de 2,68% em cenários de dois falantes para 11,65% com três falantes" (AssemblyAI, mar/2026). Três pessoas já quadruplicam o erro. Some a isso duas coisas que toda reunião de verdade tem:
- Falas curtas. A mesma fonte aponta que um falante precisa de cerca de 30 segundos de fala pra ser identificado de forma confiável; abaixo de 15 segundos, o trecho "costuma ser fundido ao falante dominante". Quem só solta um "concordo" ou "fechado" some — a contribuição dele cola em quem fala mais.
- Gente falando por cima. Em conversa natural com sobreposição, a AssemblyAI registra que a taxa de erro "pode passar de 50%". Metade do texto sobreposto pode ir pro nome errado. E reunião brasileira, convenhamos, é feita de gente se atropelando.
O erro de diarização não é fixo — ele escala com a bagunça da reunião. De 2,68% com dois falantes para 11,65% com três; falas abaixo de 15 segundos "fundidas ao falante dominante"; e erro acima de 50% quando há sobreposição de vozes (AssemblyAI, mar/2026). Quanto mais a reunião parece uma reunião de verdade, mais a etiqueta de quem-falou escorrega.
Por que piora ainda mais quando o idioma é o português
Aqui está o fato que quase nenhum tutorial conta: a diarização não é neutra de idioma. Os vetores de voz do passo 3 saem de modelos treinados em áudio rotulado, e a esmagadora maioria desse áudio é em inglês. Quando o idioma da sua reunião não é o idioma do treino, os vetores ficam menos discriminativos — a IA tem mais dificuldade de dizer se duas vozes são a mesma pessoa ou não.
Isso não é teoria. Um estudo de benchmark de setembro de 2025 mediu o DER do mesmo modelo comercial de ponta (pyannoteAI) em vários idiomas e achou uma diferença grande: 6,6% de DER em inglês contra 14,3% em espanhol — mais que o dobro de erro, no mesmo sistema, só trocando o idioma (Benchmarking Diarization Models, arXiv, set/2025). A versão de código aberto testada no mesmo trabalho foi de 7,0% em inglês para 19,1% em espanhol. Os autores são diretos sobre a causa: "a escassez de dados anotados para certos idiomas é um fator dominante no desempenho mais baixo de diarização", e o espanhol "apresenta a condição mais desafiadora entre os idiomas avaliados".
Repare que o estudo nem testou português — mas o espanhol é o vizinho de prateleira mais próximo em volume de dados, e já dobra o erro. O português brasileiro, com menos áudio anotado disponível publicamente que o inglês, herda o mesmo problema: o motor viu menos da nossa fala, então separa pior as nossas vozes. A pesquisa de diarização para idiomas de baixo recurso confirma o mecanismo — a eficácia de aproveitar um modelo treinado em outro idioma "depende fortemente da semelhança entre as línguas de origem e destino" (Speaker Diarization for Low-Resource Languages, arXiv, abr/2025).
E tem um agravante brasileiro que o número de benchmark nem captura: sotaque. Numa reunião com gente do Sul, do Nordeste e de São Paulo na mesma call, o motor que já tropeça em português genérico tem que lidar com variação regional que ele quase não viu no treino. É a tempestade perfeita pra confusão de falante: vozes parecidas, falas curtas, sobreposição, idioma sub-representado e sotaques variados, tudo ao mesmo tempo.
Mesmo modelo de ponta, mesma metodologia, só mudando o idioma: DER de 6,6% em inglês e 14,3% em espanhol (Benchmarking Diarization Models, arXiv, set/2025). A causa apontada pelos autores é a escassez de dados anotados fora do inglês — o mesmo motivo pelo qual o português também sai prejudicado.
Por que isso decide a qualidade da sua ata
Diarização parece um detalhe de bastidor, mas ela é a fundação de tudo que vem depois da reunião. A ata separa "decisões da Marina" de "tarefas do João" lendo os rótulos de falante. O item de ação "Carlos envia a proposta até sexta" só existe porque a IA atribuiu aquela frase ao Carlos. Se a diarização errou — e acabamos de ver que ela erra mais com sala cheia, fala curta, sobreposição e em português — esse erro se propaga inteiro pra ata. Você não recebe só uma transcrição com nome trocado: recebe uma lista de tarefas atribuída às pessoas erradas, e descobre isso no dia seguinte, quando ninguém lembra direito quem se comprometeu com o quê.
É por isso que diarização nativa em português não é firula técnica — é o que separa uma ata em que você confia de uma que você precisa revisar linha a linha. Um motor que ouve o português como primeira língua agrupa as vozes brasileiras com menos confusão, e a etiqueta de quem-falou chega mais firme na ata.
No Verter, esse "quem falou o quê" não espera o fim da reunião pra aparecer. Enquanto a conversa acontece, uma janela que só você enxerga já vai mostrando as decisões, as tarefas e os pontos de atenção atribuídos — em tempo real, durante a call. Quando uma decisão sai com o responsável trocado, você percebe na hora e corrige ali, em vez de descobrir relendo a ata no dia seguinte. É o coração do produto: insight ao vivo, proativo e privado. A diarização e a transcrição feitas com o português como idioma nativo, com os dados no Brasil sob a LGPD, são o que sustenta esse insight chegar certo.
Prazo ajustado para quinta-feira — confirmado por ambas as partes.
Orçamento foi mencionado 3 vezes. Pode ser uma objeção não dita.
Se o que te trouxe aqui foi a transcrição que sai errada, vale ver também como funciona a transcrição de reunião em tempo real em português e por que capturar o áudio do sistema mais o microfone dá à diarização um material melhor pra trabalhar do que um único canal misturado.
Um detalhe que pesa na diarização e quase ninguém liga ao tema: o bot. Quando uma ferramenta entra na call como um participante "Notetaker", ela ouve tudo por um único canal de áudio da chamada — todo mundo misturado na mesma faixa, que é o cenário mais difícil pra separar vozes. E o bot tem custo social: uma pesquisa da Calendly de 2024 apontou que 58% das pessoas se sentem desconfortáveis quando um bot entra de surpresa na reunião, e 41% mudam o comportamento sabendo que estão sendo gravadas (Calendly, via UMEVO). O Verter não entra como bot: é um app de desktop que captura o áudio do próprio computador, sem ninguém a mais na lista de participantes.
Perguntas frequentes
O que é diarização de áudio?
É o processo em que a IA responde "quem falou e quando": ela separa as diferentes vozes de uma gravação e atribui cada trecho de fala a um falante (Falante 1, Falante 2...), sem necessariamente saber o nome real da pessoa. É o que transforma um texto corrido em "a Marina disse X, o João respondeu Y". Difere da transcrição, que vira fala em texto sem dizer de quem é cada parte.
Qual a diferença entre diarização e transcrição?
Transcrição responde "o quê" (vira a fala em texto). Diarização responde "quem" (atribui cada trecho ao falante certo). Uma transcrição perfeita com diarização ruim entrega palavras corretas grudadas na pessoa errada — uma ata em que as tarefas vão parar no nome trocado.
Por que a IA erra ao identificar quem falou?
Porque ela agrupa vozes por semelhança acústica, e isso fica mais difícil com mais gente na sala, com falas curtas e com pessoas falando por cima. A taxa de erro de diarização (DER) salta de 2,68% com dois falantes para 11,65% com três (AssemblyAI, mar/2026), falas abaixo de 15 segundos costumam ser fundidas ao falante dominante, e a sobreposição de vozes pode levar o erro a mais de 50%.
A diarização funciona pior em português?
Tende a funcionar pior em idiomas com menos áudio anotado disponível, e o inglês domina os dados de treino. Um benchmark de set/2025 mediu, no mesmo modelo de ponta, 6,6% de DER em inglês contra 14,3% em espanhol — mais que o dobro de erro só mudando o idioma. O português herda o mesmo problema, agravado pela variação de sotaque regional do Brasil.
O que é DER (taxa de erro de diarização)?
DER é a fração do tempo de áudio rotulada errado, somando três erros: fala perdida (alguém falou e não foi detectado), falso alarme (ruído tratado como fala) e confusão de falante (a fala certa atribuída à pessoa errada). Sistemas de ponta ficam em 5% a 8% em benchmarks e 15% a 25% em áudio real; acima de 20% a revisão manual leva quase o mesmo tempo que ouvir o áudio (pyannoteAI, mai/2026).
Por que a diarização importa para a ata da reunião?
Porque a ata separa decisões e tarefas lendo os rótulos de falante. Se a diarização troca quem falou, o item de ação vai para o responsável errado e você só descobre no dia seguinte. Diarização nativa em português entrega esse "quem" com mais confiança — no Verter, ela aparece já durante a reunião, numa janela privada, para você corrigir na hora.