O modelo de transcrição de voz da OpenAI que converte qualquer gravação em texto.
Por Thiago Lourenço Martins
O Whisper é um modelo de reconhecimento de voz criado pela OpenAI e disponibilizado gratuitamente como código aberto. Pense nele como um estenógrafo que nunca cansa: você entrega uma gravação — de audiência, reunião ou consulta — e ele devolve o texto completo, em português, sem precisar digitar uma única palavra. O arquivo de áudio entra, o texto sai. É isso.
Uma audiência trabalhista de 2 horas pode gerar mais de 30 páginas de transcrição se alguém precisar digitar tudo manualmente. Um perito que grava laudos por voz e depois precisa reescrever o mesmo conteúdo. Um gestor que sai da reunião sem saber o que ficou decidido porque ninguém conseguiu anotar tudo.
É o tempo que o Whisper leva para transcrever 90 minutos de áudio de boa qualidade, em português. O modelo processa em velocidade superior ao tempo real — o que levaria horas de digitação fica pronto antes de você ir buscar o café.
Grava a audiência no celular, sobe o arquivo no Whisper e recebe a transcrição completa. Em vez de passar horas reconstituindo o que foi dito, começa direto a montar a peça — com o texto real da oitiva em mãos.
Transcreve entrevistas de emprego gravadas e gera um resumo por candidato. Elimina a necessidade de escrever durante a conversa e mantém o foco no entrevistado, não nas anotações.
Dita o prontuário por voz durante ou após a consulta. O Whisper converte em texto estruturado, pronto para revisar e salvar. Sem ditafone, sem secretária, sem retrabalho.
Entrevista em campo com o celular. Volta para a redação com o arquivo de áudio e, em minutos, tem a transcrição pronta para virar reportagem — sem perder tempo com a tarefa mecânica de ouvir e digitar.
Grava reuniões e transcreve ao final. Usa o texto junto com o ChatGPT para extrair decisões, responsáveis e prazos. A ata que levava 1 hora a escrever fica pronta em 5 minutos.
O método abaixo usa o Google Colab — uma planilha de código no navegador, gratuita, sem instalar nada. Você não precisa saber programar: é só copiar e colar.
Faça login com qualquer conta Google. É gratuito.
Uma célula de código vazia aparece na tela.
pense nela como uma linha de instrução que você vai mandar para o computadorNa célula, cole exatamente: !pip install openai-whisper — e clique no triângulo à esquerda. Aguarde a instalação (pode levar 1 a 2 minutos).
No painel esquerdo, clique no ícone de pasta. Em seguida, arraste o arquivo de áudio (.mp3, .mp4, .wav, .m4a) para a área que aparecer. Aguarde o upload terminar.
o arquivo some ao fechar o Colab — isso é normal; os resultados ficam salvos separadamenteClique em "+ Código" para criar outra célula. Cole o bloco abaixo, substituindo audiencia.mp3 pelo nome exato do seu arquivo:
import whisper
model = whisper.load_model("medium")
result = model.transcribe("audiencia.mp3", language="pt")
print(result["text"])O modelo carrega e transcreve. Para um áudio de 90 minutos, o processo leva cerca de 3 a 6 minutos. O texto completo aparece logo abaixo da célula.
use o modelo "base" se quiser resultado mais rápido; use "large-v3" para máxima precisão em termos técnicosDepois de obter o texto do Whisper, cole este pedido no ChatGPT — junto com a transcrição:
Aqui está a transcrição de uma audiência judicial: [cole o texto].
Crie uma ata formal com as seguintes seções:
1. Participantes (identifique por papel: juiz, advogado de defesa, advogado da parte contrária, testemunha)
2. Fatos incontroversos — pontos aceitos por ambas as partes
3. Pontos em conflito — divergências relevantes
4. Decisões tomadas — com prazo e responsável quando mencionado
Use linguagem jurídica formal e organize em tópicos numerados.
Você recebe uma ata estruturada pronta para revisar, adaptar e assinar — sem reescrever tudo do zero.
* Sugestão independente, escolhida pela qualidade do conteúdo. Não temos nenhuma relação nem patrocínio com o canal.
Grave um áudio de 1 minuto no celular — pode ser você lendo qualquer parágrafo de um documento da sua área. Siga o passo a passo acima com o modelo "base" (mais rápido) e compare o texto gerado com o original.
Deu certo se mais de 90% das palavras estiverem corretas — incluindo os termos técnicos da sua área. Se não chegar lá, troque o modelo para "medium" e compare de novo.
Todo dia, uma ferramenta nova explicada.
Receber no WhatsApp