Áudio & Voz

Whisper

O modelo de transcrição de voz da OpenAI que converte qualquer gravação em texto.

Ver o projeto Ver o passo a passo

Modelo gratuitoNível intermediário8 min de leitura

Por Thiago Lourenço Martins

* Análise independente e gratuita. Conteúdo educativo, não é patrocinado nem remunerado de forma alguma. Mostramos os pontos fortes e também as limitações — como um review honesto, para você decidir.

O que é

Um estenógrafo digital que entende português

O Whisper é um modelo de reconhecimento de voz criado pela OpenAI e disponibilizado gratuitamente como código aberto. Pense nele como um estenógrafo que nunca cansa: você entrega uma gravação — de audiência, reunião ou consulta — e ele devolve o texto completo, em português, sem precisar digitar uma única palavra. O arquivo de áudio entra, o texto sai. É isso.

Por que importa

Horas de gravação que deveriam virar texto ontem

Uma audiência trabalhista de 2 horas pode gerar mais de 30 páginas de transcrição se alguém precisar digitar tudo manualmente. Um perito que grava laudos por voz e depois precisa reescrever o mesmo conteúdo. Um gestor que sai da reunião sem saber o que ficou decidido porque ninguém conseguiu anotar tudo.

~4 min

É o tempo que o Whisper leva para transcrever 90 minutos de áudio de boa qualidade, em português. O modelo processa em velocidade superior ao tempo real — o que levaria horas de digitação fica pronto antes de você ir buscar o café.

5 maneiras de usar

Quem usa e para quê

01 Advogado(a)

Grava a audiência no celular, sobe o arquivo no Whisper e recebe a transcrição completa. Em vez de passar horas reconstituindo o que foi dito, começa direto a montar a peça — com o texto real da oitiva em mãos.

02 RH / Recrutamento

Transcreve entrevistas de emprego gravadas e gera um resumo por candidato. Elimina a necessidade de escrever durante a conversa e mantém o foco no entrevistado, não nas anotações.

03 Médico / Psicólogo

Dita o prontuário por voz durante ou após a consulta. O Whisper converte em texto estruturado, pronto para revisar e salvar. Sem ditafone, sem secretária, sem retrabalho.

04 Jornalista / Comunicador

Entrevista em campo com o celular. Volta para a redação com o arquivo de áudio e, em minutos, tem a transcrição pronta para virar reportagem — sem perder tempo com a tarefa mecânica de ouvir e digitar.

05 Gestor / Diretor

Grava reuniões e transcreve ao final. Usa o texto junto com o ChatGPT para extrair decisões, responsáveis e prazos. A ata que levava 1 hora a escrever fica pronta em 5 minutos.

Passo a passo

Do zero ao texto em menos de 10 minutos

O método abaixo usa o Google Colab — uma planilha de código no navegador, gratuita, sem instalar nada. Você não precisa saber programar: é só copiar e colar.

// interface conferida em junho de 2026 — se algo estiver diferente, procure pelo nome do botão na ajuda do Google Colab

Acesse colab.research.google.com
Faça login com qualquer conta Google. É gratuito.
Clique em "+ Novo notebook"
Uma célula de código vazia aparece na tela.
pense nela como uma linha de instrução que você vai mandar para o computador
Cole o comando de instalação e clique em "Executar" (o triângulo)
Na célula, cole exatamente: !pip install openai-whisper — e clique no triângulo à esquerda. Aguarde a instalação (pode levar 1 a 2 minutos).
Suba o seu arquivo de áudio
No painel esquerdo, clique no ícone de pasta. Em seguida, arraste o arquivo de áudio (.mp3, .mp4, .wav, .m4a) para a área que aparecer. Aguarde o upload terminar.
o arquivo some ao fechar o Colab — isso é normal; os resultados ficam salvos separadamente
Crie uma nova célula e cole o comando de transcrição
Clique em "+ Código" para criar outra célula. Cole o bloco abaixo, substituindo audiencia.mp3 pelo nome exato do seu arquivo:
import whisper model = whisper.load_model("medium") result = model.transcribe("audiencia.mp3", language="pt") print(result["text"])
Clique em "Executar" e aguarde
O modelo carrega e transcreve. Para um áudio de 90 minutos, o processo leva cerca de 3 a 6 minutos. O texto completo aparece logo abaixo da célula.
use o modelo "base" se quiser resultado mais rápido; use "large-v3" para máxima precisão em termos técnicos

Copie e use agora

Da transcrição bruta à ata jurídica

Depois de obter o texto do Whisper, cole este pedido no ChatGPT — junto com a transcrição:

prompt

Aqui está a transcrição de uma audiência judicial: [cole o texto].

Crie uma ata formal com as seguintes seções:
1. Participantes (identifique por papel: juiz, advogado de defesa, advogado da parte contrária, testemunha)
2. Fatos incontroversos — pontos aceitos por ambas as partes
3. Pontos em conflito — divergências relevantes
4. Decisões tomadas — com prazo e responsável quando mencionado

Use linguagem jurídica formal e organize em tópicos numerados.

Você recebe uma ata estruturada pronta para revisar, adaptar e assinar — sem reescrever tudo do zero.

O que poucos sabem

Dicas & limitações reais

Faça assim

Grave em ambiente silencioso e com o microfone perto da boca — o Whisper não filtra ruído de fundo; a qualidade do áudio define a qualidade da transcrição.
Use o modelo "medium" ou "large-v3" para áudios com terminologia técnica (jurídica, médica) — eles erram menos nos termos específicos.
Sempre revise o texto final antes de usar em documentos oficiais — nomes próprios, CPFs e siglas são os pontos com mais variação.

Limitações reais

O Whisper não identifica quem está falando: a transcrição sai como texto corrido, sem separar os participantes. Para isso, é preciso usar uma ferramenta adicional de diarização.
Pela API paga da OpenAI, o limite é de 25 MB por arquivo. Gravações longas precisam ser divididas antes do envio — caso contrário a requisição falha.
O modelo não transcreve em tempo real na versão de código aberto — ele precisa do arquivo de áudio completo para começar. Para legendagem ao vivo, existem ferramentas específicas.

Quer ver em vídeo?

Um tutorial completo em português

Otávio Miranda

Whisper OpenAI: Guia Completo de Transcrição com Inteligência Artificial (vídeo e áudio)

Assistir no YouTube →

* Sugestão independente, escolhida pela qualidade do conteúdo. Não temos nenhuma relação nem patrocínio com o canal.

Desafio · 5 minutos

Transcreva 1 minuto de voz agora

Grave um áudio de 1 minuto no celular — pode ser você lendo qualquer parágrafo de um documento da sua área. Siga o passo a passo acima com o modelo "base" (mais rápido) e compare o texto gerado com o original.

Deu certo se mais de 90% das palavras estiverem corretas — incluindo os termos técnicos da sua área. Se não chegar lá, troque o modelo para "medium" e compare de novo.

Todo dia, uma ferramenta nova explicada.

Receber no WhatsApp