Audio y Voz

Whisper

El modelo de reconocimiento de voz de OpenAI que convierte cualquier grabación en texto.

Ver el proyecto Ver el paso a paso

Modelo gratuitoNivel intermedio8 min de lectura

Por Thiago Lourenço Martins

* Análisis independiente y gratuito. Contenido educativo, no patrocinado ni remunerado de ninguna forma. Mostramos los puntos fuertes y también las limitaciones — como una reseña honesta, para que usted decida.

Qué es

Un taquígrafo digital que entiende cualquier idioma

Whisper es un modelo de reconocimiento de voz creado por OpenAI y publicado gratuitamente como software de código abierto. Piénselo como un taquígrafo que nunca se cansa: usted le entrega una grabación — de una audiencia, una reunión, una consulta — y él devuelve el texto completo, sin que usted escriba ni una sola palabra. Entra el audio, sale el texto. Así de simple.

Por qué importa

Horas de grabación que deberían ser texto ayer

Una audiencia laboral de 2 horas puede generar más de 30 páginas de transcripción si alguien tiene que escribirlo todo a mano. Un perito que graba dictámenes por voz y luego reescribe el mismo contenido. Un gerente que sale de la reunión sin saber qué quedó decidido porque nadie pudo anotar todo.

~4 min

Es el tiempo que tarda Whisper en transcribir 90 minutos de audio de buena calidad. El modelo procesa a velocidad superior al tiempo real — lo que llevaría horas de tipeo queda listo antes de que usted termine el café.

5 formas de usarlo

Quién lo usa y para qué

01 Abogado(a)

Graba la audiencia en el teléfono, sube el archivo a Whisper y recibe la transcripción completa. En lugar de pasar horas reconstruyendo lo dicho, empieza a redactar el escrito directamente — con el texto real del testimonio en mano.

02 RR. HH. / Reclutamiento

Transcribe entrevistas de trabajo grabadas y genera un resumen por candidato. Elimina la necesidad de tomar notas durante la conversación y mantiene el foco en el entrevistado, no en el cuaderno.

03 Médico / Psicólogo

Dicta la historia clínica por voz durante o después de la consulta. Whisper convierte el audio en texto estructurado, listo para revisar y guardar. Sin dictáfono, sin secretaria, sin retrabajo.

04 Periodista / Comunicador

Graba entrevistas en campo con el teléfono. Regresa a la redacción con el archivo de audio y en minutos tiene la transcripción lista para convertir en nota — sin perder tiempo escuchando y volviendo a escribir.

05 Gerente / Director

Graba reuniones y transcribe al terminar. Usa el texto junto con ChatGPT para extraer decisiones, responsables y plazos. El acta que tardaba una hora en escribirse queda lista en 5 minutos.

Paso a paso

De cero al texto en menos de 10 minutos

El método a continuación usa Google Colab — un cuaderno de código en el navegador, gratuito, sin instalar nada. No necesita saber programar: solo copie y pegue.

// interfaz verificada en junio de 2026 — si algo se ve diferente, busque el nombre del botón en la ayuda de Google Colab

Acceda a colab.research.google.com
Inicie sesión con cualquier cuenta de Google. Es gratuito.
Haga clic en "+ Nuevo cuaderno"
Aparece una celda de código vacía en pantalla.
piénsela como una línea de instrucción que le enviará a la computadora
Pegue el comando de instalación y haga clic en "Ejecutar" (el triángulo)
En la celda, pegue exactamente: !pip install openai-whisper — y haga clic en el triángulo a la izquierda. Espere la instalación (puede tardar 1-2 minutos).
Suba su archivo de audio
En el panel izquierdo, haga clic en el ícono de carpeta. Luego arrastre el archivo de audio (.mp3, .mp4, .wav, .m4a) al área que aparezca. Espere a que finalice la carga.
el archivo desaparece al cerrar Colab — esto es normal; los resultados se guardan por separado
Cree una nueva celda y pegue el comando de transcripción
Haga clic en "+ Código" para crear otra celda. Pegue el bloque siguiente, reemplazando audiencia.mp3 con el nombre exacto de su archivo:
import whisper model = whisper.load_model("medium") result = model.transcribe("audiencia.mp3", language="es") print(result["text"])
Haga clic en "Ejecutar" y espere
El modelo carga y transcribe. Para un audio de 90 minutos, el proceso toma entre 3 y 6 minutos. El texto completo aparece justo debajo de la celda.
use "base" para resultados más rápidos; use "large-v3" para máxima precisión en términos técnicos

Copie y use ahora

De la transcripción bruta al acta formal

Después de obtener el texto de Whisper, pegue este pedido en ChatGPT — junto con la transcripción:

prompt

Aquí está la transcripción de una audiencia judicial: [pegue el texto].

Cree un acta formal con las siguientes secciones:
1. Participantes (identifique por rol: juez, abogado defensor, abogado de la contraparte, testigo)
2. Hechos no controvertidos — puntos aceptados por ambas partes
3. Puntos en conflicto — divergencias relevantes
4. Decisiones tomadas — con plazo y responsable cuando se mencione

Use lenguaje jurídico formal y organice en puntos numerados.

Obtiene un acta estructurada lista para revisar, adaptar y firmar — sin reescribir todo desde cero.

Lo que pocos saben

Consejos & limitaciones reales

Haga esto

Grabe en un lugar silencioso y con el micrófono cerca del hablante — Whisper no filtra ruido de fondo; la calidad del audio define la calidad de la transcripción.
Use el modelo "medium" o "large-v3" para audios con terminología técnica (jurídica, médica) — cometen menos errores en términos específicos del área.
Siempre revise el texto final antes de usarlo en documentos oficiales — nombres propios, números de identificación y siglas son los puntos con más variación.

Limitaciones reales

Whisper no identifica quién está hablando: la transcripción sale como texto continuo sin separar a los participantes. La diarización de hablantes requiere una herramienta adicional.
A través de la API de pago de OpenAI, el límite es de 25 MB por archivo. Las grabaciones largas deben dividirse antes de enviarlas — de lo contrario la solicitud falla.
El modelo de código abierto no transcribe en tiempo real — necesita el archivo de audio completo para comenzar. Para subtitulado en vivo, existen herramientas específicas.

¿Quiere verlo en video?

Un tutorial completo en portugués

Whisper OpenAI guía completa de transcripción

Otávio Miranda

Whisper OpenAI: Guia Completo de Transcrição com Inteligência Artificial (vídeo e áudio)

Ver en YouTube →

* Sugerencia independiente, elegida por la calidad del contenido. No tenemos ninguna relación ni patrocinio con el canal.

Desafío · 5 minutos

Transcriba 1 minuto de voz ahora mismo

Grabe un audio de 1 minuto en su teléfono — puede ser usted leyendo cualquier párrafo de un documento de su área. Siga los pasos anteriores con el modelo "base" (el más rápido) y compare el texto generado con el original.

Funcionó si más del 90% de las palabras son correctas — incluidos los términos técnicos de su área. Si no llega a ese nivel, cambie al modelo "medium" y compare de nuevo.

Cada día, una herramienta nueva explicada.

Recibir por WhatsApp