Integrando Whisper en n8n

n8n STT Whisper

Cómo integrar Whisper en n8n para automatizar la transcripción de audio dentro de flujos de trabajo. Veremos varios mecanismos prácticos para lograr esto y algunas consideraciones clave para el reconocimiento de voz en procesos reales.

José R Sosa https://josersosa.github.io/personalweb/
09-30-2025

Opciones para STT con Whisper en n8n

OpenAI Whisper API (Método más sencillo)

graph LR
A[Trigger: Audio File] --> B[HTTP Request a OpenAI Whisper]
B --> C[Procesar texto transcrito]

Flujo básico: 1. Trigger: Recibir audio (por ejemplo, de Telegram, Email, Google Drive, etc.) 2. HTTP Request Node: Enviar audio a OpenAI Whisper API 3. Procesar respuesta: Usar el texto transcrito

Configuración del HTTP Request Node: - Method: POST - URL: https://api.openai.com/v1/audio/transcriptions - Authentication: Bearer Token (tu API key de OpenAI) - Content-Type: multipart/form-data - Body Parameters: - file: El archivo de audio - model: whisper-1

Whisper Autoinstalado (Self-hosted)

Si prefieres no depender de OpenAI, puedes usar una versión autohospedada de Whisper:

graph LR
A[Audio Input] --> B[HTTP Request a Whisper Local]
B --> C[Texto transcrito]

Usando servicios alternativos

Ejemplo completo: Telegram + Whisper

Caso de uso: Recibir audio por Telegram y transcribirlo con Whisper

Flujo en n8n:

  1. Telegram Trigger: On Message Received
  2. Filter Node: Filtrar solo mensajes con audio
  3. HTTP Request: Descargar el archivo de audio de Telegram
  4. HTTP Request: Enviar audio a OpenAI Whisper API
  5. Telegram: Enviar el texto transcrito como respuesta

Configuración detallada:

Nodo 1: Telegram Trigger - Event: message - Filtros adicionales para detectar archivos de audio

Nodo 2: HTTP Request (Descargar audio) - Method: GET - URL: https://api.telegram.org/bot{token}/getFile?file_id={{$json["message"]["audio"]["file_id"]}}

Nodo 3: HTTP Request (Whisper API) - Method: POST - URL: https://api.openai.com/v1/audio/transcriptions - Headers: - Authorization: Bearer YOUR_OPENAI_API_KEY - Body: multipart/form-data - file: Binary data del audio - model: whisper-1

Consideraciones importantes:

Corrections

If you see mistakes or want to suggest changes, please create an issue on the source repository.

Citation

For attribution, please cite this work as

Sosa (2025, Sept. 30). Blog de José R Sosa: Integrando Whisper en n8n. Retrieved from https://josersosa.github.io/personalweb/posts/2026-02-01-whisper-en-n8n/

BibTeX citation

@misc{sosa2025integrando,
  author = {Sosa, José R},
  title = {Blog de José R Sosa: Integrando Whisper en n8n},
  url = {https://josersosa.github.io/personalweb/posts/2026-02-01-whisper-en-n8n/},
  year = {2025}
}