Cómo integrar Whisper en n8n para automatizar la transcripción de audio dentro de flujos de trabajo. Veremos varios mecanismos prácticos para lograr esto y algunas consideraciones clave para el reconocimiento de voz en procesos reales.
graph LR
A[Trigger: Audio File] --> B[HTTP Request a OpenAI Whisper]
B --> C[Procesar texto transcrito]
Flujo básico: 1. Trigger: Recibir audio (por ejemplo, de Telegram, Email, Google Drive, etc.) 2. HTTP Request Node: Enviar audio a OpenAI Whisper API 3. Procesar respuesta: Usar el texto transcrito
Configuración del HTTP Request Node:
- Method: POST
- URL: https://api.openai.com/v1/audio/transcriptions
- Authentication: Bearer Token (tu API key de OpenAI)
- Content-Type: multipart/form-data
- Body Parameters:
- file: El archivo de audio
- model: whisper-1
Si prefieres no depender de OpenAI, puedes usar una versión autohospedada de Whisper:
graph LR
A[Audio Input] --> B[HTTP Request a Whisper Local]
B --> C[Texto transcrito]
Caso de uso: Recibir audio por Telegram y transcribirlo con Whisper
Nodo 1: Telegram Trigger
- Event: message
- Filtros adicionales para detectar archivos de audio
Nodo 2: HTTP Request (Descargar audio)
- Method: GET
- URL:
https://api.telegram.org/bot{token}/getFile?file_id={{$json["message"]["audio"]["file_id"]}}
Nodo 3: HTTP Request (Whisper API)
- Method: POST
- URL: https://api.openai.com/v1/audio/transcriptions
- Headers:
- Authorization: Bearer YOUR_OPENAI_API_KEY
- Body: multipart/form-data
- file: Binary data del audio
- model: whisper-1
If you see mistakes or want to suggest changes, please create an issue on the source repository.
For attribution, please cite this work as
Sosa (2025, Sept. 30). Blog de José R Sosa: Integrando Whisper en n8n. Retrieved from https://josersosa.github.io/personalweb/posts/2026-02-01-whisper-en-n8n/
BibTeX citation
@misc{sosa2025integrando,
author = {Sosa, José R},
title = {Blog de José R Sosa: Integrando Whisper en n8n},
url = {https://josersosa.github.io/personalweb/posts/2026-02-01-whisper-en-n8n/},
year = {2025}
}