Blog de José R Sosa: Opciones de acceso gratuito a APIs de LLMs

José R Sosa

Fuentes:

API de Gemini

Los límites de la versión gratuita (Free Tier) de la API de Gemini varían según el modelo que se elija en Google AI Studio. Después de los ajustes de cuotas realizados a finales de 2025 y principios de 2026, estos son los límites actuales por proyecto:

Gemini 1.5 Flash: Es el modelo optimizado para velocidad y volumen.
- RPM (Peticiones por minuto): 15.
- RPD (Peticiones por día): 1,500.
- TPM (Tokens por minuto): 1,000,000.
Gemini 1.5 Pro: Diseñado para tareas complejas y razonamiento profundo.
- RPM: 2.
- RPD: 50.
- TPM: 32,000.
Gemini 1.5 Flash-Lite: Versión aún más ligera para tareas simples.
- RPM: 15.
- RPD: 1,500 (límite compartido con Flash).
- TPM: 1,000,000. Google AI for Developers

Consideraciones críticas del plan gratuito:

Privacidad de Datos: En el nivel gratuito, Google puede utilizar tus prompts y respuestas para mejorar sus productos. Si se necesita privacidad empresarial, se debe usar el nivel de pago (Pay-as-you-go).
Restricciones Geográficas: El acceso gratuito puede estar restringido en ciertas regiones como la UE, el Reino Unido y Suiza, donde a menudo se requiere un plan de pago desde el inicio.
Límites de Búsqueda: El uso de “Grounding with Google Search” (conexión a internet) está limitado a 500 consultas diarias en el plan gratuito. Google AI for Developers

Para consultar el estado actual de tus cuotas, se puede acceder directamente al panel de límites de Google AI Studio.

Para obtener una API Key que nos permita acceder a los modelos LLMs de Google, podemos obtenerla en la consola del AI Studio.

Para verificar el buen funcionamiento de nuestro nuevo token de acceso, podemos ejecutar en la terminal:

export GEMINI_API_KEY=<nuestro token>
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Qué es el Vibe Coding?"
          }
        ]
      }
    ]
  }'

Groq

Los límites de la versión gratuita de la API de Groq (Free Tier) se aplican a nivel de organización y varían según el modelo específico que utilices. A diferencia de otros proveedores, Groq es conocido por ofrecer velocidades de inferencia extremas, pero sus cuotas gratuitas son estrictas para evitar el abuso.

Basado en la documentación técnica de GroqCloud y las actualizaciones para 2026, estos son los límites estándar:

Llama 3.3 70B (y modelos de tamaño similar):
- RPM (Peticiones por minuto): 30.
- RPD (Peticiones por día): 1,000.
- TPM (Tokens por minuto): 6,000.
Llama 3.1 8B / 70B:
- RPM: 30.
- RPD: 1,000.
- TPM: Variable (generalmente entre 6,000 y 20,000 según la carga del servidor).
Mixtral 8x7B:
- RPM: 30.
- RPD: 1,000.
- TPM: 5,000.
Whisper (Modelos de Audio):
- RPM: 3.
- RPD: 100.

Reglas importantes del nivel gratuito:

Sin Tarjeta de Crédito: Puedes empezar a usar la API simplemente registrándote en la Groq Console con tu correo o cuenta de GitHub.
Límites Acumulativos: Los límites se aplican por modelo. Si alcanzas el límite de RPM en un modelo, podrías seguir usando otro distinto si aún tienes cuota disponible para ese modelo específico.
Errores 429: Al superar cualquiera de estos límites (ya sea por peticiones o por tokens), la API devolverá un error 429 Too Many Requests. Se recomienda implementar exponential backoff en tu código.
Uso de Datos: Groq ofrece una opción de Zero-data Retention incluso en su plan gratuito, lo que significa que tus datos no se utilizan para entrenar sus modelos. (GroqCloud)

Dato clave: Puedes verificar tus límites exactos y actualizados en tiempo real en la sección “Limits” de tu panel de control en GroqCloud Settings.

Podemos obtener nuevos tokens de acceso a la API de Groq en su consola.

Para Validar el buen funcionamiento de nuestro token de Groq, podemos lanzar este comando curl en la terminal:

export GROQ_API_KEY=<nuestro token>
curl "https://api.groq.com/openai/v1/chat/completions" \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${GROQ_API_KEY}" \
  -d '{
         "messages": [
           {
             "role": "user",
             "content": "Qué es el Vibe Coding?"
           }
         ],
         "model": "openai/gpt-oss-20b",
         "temperature": 1,
         "max_completion_tokens": 8192,
         "top_p": 1,
         "stream": false,
         "reasoning_effort": "medium",
         "stop": null
       }'

Modelos Cloud en Ollama

Ollama no publica límites exactos (como un número fijo de peticiones) para su versión gratuita en la nube, prefiriendo definir el acceso según la “intensidad del caso de uso” (Reddit).

Sin embargo, basándose en la documentación oficial y reportes de usuarios, los límites aproximados son:

Perfil de uso: El plan gratuito de Ollama está diseñado para “uso ligero”, como chats ocasionales, preguntas rápidas y experimentación con modelos.
Capacidad estimada: Usuarios han reportado que el límite por hora ronda los 250,000 tokens de entrada. Una vez alcanzado, el servicio se pausa hasta que termine el periodo de una hora.
Métricas de seguimiento: En el panel de control de Ollama Cloud, el uso no se muestra en números absolutos, sino como un porcentaje de consumo basado en periodos de 4 horas y semanales.
Límite de modelos: A diferencia de los planes de pago que permiten ejecutar múltiples modelos en paralelo, la versión gratuita está optimizada para probar un modelo a la vez de forma secuencial.
Búsqueda web: Incluye un nivel gratuito “generoso” para realizar búsquedas web integradas antes de requerir límites más altos mediante el plan Cloud.

Para validar el acceso al servicio Ollama que corren en local no se requiere de un token. Podemos listar los modelos disponibles así:

curl http://localhost:11434/api/tags | grep -Po '(?<="model":")[^"]*'

Para usar los modelos Clous, tendremos que obtener un API Key desde la seccion Keys de Ollama. Para validar el token obtenido podemos listar los modelos disponibles de Ollama CLoud, así:

export OLLAMA_API_KEY=<nuestro token>
curl -H "Authorization: Bearer $OLLAMA_API_KEY" https://ollama.com/api/tags  | grep -Po '(?<="model":")[^"]*
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  7818    0  7818    0     0  23904      0 --:--:-- --:--:-- --:--:-- 23981
glm-4.6
cogito-2.1:671b
deepseek-v3.1:671b
gpt-oss:120b
gpt-oss:20b
ministral-3:14b
mistral-large-3:675b
glm-4.7
kimi-k2:1t
minimax-m2.1
ministral-3:8b
devstral-2:123b
qwen3-coder:480b
qwen3-coder-next
qwen3-vl:235b
nemotron-3-nano:30b
gemini-3-flash-preview
gemma3:12b
qwen3-vl:235b-instruct
devstral-small-2:24b
kimi-k2-thinking
qwen3-next:80b
deepseek-v3.2
minimax-m2
ministral-3:3b
gemma3:4b
gemma3:27b
rnj-1:8b
glm-5
kimi-k2.5
minimax-m2.5
qwen3.5:397b

Para realizar una consulta a un modelo LLM:

export OLLAMA_API_KEY=<nuestro token>
curl https://ollama.com/api/generate \
     -H "Authorization: Bearer $OLLAMA_API_KEY" \
     -d '{
       "model": "qwen3.5:397b",
       "prompt": "hola /no_thinking",
       "stream": false
     }'

Microservicios de Inferencia de NVIDIA

Para 2026, NVIDIA ha simplificado el acceso a sus LLMs a través del catálogo de NVIDIA NIM (Microservicios de Inferencia). La compañía ha transicionado de un sistema rígido de créditos a un modelo basado principalmente en límites de tasa para prototipado.

Aquí tienes los límites actuales para el Nivel Gratuito (Free Tier):

RPM (Peticiones por minuto): El límite estándar reportado es de 40 RPM por modelo. Este límite es generoso para desarrollo personal pero puede variar según la carga de los servidores de NVIDIA.
RPD (Peticiones por día): No existe un límite diario publicado estrictamente, ya que el enfoque actual es permitir el “prototipado ilimitado” mientras no se use para producción.
Créditos Iniciales: Anteriormente se otorgaban 1,000 créditos (expandibles a 5,000 con correo empresarial), pero NVIDIA ha ido eliminando este contador en favor de los límites de RPM para facilitar el desarrollo continuo.
TPM (Tokens por minuto): Aunque no se publica una cifra oficial de tokens, el sistema está optimizado para la velocidad de las GPUs NVIDIA, permitiendo un flujo de tokens muy alto dentro del margen de las 40 peticiones por minuto. (Reddit)

Condiciones Clave:

Uso No Comercial: El acceso gratuito a través del NVIDIA API Catalog es exclusivamente para investigación, desarrollo y pruebas.
Sin Tarjeta de Crédito: Puedes generar tus API Keys simplemente registrándote en el Programa de Desarrolladores de NVIDIA.
Transición a Producción: Una vez que necesites desplegar una aplicación comercial, debes adquirir una licencia de NVIDIA AI Enterprise o utilizar proveedores serverless asociados (como Together.ai o Fireworks).
Auto-hospedaje: Como parte del programa de desarrolladores, también tienes derecho a descargar y ejecutar los contenedores NIM localmente en hasta 16 GPUs para experimentación privada sin límites de API externos. (NVIDIA Developer Forums)

Puedes monitorear el estado de tus servicios y obtener nuevas llaves directamente en el Panel de Control de NVIDIA NIM.

Para validar tu API Key de NVIDIA (usando sus microservicios NIM), el endpoint estándar sigue el formato de OpenAI:

export NVIDIA_API_KEY=<nuestro token>
curl -X POST "https://integrate.api.nvidia.com/v1/chat/completions" \
     -H "Authorization: Bearer $NVIDIA_API_KEY" \
     -H "Content-Type: application/json" \
     -d '{
       "model": "moonshotai/kimi-k2.5",
       "messages": [{"role": "user", "content": "hola"}],
       "max_tokens": 50
     }'

Comment on this article Share:

Opciones de acceso gratuito a APIs de LLMs

API de Gemini

Groq

Modelos Cloud en Ollama

Microservicios de Inferencia de NVIDIA

Corrections

Citation