Opciones de acceso gratuito a APIs de LLMs

GenAI HomeLab

En el desarrollo de aplicaciones basadas en IA así como en su uso diario, o en el el proceso de pruebas de nuevas funcionalidades y modelos es muy importe contar con un acceso a modelos LLM de forma gratuita, Varias empresas ofrecen capas gratuitas de sus servicios de APIs, que se han convertido en una gran ayuda para los desarrolladores y quienes estamos aprendiendo todos los días sobre esta tecnología.

José R Sosa https://josersosa.github.io/personalweb/
2026-02-21

Fuentes:

API de Gemini

Los límites de la versión gratuita (Free Tier) de la API de Gemini varían según el modelo que se elija en Google AI Studio. Después de los ajustes de cuotas realizados a finales de 2025 y principios de 2026, estos son los límites actuales por proyecto:

Consideraciones críticas del plan gratuito:

Para consultar el estado actual de tus cuotas, se puede acceder directamente al panel de límites de Google AI Studio.

Para obtener una API Key que nos permita acceder a los modelos LLMs de Google, podemos obtenerla en la consola del AI Studio.

Para verificar el buen funcionamiento de nuestro nuevo token de acceso, podemos ejecutar en la terminal:

export GEMINI_API_KEY=<nuestro token>
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Qué es el Vibe Coding?"
          }
        ]
      }
    ]
  }'

Groq

Los límites de la versión gratuita de la API de Groq (Free Tier) se aplican a nivel de organización y varían según el modelo específico que utilices. A diferencia de otros proveedores, Groq es conocido por ofrecer velocidades de inferencia extremas, pero sus cuotas gratuitas son estrictas para evitar el abuso.

Basado en la documentación técnica de GroqCloud y las actualizaciones para 2026, estos son los límites estándar:

Reglas importantes del nivel gratuito:

  1. Sin Tarjeta de Crédito: Puedes empezar a usar la API simplemente registrándote en la Groq Console con tu correo o cuenta de GitHub.
  2. Límites Acumulativos: Los límites se aplican por modelo. Si alcanzas el límite de RPM en un modelo, podrías seguir usando otro distinto si aún tienes cuota disponible para ese modelo específico.
  3. Errores 429: Al superar cualquiera de estos límites (ya sea por peticiones o por tokens), la API devolverá un error 429 Too Many Requests. Se recomienda implementar exponential backoff en tu código.
  4. Uso de Datos: Groq ofrece una opción de Zero-data Retention incluso en su plan gratuito, lo que significa que tus datos no se utilizan para entrenar sus modelos. (GroqCloud)

Dato clave: Puedes verificar tus límites exactos y actualizados en tiempo real en la sección “Limits” de tu panel de control en GroqCloud Settings.

Podemos obtener nuevos tokens de acceso a la API de Groq en su consola.

Para Validar el buen funcionamiento de nuestro token de Groq, podemos lanzar este comando curl en la terminal:

export GROQ_API_KEY=<nuestro token>
curl "https://api.groq.com/openai/v1/chat/completions" \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${GROQ_API_KEY}" \
  -d '{
         "messages": [
           {
             "role": "user",
             "content": "Qué es el Vibe Coding?"
           }
         ],
         "model": "openai/gpt-oss-20b",
         "temperature": 1,
         "max_completion_tokens": 8192,
         "top_p": 1,
         "stream": false,
         "reasoning_effort": "medium",
         "stop": null
       }'

Modelos Cloud en Ollama

Ollama no publica límites exactos (como un número fijo de peticiones) para su versión gratuita en la nube, prefiriendo definir el acceso según la “intensidad del caso de uso” (Reddit).

Sin embargo, basándose en la documentación oficial y reportes de usuarios, los límites aproximados son:

Para validar el acceso al servicio Ollama que corren en local no se requiere de un token. Podemos listar los modelos disponibles así:

curl http://localhost:11434/api/tags | grep -Po '(?<="model":")[^"]*'

Para usar los modelos Clous, tendremos que obtener un API Key desde la seccion Keys de Ollama. Para validar el token obtenido podemos listar los modelos disponibles de Ollama CLoud, así:

export OLLAMA_API_KEY=<nuestro token>
curl -H "Authorization: Bearer $OLLAMA_API_KEY" https://ollama.com/api/tags  | grep -Po '(?<="model":")[^"]*
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  7818    0  7818    0     0  23904      0 --:--:-- --:--:-- --:--:-- 23981
glm-4.6
cogito-2.1:671b
deepseek-v3.1:671b
gpt-oss:120b
gpt-oss:20b
ministral-3:14b
mistral-large-3:675b
glm-4.7
kimi-k2:1t
minimax-m2.1
ministral-3:8b
devstral-2:123b
qwen3-coder:480b
qwen3-coder-next
qwen3-vl:235b
nemotron-3-nano:30b
gemini-3-flash-preview
gemma3:12b
qwen3-vl:235b-instruct
devstral-small-2:24b
kimi-k2-thinking
qwen3-next:80b
deepseek-v3.2
minimax-m2
ministral-3:3b
gemma3:4b
gemma3:27b
rnj-1:8b
glm-5
kimi-k2.5
minimax-m2.5
qwen3.5:397b

Para realizar una consulta a un modelo LLM:

export OLLAMA_API_KEY=<nuestro token>
curl https://ollama.com/api/generate \
     -H "Authorization: Bearer $OLLAMA_API_KEY" \
     -d '{
       "model": "qwen3.5:397b",
       "prompt": "hola /no_thinking",
       "stream": false
     }'

Microservicios de Inferencia de NVIDIA

Para 2026, NVIDIA ha simplificado el acceso a sus LLMs a través del catálogo de NVIDIA NIM (Microservicios de Inferencia). La compañía ha transicionado de un sistema rígido de créditos a un modelo basado principalmente en límites de tasa para prototipado.

Aquí tienes los límites actuales para el Nivel Gratuito (Free Tier):

Condiciones Clave:

  1. Uso No Comercial: El acceso gratuito a través del NVIDIA API Catalog es exclusivamente para investigación, desarrollo y pruebas.
  2. Sin Tarjeta de Crédito: Puedes generar tus API Keys simplemente registrándote en el Programa de Desarrolladores de NVIDIA.
  3. Transición a Producción: Una vez que necesites desplegar una aplicación comercial, debes adquirir una licencia de NVIDIA AI Enterprise o utilizar proveedores serverless asociados (como Together.ai o Fireworks).
  4. Auto-hospedaje: Como parte del programa de desarrolladores, también tienes derecho a descargar y ejecutar los contenedores NIM localmente en hasta 16 GPUs para experimentación privada sin límites de API externos. (NVIDIA Developer Forums)

Puedes monitorear el estado de tus servicios y obtener nuevas llaves directamente en el Panel de Control de NVIDIA NIM.

Para validar tu API Key de NVIDIA (usando sus microservicios NIM), el endpoint estándar sigue el formato de OpenAI:

export NVIDIA_API_KEY=<nuestro token>
curl -X POST "https://integrate.api.nvidia.com/v1/chat/completions" \
     -H "Authorization: Bearer $NVIDIA_API_KEY" \
     -H "Content-Type: application/json" \
     -d '{
       "model": "moonshotai/kimi-k2.5",
       "messages": [{"role": "user", "content": "hola"}],
       "max_tokens": 50
     }'

Corrections

If you see mistakes or want to suggest changes, please create an issue on the source repository.

Citation

For attribution, please cite this work as

Sosa (2026, Feb. 21). Blog de José R Sosa: Opciones de acceso gratuito a APIs de LLMs. Retrieved from https://josersosa.github.io/personalweb/posts/2026-02-22-opciones-de-acceso-gratuito-a-apis-de-llms/

BibTeX citation

@misc{sosa2026opciones,
  author = {Sosa, José R},
  title = {Blog de José R Sosa: Opciones de acceso gratuito a APIs de LLMs},
  url = {https://josersosa.github.io/personalweb/posts/2026-02-22-opciones-de-acceso-gratuito-a-apis-de-llms/},
  year = {2026}
}