En el desarrollo de aplicaciones basadas en IA así como en su uso diario, o en el el proceso de pruebas de nuevas funcionalidades y modelos es muy importe contar con un acceso a modelos LLM de forma gratuita, Varias empresas ofrecen capas gratuitas de sus servicios de APIs, que se han convertido en una gran ayuda para los desarrolladores y quienes estamos aprendiendo todos los días sobre esta tecnología.
Fuentes:
Los límites de la versión gratuita (Free Tier) de la API de Gemini varían según el modelo que se elija en Google AI Studio. Después de los ajustes de cuotas realizados a finales de 2025 y principios de 2026, estos son los límites actuales por proyecto:
Consideraciones críticas del plan gratuito:
Para consultar el estado actual de tus cuotas, se puede acceder directamente al panel de límites de Google AI Studio.
Para obtener una API Key que nos permita acceder a los modelos LLMs de Google, podemos obtenerla en la consola del AI Studio.
Para verificar el buen funcionamiento de nuestro nuevo token de acceso, podemos ejecutar en la terminal:
export GEMINI_API_KEY=<nuestro token>
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [
{
"parts": [
{
"text": "Qué es el Vibe Coding?"
}
]
}
]
}'Los límites de la versión gratuita de la API de Groq (Free Tier) se aplican a nivel de organización y varían según el modelo específico que utilices. A diferencia de otros proveedores, Groq es conocido por ofrecer velocidades de inferencia extremas, pero sus cuotas gratuitas son estrictas para evitar el abuso.
Basado en la documentación técnica de GroqCloud y las actualizaciones para 2026, estos son los límites estándar:
Reglas importantes del nivel gratuito:
429 Too Many Requests. Se recomienda implementar exponential backoff en tu código.Dato clave: Puedes verificar tus límites exactos y actualizados en tiempo real en la sección “Limits” de tu panel de control en GroqCloud Settings.
Podemos obtener nuevos tokens de acceso a la API de Groq en su consola.
Para Validar el buen funcionamiento de nuestro token de Groq, podemos lanzar este comando curl en la terminal:
export GROQ_API_KEY=<nuestro token>
curl "https://api.groq.com/openai/v1/chat/completions" \
-X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${GROQ_API_KEY}" \
-d '{
"messages": [
{
"role": "user",
"content": "Qué es el Vibe Coding?"
}
],
"model": "openai/gpt-oss-20b",
"temperature": 1,
"max_completion_tokens": 8192,
"top_p": 1,
"stream": false,
"reasoning_effort": "medium",
"stop": null
}'Ollama no publica límites exactos (como un número fijo de peticiones) para su versión gratuita en la nube, prefiriendo definir el acceso según la “intensidad del caso de uso” (Reddit).
Sin embargo, basándose en la documentación oficial y reportes de usuarios, los límites aproximados son:
Para validar el acceso al servicio Ollama que corren en local no se requiere de un token. Podemos listar los modelos disponibles así:
curl http://localhost:11434/api/tags | grep -Po '(?<="model":")[^"]*'Para usar los modelos Clous, tendremos que obtener un API Key desde la seccion Keys de Ollama. Para validar el token obtenido podemos listar los modelos disponibles de Ollama CLoud, así:
export OLLAMA_API_KEY=<nuestro token>
curl -H "Authorization: Bearer $OLLAMA_API_KEY" https://ollama.com/api/tags | grep -Po '(?<="model":")[^"]*
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 7818 0 7818 0 0 23904 0 --:--:-- --:--:-- --:--:-- 23981
glm-4.6
cogito-2.1:671b
deepseek-v3.1:671b
gpt-oss:120b
gpt-oss:20b
ministral-3:14b
mistral-large-3:675b
glm-4.7
kimi-k2:1t
minimax-m2.1
ministral-3:8b
devstral-2:123b
qwen3-coder:480b
qwen3-coder-next
qwen3-vl:235b
nemotron-3-nano:30b
gemini-3-flash-preview
gemma3:12b
qwen3-vl:235b-instruct
devstral-small-2:24b
kimi-k2-thinking
qwen3-next:80b
deepseek-v3.2
minimax-m2
ministral-3:3b
gemma3:4b
gemma3:27b
rnj-1:8b
glm-5
kimi-k2.5
minimax-m2.5
qwen3.5:397bPara realizar una consulta a un modelo LLM:
export OLLAMA_API_KEY=<nuestro token>
curl https://ollama.com/api/generate \
-H "Authorization: Bearer $OLLAMA_API_KEY" \
-d '{
"model": "qwen3.5:397b",
"prompt": "hola /no_thinking",
"stream": false
}'Para 2026, NVIDIA ha simplificado el acceso a sus LLMs a través del catálogo de NVIDIA NIM (Microservicios de Inferencia). La compañía ha transicionado de un sistema rígido de créditos a un modelo basado principalmente en límites de tasa para prototipado.
Aquí tienes los límites actuales para el Nivel Gratuito (Free Tier):
Condiciones Clave:
Puedes monitorear el estado de tus servicios y obtener nuevas llaves directamente en el Panel de Control de NVIDIA NIM.
Para validar tu API Key de NVIDIA (usando sus microservicios NIM), el endpoint estándar sigue el formato de OpenAI:
export NVIDIA_API_KEY=<nuestro token>
curl -X POST "https://integrate.api.nvidia.com/v1/chat/completions" \
-H "Authorization: Bearer $NVIDIA_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "moonshotai/kimi-k2.5",
"messages": [{"role": "user", "content": "hola"}],
"max_tokens": 50
}'If you see mistakes or want to suggest changes, please create an issue on the source repository.
For attribution, please cite this work as
Sosa (2026, Feb. 21). Blog de José R Sosa: Opciones de acceso gratuito a APIs de LLMs. Retrieved from https://josersosa.github.io/personalweb/posts/2026-02-22-opciones-de-acceso-gratuito-a-apis-de-llms/
BibTeX citation
@misc{sosa2026opciones,
author = {Sosa, José R},
title = {Blog de José R Sosa: Opciones de acceso gratuito a APIs de LLMs},
url = {https://josersosa.github.io/personalweb/posts/2026-02-22-opciones-de-acceso-gratuito-a-apis-de-llms/},
year = {2026}
}