
¡¡Google le Entra con Todo: Gemini con Comandos y Brazos!! | 💻Supra Virtual 💻 | 25 Junio
Miércoles 25 Junio 2025
IA Supra Virtual
¡Google Viene con Todo!
¡Hola, Amigos!
Google este imparable. Mientras todos estaban ocupados viendo qué IA canta mejor o cuál escribe mejores cartas de amor, la gente de Mountain View decidió tirar dos anuncios discretos pero poderosos: Gemini ahora tiene su propia línea de comandos (CLI) y también está entrando al terreno de la robótica con Gemini Robotics.
Por un lado, Gemini CLI es básicamente la versión terminal de su inteligencia artificial. Para los más techies, esto significa que ahora puedes hablar con Gemini desde la consola como si fuera tu amigo. Nada de pestañas abiertas ni páginas cargando: puro texto, puro comando, puro poder. Ideal para programadores, ingenieros, y cualquiera que ame esa pantalla negra con letras verdes donde parece que todo es posible.
Por otro lado, Gemini Robotics es una jugada más ambiciosa. Google está enseñándole a la IA cómo mover cosas en el mundo real. Ya no solo escribe, traduce o genera imágenes. Ahora puede coordinar acciones físicas, aprender con ejemplos y controlar robots para tareas reales, como agarrar objetos o seguir instrucciones visuales.
Sí, como Jarvis, pero versión beta y sin sarcasmo británico todavía.
Lo interesante es que Google está apostando por integrar visión, lenguaje y acción en un solo paquete. No es solo que la IA entienda texto, sino que también vea, razone y actúe. Todo al mismo tiempo. Esto pone a Gemini en el camino de convertirse en algo más que un chatbot bonito: puede ser un verdadero asistente cognitivo con cuerpo y teclado.
Mientras OpenAI pule su voz y Meta lanza modelos con nombres de contraseña de WiFi, Google está construyendo herramientas para desarrolladores y futuros robots caseros. No hace mucho ruido, pero cuando se mueve, mueve cosas grandes.
Así que ya lo sabes. Gemini está creciendo en todas direcciones: habla, piensa, programa… y ahora también se mueve.
Nosotros solo esperamos que el día que te pida que le pases el destornillador, no sea para desarmarte la casa.
No vemos la próxima semana, recuerden suscribirse a nuestro canal, al newsletter en correo y darle like y seguirnos en nuestras redes sociales. Adiós y gracias.
Marco Garcia
Imagen generada en DALL-E
Gemini CLI
Es una herramienta de línea de comandos (CLI) potenciada por los modelos Gemini de Google (específicamente Gemini 2.5 Pro), diseñada para operar directamente desde el terminal de desarrolladores.
Actúa como un agente de IA "agentic", capaz de entender instrucciones en lenguaje natural y ejecutar tareas de codificación, debugging, generación de contenido, e incluso manipulación de archivos y ejecución de comandos.
Además de codificar, puede conectarse a otros flujos de trabajo IA: generar videos con Veo 3 e Imagen, elaborar informes con Deep Research, buscar información en tiempo real con Google Search, y comunicarse con bases de datos mediante el protocolo MCP.
Características destacadas
- Navegación del código & debugging: Permite resumir, explicar, refactorizar o crear funciones nuevas en bases de código grandes (incluso más allá del límite de 1 M tokens)
- Operaciones en archivos y comandos: Manipula archivos, ejecuta shell scripts o invoca comandos directamente desde prompts en lenguaje humano.
- Extensibilidad y protocolo MCP: Permite integrar modelos externos u otras herramientas a través de MCP o extensiones personalizadas.
- Grounding con Google Search: Incorporación automática de contexto externo en tiempo real para enriquecer las respuestas.
- Multimodalidad: Soporta inputs y outputs que incluyen texto, imágenes, audio y video. Puede generar nuevos medios en el terminal.
- Personalización: Admite configuración a nivel personal o por equipo (GEMINI.md), scripts no interactivos y prompts ajustables.
Disponibilidad
- Modo preview desde hoy, se instala fácilmente con npm (npm install -g @google/gemini-cli) o usando npx directamente.
Uso gratuito generoso:
- Hasta 60 solicitudes/minuto y 1 000 solicitudes/día sin coste para usuarios particulares
- Planes pagos (Code Assist Standard/Enterprise) permiten aumentar el límite hasta 1 500–2 000 solicitudes/día
- Código abierto bajo licencia Apache 2.0 en GitHub: cualquiera puede inspeccionarlo, adaptarlo y contribuir.
Gemini Robotics
Es una herramienta de línea de comandos (CLI) potenciada por los modelos Gemini de Google (específicamente Gemini 2.5 Pro), diseñada para operar directamente desde el terminal de desarrolladores.
Actúa como un agente de IA "agentic", capaz de entender instrucciones en lenguaje natural y ejecutar tareas de codificación, debugging, generación de contenido, e incluso manipulación de archivos y ejecución de comandos.
Además de codificar, puede conectarse a otros flujos de trabajo IA: generar videos con Veo 3 e Imagen, elaborar informes con Deep Research, buscar información en tiempo real con Google Search, y comunicarse con bases de datos mediante el protocolo MCP.
Características Destacadas
- Generalización: Aprende tareas nuevas sin entrenamiento específico, y supera el doble en rendimiento de generalización respecto a modelos previos.
- Interactividad: Entiende y responde cambios en instrucciones y entornos en tiempo real.
- Destreza: Realiza manipulaciones finas como plegar origami, preparar ensaladas u organizar objetos.
- Razonamiento espacial (ER): Detecta objetos en 3D, estima trayectorias y genera código para ejecutar acciones seguras.
- Compatibilidad con distintos robots: Fue probado en brazos ALOHA 2, Franka y humanoides Apollo de Apptronik.
- Seguridad responsable: Integra control de colisiones, constituciones tipo Asimov y el dataset ASIMOV para el comportamiento seguro.
Disponibilidad
- Ya disponible, con acceso limitado inicialmente a “trusted testers”
Colaboraciones con:
- Apptronik (humanoide Apollo)
- Agile Robotics, Agility Robotics, Boston Dynamics, Enchanted Tools para integraciones piloto.