NVIDIA QUIERE LLORAR 😭| 💻 Miércoles de IA con Código Abierto 💻 | 29 de Enero
MIÉRCOLES
29 Enero 2025
Código Abierto Presenta
¡NVIDIA QUIERE LLORAR!
¡Hola amigos! Como se predijo la semana pasada en este su canal de información confiable, veraz y divertido, China no se iba a quedar de brazos cruzados viendo cómo nuestro amigo Sam Altman se regodeaba en los medios de comunicación, presumiendo su nueva amistad con el hombre naranja, anunciando una increíble inversión de más de 500 mil millones de dólares para el proyecto STARGATE y peleándose en público con Elon Musk a través de X por ver quién es el consentido del presidente.
IMAGEN GENERADA POR DALL-E
El contraataque fue inmediato. Los chinos no perdieron tiempo y presentaron una nueva versión de su modelo LLM, el DeepSeek R1, anunciando con bombo y platillo que es mejor que ChatGPT-4o, pero mucho más barato. Además, aseguran que tiene como base un modelo en código abierto de 671 mil millones de parámetros.
Ustedes se preguntarán: ¿qué pitos toca NVIDIA en esta fiesta?
El anuncio de un nuevo modelo LLM debería ser bueno para NVIDIA porque todos necesitan sus GPUs. Pero las regulaciones de EE.UU. para la exportación a China de chips de alta capacidad está obligando a los investigadores a ajustarse a lo que tienen disponible en su mercado, como los nuevos GPUs de Huawei y los modelos H800 y A800 de menor capacidad de Nvidia.
Seguro los gringos calcularon que con tales limitaciones China tardaría el doble de tiempo en llegar a donde ha llegado con el nuevo DeepSeek R1. ¡Pues no! ¡Tómala, papá! Un macanazo en la cabeza de 500 mil millones de dólares a NVIDIA, logrando así el nada deseable récord de la mayor pérdida en dólares en un solo día en la historia de Wall Street.
Este logro de adaptación pone en evidencia la burbuja de los sobre lanzamientos de nuevos GPUs de Nvidia por la frenética necesidad de anunciar algo nuevo aunque su rendimiento no sea justificable.
¡Pero que no cunda el pánico! A todos los que tienen su dinerito trabajando en NVIDIA les recomiendo que aguanten un poco, todavía no vendan porque esto apenas empieza. Digamos que acaba de terminar el primer round de una pelea de campeonato a 12 rounds.
Lo seguro es que todo esto es muy bueno para nosotros los usuarios. Que se den hasta con la cubeta si quieren y nos sigan ofreciendo cada vez servicios mejores y más baratos.
Nos vemos la próxima semana y no olviden dejar sus comentarios y Likes GRACIAS
Federico Paredes
Asi que daremos un repaso rapido en que es DEEPSEEK y las acusaciones en su contra por parte de OpenAI.
Resumen del Modelo
Entrenamiento Posterior: Aprendizaje por Refuerzo a Gran Escala en el Modelo Base
DeepSeek-R1-Zero demuestra capacidades como autoverificación, reflexión y generación de cadenas de razonamiento largas, representando un hito significativo para la comunidad de investigación. Notablemente, es el primer estudio abierto que valida que las capacidades de razonamiento de los LLMs pueden incentivarse exclusivamente a través de RL, sin necesidad de SFT. Este avance allana el camino para futuras mejoras en el área.
Presentamos nuestra pipeline para el desarrollo de DeepSeek-R1. Esta pipeline incorpora dos etapas de RL, enfocadas en descubrir patrones de razonamiento mejorados y alinearlos con las preferencias humanas, así como dos etapas de SFT, que sirven como base para las capacidades de razonamiento y no razonamiento del modelo. Creemos que esta pipeline beneficiará a la industria al crear modelos más avanzados.
Destilación: Los Modelos Pequeños También Pueden Ser Poderosos
Demostramos que los patrones de razonamiento de modelos grandes pueden destilarse en modelos más pequeños, logrando un mejor desempeño en comparación con los patrones de razonamiento descubiertos a través de RL en modelos pequeños.
El DeepSeek-R1 de código abierto, junto con su API, permitirá a la comunidad de investigación destilar modelos pequeños con mejor rendimiento en el futuro.
Usando los datos de razonamiento generados por DeepSeek-R1, ajustamos varios modelos densos ampliamente utilizados en la investigación. Los resultados de evaluación muestran que los modelos pequeños destilados ofrecen un rendimiento excepcional en diferentes benchmarks. Como parte de nuestra iniciativa de código abierto, lanzamos puntos de control (checkpoints) de 1.5B, 7B, 8B, 14B, 32B y 70B basados en las series Qwen2.5 y Llama3 para la comunidad.
ACUSACIONES POR PARTE DE OPENAI
Por otro lado, OpenAI ha acusado a DeepSeek de utilizar su tecnología para desarrollar un modelo de IA competidor, lo que plantea preocupaciones sobre el robo de propiedad intelectual en la industria de la IA. OpenAI sostiene que DeepSeek empleó una técnica llamada "destilación" para mejorar su modelo de IA aprendiendo de los sistemas más grandes de OpenAI, posiblemente violando las reglas de OpenAI. Microsoft, que tiene inversiones significativas en OpenAI, descubrió el año pasado que individuos vinculados a DeepSeek estaban extrayendo grandes cantidades de datos a través de la API de OpenAI, lo que podría haber infringido sus términos de servicio.
Este panorama está generando un impacto en Nvidia, que aunque sufrió una caída en sus acciones, sigue siendo un jugador clave en el mercado de IA, y OpenAI también está enfrentando retos legales sobre el uso de su propiedad intelectual.