El Consejo Editorial de ON-IA analiza el impacto de DeepSeek: ¿qué hemos aprendido?

El Consejo Editorial de ON-IA analiza la semana en clave china con la irrupción de DeepSeek, una herramienta de inteligencia artificial china que el profesor de Esade, Esteve Almirall, ya avanzó el pasado mes de diciembre en en su IA Tips sobre estrategia geopolítica que generaría impacto a corto plazo. A continuación, compartimos con vosotros las reflexiones de nuestro comité de expertos.

Ariadna Font Llitjós, CEO de Alinia AI

Nosotros estamos analizando el artículo científico que han sacado. Quizás solo hay que añadir que se trata de 2 modelos: DeepSeek V3 y DeepSeek R1. El primer V3, lanzado a finales de diciembre, es un modelo de lenguaje "estándar" como GPT-4, mientras que el segundo R1, lanzado hace solo unos días, es un modelo de razonamiento como o1.

Los dos modelos de DeepSeek son impresionantes, pero por diferentes motivos. V3, que tiene un rendimiento comparable al de GPT-4, parece haber sido entrenado con solo un 5% del cálculo GPU necesario para GPT-4. Eso es interesante porque es sorprendente que sea posible y porque demuestra que la necesidad es la madre de la invención, dadas las limitaciones de China en el acceso a GPUs.

R1, en cambio, es interesante porque es un modelo de razonamiento altamente eficiente, comparable al o1 de OpenAI. No obstante, tiene dos propiedades extremadamente interesantes. Por una parte, se publica bajo la muy permisiva licencia MIT. De la otra, revela completamente los pasos de razonamiento, cosa que no pasa con otros modelos de razonamiento. Estos lanzamientos acelerarán todavía más el movimiento de IA de código abierto. Los modelos abiertos igualan las condiciones y permiten que todo el mundo tenga voz en hacia dónde se dirigen las cosas.

Con respecto a la alienación de estos modelos (alignment), que es lo que hacemos a Alinia AI, naturalmente están alineados a los valores chinos y, por lo tanto, desde un punto de vista occidental decimos que están censurados. Ahora bien, es importante entender que todos los modelos lo están, pero cada modelo está alineado con los valores de la cultura, y empresa que los crea. Tanto los modelos GPT como Gemine han sido alineados para no contestar ciertas preguntas que los EE.UU. o Google considera delicadas como contratos militares gubernamentales o temas políticos. Por todo ello, estos avances recalcan todavía más la necesidad que las empresas y gobiernos tengan y controlen su propia capa de alienación. Porque independientemente del(s) model(s) que haya por debajo, siempre estará la necesidad de poder contestar u operar desde una visión propia, de acuerdo con los valores propios y a menudo locales.

Esteve Almirall, profesor de ESADE

Hay bastantes detalles de DeepSeek que no han sido publicados y hace la reproducción muy difícil. DeepSeek tiene 670B de parámetros, pero una consulta típica solo activa 37B y los normales los activan todos. Con respecto al precio, es 50 veces más barato que o1 (los de OpenAI están bajando precios), es un poco peor, pero para muchas cosas funciona igual.

Si no entras en el ámbito de las preguntas políticas puede ser eficiente, pero si no es otra cosa. Hay ya muchos sistemas que lo están utilizando. El más normal es que el resto quieran para copiar la estrategia, especialmente Meta y Google que son los más afectados y Anthropic que lo tiene muy bien porque utiliza algunas estrategias similares. Pero OpenAI, también. En último término, hace falta tener en cuenta que las redes sociales, la prensa, los modelos de IA, absolutamente todo en China, pasa por una censura. Es un aspecto conocido sobradamente para todo el mundo. Ahora bien, no es cierto que aquí se hable mayoritariamente al bies de los modelos americanos y prácticamente nada de los chinos. Tenemos que ser más cuidadosos y críticos a partes iguales.

Esther Checa, Global Head of Innovation t2ó One

Creo que tendríamos que ser más mesurados y equilibrados cuando se hablen de las bondades de todo lo que vivimos, y poner de relieve aspectos como estos. Estos modelos tienen el poder de reconfigurar lo que aprenderemos como sociedad, aquello que no se explique, no existirá. "Nos tendría que dar un poco de vergüenza aplaudir sin filtros DeepSeek, o quizás ni pensamos por la urgencia hablar. Esta compañía está recibiendo titulares como 'DeepSeek sacude los mercados'' DeepSeek amenaza la primacía de la IA', entre otros. No obstante, al entrar en este xatbot y realizar 'preguntas incómodas' simples, tiene como respuesta uno no que resulta extremadamente vergonzoso". Y añade: Líderes de opinión como Yann LeCun también se han hecho eco de las bondades de los LLM código abiertos, con un claro guiño en DeepSeek, pero habría sido una maravilla que hubiera trasladado estas 'limitaciones'. Hay que recordar que hace unos meses Google tuvo que retroceder y dar una pausa a la evolución de Gemini por la generación de imágenes de personas en 'resultados incoherentes'.

Aleix Valls, fundador de Liquid Lab

DeepSeek ha hecho válido una vez más que la necesidad es la madre de la innovación. Una empresa emergente china, con solo 6 millones de dólares y acceso limitado a tecnología de última generación a causa de restricciones norteamericanas, ha conseguido superar aquello que parecía imposible: construir un modelo de IA que rivaliza con los mejores de OpenAI, pero a una fracción del coste.

Mientras en Europa seguimos debatiendo sobre la falta de acceso a fondo, chips de última generación y otras barreras, DeepSeek ha dejado claro que no son recursos infinitos ni acceso privilegiado. Su ventaja no fue económica ni tecnológica, fue voluntad de ser los mejores. En lugar de lamentarse para no tener los chips más avanzados, utilizaron Nvidia H800 (una versión limitada) y aprovecharon al máximo su ingenio y creatividad. Con eso, no solo igualaron los resultados de modelos como GPT-4, sino que lo hicieron:

Con un coste de entrenamiento de $6M enfrente de los $600M+ de OpenAI. Con un modelo código abierto accesible para todo el mundo. A un coste de uso de

Más

El Consejo Editorial de ON-IA analiza el impacto de DeepSeek: ¿qué hemos aprendido?

Ariadna Font, Esteve Almirall, Esther Checa y Aleix Valls analizan la semana china de DeepSeek

Ariadna Font Llitjós, CEO de Alinia AI

Esteve Almirall, profesor de ESADE

Esther Checa, Global Head of Innovation t2ó One

Aleix Valls, fundador de Liquid Lab