Todo sobre el nuevo y polémico modelo DeepSeek-V3-0324: mejoras y carencias

La firma tecnológica china DeepSeek acaba de presentar una versión actualizada de su modelo fundacional de inteligencia artificial, el DeepSeek-V3-0324, con mejoras destacadas en generación de código y razonamiento matemático, según datos compartidos por la misma empresa. No exentos de polémica, ya que, según CopyLeaks, informes contrastados ponen de relieve que DeepSeek copió los modelos de aprendizaje de OpenAI en un 74% y, por lo tanto, el primer modelo ha resultado ser una copia. De aquí, la derivada de su precio más reducido, pero con la generación de una guerra comercial para el control de la IA entre los Estados Unidos y la China que no se detiene.

Así pues, el nuevo modelo, ha sido desarrollado como una herramienta de propósito general, útil tanto para asistentes conversacionales como para tareas de desarrollo web. A diferencia de versiones anteriores, está disponible bajo la licencia MIT, un tipo de permiso de código abierto que permite el uso, modificación y redistribución del software sin restricciones comerciales, y que es la más utilizada en la plataforma para desarrolladores GitHub. Entre los avances más notorios, consiguió una puntuación de 59,4 al American Invitational Mathematics Examination (AIME), una prestigiosa prueba de matemáticas en los EE.UU., superando con comodidad los 39,6 conseguidos por su antecesor.

Mejoras en matemática

Pruebas programación como LiveCodeBench, consiguió una mejora de 10 puntos, consiguiendo 49,2. El modelo fue capaz de generar más de 800 líneas de código sin errores y más de 20 tókenes por segundo, una unidad de medida que representa fragmentos de texto —por ejemplo, palabras o caracteres— usados en el procesamiento de lenguaje natural. El sistema se basa en una arquitectura conocida como Mixture-of-Experts (mezcla de expertos), que distribuye las tareas entre diferentes módulos especializados para aumentar la eficiencia sin elevar de manera significativa el coste computacional. Usuarios e ingenieros especializados subrayaron que el modelo ha sido destacado por la precisión en matemáticas, la capacidad para generar código funcional a gran escala y el potencial para competir con las principales firmas del sector. El modelo, disponible en Hugging Face, un repositorio global donde desarrolladores e investigadores comparten modelos de IA de acceso abierto, y en las plataformas oficiales de DeepSeek, ya ha estado integrado en servicios en la nube de startups como Hyperbolic.

La competencia

En comparación con DeepSeek V3, que tiene 671.000 millones de parámetros y adopta la propia licencia comercial de la compañía, el nuevo modelo de 685.000 millones de parámetros utiliza la licencia de software MIT que es la más popular en la plataforma de desarrolladores GitHub. "El antrópico y el OpenAI están en problemas", ha asegurado Kuittinen Petri, profesor de la Universidad de Ciencias Aplicadas de Häme, en el lugar de redes sociales X. Cuando pidió al nuevo modelo que "creara una portada responsiva con gran aspecto para la empresa de IA", produjo un sitio web compatible con móviles y que funcionaba correctamente después de codificar 958 líneas.

DeepSeek ha sorprendido el mundo desde que en enero lanzó el modelo R1, que consiguió un buen rendimiento a un bajo coste. Como R1 se lanzó unas semanas después de DeepSeek-V3, se especula que un nuevo modelo de razonamiento se podría dar a conocer poco después de DeepSeek-V3-0324. La start-up de bajo perfil había previsto lanzar R2 a principios de mayo, pero podría hacerlo antes, según un informe de febrero de Reuters. "Las capacidades de codificación son mucho más fuertes y la nueva versión puede abrir el camino para el lanzamiento de R2", dijo Le Bangzhu, fundador d'AIcpb.com, un sitio web que hace un seguimiento de la popularidad de las aplicaciones de IA.

Más