La startup china de IA DeepSeek ha lanzado una versión actualizada de su gran modelo de idioma, DeepSeek-V3-0324, en Hugging Face, mejorando sus capacidades de razonamiento y codificación a la vez que intensifica la competencia con OpenAI y Anthropic. Eso llega después de que Copyleaks haya descubierto recientemente que el 74,2% de los textos generados por DeepSeek-R1 coinciden con las huellas dactilares estilísticas de OpenAI, cosa que sugiere fuertemente que DeepSeek utilizó el modelo de OpenAI en su formación. Esta conclusión forma parte del informe que Alon Yamin, cofundador y director general de Copyleaks, acaba de publicar para hablar del nuevo modelo y qué significa eso para la carrera de IA.
Una IA low cost con graves consecuencias por el mercado
Este descubrimiento genera preocupaciones sobre la semejanza de DeepSeek-R1 con el modelo de OpenAI, especialmente con respecto a la obtención de datos, los derechos de propiedad intelectual y la transparencia. La confianza no revelada de los modelos existentes puede reforzar los sesgos, limitar la diversidad y suponer riesgos legales o éticos. Más allá de los problemas técnicos, las afirmaciones de DeepSeek de un método de entrenamiento innovador y de bajo coste, si se basa en la destilación no autorizada de OpenAI, pueden haber engañado el mercado, contribuyendo a la pérdida de 593.000 millones de dólares de NVIDIA en un solo día y dando a DeepSeek una ventaja injusta.
Utilizando un enfoque muy riguroso, la investigación combinó tres clasificadores de IA avanzados, cada uno formado con textos de cuatro modelos principales: Claude, Gemine, Llama y OpenAI. Estos clasificadores identificaron rasgos estilísticos sutiles como la estructura de la frase, el vocabulario y el fraseo. Lo que hizo que el método fuera especialmente efectivo fue su sistema de "jurado unánime", donde los tres clasificadores tenían que estar de acuerdo antes en hacer una clasificación. Eso garantizó una comprobación sólida de los falsos positivos, dando lugar en una impresionante tasa de precisión del 99,88% y solo una tasa de falsos positivos del 0,04%, identificando con precisión los textos de modelos de IA conocidos y desconocidos.
La carrera entre modelos
Cuando se probó este conjunto en DeepSeek-R1, los resultados fueron notables. El 74,2% de los textos generados se alineaban con las huellas dactilares estilísticas de OpenAI, lo cual planteó preguntas importantes sobre la originalidad y el futuro del contenido generado con IA. En cambio, el modelo Phi-4 de Microsoft demostró una tasa de desacuerdo del 99,3%, no mostrando ninguna semejanz con ningún modelo conocido y confirmando su formación independiente. "Con esta investigación, hemos ido más allá de la detección general de IA tal como la conocíamos y hacia la atribución específica del modelo, un avance que cambia fundamentalmente la manera de abordar el contenido de IA," asegura Shai Nisan, científico jefe de datos de Copyleaks. "Esta capacidad es crucial por múltiples motivos, como mejorar la transparencia general, garantizar prácticas éticas de formación en IA y, lo más importante, proteger los derechos de propiedad intelectual de las tecnologías de IA y, con suerte, prevenir su posible mal uso".
El equipo de ciencia de datos de Copyleaks llevó a cabo la investigación, dirigida por Yehonatan Bitton, Shai Nisan i Elad Bitton. La metodología implicó un enfoque de "jurado unánime", basándose en tres sistemas de detección diferentes para clasificar los textos generados por IA, con un juicio hecho solo cuando todos los sistemas estaban de acuerdo. Esta técnica permite identificar los principales modelos de IA como ChatGPT, Claude, Gemine y Llama a la vez que detecta las huellas dactilares estilísticas únicas de modelos invisibles.
Esta investigación tiene implicaciones importantes. Proporciona transparencia con respecto a la autoría de IA y aborda las preocupaciones sobre la creciente prevalencia del contenido generado por IA. También establece un marco para proteger los derechos de propiedad intelectual y prevenir la desinformación y el uso indebido de las tecnologías de IA. "Copyleaks se dedica a avanzar en la verificación de texto generada por IA", defiende Nisan. Y añade: "A medida que las tecnologías de IA evolucionan, es crucial que las partes interesadas disciernen con precisión los orígenes del contenido generado por IA. Nuestro enfoque no solo mejora la protección del uso justo, sino que también mejora la seguridad y hace un seguimiento de la evolución de los estilos de escritura de IA".