La startup xinesa d'IA DeepSeek ha llançat una versió actualitzada del seu gran model d'idioma, DeepSeek-V3-0324, a Hugging Face, millorant les seves capacitats de raonament i codificació alhora que intensifica la competència amb OpenAI i Anthropic. Això arriba després que Copyleaks hagi descobert recentment que el 74,2% dels textos generats per DeepSeek-R1 coincideixen amb les empremtes dactilars estilístiques d'OpenAI, cosa que suggereix fortament que DeepSeek va utilitzar el model d'OpenAI en la seva formació. Aquesta conclusió forma part de l'informe que Alon Yamin, cofundador i director general de Copyleaks, acaba de publicar per parlar del nou model i què significa això per a la carrera d'IA. 

Una IA low cost amb greus conseqüències pel mercat

Aquest descobriment genera preocupacions sobre la semblança de DeepSeek-R1 amb el model d'OpenAI, especialment pel que fa a l'obtenció de dades, els drets de propietat intel·lectual i la transparència. La confiança no revelada dels models existents pot reforçar els biaixos, limitar la diversitat i suposar riscos legals o ètics. Més enllà dels problemes tècnics, les afirmacions de DeepSeek d'un mètode d'entrenament innovador i de baix cost, si es basa en la destil·lació no autoritzada d'OpenAI, poden haver enganyat el mercat, contribuint a la pèrdua de 593.000 milions de dòlars de NVIDIA en un sol dia i donant a DeepSeek un avantatge injust.

Utilitzant un enfocament molt rigorós, la investigació va combinar tres classificadors d'IA avançats, cadascun format amb textos de quatre models principals: Claude, Gemini, Llama i OpenAI. Aquests classificadors van identificar trets estilístics subtils com l'estructura de la frase, el vocabulari i el fraseig. El que va fer que el mètode fos especialment efectiu va ser el seu sistema de "jurat unànime", on els tres classificadors havien d'estar d'acord abans de fer una classificació. Això va garantir una comprovació sòlida dels falsos positius, donant lloc a una impressionant taxa de precisió del 99,88% i només una taxa de falsos positius del 0,04%, identificant amb precisió els textos de models d'IA coneguts i desconeguts.

La cursa entre models

Quan es va provar aquest conjunt a DeepSeek-R1, els resultats van ser notables. El 74,2% dels textos generats s'alineaven amb les empremtes dactilars estilístiques d'OpenAI, la qual cosa va plantejar preguntes importants sobre l'originalitat i el futur del contingut generat amb IA. En canvi, el model Phi-4 de Microsoft va demostrar una taxa de desacord del 99,3%, no mostrant cap semblança amb cap model conegut i confirmant la seva formació independent. "Amb aquesta investigació, hem anat més enllà de la detecció general d'IA tal com la coneixíem i cap a l'atribució específica del model, un avenç que canvia fonamentalment la manera d'abordar el contingut d'IA", assegura Shai Nisan, científic en cap de dades de Copyleaks. "Aquesta capacitat és crucial per múltiples motius, com ara millorar la transparència general, garantir pràctiques ètiques de formació en IA i, el més important, protegir els drets de propietat intel·lectual de les tecnologies d'IA i, amb sort, prevenir el seu possible mal ús".

L'equip de ciència de dades de Copyleaks va dur a terme la investigació, dirigida per Yehonatan Bitton, Shai Nisan i Elad Bitton. La metodologia va implicar un enfocament de "jurat unànime", basant-se en tres sistemes de detecció diferents per classificar els textos generats per IA, amb un judici fet només quan tots els sistemes estaven d'acord. Aquesta tècnica permet identificar els principals models d'IA com ChatGPT, Claude, Gemini i Llama alhora que detecta les empremtes dactilars estilístiques úniques de models invisibles.

Aquesta investigació té implicacions importants. Proporciona transparència pel que fa a l'autoria d'IA i aborda les preocupacions sobre la creixent prevalença del contingut generat per IA. També estableix un marc per protegir els drets de propietat intel·lectual i prevenir la desinformació i l'ús indegut de les tecnologies d'IA. "Copyleaks es dedica a avançar en la verificació de text generada per IA", defensa Nisan. I afegeix: "A mesura que les tecnologies d'IA evolucionen, és crucial que les parts interessades discerneixen amb precisió els orígens del contingut generat per IA. El nostre enfocament no només millora la protecció de l'ús just, sinó que també millora la seguretat i fa un seguiment de l'evolució dels estils d'escriptura d'IA".