Tot sobre el nou i polèmic model DeepSeek-V3-0324: millores i mancances

La firma tecnològica xinesa DeepSeek acaba de presentar una versió actualitzada del seu model fundacional d'intel·ligència artificial, el DeepSeek-V3-0324, amb millores destacades en generació de codi i raonament matemàtic, segons dades compartides per la mateixa empresa. No exempts de polèmica, ja que, segons CopyLeaks, informes contrastats posen de relleu que DeepSeek va copiar els models d'aprenentatge d'OpenAI en un 74% i, per tant, el primer model ha resultat ser una còpia. D'aquí, la derivada del seu preu més reduït, però amb la generació d'una guerra comercial pel control de la IA entre els Estats Units i la Xina que no s'atura.

Així doncs, el nou model, ha estat desenvolupat com una eina de propòsit general, útil tant per a assistents conversacionals com per a tasques de desenvolupament web. A diferència de versions anteriors, està disponible sota la llicència MIT, un tipus de permís de codi obert que permet l'ús, modificació i redistribució del programari sense restriccions comercials, i que és la més utilitzada a la plataforma per a desenvolupadors GitHub. Entre els avenços més notoris, va aconseguir una puntuació de 59,4 a l'American Invitational Mathematics Examination (AIME), una prestigiosa prova de matemàtiques als EUA, superant amb comoditat els 39,6 aconseguits pel seu antecessor.

Millores en matemàtica

En proves de programació com LiveCodeBench, va aconseguir una millora de 10 punts, aconseguint 49,2. El model va ser capaç de generar més de 800 línies de codi sense errors i més de 20 tòkens per segon, una unitat de mesura que representa fragments de text —per exemple, paraules o caràcters— usats en el processament de llenguatge natural. El sistema es basa en una arquitectura coneguda com a Mixture-of-Experts (barreja d'experts), que distribueix les tasques entre diferents mòduls especialitzats per augmentar l'eficiència sense elevar de manera significativa el cost computacional. Usuaris i enginyers especialitzats van subratllar que el model ha estat destacat per la precisió en matemàtiques, la capacitat per generar codi funcional a gran escala i el potencial per competir amb les principals firmes del sector. El model, disponible a Hugging Face, un repositori global on desenvolupadors i investigadors comparteixen models d'IA d'accés obert, i a les plataformes oficials de DeepSeek, ja ha estat integrat en serveis al núvol de startups com Hyperbolic.

La competència

En comparació amb DeepSeek V3, que té 671.000 milions de paràmetres i adopta la pròpia llicència comercial de la companyia, el nou model de 685.000 milions de paràmetres utilitza la llicència de programari MIT que és la més popular a la plataforma de desenvolupadors GitHub. "L'antròpic i l'OpenAI estan en problemes", ha assegurat Kuittinen Petri, professor de la Universitat de Ciències Aplicades de Häme, al lloc de xarxes socials X. Quan va demanar al nou model que "creés una portada responsiva amb gran aspecte per a l'empresa d'IA", va produir un lloc web compatible amb mòbils i que funcionava correctament després de codificar 958 línies.

DeepSeek ha sorprès el món des que al gener va llançar el model R1, que va aconseguir un bon rendiment a un baix cost. Com que R1 es va llançar unes setmanes després de DeepSeek-V3, s'especula que un nou model de raonament es podria donar a conèixer poc després de DeepSeek-V3-0324. La start-up de baix perfil havia previst llançar R2 a principis de maig, però podria fer-ho abans, segons un informe de febrer de Reuters. "Les capacitats de codificació són molt més fortes i la nova versió pot obrir el camí per al llançament de R2", va dir Li Bangzhu, fundador d'AIcpb.com, un lloc web que fa un seguiment de la popularitat de les aplicacions d'IA.

Més