En esta cuarta entrega de los seminarios web d'Aleix Valls, te desgranamos punto por punto qué es DeepSeek. Desde ON-IA te recomendamos tener el ojo puesto en DeepSeek-R1, uno de los diversos modelos de IA altamente avanzados que salen de China, uniéndose a los desarrollados por laboratorios como Alibaba y Moonshot AI. R1 también impulsa el chatbot homónimo de DeepSeek, que se disparó en el primer lugar a la App Store de Apple después de su lanzamiento, destronando ChatGPT.

¿Por qué todo el mundo habla?

El salto de DeepSeek en el foco internacional ha traído a algunos a cuestionar la decisión de las empresas tecnológicas de Silicon Valley de hundir decenas de miles de millones de dólares en la construcción de su infraestructura de IA, y la noticia provocó que las acciones de fabricantes de chips de IA como Nvidia y Broadcom cayeran en picado. Así y todo, algunos de los principales rivales norteamericanos de la compañía han calificado su último modelo de" impresionando" y" un excelente avance de la IA" y, según se dice, están luchando por averiguar cómo se consiguió. Incluso el presidente Donald Trump, que se ha convertido en su misión para avanzar contra China en IA, calificó el éxito de DeepSeek de "desarrollo positivo" y lo describió como una "tonada de atención" para que las industrias norteamericanas mejoren su ventaja competitiva.

De hecho, el lanzamiento de DeepSeek-R1 parece estar llevando la industria de la IA generativa a una nueva era de brinkmanship, donde las empresas más ricas con los modelos más mayores ya no pueden ganar por defecto. ¿Qué es DeepSeek-R1? DeepSeek-R1 es un modelo de lenguaje de código abierto desarrollado por DeepSeek, una empresa emergente china fundada en el 2023 por Liang Wenfeng, que también cofundó el fondo de cobertura cuantitativo High-Flyer. Se ha informado de que la empresa surgió de la unidad de investigación de IA de High-Flyer para centrarse en el desarrollo de mayores modelos de lenguaje que consigan la inteligencia general artificial (AGI), un punto de referencia donde la IA es capaz de coincidir con el intelecto humano, en el cual también están trabajando OpenAI y otras principales empresas de IA. Pero a diferencia de muchas de estas empresas, todos los modelos de DeepSeek son de código abierto, es decir, sus pesos y métodos de entrenamiento están disponibles gratuitamente para que el público los examine, los utilice y les aproveche. R1 es el último de los diversos modelos de IA que DeepSeek ha hecho público.

La evolución china

Su primer producto fue la herramienta de codificación DeepSeek Coder, seguida de la serie de modelos V2, que llamó la atención por su fuerte rendimiento y bajo coste, provocando una guerra de precios en el mercado chino de modelos de IA. Su modelo V3, la base sobre la cual se construye R1, también captó cierto interés, pero sus restricciones sobre temas delicados relacionados con el gobierno chino plantearon preguntas sobre su viabilidad como verdadero competidor de la industria. Entonces, la empresa presentó su nuevo modelo, R1, afirmando que coincide con el rendimiento de los mejores modelos de IA del mundo mientras confía en un hardware relativamente modesto. En total, los analistas de Jeffries han estimado que DeepSeek gastó 5,6 millones de dólares para entrenar R1, una caída del cubo en comparación con los centenares de millones, o incluso miles de millones, de dólares que muchas empresas norteamericanas invierten a sus modelos de IA. No obstante, desde entonces, esta cifra ha sido objeto de escrutinio por parte de otros analistas que afirman que solo tiene en cuenta la formación del xatbot, no los gastos adicionales como la investigación y los experimentos en fase inicial. Consultad otro modelo de código abierto Grok:

Según DeepSeek, R1 destaca en una amplia gama de tareas basadas en texto tanto en inglés como en chino, como: - Escritura creativa Respuesta a preguntas generales Edición Resumen Más concretamente, la compañía dice que el modelo funciona especialmente bien en tareas "intensivas de razonamiento" que implican "problemas bien definidos con soluciones claras".

- Desarrollo de software: R1 podría ayudar a los desarrolladores generando fragmentos de código, depurando el código existente y proporcionando explicaciones para conceptos de codificación complejos.

- Matemáticas: la capacidad de R1 para resolver y explicar problemas matemáticos complejos se podría utilizar para proporcionar apoyo a la investigación y la educación en campos matemáticos.

- Creación, edición y resumen de contenidos: R1 es bueno para generar contenido escrito de alta calidad, así como para editar y resumir contenido existente, que podría ser útil en industrias que van desde el marketing hasta la ley.

- Servicio de atención al cliente: R1 se puede utilizar para alimentar un chatbot de atención al cliente, donde puede conversar con los usuarios y responder sus preguntas en lugar de un agente humano.

- Análisis de datos: R1 puede analizar grandes conjuntos de datos, extraer conocimientos significativos y generar informes exhaustivos basados en lo que encuentra, que se podrían utilizar para ayudar a las empresas a tomar decisiones más informadas.

- Educación: R1 se podría utilizar como una especie de tutor digital, desglosando asignaturas complejas en explicaciones claras, respondiendo preguntas y ofreciendo lecciones personalizadas sobre varias asignaturas.

- Limitaciones de DeepSeek-R1 DeepSeek-R1 comparte limitaciones similares a cualquier otro modelo de idioma. Puede cometer errores, generar resultados sesgados y ser difícil de entender completamente, aunque sea técnicamente de código abierto.

DeepSeek también dice que el modelo tiene tendencia a "mezclar idiomas", especialmente cuando las indicaciones están en idiomas diferentes del chino y el inglés. Por ejemplo, R1 puede utilizar el inglés en su razonamiento y respuesta, incluso si el mensaje está en un idioma completamente diferente. Y el modelo lucha con la indicación de pocos rasgos, que implica proporcionar unos cuantos ejemplos para guiar su respuesta. En lugar de eso, se aconseja a los usuarios que utilicen indicaciones de tiro cero más sencillas, especificando directamente la salida prevista sin ejemplos, para obtener mejores resultados.