"Los xatbots de IA mayores están más inclinados a emitir tonterías, y la gente no siempre se da cuenta". Esta es la conclusión que ha sacado al periodista científico Nicola Jones en su último artículo en Nature a través de las derivadas que han dado ingenieros expertos en la materia. El estudio asegura que las versiones más nuevas y mayores de los tres principales chatbots de inteligencia artificial pueden tener más probabilidades de generar respuestas equivocadas que afirmar que no lo saben. ot y que los modelos de lenguaje más refinados y mayores que utilizan más datos y un razonamiento y un ajuste más complejos demostraron ser mejores para dar respuestas más precisas, también tuvieron otro problema: respondieron más preguntas en general.
¿Dónde radica el problema actual?
"Estos días están respondiendo casi todo", dijo sobre el fenómeno José Hernández-Orallo, del Instituto Valencià d'Investigació en Inteligencia Artificial en España. "Y eso quiere decir respuestas más correctas, pero también más incorrectas". La evaluación también descubrió que las personas que utilizan los chatbots no son muy buenas para detectar respuestas malas , en parte porque el chatbot crea una respuesta que parece verídica. Hernández-Orallo añadió que el resultado es que los usuarios a menudo sobreestiman las capacidades de los chatbots y eso es un problema.
Sin embargo, es más difícil con modelos de IA generalizados que se entrenan con grandes conjuntos de datos. El problema puede ser todavía más frecuente cuando los datos de entrenamiento provienen de la web, que pueden incluir fuentes generadas por IA, provocante todavía más alucinaciones. El equipo de investigación examinó a tres familias de LLM, incluido el GPT de OpenAI, el Llama de Meta Platform Inc. y el modelo de código abierto BLOOM de BigScience. Para probarlos, los investigadores probaron miles de indicaciones utilizando preguntas sobre aritmética, anagramas, geografía, ciencia y la capacidad de los modelos para transformar la información. Aunque la precisión aumentaba a medida que los modelos se hacían más mayores y disminuía a medida que las preguntas se hacían más difíciles, los investigadores esperaban que los modelos evitaran responder preguntas demasiado difíciles. En cambio, modelos como GPT-4 respondieron casi todo.
Para hacer frente al problema, dijo Hernández-Orallo, los desarrolladores tienen que ajustar los modelos para gestionar las alucinaciones en preguntas fáciles para refinar la precisión y simplemente rechazar responder preguntas difíciles. Eso puede ser lo que hace falta para permitir a la gente entender mejor donde se puede confiar en que el modelo d'IA sea coherente y preciso. "Necesitamos que los humanos entiendan: 'Puedo utilizarlo en esta área y no lo tendría que utilizar en esta área' ", dijo Hernández-Orallo.
Hacer que los chatbots estén más inclinados a responder preguntas complicadas parece impresionante y funciona bien en las tablas de clasificación que clasifican el rendimiento, dice Hernández-Orallo, pero no siempre es útil. "Todavía estoy muy sorprendido que las versiones recientes de algunos de estos modelos, incluido el O1 de OpenAI, los podáis pedir que multipliquen dos números muy largos y obtengáis una respuesta y la respuesta es incorrecta", dice. Las conclusiones aseguran que hay algunos modelos que dicen 'No lo sé' o 'No tengo información suficiente para responder tu pregunta. Y, en estos momentos, todas las empresas d'IA están trabajando duro para reducir las alucinaciones, y los chatbots desarrollados para finalidades específicas, como el uso médico, a veces se perfeccionan todavía más para evitar que vayan más allá de su base de conocimiento. Pero para las empresas que intentan vender botes|odres de chat universales, eso no es una cosa que normalmente queréis ofrecer a vuestros clientes.