Investigadores de tres destacadas universidades estadounidenses han propuesto un mecanismo fundamentado en la psicología humana para evaluar las capacidades de los grandes modelos lingüísticos (siglas inglesas LLM), a fin de resolver lo que consideran un grave problema de evaluación provocado por la diversidad de casos de uso.
En un estudio sobre la capacidad de los LLM para responder a las expectativas de los seres humanos, varios investigadores financiados por la Universidad de Harvard, el Instituto Tecnológico de Massachusetts (MIT) y la Universidad de Chicago han ideado un método para evaluar la influencia de las generalizaciones humanas en la valoración de las tecnologías relacionadas con la IA.
El MIT explica que los seres humanos, al interactuar, “generamos creencias” sobre lo que pensamos que los demás “saben y no saben”, y trasladamos dicho principio a la valoración de los LLM.
Los investigadores han desarrollado una función de generalización humana que consiste en “formular preguntas, observar las respuestas de una persona o un LLM, y a continuación efectuar inferencias sobre cómo respondería esa persona o modelo a preguntas relacionadas”.
Si un LLM se muestra capaz de manejar un tema complejo, el ser humano esperará que sea competente en áreas relacionadas menos complejas.
Según el MIT, los modelos que no satisfagan dicha expectativa “podrían fracasar en su aplicación”.
Criterio de valoración
Una encuesta en la que se preguntó a los participantes si creían que una persona o LLM respondería correcta o incorrectamente a preguntas relacionadas tuvo como resultado “un conjunto de datos con casi 19.000 ejemplos de generalizaciones de los humanos sobre el rendimiento de un LLM en 79 tareas distintas”.
Según la encuesta, los participantes tenían menor capacidad de generalizar sobre el rendimiento de los LLM que sobre el de los seres humanos. Según los investigadores, esto podría influir en el uso futuro de los modelos.
Alex Imas, catedrático de Ciencias del Comportamiento y Economía de la Booth School of Business de la Universidad de Chicago, ha señalado que la investigación pone de manifiesto un “problema crucial en el despliegue de LLM para uso general de los consumidores”, ya que estos podrían desistir de su uso si no comprenden plenamente cuándo serán correctas las respuestas.
Imas ha añadido que el estudio también proporciona un criterio fundamental para la evaluación del rendimiento de los LLM, más en concreto para saber si estos “comprenden el problema que están resolviendo” cuando dan respuestas correctas, lo que a su vez ayuda a mejorar su rendimiento en situaciones reales.
Comments