Nueva métrica para cuantificar las capacidades de las IAs en términos de capacidades humanas
Un equipo de investigadores de IA de la startup METR propone una nueva métrica para cuantificar las capacidades de los sistemas de IA en términos de capacidades humanas.
Han publicado un artículo que describe la nueva métrica, a la que denominan “horizonte temporal de finalización de tareas” (TCTH).
Los modelos LLM como GPT-2 mejoran la producción de resultados fiables con cada nueva iteración.
En este nuevo estudio, el equipo de California observó que dichos modelos aún se describen de maneras que no alcanzan la capacidad de describir completamente las capacidades de un sistema.
Por ello, han ideado una métrica para cuantificar las capacidades de forma que pueda utilizarse en múltiples campos, como la programación informática o la generación de los pasos necesarios para realizar una tarea.
Con TCTH, las tareas pueden cuantificarse probándolas con humanos.
Por ejemplo, los investigadores descubrieron que las primeras versiones de los LLM no completaban ninguna de las tareas asignadas a expertos humanos, quienes podían realizarlas en un minuto.
En marcado contraste, la última versión de Claude 3.7 Sonnet puede completar el 50% de ciertas tareas que a los humanos les tomaban un promedio de 59 minutos.
Al crear una lista de tareas y observar cuánto tiempo tarda un humano en completarlas, la nueva métrica podría utilizarse para desarrollar un punto de referencia que mida el rendimiento de los modelos de IA.
Sugieren que dichos puntos de referencia deberían basarse en una tasa de éxito del 50%, ya que hasta ahora ha demostrado ser la más robusta al utilizarse en el análisis de distribución de datos.
Como parte de su trabajo con la nueva métrica, el equipo de investigación descubrió que los modelos de IA están mejorando drásticamente en la realización de tareas largas, como programación, realización de tareas de ciberseguridad, tareas de razonamiento general y aprendizaje automático.
Este progreso sugiere que pronto podrían utilizarse para realizar tareas importantes como el descubrimiento químico o incluso proyectos completos de ingeniería.
Fuente: arXiv
Una nueva tecnología combina estimulación eléctrica espinal con robótica rehabilitadora para restaurar el movimiento y…
Imagine un robot que pueda caminar, sin electrónica, y solo con la adición de un…
El cáncer de próstata constituye un problema de salud relevante, ya que se trata de…
Muchos de los supuestos juegos de mesa encontrados en yacimientos arqueológicos eran indescifrables, pero las…
Con la ayuda de una supercomputadora, investigadores han desarrollado una nueva técnica que predice las…
Las ardillas son maestras del equilibrio y la agilidad, habilidades que los ingenieros intentan replicar…