Categorías: Tecnología

Nueva métrica para cuantificar las capacidades de las IAs en términos de capacidades humanas

Comparta este Artículo en:
FacebookFacebookTwitterTwitterEmailEmailWhatsAppWhatsAppShareShare

Un equipo de investigadores de IA de la startup METR propone una nueva métrica para cuantificar las capacidades de los sistemas de IA en términos de capacidades humanas.

Han publicado un artículo que describe la nueva métrica, a la que denominan “horizonte temporal de finalización de tareas” (TCTH).

Los modelos LLM como GPT-2 mejoran la producción de resultados fiables con cada nueva iteración.

En este nuevo estudio, el equipo de California observó que dichos modelos aún se describen de maneras que no alcanzan la capacidad de describir completamente las capacidades de un sistema.

Por ello, han ideado una métrica para cuantificar las capacidades de forma que pueda utilizarse en múltiples campos, como la programación informática o la generación de los pasos necesarios para realizar una tarea.

Con TCTH, las tareas pueden cuantificarse probándolas con humanos.

Por ejemplo, los investigadores descubrieron que las primeras versiones de los LLM no completaban ninguna de las tareas asignadas a expertos humanos, quienes podían realizarlas en un minuto.

En marcado contraste, la última versión de Claude 3.7 Sonnet puede completar el 50% de ciertas tareas que a los humanos les tomaban un promedio de 59 minutos.

Al crear una lista de tareas y observar cuánto tiempo tarda un humano en completarlas, la nueva métrica podría utilizarse para desarrollar un punto de referencia que mida el rendimiento de los modelos de IA.

Sugieren que dichos puntos de referencia deberían basarse en una tasa de éxito del 50%, ya que hasta ahora ha demostrado ser la más robusta al utilizarse en el análisis de distribución de datos.

Como parte de su trabajo con la nueva métrica, el equipo de investigación descubrió que los modelos de IA están mejorando drásticamente en la realización de tareas largas, como programación, realización de tareas de ciberseguridad, tareas de razonamiento general y aprendizaje automático.

Este progreso sugiere que pronto podrían utilizarse para realizar tareas importantes como el descubrimiento químico o incluso proyectos completos de ingeniería.

Fuente: arXiv

 

Editor PDM

Entradas recientes

Logran restaurar movilidad en personas con parálisis por lesión medular

Una nueva tecnología combina estimulación eléctrica espinal con robótica rehabilitadora para restaurar el movimiento y…

24 hours hace

Robots sin electrónica capaces de caminar

Imagine un robot que pueda caminar, sin electrónica, y solo con la adición de un…

24 hours hace

Nanopartículas orgánicas contra tumores

El cáncer de próstata constituye un problema de salud relevante, ya que se trata de…

24 hours hace

Juego de 4.500 años de antigüedad descifrado gracias a una inteligencia artificial

Muchos de los supuestos juegos de mesa encontrados en yacimientos arqueológicos eran indescifrables, pero las…

1 day hace

Predicen las propiedades de un núcleo atómico con un nivel de detalle sin precedentes

Con la ayuda de una supercomputadora, investigadores han desarrollado una nueva técnica que predice las…

1 day hace

Robot inspirado en una ardilla es capaz de saltar de rama en rama

Las ardillas son maestras del equilibrio y la agilidad, habilidades que los ingenieros intentan replicar…

2 days hace
Click to listen highlighted text!