Tecno

IA a la IA: Google utiliza IA para calificar modelos de machine learning

single-image

Cuando piensas que la Inteligencia Artificial se está desacelerando, con proyectos similares a unos a otros, la gente de Google decide romper esta idea, ideando una IA capaz de predecir qué modelos de aprendizaje automático producirán los mejores resultados. Han logrado aplicar IA para mejorar la propia IA.

En el artículo “Evaluación fuera de política a través de la Clasificación fuera de política” y en una publicación del blog, un equipo de investigadores de Google AI proponen lo que denominan “clasificación fuera de política“, conocido como OPC, que evalúa el rendimiento de agentes que tratan la evaluación como un problema de clasificación.

El equipo observa que su enfoque, una variante del aprendizaje por refuerzo, que emplea recompensas para impulsar las políticas de software hacia objetivos, funciona con entradas de imagen y escala a las tareas, incluida la comprensión robótica basada en la visión.

“El aprendizaje de refuerzo totalmente fuera de la política es una variante en la que un agente aprende completamente de datos más antiguos, lo cual es atractivo porque permite la iteración del modelo sin requerir un robot físico”, escribe el ingeniero de software de Google Alex Irpan. “Con RL totalmente fuera de política, uno puede entrenar varios modelos en el mismo conjunto de datos fijo recolectado por los agentes anteriores, y luego seleccionar el mejor”.

Llegar a OPC fue un poco más desafiante de lo que parece. Como lo señalan Irpan y sus coautores, el aprendizaje de refuerzo fuera de la política permite el entrenamiento del modelo de AI con, por ejemplo, un robot, pero no la evaluación. Además, señalan que la evaluación de la verdad fundamental generalmente es demasiado ineficiente en los métodos que requieren la evaluación de un gran número de modelos.

Su solución – OPC – aborda esto asumiendo que las tareas en cuestión tienen poca o ninguna aleatoriedad involucrada en cómo cambian los estados y suponiendo que los agentes tienen éxito o fracasan al final de los ensayos experimentales. La naturaleza binaria del segundo de los dos supuestos permitió la asignación de dos etiquetas de clasificación (“efectivo” para el éxito o “catastrófico” para el fracaso) a cada acción.

OPC también se basa en lo que se llama una función Q para estimar las recompensas totales futuras de las acciones. Los agentes eligen las acciones con las mayores recompensas proyectadas, y su desempeño se mide por la frecuencia con que las acciones seleccionadas son efectivas. La precisión de la clasificación actúa como un puntaje de evaluación fuera de la política.

El equipo entrenó las políticas de aprendizaje automático en simulación utilizando un aprendizaje de refuerzo totalmente fuera de la política y luego las evaluó utilizando las puntuaciones fuera de política tabuladas a partir de datos del mundo real anteriores. En una tarea de captación de robots, informan que una variante de OPC en particular, SoftOPC, se desempeñó mejor en la predicción de las tasas de éxito finales.

Dados 15 modelos de robustez variable (siete de los cuales fueron entrenados puramente en simulación), SoftOPC generó puntuaciones estrechamente correlacionadas con un verdadero éxito de agarre y “significativamente” más confiable que los métodos de referencia.

Deja un comentario

Loading data ...
Comparison
View chart compare
View table compare