Home Tecnología AI Students Win Turing Premio por técnica que hizo posible el triunfo...

AI Students Win Turing Premio por técnica que hizo posible el triunfo de ajedrez de Alphago

13
0

Imágenes de Imaginima/Getty

Algunos de los logros más llamativos en la inteligencia synthetic en la última década provienen de una técnica por la cual la computadora actúa al azar de un conjunto de opciones y es recompensado o castigado por cada movimiento correcto o incorrecto.

Es la técnica más famosa en AlphazeroPrograma 2016 de Google Deepmind que logró el dominio en los Juegos de Chess, Shogi e Go en 2018. El mismo enfoque ayudó a Alfastar programa lograr “Grandmaster” en el videojuego Starcraft II.

También: Hace 50 años, el membership de computadoras Homebrew se reunió por primera vez, y provocó una revolución tecnológica

El miércoles, dos académicos de IA fueron recompensados ​​por avanzar en el llamado aprendizaje de refuerzo, un enfoque muy amplio de cómo una computadora procede en un entorno desconocido.

ACM-Turing-2024-Barto-Sutton-Composite

La asociación para la maquinaria informática

Andrew G. BartoProfesor Emérito en el Departamento de Información y Ciencias de la Computación de la Universidad de Massachusetts, Amherst y Richard S. SuttonProfesor de Ciencias de la Computación en la Universidad de Alberta, Canadá, recibió el premio 2025 Turing Award por la Asociación para la Maquinaria de Computación.

El premio ACM establece que “Barto y Sutton introdujeron las concepts principales, construyeron los fundamentos matemáticos y desarrollaron algoritmos importantes para el aprendizaje de refuerzo, uno de los enfoques más importantes para crear sistemas inteligentes”.

El Honor ACM viene con un premio de $ 1 millón y es ampliamente visto como el equivalente de la industria informática de un premio Nobel.

El aprendizaje de refuerzo puede ser pensado por analogía con un mouse en un laberinto: el mouse debe encontrar su camino a través de un entorno desconocido para una recompensa remaining, el queso. Para hacerlo, el mouse debe aprender qué movimientos parecen conducir al progreso y cuáles conducen a callejones sin salida.

También: AI abierto, Anthrope nos invita a los científicos a experimentar con modelos fronterizos

Los neurocientíficos y otros han planteado la hipótesis de que entidades inteligentes como los ratones tienen un “modelo interno del mundo”, lo que les permite retener las lecciones de explorar los laberintos y otros desafíos, y formular planes.

Sutton y Barto plantearon la hipótesis de que una computadora podría hacerse de manera related para formular un modelo interno del estado de su mundo.

Los programas de aprendizaje de refuerzo absorben información sobre el medio ambiente, ya sea un laberinto o un tablero de ajedrez, como su aporte. El programa actúa de manera algo aleatoria al principio, probando diferentes movimientos en ese entorno. Los movimientos se encuentran con recompensas o falta de recompensas.

Esa retroalimentación, positiva y negativa, comienza a formar un cálculo del programa, una estimación de qué recompensas se pueden obtener haciendo diferentes movimientos. Según esa estimación, el programa components una “política” para guiar las acciones futuras hacia el éxito.

En un alto nivel, tales programas deben equilibrar las tácticas de explorar nuevas opciones de acción, por un lado, y explotar buenas opciones por el otro, ya que ninguno de los dos conducirá al éxito.

Barto-and-Sutton-With Students

Universidad de Massachusetts Amherst

Aquellos que quieran cavar más profundamente pueden obtener una copia de el libro de texto sobre el asunto Ese Sutton y Barto escribieron sobre el tema en 2018.

El aprendizaje de refuerzo en el sentido de que Sutton y Barto lo usan no es lo mismo que el aprendizaje de refuerzo a los que se hace referencia Operai y otros proveedores de IA del modelo de idioma grande. Operai y otros usan “Aprendizaje de refuerzo de la retroalimentación humana”, RLHF, para dar forma a la producción de GPT y otros modelos de idiomas grandes para ser inofensivos y útiles. Pero esa es una técnica de IA diferente, solo el nombre ha sido tomado.

Sutton, quien también fue un distinguido científico de investigación de Deepmind de 2017 a 2023, ha enfatizado en los últimos años que el aprendizaje de refuerzo es una teoría del pensamiento.

Durante un simposio de 2020 sobre IA, Sutton lamentó que “hay muy poca teoría computacional” en la IA hoy.

También: Gartner identifica las principales tendencias en datos y análisis para 2025, y AI toma la iniciativa

“El aprendizaje de refuerzo es la primera teoría computacional de la inteligencia”, declaró Sutton. “La IA necesita una teoría computacional acordada de la inteligencia”, agregó, y “RL es el candidato destacado para eso”.

El aprendizaje de refuerzo también puede tener implicaciones sobre cómo la creatividad y el juego libre pueden ocurrir como una expresión de inteligencia, incluso en inteligencia synthetic.

Barto y Sutton han enfatizado la importancia del juego en el aprendizaje. Durante el Simposio de 2020, Sutton comentó que en el aprendizaje de refuerzo, la curiosidad tiene un “papel de bajo nivel” para impulsar la exploración.

“En los últimos años, la gente ha comenzado a ver un papel más importante para lo que nos referimos, a lo que me gusta referir como ‘juego'”, dijo Sutton. “Establecimos metas que no son necesariamente útiles, pero pueden ser útiles más adelante. Establecí una tarea y digo, oye, ¿qué puedo hacer? Qué posibilidades”.

Sutton dijo que el juego podría estar entre las “grandes cosas” que la gente hace. “Jugar es una gran cosa”, dijo.



fuente