1,2 секунди, щоб пройти куб Рубіка ... за допомогою AI - Sciences et Avenir

Опубліковано 26.07.2019 о 22:00

Цей проект групи дослідників з Університету Каліфорнії в Ірваїні (США) використовував алгоритм навчального підкріплення. Цей метод дуже популярний для програмування штучного інтелекту, призначеного для гри.

Можливо, це мало статися. Дослідники з інформатики та статистики з Університету Каліфорнії в Ірваїні (США) зіткнулися зі штучним інтелектом (ШІ) у головоломці з більш ніж 43 квінтільйонами (10 30) комбінацій лише для 1 рішення, яке складається для отримання граней з дев'ятьма квадрати одного кольору. Стаття з детальним описом цього проекту була опублікована в липні 2019 року в журналі Nature. Алгоритм під назвою DeepCubeA досяг успіху в середньому за 1,2 секунди, коли запис для людини становить, за останніми новинами, 3,47 секунди.

ШІ намагається і починає знову, поки не покращиться

Це алгоритм, що поєднує "глибоке навчання" та навчання шляхом підкріплення. Перший метод дозволяє аналізувати послідовні шари даних, що подаються до нього. Другий широко використовується, коли ви хочете «відтворити» ШІ. Наприклад, AlphaGo Zero від DeepMind, призначений для гри в Go, пройшов навчання за допомогою підсилення, наприклад. Світ автономних транспортних засобів починає закріплюватися.

Основний принцип - діяти методом спроб і помилок. Алгоритм робить спробу рішення і йому повертається позитивний (що називається винагородою) або негативний сигнал. Він починається спочатку на основі отриманого зворотного зв'язку, отримує новий сигнал і т. Д. Поки не поступово покращується і не досягає бажаного результату. Таким чином, алгоритм прогресує сам по собі.

Поверніть проблему назад, щоб її вирішити

Однак, щоб вирішити загадку, дослідники придумали ідею, яка врятувала їх від множення тестів, які могли виявитися нескінченними. Вони тренували алгоритм, починаючи з кінцевого результату, представляючи йому успішний Куб Рубіка перед тим, як почати змішувати квадрати (куб, про який йде мова, насправді є комп'ютерним моделюванням, легшим і, перш за все, швидким маніпулюванням, ніж ручним). Іншими словами, вони рухались у зворотному напрямку !

По суті, вони перемішали куб, щоб отримати тисячу різних кінцевих комбінацій, виконуючи від 1000 до 10000 рухів, алгоритм "спостерігав" ці маніпуляції. Таким чином, він навчився аналізувати, накопичуючи та пов'язуючи інформацію про комбінації поетапно, як деконструйований розгаданий Куб Рубіка, щоб зрозуміти, як тоді його реконструювати.

Бухгалтерський баланс? “DeepCubeA знайшов рішення у 100% тестів, - пишуть автори у своїй дослідницькій статті. DeepCubeA знаходив найкоротший шлях до результату 60,3% випадків ”. Але решта майже 40% не далеко від цього «оптимального рішення», як називають його дослідники: 36,4% потребували лише ще двох рухів та 3,3%, чотирьох рухів, щоб розв’язати куб. З середнім успіхом за 1,2 секунди та 20 рухами (теоретично найкоротший шлях до будь-якої комбінації до рішення - 26 рухів).

Команда вже застосувала свою програму до інших комп’ютерних головоломок, таких як ігри в рикшу (15, 24, 35 та 48 квадратів), Lights Out або Sokoban. Всі ці ігри мають спільний з Кубком Рубіка принцип переміщення квадратів для досягнення успіху.