«Сверхчеловеческий» ИИ впервые побеждает профессионалов в покере



Бот по имени Плурибус победил ведущих профессионалов в Техасском покере на шесть игроков. (Фото: Getty) Профессиональные игроки в покер были побеждены программой искусственного интеллекта впервые. Бот по имени Плурибус одержал победу над ведущими профессионалами в безлимитном Техасском покере с шестью игроками, самой популярной в мире разновидности карточной азартной игры. Плурибус одержал победу над профессионалом покера Дарреном Элиасом, который является рекордсменом по большинству титулов World Poker Tour, и Крисом «Иисусом» Фергюсоном, победителем шести турниров World Series of Poker. Каждый профессионал по отдельности разыграл 5000 партий в покере против пяти копий Плурибусов, который был разработан учеными из Университета Карнеги-Меллона в США в сотрудничестве с Фейсбук. В другом эксперименте с участием 13 профессионалов, каждый из которых выиграл в покер более миллиона долларов США, Плурибус играл с пятью профессионалами за раз, в общей сложности 10000 партий, и снова вышел победителем. Профессор Туомас Сандхольм разработал Плурибуса с Ноамом Брауном, который заканчивает докторскую диссертацию в отделе компьютерных наук Карнеги-Меллона в качестве научного сотрудника в Фейсбук ИИ. (Фото: Getty) Профессор Сандхольм сказал: «Плурибус добился сверхчеловеческой производительности в многопользовательском покере, который является признанной вехой в искусственном интеллекте и теории игр, которая была открыта на протяжении десятилетий. «До сих пор вехи сверхчеловеческого ИИ в стратегическом мышлении ограничивались двухпартийной конкуренцией». «Возможность побить пятерых игроков в такой сложной игре открывает новые возможности для использования ИИ для решения широкого круга реальных задач». Браун, который присоединился к Фейсбук ИИ в прошлом году, сказал: «Играя в игру с шестью игроками, а не на равных, требует фундаментальных изменений в том, как ИИ разрабатывает свою игровую стратегию». «Мы в восторге от его производительности и считаем, что некоторые игровые стратегии Плурибус могут даже изменить то, как профессионалы играют в игру». Он сказал, что алгоритмы Плурибуса создали некоторые неожиданные особенности в его стратегии. Например, большинство игроков-людей избегают «донк-беттинга», то есть заканчивают один раунд коллом, а затем начинают следующий раунд ставкой. Это рассматривается как слабый ход, который обычно не имеет стратегического смысла. Но Плурибус ставил «донк» гораздо чаще, чем профессионалы, которых он побеждал. Профессионал покера Элиас сказал: «Его главная сила - умение использовать смешанные стратегии». (Фото: Getty) Покер является более сложной задачей, потому что это неполная информационная игра; игроки не могут быть уверены, какие карты находятся в игре, а противники могут и будут блефовать. Профессор Сандхольм сказал, что это делает покер более сложной задачей ИИ и более актуальной для многих реальных проблем, связанных с многочисленными партиями и отсутствующей информацией. Он объяснил, что Плурибус обходится без теоретических гарантий успеха и разрабатывает стратегии, которые, тем не менее, позволяют ему постоянно переигрывать противников. Плурибус сначала вычисляет стратегию «плана», разыгрывая шесть ее копий, что достаточно для первого раунда ставок. С этого момента Плурибус проводит более детальный поиск возможных ходов в более тонкой абстракции игры. Он смотрит вперед на несколько ходов, но не требует заглядывать вперед до конца игры, что было бы непомерно в вычислительном отношении. Профессор Сандхольм объяснил, что Плурибус также стремится быть непредсказуемым. Например, ставки имели бы смысл, если бы ИИ держал лучшую возможную руку, но если ИИ делает ставку только тогда, когда у него лучшая рука, противники быстро это поймут. Таким образом, Плурибус рассчитывает, как он будет действовать с любой возможной рукой, а затем вычисляет стратегию, которая сбалансирована по всем этим возможностям. Профессор Сандхокм сказал, что Либратус использовал около 15 миллионов часов ядра для разработки своих стратегий и во время игры в реальном времени использовал 1400 процессорных ядер. Но Плурибус вычислил свою стратегию разработки проекта за восемь дней, используя только 12 400 ядерных часов, и использовал только 28 ядер во время живой игры. Подробности достижения были опубликованы в Интернете журналом Science.