Недавнее исследование, проведенное стартапом General Reasoning, показало, что даже самые продвинутые модели искусственного интеллекта не справляются с задачами долгосрочного прогнозирования. В рамках эксперимента восемь ведущих AI-систем были протестированы на виртуальной симуляции сезона Премьер-лиги 2023-2024. Им предоставили обширные исторические данные и статистику о командах и предыдущих играх, а также указания на создание моделей, которые должны были максимизировать доход и управлять рисками.
AI-агенты делали ставки на результаты матчей и количество забитых голов, адаптируясь к новым событиям и обновленным данным о игроках в процессе сезона. Однако, несмотря на все усилия, ни одна из моделей не смогла показать прибыль. Anthropic’s Claude Opus 4.6 показал наименьшие потери, составившие 11%, в то время как xAI Grok 4.20 обанкротился в одном из своих попыток. Google’s Gemini 3.1 Pro смог заработать 34% в одной из попыток, но также потерпел банкротство в другой.
Авторы исследования отметили, что все протестированные модели в итоге потеряли деньги, что подчеркивает их систематическое недопонимание реальных условий. Это открытие может успокоить специалистов и бизнесменов, которые опасаются, что AI может заменить их на рабочих местах. Генеральный директор General Reasoning отметил, что существует много шума вокруг автоматизации с помощью AI, но недостаточно измерений его эффективности в долгосрочной перспективе.
Исследование также указывает на то, что традиционные методы тестирования AI часто не учитывают сложность и динамичность реального мира. Это подчеркивает важность дальнейших исследований и тестирования AI в более сложных и изменчивых условиях, чтобы лучше понять его возможности и ограничения.