Современные системы искусственного интеллекта иногда демонстрируют странные ошибки. Например, вы можете попросить AI создать видео с собакой, и в процессе просмотра её ошейник может исчезнуть, а диван вдруг превратится в софу. Эти сбои часто связаны с предсказательной природой AI-моделей, которые не имеют четкой модели мира, которую можно было бы постоянно обновлять.
Однако ситуация меняется. Исследователи в различных областях AI работают над созданием "моделей мира", которые могут значительно улучшить работу AI в таких сферах, как дополненная реальность, робототехника и даже искусственный общий интеллект (AGI).
Чтобы понять, как работают модели мира, можно представить себе четырехмерные (4D) модели, которые учитывают три измерения плюс время. Например, представьте, что фильм "Титаник" был бы представлен в 4D, позволяя вам перемещаться по времени и пространству, чтобы увидеть разные моменты и перспективы. Это возможно благодаря алгоритмам, таким как NeRF (нейронное поле радиации), которые позволяют создавать фотореалистичные новые виды.
Недавние исследования показывают, что использование 4D моделей может значительно улучшить стабильность AI-систем. Например, в одном из проектов, посвященном видео с собакой, авторы утверждают, что использование постоянно обновляемой 4D модели мира помогает избежать ошибок, таких как исчезновение ошейника.
Применение 4D моделирования выходит за рамки генерации видео. В дополненной реальности, например, 4D модель мира может служить эволюционирующей картой окружающего мира пользователя, позволяя виртуальным объектам оставаться стабильными и обеспечивая правдоподобное освещение и перспективу.
Кроме того, возможность быстро преобразовывать видео в 4D предоставляет ценную информацию для обучения роботов и автономных транспортных средств, что позволяет им лучше ориентироваться в реальном мире и предсказывать возможные события.
Тем не менее, "модель мира" имеет более глубокое значение для тех, кто стремится к AGI. Современные большие языковые модели (LLM), такие как ChatGPT, обладают неявным представлением о мире, основанным на данных, на которых они были обучены. Однако они не могут обновлять свои знания в реальном времени, что ограничивает их возможности.
В последние годы многие известные исследователи AI начали уделять внимание моделям мира. Например, в 2024 году Фей Фей Ли основала World Labs, которая разработала программное обеспечение Marble для создания 3D миров из текстов, изображений и видео. Эти исследования показывают, что внутренние модели могут значительно улучшить поведение AI, позволяя им "представлять" будущие сценарии.
Таким образом, хотя в контексте AGI "модель мира" относится к внутреннему пониманию реальности, достижения в 4D моделировании могут стать важными компонентами для понимания перспектив, памяти и предсказаний.