В мире искусственного интеллекта наблюдается интересный парадокс: новые, более мощные модели, такие как GPT-4, способны генерировать больше ответов, но это не всегда означает, что они более точные. Исследование, проведенное в Испании, выявило, что, хотя современные языковые модели становятся лучше в обработке данных и предоставлении ответов, они также склонны к ошибкам.
Как отметил исследователь, чем больше модель, тем больше она отвечает на вопросы, но это приводит к увеличению числа неправильных ответов. Пользователи, в свою очередь, часто не могут распознать ошибочные ответы, что создает ложное чувство уверенности в возможностях ИИ. Это явление получило забавное название "bullshitting" — когда ИИ выдает уверенные, но неверные ответы.
Ошибки могут составлять от 3% до 10% всех ответов, и хотя существуют способы их минимизации, это сложнее сделать с общими моделями, обучающимися на огромных объемах данных из интернета. Исследование охватывало три крупных семейства моделей, включая GPT от OpenAI и Llama от Meta, и показало, что даже при увеличении размера модели точность ответов снижается на сложных вопросах.
Чтобы улучшить ситуацию, разработчики должны адаптировать модели так, чтобы они отказывались отвечать на слишком сложные вопросы и улучшали точность на простых. Это поможет пользователям лучше понимать, когда можно доверять ИИ, а когда — нет.