Недавнее исследование, проведенное учеными из Нью-Йоркского университета, выявило, что современные искусственные интеллект-системы, включая популярные языковые модели, такие как GPT-4, подвержены тем же предвзятостям, что и люди. Эти системы склонны проявлять предпочтение к "своим" группам, в то время как к "чужим" относятся с негативом. Это открытие подчеркивает важность внимательного подхода к обучающим данным, чтобы избежать усиления социальных разделений.
В ходе исследования было проанализировано 77 различных языковых моделей. Ученые обнаружили, что при использовании фраз, начинающихся с "Мы", модели генерировали более положительный контент, тогда как фразы, начинающиеся с "Они", приводили к негативным результатам. В частности, предложения, относящиеся к "своей" группе, были на 93% более вероятны для положительных откликов, в то время как "чужие" предложения на 115% чаще вызывали негативные реакции.
Исследователи также изучили возможность изменения этих предвзятостей через модификацию обучающих данных. При дообучении моделей на основе партийного контента из социальных сетей, таких как Twitter, наблюдалось значительное увеличение как предпочтения к "своим", так и враждебности к "чужим". Однако, когда ученые отфильтровали предвзятые данные перед обучением, они смогли успешно снизить эти поляризующие эффекты.
Эти результаты открывают новые горизонты для улучшения разработки и обучения ИИ. Важно помнить, что без должного внимания к обучающим данным, ИИ может непреднамеренно усиливать существующие социальные разделения. Однако, как показывает исследование, даже небольшие, но целенаправленные изменения в обучающих данных могут существенно повлиять на поведение моделей, что открывает путь к созданию более справедливых систем ИИ.