Недавнее исследование выявило, что большие языковые модели, такие как GPT-4, Gemini и Claude, применяют разные стандарты при оценке необходимости вызова полиции на основе видеозаписей с Amazon Ring. Анализ показал, что модели часто рекомендуют вмешательство полиции, даже когда преступления не происходило, что приводит к высоким показателям ложных срабатываний.
Исследование также продемонстрировало, что модели склонны к расовым предвзятостям, принимая решения, основанные на расовом составе районов. Например, модели чаще рекомендовали вызов полиции в районах с преобладанием белого населения. Эти результаты подчеркивают необходимость более тщательного анализа и устранения предвзятостей в системах ИИ, особенно в контексте общественной безопасности.