Современные технологии искусственного интеллекта, особенно генеративные модели, обещают преодолеть языковые и культурные барьеры. Однако, как показывает практика, они сталкиваются с серьезными проблемами, когда речь идет о языках, находящихся под угрозой исчезновения. По данным Стэнфордского института, большинство крупных языковых моделей демонстрируют низкую эффективность в работе с языками, которые имеют ограниченное цифровое представительство.
Проблема заключается в недостатке качественных данных для обучения. Наиболее мощные языковые модели требуют огромных объемов обучающего материала, большая часть которого представлена на английском языке. Это приводит к тому, что AI инструменты могут унифицировать культуру и поддерживать англоцентричные взгляды. Более того, даже для многоязычных моделей обработка запросов на других языках требует больше ресурсов, что делает их использование экономически невыгодным.
Недостаток представительства языков с низкими ресурсами не только углубляет цифровое неравенство, но и создает технологические уязвимости. Исследования показывают, что такие языки могут быть использованы для обхода защитных механизмов AI. Например, в одном из экспериментов, когда запросы на тему самоповреждения были заданы на английском и китайском языках, система быстро срабатывала на защиту, в то время как на тайском и суахили она генерировала небезопасный контент.
В ответ на эти вызовы в некоторых странах, особенно в Азии, наблюдается рост интереса к созданию "суверенного AI". Например, в Сингапуре была разработана языковая модель SeaLion, охватывающая более десятка местных языков, включая те, которые недостаточно документированы. Университет Малаи также запустил модель ILMU, способную понимать мультимедийные данные и текст, что позволяет лучше учитывать региональные особенности.
Однако, чтобы AI действительно представлял интересы определенной группы людей, необходимо учитывать даже самые мелкие детали в обучающих данных. В Новой Зеландии, например, организация Te Hiku Media активно собирает и маркирует данные на маорийском языке, работая с носителями языка и используя архивные материалы. Такой подход позволяет создать качественные наборы данных, которые могут быть использованы для обучения AI.
В конечном итоге, без участия сообществ в процессе сбора данных, компании по разработке AI рискуют не только не сохранить умирающие языки, но и способствовать их исчезновению.