В мире технологий языковые модели становятся все более важными, но, к сожалению, большинство из них обучаются на текстах на английском языке, что создает значительные дисбалансы. Это приводит к реальным проблемам для расовых и маргинализированных групп. Например, в результате неправильного перевода на арабский язык произошли случаи ложных арестов, а в медицинских рекомендациях на хинди были допущены серьезные ошибки.
Такие ситуации подчеркивают необходимость более инклюзивного подхода к разработке инструментов обработки естественного языка (NLP). В ответ на это появились исследовательские группы, такие как Masakhane и AmericasNLP, которые стремятся изменить ситуацию, вовлекая свои сообщества в создание и использование NLP-инструментов на их языках.
Исследование, проведенное в рамках CDT AI Governance Lab, предлагает ряд практик, которые могут помочь компаниям лучше учитывать потребности неанглоязычных пользователей. Это важный шаг к более справедливому и инклюзивному будущему в области технологий.