Фонд Common Crawl, работающий как некоммерческая организация, на протяжении многих лет создает обширный архив интернета, собирая данные с миллиардов веб-страниц. Этот архив, объем которого измеряется в петабайтах, доступен для исследований и используется многими крупными компаниями в сфере искусственного интеллекта, такими как OpenAI, Google и Meta. Однако использование этого архива для обучения языковых моделей вызывает серьезные вопросы.
Недавние исследования показывают, что Common Crawl может предоставлять доступ к платным статьям крупных новостных изданий, что вызывает недовольство у издателей. Фонд не использует авторизацию при сборе данных, что позволяет ему обходить некоторые механизмы защиты контента. Например, на многих новостных сайтах пользователи могут увидеть полный текст статьи до того, как сработает код, скрывающий контент для неподписчиков. Скрипт Common Crawl не выполняет этот код, что позволяет ему получать доступ к полным статьям.
В результате, по оценкам, архив Common Crawl содержит миллионы статей из таких изданий, как The New York Times, The Wall Street Journal и других. Это создает ситуацию, когда, несмотря на то, что издатели могут настроить свои сайты для более жесткой защиты контента, многие из них не делают этого, что открывает двери для использования их материалов в обучении ИИ.
Обсуждая эту проблему, представители Common Crawl подчеркивают, что отдельные издания не имеют критического значения для интернета в целом. Однако это ставит под сомнение ценность оригинальной журналистики и поднимает вопросы о том, как коллективные данные могут угрожать индивидуальной приватности.
Таким образом, ситуация с использованием данных из Common Crawl подчеркивает более широкие проблемы, связанные с искусственным интеллектом и защитой данных. Вопросы о том, как обеспечить справедливый доступ к информации и защитить права авторов, становятся все более актуальными в условиях стремительного развития технологий.