APPERCASE
vasb@nccrepnfr.eh +7 499 302-34-17

Обзор Common Crawl: что это и как он меняет мир веб-данных

Фонд Common Crawl, известный в Кремниевой долине, на протяжении более десяти лет собирает миллиарды веб-страниц для создания обширного архива интернета. Однако его использование для обучения ИИ вызывает споры, так как архив содержит статьи с платных новостных сайтов.

Фонд Common Crawl, работающий как некоммерческая организация, на протяжении многих лет создает обширный архив интернета, собирая данные с миллиардов веб-страниц. Этот архив, объем которого измеряется в петабайтах, доступен для исследований и используется многими крупными компаниями в сфере искусственного интеллекта, такими как OpenAI, Google и Meta. Однако использование этого архива для обучения языковых моделей вызывает серьезные вопросы.

Недавние исследования показывают, что Common Crawl может предоставлять доступ к платным статьям крупных новостных изданий, что вызывает недовольство у издателей. Фонд не использует авторизацию при сборе данных, что позволяет ему обходить некоторые механизмы защиты контента. Например, на многих новостных сайтах пользователи могут увидеть полный текст статьи до того, как сработает код, скрывающий контент для неподписчиков. Скрипт Common Crawl не выполняет этот код, что позволяет ему получать доступ к полным статьям.

В результате, по оценкам, архив Common Crawl содержит миллионы статей из таких изданий, как The New York Times, The Wall Street Journal и других. Это создает ситуацию, когда, несмотря на то, что издатели могут настроить свои сайты для более жесткой защиты контента, многие из них не делают этого, что открывает двери для использования их материалов в обучении ИИ.

Обсуждая эту проблему, представители Common Crawl подчеркивают, что отдельные издания не имеют критического значения для интернета в целом. Однако это ставит под сомнение ценность оригинальной журналистики и поднимает вопросы о том, как коллективные данные могут угрожать индивидуальной приватности.

Таким образом, ситуация с использованием данных из Common Crawl подчеркивает более широкие проблемы, связанные с искусственным интеллектом и защитой данных. Вопросы о том, как обеспечить справедливый доступ к информации и защитить права авторов, становятся все более актуальными в условиях стремительного развития технологий.

Эта новость создана искусственным интеллектом на основе открытых данных и предназначена исключительно для информирования. Администрация сайта не несёт ответственности за её содержание. Новости агрегируются из различных источников, включая недружественные России страны и их средства массовой информации. Социальные сети Facebook, Instagram и WhatsApp принадлежат корпорации Meta, которая в России признана экстремистской организацией.

На фоне стремительного роста искусственного интеллекта (ИИ) возникает опасение о возможном образовании пузыря, который может негативно сказаться на криптовалютном рынке, аналогично тому, как это произошло в эпоху доткомов.
Исследование в Тайване показало, что популярные AI-инструменты, такие как ChatGPT, имеют ограниченную точность при ответах на клинические вопросы, связанные с инсультом, что вызывает опасения по поводу их надежности в медицинских контекстах.
Совместно с Коалицией по здравоохранению и ИИ, Комиссия по совместной аккредитации представила рекомендации по ответственному использованию ИИ в здравоохранении, охватывающие вопросы управления, конфиденциальности и безопасности данных.
Написать нам