ByteDance активно наращивает свои усилия в области сбора данных для обучения своих генеративных ИИ-моделей. В апреле компания представила веб-скрейпер Bytespider, который, согласно исследованиям, стал одним из самых агрессивных инструментов для сбора данных в интернете. Он собирает информацию в 25 раз быстрее, чем GPTbot от OpenAI, и в 3000 раз быстрее, чем ClaudeBot от Anthropic.
Несмотря на возможный запрет TikTok в США, ByteDance продолжает активно использовать Bytespider, который игнорирует правила robots.txt, предназначенные для ограничения доступа скрейперов к данным. Это вызывает опасения по поводу нарушения авторских прав, так как многие компании и индивидуумы утверждают, что их контент используется без разрешения.
Согласно информации, ByteDance работает над новой языковой моделью, которая может улучшить функции поиска в TikTok. Недавно TikTok обновил свою поисковую систему, позволяя рекламодателям искать актуальные ключевые слова в реальном времени. Это может значительно повысить эффективность рекламы на платформе.
В условиях жесткой конкуренции на рынке генеративного ИИ, ByteDance стремится не отставать и активно накапливает данные для своих будущих проектов.