
В прошлом году компания Cloudflare, занимающаяся интернет-инфраструктурой, запустила инструменты, позволяющие ее клиентам блокировать ИИ-скреперы. Сегодня компания пошла еще дальше в своей борьбе с несанкционированным скрепингом (скрапингом, скрабированием).
Она перешла на блокировку ИИ-краулеров по умолчанию для своих клиентов и продвигает программу Pay Per Crawl, которая позволяет
клиентам взимать с ИИ-компаний плату за скрепинг их веб-сайтов.
Веб-краулеры десятилетиями собирают информацию в Интернете. Без них вебмастера лишились бы жизненно важных онлайн-инструментов, от Google Search до бесценной работы Internet Archive по сохранению цифровых данных. Но бум искусственного интеллекта привел к соответствующему буму веб-краулеров, ориентированных на искусственный интеллект, и эти боты сканируют веб-страницы с частотой, которая может имитировать DDoS-атаку, перегружая серверы и выводя веб-сайты из строя.
Даже когда веб-сайты могут справиться с повышенной активностью, многие не хотят, чтобы ИИ-краулеры собирали их контент, особенно новостные издания, которые требуют от ИИ-компаний платить за использование их работы.
«Мы лихорадочно пытаемся защитить себя», — говорит Даниэль Коффи, президент и генеральный директор торговой группы News Media Alliance, которая представляет несколько тысяч североамериканских СМИ.
По словам Уилла Аллена, руководителя отдела контроля ИИ, конфиденциальности и медиа-продуктов Cloudflare, WIRED, более 1 миллиона веб-сайтов клиентов активировали старые инструменты блокировки ИИ-ботов. Теперь еще миллионы клиентов получат возможность сохранить блокировку ботов в качестве настройки по умолчанию.
Cloudflare также заявляет, что может идентифицировать даже «теневые» скрабинговые программы, которые не публикуются компаниями, занимающимися искусственным интеллектом. Компания отметила, что использует собственную комбинацию поведенческого анализа, отпечатков пальцев и машинного обучения для классификации и отделения ботов искусственного интеллекта от «хороших» ботов.
Широко используемый веб-стандарт под названием Robots Exclusion Protocol, часто реализуемый через файл robots.txt, помогает издателям блокировать ботов в индивидуальном порядке, но его соблюдение не является обязательным по закону, и есть много доказательств того, что некоторые компании, занимающиеся искусственным интеллектом, пытаются уклоняться от попыток заблокировать их скрейперы. «Robots txt игнорируется», — говорит Коффи.
Согласно отчету платформы лицензирования контента Tollbit, которая предлагает собственный рынок для издателей, чтобы они могли вести переговоры с компаниями, занимающимися искусственным интеллектом, о доступе ботов, скрейпинг с помощью искусственного интеллекта по-прежнему находится на подъеме, включая скрейпинг, который игнорирует robots txt. Tollbit обнаружила, что только в марте 2025 года более 26 миллионов скрейпов игнорировали протокол.
В этом контексте переход Cloudflare к блокировке по умолчанию может стать серьезным препятствием для скрытых скрейперов и дать издателям больше рычагов для переговоров, будь то через программу Pay Per Crawl или иным способом. «Это может радикально изменить расклад сил.
До сих пор компаниям, занимающимся искусственным интеллектом, не нужно было платить за лицензию на контент, потому что они знали, что могут просто взять его без последствий», — говорит генеральный директор Atlantic (и бывший главный редактор WIRED)
Николас Томпсон. «Теперь им придется вести переговоры, и это станет конкурентным преимуществом для компаний, занимающихся искусственным интеллектом, которые смогут заключать больше и лучших сделок с большему количеству и лучших издателей».
Стартап ProRata, занимающийся искусственным интеллектом и управляющий поисковой системой Gist AI, согласился участвовать в программе Pay Per Crawl, по словам генерального директора и основателя Билла Гросса. «Мы твердо верим, что все создатели контента и издатели
должны получать вознаграждение, когда их контент используется в ответах искусственного интеллекта», — говорит Гросс.
Конечно, еще предстоит увидеть, будут ли крупные игроки в сфере ИИ участвовать в такой программе, как Pay Per Crawl, которая находится в стадии бета-тестирования. (Cloudflare отказалась назвать текущих участников.) Такие компании, как OpenAI, заключили лицензионные соглашения с различными издательскими партнерами, включая материнскую компанию WIRED Cond? Nast, но конкретные детали этих
соглашений не разглашаются, в том числе и то, охватывает ли соглашение доступ ботов.
Между тем, существует целая онлайн-экосистема учебных материалов о том, как обойти инструменты Cloudflare для блокировки ботов,
направленные против веб-скреперов. По мере внедрения блокировки по умолчанию, вероятно, эти усилия будут продолжаться. Cloudflare подчеркивает, что клиенты, которые хотят позволить роботам беспрепятственно собирать данные, смогут отключить настройку блокировки. «Вся блокировка является полностью опциональной и остается на усмотрение каждого отдельного пользователя», — говорит Аллен.





