Istraživači iz Cloudflarea tvrde da Perplexity skuplja podatke s web stranica unatoč blokadi za AI botove

Photo by Joshua Woroniecki on Unsplash

Istraživači iz Cloudflarea tvrde da Perplexity skuplja podatke s web stranica unatoč blokadi za AI botove

Vrijeme čitanja: 3 minuta

Istraživači iz tvrtke koja pruža infrastrukturu za internet, Cloudflare, tvrde da je AI sustav Perplexity skupljao sadržaj s web stranica bez dozvole, čak i kada su izdavači implementirali blokade za AI botove.

U žurbi? Evo brzih činjenica:

  • Cloudflare tvrdi da je Perplexity skupljao sadržaj s web stranica bez dozvole.
  • Istraživači su potvrdili Perplexityjevo “stealth crawling” ponašanje čak i kada izdavači implementiraju AI bot blokade.
  • Glasnogovornik Perplexityja nazvao je Cloudflareov izvještaj “publicitarnim trikom”.

Prema izvješću koje je Cloudflare podijelio u ponedjeljak, Perplexity pretražuje web stranice koristeći svog zadani korisnički agent i mijenja svoj identitet kako bi zaobišao ove blokade. Ovo ponašanje “stealth crawlinga” potvrdili su stručnjaci iz Cloudflarea.

“Vidimo neprestano dokaze da Perplexity neprestano mijenja svoj user agent i mijenja izvorne ASN-ove kako bi sakrio svoju aktivnost skeniranja, kao i ignoriranje – ili ponekad čak i neuspjeh dohvaćanja – robots.txt datoteka,” napisali su istraživači.

Od skenera se očekuje da budu transparentni, jasno izraze svoju svrhu i poštuju preference web stranica, ali istraživači tvrde da Perplexity nije slijedio ova načela povjerenja. Ovaj je zaključak donesen nakon istrage pokrenute zbog pritužbi korisnika.

“Primili smo pritužbe od kupaca koji su zabranili aktivnost skeniranja Perplexityja u svojim robots.txt datotekama, ali su također stvorili WAF pravila kako bi specifično blokirali oba deklarirana skenera Perplexityja: PerplexityBot i Perplexity-User,” napisale su istraživačice. “Ovi kupci su nam rekli da je Perplexity još uvijek mogao pristupiti njihovom sadržaju čak i kada su vidjeli da su njegovi botovi uspješno blokirani.”

Istraživačice iz Cloudflarea rekle su da su provjerile ove tvrdnje replicirajući blokade i provodeći više testova kako bi promatrale ponašanje skenera. U jednom testu, stvorile su nove domene koje još nisu bile indeksirane i uključile robots.txt datoteke kako bi blokirale “respektabilne botove.” Kasnije su upitale Perplexity za specifične informacije o ograničenim domenama i otkrile da je AI-pogonjeni odgovarač i dalje pružao detalje i točne informacije o web stranici.

“Ovaj odgovor bio je neočekivan, budući da smo poduzeli sve potrebne mjere predostrožnosti kako bismo spriječili da njihovi crawleri mogu dohvatiti ove podatke,” dodali su istraživači.

Glasnogovornik Perplexityja, Jesse Dwyer, istraživanje je nazvao “publicitetnim trikom” u izjavi za The Verge. Dwyer je dodao da postoje “nesporazumi” u izvještaju Cloudflarea.

Cloudflare je razvijao više alata kako bi pomogao izdavačima u sprječavanju neovlaštenog pretraživanja od strane AI. U ožujku, Cloudflare je objavio “AI Labyrinth,” alat koji neovlaštene pretraživače preusmjerava u labirinte sadržaja generirane od strane AI. Prošlog mjeseca, pokrenuli su “Pay Per Crawl,” sistem za naplatu AI botovima pristupa sadržaju izdavača.

Svidio vam se ovaj članak? Ocijenite ga!
Nije mi se uopće svidjelo Baš mi se i nije svidjelo U redu je Poprilično je dobro! Oduševilo me!

Drago nam je da vam se svidio naš rad!

Kao naš cijenjeni čitatelj, biste li nas pohvalili na Trustpilotu? Kratko je i puno nam znači. Hvala što ste sjajni!

Ocijenite nas na Trustpilotu
0 Ocijenilo 0 korisnika
Naslov
Komentiraj
Zahvaljujemo na povratnoj informaciji