CloudFlare Kullanan Sayfalarda Web Scraping İşlemi Nasıl Yapılır?

İnternet üzerinde hatırı sayılır bir şekilde CloudFlare ve servisleri kullanılmaktadır, yapılan araştırmaya göre ise durum şu şekilde

Cloudflare is used by 81.5% of all the websites whose reverse proxy service we know. This is 16.8% of all websites.

Yani dünyadaki web sitelerin yüzde 16.8 kadarı CloudFlare servisi kullanıyor ve web sitesini koruyor.

Bu web sitelerinde yer alan verileri otomatik bir şekilde almak istediğinizde haliyle CloudFlare direk olarak bot trafiği algılıyor ve engelliyor. Yazacağımız ufak bir kod bu engellemeyi geçmek kısmen mümkün.

Peki bütün CloudFlare kullanan sayfalarda bu kod işe yarar mı? Tabii ki de hayır, özellikle hCaptcha aktif edilmiş ve aktif olarak kullanılan sitelerde yukarıda vermiş olduğum kod çalışmayacaktır.

Peki bunun yerine ne gibi bir işlem yapabiliriz, son geliştirmelerle birlikte biraz daha doğru çalışan cloudscraper kütüphanesini kullanabilirsiniz. Nihai kodumuz şu şekilde olacak.

Bundan sonra web sitesindeki değişiklikleri alabilirsiniz ancak burada şöyle bir durum daha karşınıza çıkacak. Koruma sayfası içindeki parametreler sık sık cloudflare tarafından değiştiriliyor.

Gün sonunda yüksek ücretler istenen residential proxy hizmetlerine geçiş yapmanız gerekebilir.

Share this:

Leave a Comment