İnternet üzerinde hatırı sayılır bir şekilde CloudFlare ve servisleri kullanılmaktadır, yapılan araştırmaya göre ise durum şu şekilde
Cloudflare is used by 81.5% of all the websites whose reverse proxy service we know. This is 16.8% of all websites.
Yani dünyadaki web sitelerin yüzde 16.8 kadarı CloudFlare servisi kullanıyor ve web sitesini koruyor.
Bu web sitelerinde yer alan verileri otomatik bir şekilde almak istediğinizde haliyle CloudFlare direk olarak bot trafiği algılıyor ve engelliyor. Yazacağımız ufak bir kod bu engellemeyi geçmek kısmen mümkün.
import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry
from random_useragent import random_useragent
class RequestsHelper(object):
"""HTTP Request helper"""
def __init__(self):
super(RequestsHelper, self).__init__()
""" Create session for long TTL pages"""
session = requests.Session()
retries = 5
backoff_factor = 0.3
status_forcelist = (500, 502, 504)
retry = Retry(
total=retries,
read=retries,
connect=retries,
backoff_factor=backoff_factor,
status_forcelist=status_forcelist,
)
adapter = HTTPAdapter(max_retries=retry)
session.mount("http://", adapter)
session.mount("https://", adapter)
self.session = session
def _generate_random_useragent(self):
"""
Generate random user-agent string
:return: User-agent string
"""
randomizer = random_useragent.Randomize()
return randomizer.random_agent("desktop", "windows")
def _is_cloudflare_protected(self, r):
"""
Check if page has protected with Cloudflare
:param object r:
:return: Cloudflare anti-ddos challenge status
:rtype: bool
"""
server = r.headers.get("Server", "")
return (
r.status_code == 503
and server.startswith("cloudflare")
and b"jschl_vc" in r.content
and b"jschl_answer" in r.content
)
def resolve_redirection(self, url):
"""
Resolve redirection and return final url without download page
:param str url:
:return: Return final url
"""
r = self.session.head(url, allow_redirects=True)
return r.url
def get(self, url):
"""
Fetch page content or make HTTP GET request
:param str url: Endpoint or page URL
:return: Requests object
:raises Exception when error happened
"""
try:
r = self.session.get(
url,
headers={"User-Agent": self._generate_random_useragent()},
timeout=5,
)
except Exception as e:
raise e
if self._is_cloudflare_protected(r):
import cfscrape
scrapper = cfscrape.create_scraper()
r = scrapper.get(r.url, timeout=5)
if b"indows-1254" in r.content:
r.encoding = "Windows-1254"
else:
r.encoding = "utf-8"
return r
def post(self, url, data):
"""
Fetch page content or make HTTP GET request
:param str url: Endpoint or page URL
:param dict data: Post data dictionary
:return: Requests object
:raises Exception when error happened
"""
try:
r = self.session.post(
url,
data=data,
headers={"User-Agent": self._generate_random_useragent()},
timeout=5,
)
except Exception as e:
raise e
if self._is_cloudflare_protected(r):
import cfscrape # pip install cfscrape
scrapper = cfscrape.create_scraper()
r = scrapper.post(r.url, data=data, timeout=5)
if b"indows-1254" in r.content:
r.encoding = "Windows-1254"
else:
r.encoding = "utf-8"
return r
PythonPeki bütün CloudFlare kullanan sayfalarda bu kod işe yarar mı? Tabii ki de hayır, özellikle hCaptcha aktif edilmiş ve aktif olarak kullanılan sitelerde yukarıda vermiş olduğum kod çalışmayacaktır.
Peki bunun yerine ne gibi bir işlem yapabiliriz, son geliştirmelerle birlikte biraz daha doğru çalışan cloudscraper kütüphanesini kullanabilirsiniz. Nihai kodumuz şu şekilde olacak.
def get(self, url):
"""
Fetch page content or make HTTP GET request
:param str url: Endpoint or page URL
:return: Requests object
:raises Exception when error happened
"""
try:
r = self.session.get(
url,
headers={"User-Agent": self._generate_random_useragent()},
timeout=5,
)
except Exception as e:
raise e
if self._is_cloudflare_protected(r):
import cloudscraper
scrapper = cloudscraper.CloudScraper()
r = scrapper.get(r.url, timeout=5)
if b"indows-1254" in r.content:
r.encoding = "Windows-1254"
else:
r.encoding = "utf-8"
return r
PythonBundan sonra web sitesindeki değişiklikleri alabilirsiniz ancak burada şöyle bir durum daha karşınıza çıkacak. Koruma sayfası içindeki parametreler sık sık cloudflare tarafından değiştiriliyor.
Gün sonunda yüksek ücretler istenen residential proxy hizmetlerine geçiş yapmanız gerekebilir.