Я использую API запросов с Python2.7.
Я пытаюсь загрузить определенные веб-страницы через прокси-серверы. У меня есть список доступных прокси-серверов. Но не все прокси-серверы работают должным образом. Некоторые прокси-серверы требуют аутентификации, другие перенаправляют на рекламные страницы и т. Д. Чтобы обнаружить / проверить неправильные ответы, я включил две проверки в свой код URL-запросов. Похоже на это
import requests
proxy = '37.228.111.137:80'
url = 'http://www.google.ca/'
response = requests.get(url, proxies = {'http' : 'http://%s' % proxy})
if response.url != url or response.status_code != 200:
print 'incorrect response'
else:
print 'response correct'
print response.text
Есть некоторые прокси-серверы, на которых вызов request.get выполняется успешно, и они проходят эти два условия и по-прежнему содержат недопустимый источник html в атрибуте response.text. Однако, если я использую тот же прокси в своем браузере FireFox и пытаюсь открыть ту же веб-страницу, мне отображается недействительная веб-страница, но мой скрипт python говорит, что ответ должен быть действительным.
Может ли кто-нибудь указать мне, какие еще необходимые проверки мне не хватает, чтобы отсеять неправильные результаты html?
or
Как я могу успешно проверить правильность веб-страницы, которую я намеревался получить?
С Уважением.
urllib, как это сделано здесь Прокси-сервер с Urllib2 - person Vaulstein   schedule 17.08.2015