Интересует только Python 3, это лаборатория для школы, и мы не используем Python2.
Инструменты Python 3 и Ubuntu
Я хочу сначала иметь возможность загружать веб-страницы по своему выбору, например. www.example.com/index.html
и сохраните index.html или любую другую страницу, которую я хочу.
Затем выполните следующий удар
grep Href cut -d"/" -f3 sort -u
Но сделайте это в python, не используя grep, wget, cut и т. д., а вместо этого используйте только команды python 3.
Кроме того, не используются какие-либо скребки python, такие как scrapy и т. д. НЕТ устаревших команд python, нет urllib2
так что я думал начать с,
import urllib.request
from urllib.error import HTTPError,URLError
o = urllib.request.urlopen(www.example.com/index.html) #should I use http:// ?
local_file = open(file_name, "w" + file_mode)
#Then write to my local file
local_file.write(o.read())
local_file.close()
except HTTPError as e:
print("HTTP Error:",e.code , url)
except URLError as e:
print("URL Error:",e.reason , url)
Но мне все еще нужно отфильтровать href из файла и удалить все остальное, как мне это сделать, и приведенный выше код в порядке?
Я думал, что urllib.request будет лучше, чем urlretrieve, потому что он быстрее, но если вы думаете, что разница невелика, может быть, лучше использовать urlretrieve?