Справочная информация:
Я пытаюсь создать очень простой веб-сканер в Groovy. При наличии одного URL-адреса он загрузит соответствующую веб-страницу и все страницы, связанные с этой страницей.
В ссылках в HTML-коде URL-адреса иногда сокращаются. На ум приходят три разных типа URL:
- абсолютный URL-адрес (например, http://www.food.com/fruit/orange.html< /а>)
- абсолютный URL-адрес, связанный с корневым веб-сайтом (например, /fruit/orange.html)
- относительный URL-адрес, относящийся к каталогу, в котором находится текущая веб-страница (например, ../vegetables/carrot.html)
Однако мне известно, что веб-приложения могут реализовывать произвольную маршрутизацию URL-адресов и что поэтому URL-адреса могут вообще не отражать структуру файловой системы.
Мой вопрос:
Как веб-браузер узнает, какой URL запрашивать, когда пользователь щелкает ссылку на веб-странице? Или как мой поисковый робот узнает, какую веб-страницу загружать, когда найдет ссылку на веб-странице?
Любые подсказки о доступных библиотеках Groovy для разрешения URL-адресов также будут оценены.