Я новичок в Java и HtmlUnit и пытаюсь собрать обновления новостей со страницы, которая загружает эти обновления через вызовы AJAX. Что бы я ни делал, обновления не загружаются. Что мне не хватает?
Я пробовал несколько способов ожидания завершения JS-скриптов, но безрезультатно. Нажатие кнопки для загрузки дополнительных новостей или запуска их событий также не помогло.
Я работал, исходя из предположения, что мне не нужно переназначать мой экземпляр page
после завершения сценариев JS. Это правильно?
Я также читал, что JS-движок HtmlUnit не слишком хорошо работает с некоторыми веб-сайтами. Так ли это здесь, или я просто что-то упускаю?
Спасибо за вашу помощь!
Вот мой код:
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlButton;
import com.gargoylesoftware.htmlunit.html.HtmlElement;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlInput;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import java.io.IOException;
import java.util.List;
import org.junit.Assert;
public class ProblemDemo {
public static void main(String[] args) throws IOException, InterruptedException {
WebClient webClient = new WebClient(BrowserVersion.FIREFOX_38);
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
webClient.getOptions().setTimeout(10000);
webClient.setJavaScriptTimeout(10000);
webClient.getOptions().setJavaScriptEnabled(true);
// Login procedure
HtmlPage page = webClient.getPage("https://login.xing.com/login");
final HtmlForm form = (HtmlForm) page.getElementById("login-form");
final HtmlInput userID = form.getInputByName("login_form[username]");
final HtmlInput password = form.getInputByName("login_form[password]");
final HtmlButton submit = form.getButtonByName("button");
final HtmlInput remember = form.getInputByName("login_form[perm]");
userID.setValueAttribute("user");
password.setValueAttribute("pass");
remember.setChecked(true);
page = submit.click();
Assert.assertEquals("Start | XING", page.getTitleText());
//Navigate to page to be scraped
page = webClient.getPage(
"https://www.xing.com/companies/deutschepostag/updates");
webClient.waitForBackgroundJavaScript(10*1000);
System.out.println(page.getUrl().toString());
System.out.println(page.asXml());
//Print number of employees (works, not dynamic)
HtmlElement result = page.getFirstByXPath("//div[@id='profile-nav-tabs']"
+ "/ul/li[@id='employees-tab']/a");
System.out.println("Employees: " + result.getTextContent());
//Print news (doesn't work)
String news;
List<HtmlElement> results = (List<HtmlElement>) page.getByXPath("//div"
+ "[@id='company-updates']/ul[@id='news-feed']/li/div"
+ "[@class='activity-content']");
System.out.println("News found: " + results.size());
for(HtmlElement item : results){
news = "";
System.out.println(" NEW ITEM");
System.out.println(item.getTextContent());
}
}
}
Кроме того, актуально ли следующее предупреждение? Поскольку HtmlUnit генерирует множество предупреждений JS, я не совсем уверен, какие из них важны, а какие нет.
WARNING: Obsolete content type encountered: 'text/javascript'.