HtmlUnit: загружать элементы на странице AJAX

Я новичок в Java и HtmlUnit и пытаюсь собрать обновления новостей со страницы, которая загружает эти обновления через вызовы AJAX. Что бы я ни делал, обновления не загружаются. Что мне не хватает?

Я пробовал несколько способов ожидания завершения JS-скриптов, но безрезультатно. Нажатие кнопки для загрузки дополнительных новостей или запуска их событий также не помогло.

Я работал, исходя из предположения, что мне не нужно переназначать мой экземпляр page после завершения сценариев JS. Это правильно?

Я также читал, что JS-движок HtmlUnit не слишком хорошо работает с некоторыми веб-сайтами. Так ли это здесь, или я просто что-то упускаю?

Спасибо за вашу помощь!

Вот мой код:

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlButton;
import com.gargoylesoftware.htmlunit.html.HtmlElement;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlInput;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import java.io.IOException;
import java.util.List;
import org.junit.Assert;

public class ProblemDemo {
    public static void main(String[] args) throws IOException, InterruptedException {
        WebClient webClient = new WebClient(BrowserVersion.FIREFOX_38);
        webClient.getOptions().setThrowExceptionOnScriptError(false);
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());
        webClient.getOptions().setTimeout(10000);
        webClient.setJavaScriptTimeout(10000);
        webClient.getOptions().setJavaScriptEnabled(true);

        // Login procedure
        HtmlPage page = webClient.getPage("https://login.xing.com/login");

        final HtmlForm form = (HtmlForm) page.getElementById("login-form");
        final HtmlInput userID = form.getInputByName("login_form[username]");
        final HtmlInput password = form.getInputByName("login_form[password]");
        final HtmlButton submit = form.getButtonByName("button");
        final HtmlInput remember = form.getInputByName("login_form[perm]");

        userID.setValueAttribute("user");
        password.setValueAttribute("pass");
        remember.setChecked(true);
        page = submit.click();

        Assert.assertEquals("Start | XING", page.getTitleText());

        //Navigate to page to be scraped
        page = webClient.getPage(
                "https://www.xing.com/companies/deutschepostag/updates");
        webClient.waitForBackgroundJavaScript(10*1000);
        System.out.println(page.getUrl().toString());
        System.out.println(page.asXml());

        //Print number of employees (works, not dynamic)
        HtmlElement result = page.getFirstByXPath("//div[@id='profile-nav-tabs']"
                + "/ul/li[@id='employees-tab']/a");
        System.out.println("Employees: " + result.getTextContent());

        //Print news (doesn't work)
        String news;
        List<HtmlElement> results = (List<HtmlElement>) page.getByXPath("//div"
                + "[@id='company-updates']/ul[@id='news-feed']/li/div"
                + "[@class='activity-content']");
        System.out.println("News found: " + results.size());
        for(HtmlElement item : results){
            news = "";
            System.out.println("            NEW ITEM");
            System.out.println(item.getTextContent());
        }
    }
}

Кроме того, актуально ли следующее предупреждение? Поскольку HtmlUnit генерирует множество предупреждений JS, я не совсем уверен, какие из них важны, а какие нет.

WARNING: Obsolete content type encountered: 'text/javascript'.

person user    schedule 25.06.2015    source источник
comment
Привет, у вас была возможность протестировать последний снимок, так как ответ был изменен?   -  person Ahmed Ashour    schedule 28.06.2015


Ответы (1)


Установка setThrowExceptionOnScriptError на false предотвращает отображение ошибок.

EDIT: Последний моментальный снимок содержит исправление для performance.navigation.redirectCount

Пожалуйста, попробуйте и вернитесь

person Ahmed Ashour    schedule 25.06.2015