Я пытаюсь создать текстовый документ из сохраненного HTML-файла с использованием библиотеки Open XML. Если файл HTML не содержит изображения, я могу просто использовать приведенный ниже код и записать текстовое содержимое в документ Word.
HtmlDocument doc = new HtmlDocument();
doc.Load(fileName); //fileName is the Htm file
string Detail = string.Empty;
string webData = string.Empty;
HtmlNode hcollection = doc.DocumentNode.SelectSingleNode("//body");
Detail = hcollection.InnerText;
Но если файл HTML содержит встроенное изображение, я изо всех сил пытаюсь включить это изображение в документ Word.
При использовании hcollection.InnerText
записывается только текстовая часть и исключается изображение.
Когда я использую
HtmlNode hcollection = doc.DocumentNode.SelectSingleNode("//body");
Detail = hcollection.InnerHtml;
Все теги HTML записываются в документ Word вместе с путем к изображению в теге.
<table border='0' width='100%' cellpadding='0' cellspacing='0' align='center'>
<tr><td valign='top' align="left">
<div style='width:100%'><div id="div_img">
<div>
<img src="http://www.myweb.com/web/img/2013/07/18/img_1.jpg">
<span>Sample Text</span></div></div><br><br>Sample Text Content here<br><br> </div></td></tr></table>
Как удалить теги html и вместо пути, показанного как
<img src="http://www.myweb.com/web/img/2013/07/18/img_1.jpg">
соответствующее изображение загружается.
Пожалуйста помоги.