¿Cómo extraer enlaces html del archivo html en C #?

¿Alguien puede ayudarme explicando cómo extraer urls / links de HTML File en C #

mira Html Agility Pack

HtmlDocument doc = new HtmlDocument(); doc.Load("file.htm"); foreach(HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]")) { HtmlAttribute att = link.Attributes["href"]; yourList.Add(att.Value) } doc.Save("file.htm"); 

Use HTMLAgility Pack …

  private List ParseLinks(string html) { var doc = new HtmlDocument(); doc.LoadHtml(html); var nodes = doc.DocumentNode.SelectNodes("//a[@href]"); return nodes == null ? new List() : nodes.ToList().ConvertAll(r => r.Attributes.ToList().ConvertAll(i => i.Value)).SelectMany(j => j).ToList(); } 

Esto funciona para mi.

Puede usar un objeto COM de HTQL y consultar la página mediante la consulta: : href

 HTQLCOMLib.HtqlControl h = new HTQLCOMLib.HtqlControl(); string page = "test1test2 "; h.setSourceData(page, page.Length); h.setQuery(": href "); for (h.moveFirst(); 0 == h.isEOF(); h.moveNext() ) { MessageBox.Show(h.getValueByIndex(1)); } 

Mostrará mensajes de:

https://stackoverflow.com/questions/2336088/how-to-extract-html-links-from-html-file-in-c/test1.html

https://stackoverflow.com/questions/2336088/how-to-extract-html-links-from-html-file-in-c/test2.html