Articles of html content extraction

Python HTML scraping

En realidad no es un raspado, solo estoy tratando de encontrar las URL en una página web donde la clase tiene un valor específico. Por ejemplo: Quiero obtener el valor href. ¿Alguna idea sobre cómo hacer esto? Tal vez Regex? ¿Podría publicar un código de ejemplo? Supongo que html scraping libs, como BeautifulSoup, son un […]

Cómo extraigo contenido HTML usando Regex en PHP

Lo sé, lo sé … Regex no es la mejor manera de extraer texto HTML. Pero necesito extraer el texto del artículo de muchas páginas, puedo almacenar expresiones regulares en la base de datos para cada sitio web. No estoy seguro de cómo los analizadores XML funcionarían con múltiples sitios web. Necesitarías una función separada […]

¿Cómo extraer bloques de texto de una página HTML?

Me gustaría extraer bloques de textos con más de 100 palabras de una gran página HTML usando PHP. Si el texto está contenido en … no importa. Solo me importa la cantidad de palabras que forman un bloque de texto coherente, por lo que también se deben tener en cuenta los textos que están fuera […]

Extrayendo información de sitios web

No todos los sitios web exponen bien sus datos, con feeds XML, API, etc. ¿Cómo podría obtener información de un sitio web? Por ejemplo: … information here … Vengo de un fondo de progtwigción Java y encoding con Apache XMLBeans. ¿Hay algo similar a analizar HTML, cuando sé que la estructura y los datos se […]

RegEx para extraer propiedades de la imagen HTML

Necesito un patrón RegEx para extraer todas las propiedades de una etiqueta de imagen. Como todos sabemos, existen muchos HTML malformados, por lo que el patrón debe cubrir esas posibilidades. Estaba viendo esta solución https://stackoverflow.com/questions/138313/how-to-extract-img-src-title-and-alt-from-html-using-php pero no lo entendía del todo : Se me ocurre algo así como: (alt|title|src|height|width)\s*=\s*[“‘][\W\w]+?[“‘] ¿Hay alguna posibilidad que me falte […]

Posible analizar un documento HTML y construir un árbol DOM (java)

¿Es posible y qué herramientas se podrían utilizar para analizar un documento html como una cadena o un archivo y luego construir un árbol DOM para que un desarrollador pueda recorrer el árbol a través de alguna API. Por ejemplo: DomRoot = parse(“myhtml.html”); for (tags : DomRoot) { } Nota: este es un documento HTML […]

¿Cómo puedo leer y analizar el contenido de una página web en R?

Me gustaría leer los contenidos de una URL (eq, http://www.haaretz.com/ ) en R. Me pregunto cómo puedo hacerlo

¿Cómo escribir una expresión regular para el análisis html?

Estoy tratando de escribir una expresión regular para mi analizador html. Quiero hacer coincidir una etiqueta html con un atributo dado (por ej., con class=”tab news selected” ) que contiene una o más tags . La expresión regular debe coincidir con la etiqueta completa (de a ). Siempre parece que tengo errores de “memoria agotada”: […]

Parse a .Net Page con los Postbacks

Necesito leer datos de una base de datos en línea que se muestra usando una página aspx de la ONU. He hecho el análisis de HTML antes, pero siempre fue manipulando valores de cadena de consulta. En este caso, el sitio usa postbacks de asp.net. Por lo tanto, haga clic en un valor en el […]

Qué bibliotecas de análisis HTML recomiendan en Java

Quiero analizar algo de HTML para encontrar los valores de algunos atributos / tags, etc. ¿Qué analizadores de HTML recomiendan? Cualquier pros y contras?