Cómo raspar todo el contenido de un sitio web?

Desarrollo sitios web y, a veces, los clientes ya tienen sitios web pero los necesitan totalmente renovados, pero la mayoría del contenido y las imágenes deben permanecer igual. Estoy buscando software, incluso si cuesta o es una aplicación de escritorio que me permitirá fácilmente ingresar una URL y raspar todo el contenido a una carpeta designada en mi máquina local. Cualquier ayuda sería muy apreciada.

htttrack funcionará bien para ti. Es un navegador fuera de línea que desplegará sitios web. Puede configurarlo como lo desee. Esto no eliminará PHP obviamente ya que php es el código del lado del servidor. Lo único que puede desplegar es html y javascript y cualquier imagen que se envíe al navegador.

file_put_contents('/some/directory/scrape_content.html', file_get_contents('http://google.com')); 

Ahorre su dinero para caridad.

Por contenido te refieres a los contenidos de la página entera, porque puedes simplemente “guardar como …” toda la página con la mayoría de los medios incluidos.

Firefox, en Tool -> Page Info -> Media, incluye una lista de todos los medios en la página que puede descargar.

No te molestes con PHP por algo como esto. Puede usar wget para captar un sitio completo trivialmente. Sin embargo, tenga en cuenta que no analizará elementos como CSS por usted, por lo que no captará ningún archivo al que se haga referencia mediante (por ejemplo) background-image: URL('/images/pic.jpg') , pero se enganchará a todo más para ti

Esta clase puede ayudarte a raspar el contenido: http://simplehtmldom.sourceforge.net/

Puede lograr esto guardando como opción del navegador vaya a archivo-> guardar página como en firefox y todas las imágenes y js se guardarán en una carpeta

Empecé a usar HTTrack hace un par de años y estoy contento con él. Parece salir de su camino para obtener páginas que ni siquiera vería por mi cuenta.

Puede raspar sitios web con http://scrapy.org y obtener el contenido que desea.

Scrapy es un marco rápido de rastreo de pantalla y rastreo de alto nivel, que se usa para rastrear sitios web y extraer datos estructurados de sus páginas. Se puede utilizar para una amplia gama de propósitos, desde la extracción de datos hasta el monitoreo y las pruebas automatizadas.