lunes, marzo 05, 2012

Descargar un sitio web completo con Wget o HTTrack

Tal vez en algún momento se tuvo la necesidad de descargar todo el contenido de un sitio web (incluido los archivos html, js, css, jpg, etc), ya sea para tener un backup o para poder verlo al estar desconectado de internet (offline) o hacer un mirror.

Existen varias alternativas, pero se citarán dos muy buenas, sencillas y gratuitas (más bien libres porque ambos están bajo licencia GPL). Una con una interfaz gráfica y la otra mediante linea de comandos. Ambos están disponibles tanto para Windows como para Linux.

La primera opción es “HTTrack Web Site Copier” que permite descargar todo un sitio con un par de clics, todo es mediante un asistente lo que ayuda bastante por si uno no quiere complicarse.

Para Windows desde el sitio oficial se puede descargar los binarios (también disponible en 64bits) y para Linux el tar.gz o si se tiene Debian o Ubuntu ingresando el siguiente comando:
apt-get install webhttrack
El segundo programa es el Wget, muy utilizado en sistemas Linux y que está incluido en cualquier distribución de este sistema operativo.
Para descargar un sitio completo basta con poner:
wget -r www.example.com
El comando -r realiza la descarga de forma recursiva.

Y si luego de descargarlo queremos que descargue solo las actualizaciones del sitio basta con agregarle el parámetro -N. Es decir posicionándose en el mismo directorio donde se ejecuto el comando anterior ejecutar lo siguiente:
wget -r -N www.example.com
De esta forma chequeará si se actualizo algún archivo y si es así lo volverá a descargar, también revisará si hay archivos nuevos.

Para poder utilizar Wget en Windows habrá que bajarse el paquete wget del sitio gnuwin32.

También HTTrack una versión de linea de comando, lo que (al igual que Wget), permiten incluir tareas programadas (en Windows) o Cron (en Linux) para de esta forma generar y mantener mirrors actualizados.

No hay comentarios:

Publicar un comentario

Compartí tu comentario, es una forma de agradecer para que se sigan publicando más entradas. Se admiten mensajes anónimos.

Recibe las actualizaciones en tu correo