Descarga un sitio entero con wget aún cuando hayan restricciones

Para descargar un sitio con wget es tan simple como:
wget -r -k http://www.sitio.com

-r : Esto indica que se descargará el sitio web completo.
-k : Esto indica que se convertirán los links del sitio descargado para poder verlos en ordenadores sin internet.

Ahora, el asunto se complica cuando el administrador del sitio nos la pone difícil…

¿qué restricciones pudieran existir?

La más común que podríamos encontrarnos es que solo se permite el acceso al sitio si tienes un UserAgent reconocido. O sea, el sitio reconocerá que el UserAgent que tantas páginas está descargando no es de los “normales” y por lo tanto cerrará el acceso.
También mediante el archivo robots.txt se puede especificar que wget (al igual que un montón más de aplicaciones similares) no podrá descargar según desee el cliente, pues … bueno, el administrador del sitio así lo quiere y punto :D

¿cómo burlar estas restricciones?

Para el primer caso le estableceremos un UserAgent a wget, esto podremos hacerlo con la opción –user-agent, aquí les muestro cómo:

wget --user-agent="Mozilla/5.0 (X11; Linux amd64; rv:32.0b4) Gecko/20140804164216 ArchLinux KDE Firefox/32.0b4" -r http://www.sitio.com -k

Ahora, para burlar al robots.txt basta con hacer un exclude a ese archivo, o sea, que wget descargue el sitio y le importe nada lo que diga robots.txt :

wget --user-agent="Mozilla/5.0 (X11; Linux amd64; rv:32.0b4) Gecko/20140804164216 ArchLinux KDE Firefox/32.0b4" -r http://www.sitio.com -k -e robots=off

Ahora… hay otras opciones o parámetros que podemos usar para engañar aún más al sitio, por ejemplo, indicarle que entramos al sitio desde Google, aquí les dejo ya la línea final con todo:

wget --header="Accept: text/html" --user-agent="Mozilla/5.0 (X11; Linux amd64; rv:32.0b4) Gecko/20140804164216 ArchLinux KDE Firefox/32.0b4" --referer=http://www.google.com -r http://www.sitio.com -e robots=off -k

No es obligatorio que el sitio contenga http://www al inicio, puede ser uno directamente http://

Entradas populares de este blog

Mensaje de bienvenida en la Consola

Es una pequeña utilidad para mostrar texto ASCII en la consola. Se llama Figlet y la podemos instalar en Ubuntu con “sudo apt-get install figlet”. Podemos hacer que aparezca un mensaje de bienvenida en la consola si añadimos estas lineas al archivo “$HOME/.bashrc”: #Mensaje figlet “Texto Que quieras $USER”

ISO Master, crea y modifica tus ISO’s fácilmente

<a href="http://ubuntu.com/getubuntu" title="Descarga Ubuntu"> <img src="http://www.marcelor.com/wp-content/uploads/199_164_ubuntu.png" alt="Descarga Ubuntu."/> </a> Ha sido liberada la versión 1.3.7 de ISO Master, aplicación que te permite crear y modificar archivos ISO9660 (imágenes ISO). Principales funcionalidades: Crear una imagen ISO desde el principio. Añadir o eliminar archivos y directorios en o desde una imagen de CD. Crear CDs de arranque utilizando diferentes tipos de registros de arranque: no emulación (isolinux, Microsoft Windows), 1,2, 1,44 y 2,88 de emulación de disquete. Apoyo a Rock Ridge y nombres de archivo Joliet. Iso Master es una aplicación de código abierto y está disponible en versión linux y windows. No disponible aún en los repositorios de Ubuntu http://www.littlesvr.ca/isomaster/download/

Fallo al obtener la lista de compartición del servidor

- Ubuntu Karmic Koala El problema. El detalle es que a veces tengo que revisar archivos que están en otras computadoras que utilizan windows. Al momento de darle en el menú Lugares - Red - Red de Windows y al elegir el grupo de trabajo en el que están mis equipos me aparece el siguiente error. No se puede montar el lugar. Fallo al obtener la lista de compartición del servidor. La solución . La encontré en este articulo de los Foros de Ubuntu, lo voy a copiar tal cual, espero que no le moleste al autor y solo a manera de respaldo. # — Aquí inicia el articulo de los foros de Ubuntu – 1- En principio es necesario que estén instalados: samba samba-common smbclient winbind 2- Luego editar el archivo /etc/samba/smb.conf sudo gedit /etc/samba/smb.conf A los cambios necesarios para adaptar el sistema, según los tutoriales de samba es necesario tener presente que: a- Donde dice workgroup = WORKGROUP, reemplazar WORKGROUP por el nombre de grupo de ...

SonsoTux

Buscar este blog