Aporte: Evitar descarga página web con comando Wget. - Versión para impresión +- ChuJALT (https://chujalt.com) +-- Foro: SISTEMAS OPERATIVOS (https://chujalt.com/forum-8.html) +--- Foro: Linux (https://chujalt.com/forum-14.html) +--- Tema: Aporte: Evitar descarga página web con comando Wget. (/thread-29.html) |
Evitar descarga página web con comando Wget. - chujalt - 14-03-2021 Los que usamos Linux sabemos la existencia de un comando de consola mediante el cual te puedes bajas una web completa de manera recursiva, esto es, todo su contenido con todos los directorios que contiene y archivos. Este comando es Wget. A los que tenemos un sitio web no nos puede hacer gracia que se puedan bajar todo su contenido, imágenes, archivos o puede que tengamos zonas privadas que wget se las saltará y también se las bajará. Hay dos maneras de evitarlo, editando el archivo robots.txt, la menos recomendable, o editando el archivo .htaccess. robots.txt Según wikipedia un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad. Para evitar que wget se descargue el sitio web completo tendremos que añadir esta línea Código: User-agent: wget Si nos da los mismo que se bajen la web, pero hay directorios que no queremos que se bajen se puede indicar también Código: User-agent: wget Pero este método tiene una contra, si se es un usuario normal posiblemente funcionará, pero si el que se quiere bajar la web ya es un poco mas conocedor de como funciona wget, sabrá que se puede saltar esta restricción con este línea Código: wget -e robots=off --wait 1 http://tu_sitio.com Con esto no hará caso al archivo robots.txt. .htaccess Para evitar la descarga indeseada de nuestro sitio web de forma mas segura editaremos el archivo .htaccess añadiéndole las siguientes líneas Código: RewriteEngine On Con esto no solo evitaremos el uso de wget sino también el uso de otros comandos, como curl. La última linea llevará al que quiere bajar el sitio web a un mensaje de denegado el acceso. Si lo que queremos es ponerlo uno a uno y todo el listado de los bad bosts mas conocidos, sería así Código: RewriteEngine on Los "..." significa que vamos metiendo las lineas que queramos. Una lista de los bad bots mas conocidos AQUI |