Как клонировать любой сайт с HTTrack

{title}

HTTrack - это бесплатное и кроссплатформенное бесплатное программное обеспечение, целью которого является захват веб-содержимого, то есть загрузка всего или части веб-сайта, чтобы впоследствии иметь возможность перемещаться по нему в автономном режиме. Существует версия для Linux под названием WebHTTrack, а ее версия для Windows называется WinHTTrack . Мы можем скачать программное обеспечение HTTrack с его официального сайта:

СКАЧАТЬ HTTRACK

В случае Linux мы также можем установить его из репозиториев, используя следующую команду.

 sudo apt-get установить httrack 

{title}

Это программное обеспечение широко используется для копирования веб-сайтов, а затем загрузки их на другой сервер и использования их для перенаправления трафика на страницу копирования, отправки посетителей на поддельную страницу. Он также используется теми, кто хочет увидеть код или работу определенного веб-сайта. Давайте рассмотрим пример с веб-сайтом httrack.com, где размещается приложение.

 httrack «httrack.com» 
Эта команда загрузит файлы из Интернета в папку www.httrack.com, которую мы можем увидеть локально.

{title}

HTTrack берет любой веб-сайт и делает копию в папке или на диске, где мы находимся . Это может быть полезно для поиска данных на сайте в автономном режиме, таких как адреса электронной почты, полезная информация для SEO или структура сайта. HTTrack поставляется как в Windows, так и в версии для Linux, и его использование такое же, как в Windows, он имеет визуальное ходатайство.

Мы можем использовать Httrack для тестов на проникновение и тестов безопасности, поскольку при создании реплики веб-сайта он позволяет анализировать весь контент и какие файлы загружаются, чтобы определить, что злоумышленник не видит критический файл. Когда мы собираем данные и информацию, мы можем выполнять тесты, искать и анализировать код или ключевые слова, мы также можем собирать данные, которые затем могут быть использованы.

Также таким образом хакеры используют копии, сделанные для загрузки их на сервер с доменом, похожим на скопированный веб-сайт, для эмуляции веб-сайтов, а затем используют их, используя фишинг для кражи данных у ничего не подозревающих пользователей или для проведения атак социальной инженерии. Httrack имеет много опций и параметров для улучшения загрузки, для этого используется команда:

 httrack --help 

{title}

Некоторые важные параметры, которые мы можем использовать с инструментом Httrack:

  • -m : указывает максимальный размер файла в байтах для загрузки, например -m 20000000, эквивалентный 20 МБ.
  • -mime : он служит для загрузки только файла определенного типа, который мы укажем с его расширением, например, с помощью команды
 httrack www.WEB.com - MIME: приложение / * + MIME: приложение / PDF 
Использовать httrack просто, мы должны добавить домен веб-сайта, который мы хотим скопировать, и затем запустить сканирование, расположенное в каталоге нашего жесткого диска, в котором мы собираемся сохранить веб-сайт. Мы должны учитывать, сколько ссылок или контента может иметь сайт в зависимости от объема загружаемой информации. Изучение копии в Интернете можно использовать для поиска сбоев и уязвимостей, которые также могут поставить под угрозу просмотр, чтобы определить, какие части должны быть зашифрованы или повысить безопасность.

Если целью загрузки является поиск информации о компании или списков пользователей, телефонов или других данных, в частности, для социальной инженерии или для попытки выдать себя за веб-сайт или логин для получения пользовательских данных, HTTrack является отличным инструментом для обе задачи

Графический интерфейс с WebHTTrack
WebHTTrack - это графический интерфейс для httrack, который используется из веб-браузера и позволяет копировать полные веб-сайты для автономного доступа и автоматически изменяет ссылки. Такие инструменты, как WebHTTrack, могут помочь и позволяют обновить копию без необходимости запоминать параметры для загрузки или копирования веб-сайта и его содержимого. Мы можем установить его с помощью команды:

 sudo apt-get установить webhttrack 
Затем, чтобы выполнить его, мы напишем ту же команду:
 WebHTTrack 
Чтобы запустить графический интерфейс, мы можем перейти непосредственно через меню приложений и найти приложение Browse Mirrored Websites .

{title}

Другой вариант - просто, как мы уже говорили ранее, из окна терминала напишите команду webhttrack для запуска локального веб-сервера через порт 8080, затем мы откроем браузер, учитывая, что он не находится в режиме инкогнито или в приватном режиме и в браузере. Мы пишем локальный адрес : 8080 .

{title}

Это покажет нам графический помощник, который поможет нам работать с httrack, для начала нам нужно будет настроить язык и нажать Далее. Далее мы настроим новый проект, преимущество графического интерфейса в том, что мы можем сохранять данные загруженных сайтов и параметры, используемые в текстовом файле.

$config[ads_text5] not found

{title}

Далее мы назначим веб-сайт, который мы собираемся скопировать:

{title}

Затем в разделе «Определить параметры» мы настроим параметры и фильтры с помощью мастера:

{title}

Затем, после настройки фильтров, на следующем экране мы начнем сканирование.

{title}

Недостатки использования Httrack

Использование инструмента Httrack для сканирования этого типа и загрузки веб-сайта имеет ряд недостатков, таких как:

  • Он не захватывает динамическое содержимое или страницы, созданные с помощью сценариев.
  • Если вы загружаете сайты слишком большого размера или с большими файлами, сервер может перестать работать.
  • Если мы используем httrack при слишком большом количестве одновременных подключений к одному и тому же веб-сайту, мы можем замедлить работу сервера или оставить его недоступным.

Возможно, вас заинтересует учебник, в котором написан код для отслеживания ссылок:

Отслеживание веб-ссылок с помощью Python

  • 0