Наступает момент, когда нужно скачать весь сайт. Причин может быть несколько я предлагаю рассмотреть решение с помощью утилиты wget
wget -r -k -l 7 -p -E -nc http://example.ru/
Будет создана папка, одноименная сайту. Начинать его просматривать можно начать с index.html
Теперь расшифровка атрибутов:
— r — указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы.
— k — используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме).
— p — указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).
— l — определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5, в примере мы установили 7). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l.
— E — добавлять к загруженным файлам расширение .html.
— nc — при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз.
--user=login - указываем логин
--password='pass' указываем пароль
--save-cookies=cooke
-U "Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5" -указание User Agent
P.S. wget — очень мощная утилита, её функционал можно долго изучать.
Взято тут.
|