Comment puis-je télécharger un site web entier ?

Comment puis-je télécharger toutes les pages d'un site web ?

Toute plateforme convient.

Solution

[HTTRACK][1] fonctionne comme un champion pour copier le contenu d'un site entier. Cet outil peut même saisir les éléments nécessaires pour faire fonctionner hors ligne un site Web dont le contenu est en code actif. Je suis étonné de voir tout ce qu'il peut reproduire hors ligne.

Ce programme fera tout ce que vous lui demanderez.

Bonne chasse !

[1] : http://www.httrack.com/

Commentaires (13)

[Wget][1] est un outil classique de ligne de commande pour ce type de tâche. Il est fourni avec la plupart des systèmes Unix/Linux, et vous pouvez l'obtenir [pour Windows][2] également. Sur un Mac, [Homebrew][3] est le moyen le plus simple de l'installer (brew install wget).

Vous devez faire quelque chose comme :

wget -r --no-parent http://site.com/songs/

Pour plus de détails, voir le [Manuel Wget][4] et ses [exemples][5], ou par exemple ceux-ci :

  • [wget : Télécharger facilement des sites Web entiers][6]

  • [Exemples et scripts Wget] [7].

[1] : http://www.gnu.org/software/wget/ [2] : https://superuser.com/questions/25538/what-is-the-windows-equivalent-of-wget/25540#25540 [3] : http://brew.sh/ [4] : http://www.gnu.org/software/wget/manual/wget.html [5] : http://www.gnu.org/software/wget/manual/wget.html#Examples [6] : http://linuxreviews.org/quicktips/wget/ [7] : http://www.krazyworks.com/?p=591

Commentaires (10)

Je vais aborder la mise en mémoire tampon en ligne que les navigateurs utilisent...

En général, la plupart des navigateurs utilisent un cache de navigation pour conserver un peu les fichiers que vous téléchargez à partir d'un site Web, afin que vous n'ayez pas à télécharger encore et encore des images et du contenu statiques. Cela peut accélérer considérablement les choses dans certaines circonstances. En général, la plupart des caches de navigateur sont limités à une taille fixe et lorsqu'ils atteignent cette limite, ils suppriment les fichiers les plus anciens du cache.

Les fournisseurs d'accès à Internet ont tendance à avoir des serveurs de mise en cache qui conservent des copies des sites Web les plus fréquemment consultés, comme ESPN et CNN. Cela leur évite d'avoir à consulter ces sites chaque fois qu'un membre de leur réseau s'y rend. Cela peut représenter une économie importante dans la quantité de requêtes dupliquées vers des sites externes au FAI.

Commentaires (0)