dimanche 28 octobre 2007

De la concaténation de deux pages web

En fouillant un peu dans la documentation de wget, nous sommes tombés sur l'option -O, qui permet d'enregistrer toutes les pages aspirées dans un seul fichier html.

wget -i [fichier texte contenant les URL] -O [fichier html de sortie]

Cette concaténation peut donner des résultats intéressants, comme en témoigne l'exemple ci-dessous.

En entrée:
  • URL_1: japonais (JAP-EUC)
  • URL_2: japonais (Shift_JIS)

En sortie:
  • URL_3: une page web en japonais avec deux codages différents.

Aucun commentaire: