vendredi 30 novembre 2007

lynx -dump

Une fois nos pages aspirées avec wget, nous devons en extraire le texte.
Pour ce faire nous allons utiliser l'option dump de lynx
La syntaxe est la suivante:

lynx -dump [URL] > [dump].txt


w3m, un autre navigateur internet en mode texte, permet de faire la même opération. Mais attention! w3m gérant les frames il arrive que le fichier dump en sortie soit incompréhensible (des morceaux de textes de différentes parties de la page pouvant être mélangés).

Aucun commentaire: