vendredi 30 novembre 2007

minigrepmultilingue 1.0

La dernière étape de notre projet (avant la mise en forme finale) consiste à extraire de nos fichiers dump, un motif et son contexte. Pour un texte en français ou en anglais la commande egrep aurait suffit, mais pour du japonais et du chinois, il nous fallait un équivalent supportant Unicode.
Nous nous sommes donc tournés vers minigrepmultilingue 1.0, parfait pour ce que nous avons à faire.


i. préparation


Télécharger et décompresser minigrepmultilingue.zip (c'est l'archive contenant le script et le module Unicode-String-2.09) dans un répertoire que nous appellerons "minigrepmultilingue".



Démarrer le gestionnaire de paquets de Cygwin (setup) et vérifier que make et gcc sont bien installés (ils se trouvent dans la catégorie Devel).



Sous Cygwin, se placer dans le repertoire "minigrepmultilingue" et décompresser le module Unicode-String-2.09 :

tar xzf Unicode-String-2.09.tar.gz




ii. compilation


aller dans le dossier du module Unicode-String-2.09 et lancer le script Makefile.PL :



lancer la commande make



et enfin make test




iii. installation


pour l'installation, rien de très compliqué, il suffit juste de taper: make install




iv. test

Pour s'assurer que tout s'est passé correctement, rien de tel qu'un petit test. Selon l'exemple fourni avec le script nous allons chercher le motif основных dans le fichier RU_Convention_UTF8.txt :

perl mini-grep-multilingue.pl "UTF-8" RU_Convention_UTF8.txt motif.txt

En sortie nous avons un fichier html, ca marche!




Pour plus d'informations: http://www.cavi.univ-paris3.fr/ilpga/ilpga/...

5 commentaires:

Anonyme a dit…

salut Pierre

g une question .... comment tu vas dans set up pour selectionner select packages quand tu n a pas de set up qui apparait lorsque tu faits click droit sur cygwin?

kantaro

Pierre a dit…

Salut.
Le fichier setup doit se trouver sur le DVD d'installation de Cygwin (si tu en as un), sinon tu peux le lancer online via ce lien : http://www.cygwin.com/setup.exe
Bonne chance!

Anonyme a dit…

merci!!!

Anonyme a dit…

Merci pour toutes ces précisions concernant l'utilisation du minigrep.

J'attends avec impatience la suite de la présentation de votre travail sur ce blopg.

A jeudi

SF

Anonyme a dit…

merci beaucoup Pierre, T génial:)
Maria