mardi 31 janvier 2012

Finalement le Trameur!

On est arrivé à construire finalement notre concaténation des mots dans le logiciel Trameur. On a réuni d'abord les fichiers correspondant au Contexte des fichiers globaux dans le tableau final. On a décidé de réunir les trois fichiers parce que dans presque chaque page web des URLS choisis on peut rencontrer l'utilisation des deux mots (à l'exception des URLs anglais). Donc on a voulu voir la fréquence d'utilisation des deux motifs dans le contexte général. On a vérifié bien l'encodage UTF-8 de notre fichier, après quoi on a lancé la partie Cooc du logiciel. Voilà ce qu'on a obtenu:
Les graphes de co-occurrence des mots dépassant le seuil de 10. D'abord on a pris en cosidération le mot "blague".













Enfin, la co-occurrence du mot "joke" dans notre contexte,  limitée de 10 mots également.
La poly-occurrence de mot "blague" limitée à 10 mots de seuil.









En effet, le programme nous donne à peu près l'entourage du mot inséré dans le contexte. Ainsi, peut-on voir, avec quels mots notre "motif" s'utilise le plus souvent. On indique la quantité de co-occurrences ce qui nous permet de délimiter un peu le lexique que le logiciel traite. Nous, on a indiqué la limite de 10 mots pour chaque motif. On aurait pu évidemment indiquer n'importe quel nombre de co-occurrences à la limite, par contre, voici ce qui se passe si on ne l'indique pas:





Script final

Une longue pause nous a donné le temps de réfléchir bien avant de déposer notre script final sur le blogue et en même temps la deuxième partie de notre travail.
On a sauté les étapes où on aurait dû afficher notre travail avec les commandes egrep, iconv et lynx séparément sur le blogue ; en revanche on a pu finir le script complet incluant toutes les commandes étudiées. Effectivement, on a pris à la base le script existant déjà sur notre blogue où l’on avait utilisé la commande curl pour aspirer les pages des URLS. Après avoir pu ajouter plusieurs choses depuis un bon moment, on a obtenu quelque chose comme ça :




Dans les commentaires de notre script on peut retrouver l’information sur ce que l’on veut faire à chaque étape et quelle action chacune des commandes va accomplir.
Dans le Terminal on indique d’abord le répertoire où se trouvent les URLS en question. On donne le nom d’un fichier .html qui va contenir notre tableau définitif. En tant que motif on donne les mots sur lesquels on a travaillé : dans notre cas ce sont deux mots – blague et joke – puisque le mot joke est le même en anglais et en français québécois.
Voilà l’exécution du script sur le terminal :

On récupère chaque page .html sur l’ordinateur grâce à la commande curl ; puis la commande lynx -dump -nolist  nous permet d’afficher le texte seul de l’URL sans références et on transforme l’encodage de la page en UTF8 avec la commande display_charset=$encodage. Ensuite, on utilise la commande egrep pour pouvoir retrouver le motif introduit, et pour effectivement le récupérer dans les dossiers DUMP-TEXTES et CONTEXTES.
Eh bien voilà notre tableau final :



Deuxième partie du projet
Les nuages de mots
On a créé les nuages de mots par le biais du site www.wordle.net. En insérant les fichiers .txt qui correspondent au contexte des mots sur lesquels on travaille (selon notre script ce sont les fichiers contexte1.txt, contexte2.txt et contexte3.txt situant dans le répertoire FICHIERGLOBAL) on a obtenu des nuages tout à fait diverses. Voilà, par exemple, le nuage pour le mot « blague » :

… pour le « joke » en anglais :






… pour le « joke » en quebecois :


Et voilà ce qu’on a eu après avoir collé les trois fichiers à la fois :