mardi 31 janvier 2012

Finalement le Trameur!

On est arrivé à construire finalement notre concaténation des mots dans le logiciel Trameur. On a réuni d'abord les fichiers correspondant au Contexte des fichiers globaux dans le tableau final. On a décidé de réunir les trois fichiers parce que dans presque chaque page web des URLS choisis on peut rencontrer l'utilisation des deux mots (à l'exception des URLs anglais). Donc on a voulu voir la fréquence d'utilisation des deux motifs dans le contexte général. On a vérifié bien l'encodage UTF-8 de notre fichier, après quoi on a lancé la partie Cooc du logiciel. Voilà ce qu'on a obtenu:
Les graphes de co-occurrence des mots dépassant le seuil de 10. D'abord on a pris en cosidération le mot "blague".













Enfin, la co-occurrence du mot "joke" dans notre contexte,  limitée de 10 mots également.
La poly-occurrence de mot "blague" limitée à 10 mots de seuil.









En effet, le programme nous donne à peu près l'entourage du mot inséré dans le contexte. Ainsi, peut-on voir, avec quels mots notre "motif" s'utilise le plus souvent. On indique la quantité de co-occurrences ce qui nous permet de délimiter un peu le lexique que le logiciel traite. Nous, on a indiqué la limite de 10 mots pour chaque motif. On aurait pu évidemment indiquer n'importe quel nombre de co-occurrences à la limite, par contre, voici ce qui se passe si on ne l'indique pas:





Script final

Une longue pause nous a donné le temps de réfléchir bien avant de déposer notre script final sur le blogue et en même temps la deuxième partie de notre travail.
On a sauté les étapes où on aurait dû afficher notre travail avec les commandes egrep, iconv et lynx séparément sur le blogue ; en revanche on a pu finir le script complet incluant toutes les commandes étudiées. Effectivement, on a pris à la base le script existant déjà sur notre blogue où l’on avait utilisé la commande curl pour aspirer les pages des URLS. Après avoir pu ajouter plusieurs choses depuis un bon moment, on a obtenu quelque chose comme ça :




Dans les commentaires de notre script on peut retrouver l’information sur ce que l’on veut faire à chaque étape et quelle action chacune des commandes va accomplir.
Dans le Terminal on indique d’abord le répertoire où se trouvent les URLS en question. On donne le nom d’un fichier .html qui va contenir notre tableau définitif. En tant que motif on donne les mots sur lesquels on a travaillé : dans notre cas ce sont deux mots – blague et joke – puisque le mot joke est le même en anglais et en français québécois.
Voilà l’exécution du script sur le terminal :

On récupère chaque page .html sur l’ordinateur grâce à la commande curl ; puis la commande lynx -dump -nolist  nous permet d’afficher le texte seul de l’URL sans références et on transforme l’encodage de la page en UTF8 avec la commande display_charset=$encodage. Ensuite, on utilise la commande egrep pour pouvoir retrouver le motif introduit, et pour effectivement le récupérer dans les dossiers DUMP-TEXTES et CONTEXTES.
Eh bien voilà notre tableau final :



Deuxième partie du projet
Les nuages de mots
On a créé les nuages de mots par le biais du site www.wordle.net. En insérant les fichiers .txt qui correspondent au contexte des mots sur lesquels on travaille (selon notre script ce sont les fichiers contexte1.txt, contexte2.txt et contexte3.txt situant dans le répertoire FICHIERGLOBAL) on a obtenu des nuages tout à fait diverses. Voilà, par exemple, le nuage pour le mot « blague » :

… pour le « joke » en anglais :






… pour le « joke » en quebecois :


Et voilà ce qu’on a eu après avoir collé les trois fichiers à la fois :


mercredi 16 novembre 2011

Tableau de liens vers des pages aspirées

Le script:

J'ai eu quelques problèmes pour exécuter ce script. D'abords j'avais des problèmes de syntaxe: j'ai utilisé (  '  ) au lieu de (  `  ) et je voyais vraiment pas le problème: Il faut ABSOLUMENT utiliser ` et non pas ' ! 

Le genre d'erreurs que j'ai eu dans le terminal en executant le script ne me semblait pas lier à la syntaxe: curl: (6) Could not resolve host: cat; nodename nor servname provided, or not known.
Toutefois, quand j'ai remplacé les "accent grave" à la place des apostrophes, je n'avais plus cette erreur.


J'ai aussi rencontrer un autre problème. En tapant le code html pour les cellules numérotées des liens, j'ai pas fait attention que j'avais tapé deux fois la même chose, ce qui fait que j'ai eu des tableaux avec à chaque fois le même lien répété deux fois dans deux colonnes adjacentes avec le même numéro de ligne --->après avoir cherché pendant un moment (et atteint un certain degré de frustration) j'ai aperçu mon erreur, et tout semblait bien fonctionné.


un aperçu du début de l'exécution:


Résultats:

   1-Tableaux: 


    2-Dossier des pages aspirées:


vendredi 11 novembre 2011

exercices

Pour faire des tableaux contenant les 3 fichiers qui contiennent les URLs de chaque langue, j'ai tapé le script suivant dans text wrangler et je l'ai enregistré dans le dossier /Projet-mot-sur-le-Web/PROGRAMMES/fait-tableau-v1.sh :

#!/bin/bash
echo "Donnez le nom du fichier contenant les liens http : "; 
read fic; 
echo "Donnez le nom du fichier html o˘ stocker ces liens : "; 
read tablo; 
echo "<html><head><title>tableau de liens</title></head><body><table border=\"1\">" > $tablo; 
for nom in `cat $fic` 
do
echo "<tr><td>$nom</td></tr>" >> $tablo; 
done
echo "</table></body></html>" >> $tablo;    

J'ai changé les accolades ouvrantes et fermantes en "do" et "done" respectivement. Quand j'ai essayé d'exécuté le script pour la première fois dans mon terminal, j'avais des erreurs parce que j'avais oublié de précisé le chemin relatif exacte du dossier où il fallait stocker les tableaux. Vu que j'avais exécuté le script en me plaçant dans le répertoire PROGRAMME, je n'avais pas fait attention (après avoir dit au programme d'aller dans le répertoire URLs pour récupérer les fichiers textes) que le répertoire courant n'était plus PROGRAMMES mais URLs, et donc j'ai changé mon chemin relatif pour stocker les fichiers html en ../TABLEAUX/tableau-url-en.html, et ainsi de suite pour les deux autres.


Pour la deuxième étape, j'ai tapé le script qui va permettre de numéroter les Urls dans chaque tableau. Ce script a deux variables: i et j. Variable i étant pour compter les tableaux et variable j pour compter les Urls. On utilise une nouvelle commande "let" qui permet au programme de faire des calculs algébriques. Ainsi le programme va automatiquement donner un numéro a chaque lien et a chaque tableau. On utilise des structures conditionnelles pour pouvoir faire des boucles avec les commandes  "for" "in" "do" "$i" "$j" "let""done". 
Le script:

#!/bin/bash
echo "Donnez le nom du repertoire contenant les fichiers des URLs : "; 
read REP; 
echo "Donnez le nom du fichier html ou stocker les tableaux des liens : "; 
read tablo; 
echo "<html><head><title>tableaux de liens</title></head><body>" > $tablo;
echo "<p align=\"center\"><hr color=\"blue\" width=\"50%\"/></p>" >> $tablo; 
#Variable pour compter les tableaux
i=1;
for fic in `ls $REP`
do 
echo "<table align=\"center\" border=\"1\"><tr><td colspan=\"2\" align=\"center\" bgcolor=\"black\"><font color=\"white\"><b>Tableau n∞ $i</b></font></td></tr>" >> $tablo; 
# Variable i pour compter les URLs
j=1;
for nom in `cat $REP/$fic` 
do
echo "<tr><td align=\"center\" width=\"50\">$j</td><td align=\"center\" width=\"100\"><a href=\"$nom\">$nom</a></td></tr>" >> $tablo;
let "j+=1"; 
done
echo "</table>" >> $tablo; 
let "i+=1"; 
echo "<p align=\"center\"><hr color=\"blue\" width=\"50%\"/></p>" >> $tablo;
done
echo "</body></html>" >> $tablo; 


Son execution:


Natalys-MacBook-Pro:PROGRAMMES natalyjahchan$ sh ./fait-tableau-v3.sh
Donnez le nom du r?pertoire contenant les fichiers des URLs : 
../URLS
Donnez le nom du fichier html o? stocker les tableaux des liens : 
../TABLEAUX/tableau-url-eng-fr-queb.html
Natalys-MacBook-Pro:PROGRAMMES natalyjahchan$

Je n'ai pas eu de problème pour exécuter le script une fois qu'il n'y avait plus d'erreurs de syntaxe. La première fois j'avais oublié un $rep en essayant de retaper le script et le terminal ne semblait pas vraiment apprécier. Toutefois, quand je me suis rendu compte de cela et par conséquent rectifier mon (mini mais grave quand même) erreur, tout semblait bien fonctionner :


lundi 7 novembre 2011

URLs

I-Dans notre projet on va étudier le mot « blague » en français. Il existe au moins deux définitions du mot blague : (Définitions pris du TLFI (Trésor de la langue française informatisé))[i]
(1) Plaisanterie, raillerie, rigolade.
(2)  Une blague à tabac : Petit sac dans lequel les fumeurs mettent leur tabac.
On va s’intéresser plutôt a la première définition générale (1) de « blague » dans notre recherche.  On pourrait éventuellement aussi considérer le verbe « blaguer » :
(3) Dire (parfois faire) quelque chose de manière insouciante, pour faire rire ou pour amuser.

·         On a distingué deux différentes utilisations du mot « blague »  au sens (1) (plaisanterie).

(4)Raconter une blague : Histoire inventée pour mystifier quelqu'un. Faconde creuse, hâbleuse ou mystificatrice; verve amusante ou railleuse.
(5)Faire une blague : Propos ou actes destinés à amuser quelqu'un ou à s'amuser à ses dépens.

               
II-L’étape suivante se consiste de voir comment se traduit « blague » en anglais et en français Québécois.
·         En anglais « une blague » se traduit en « a joke » prononcé \ˈjōk\. Les deux utilisations du mot en français existent aussi en Anglais : (définition pris du The Oxford Dictionary of English)
(6) A thing that someone says to cause amusement or laughter, especially a story with a funny punchline. (ce qui correspond à (4))
(7) A trick played on someone for fun. (ce qui correspond a (5))
              On peut aussi distinguer une autre utilisation du mot “joke” en anglais qui est moins formelle: « informal, a person or thing that is ridiculously inadequate. » (Une personne ou une chose qui n’est véritablement pas à la hauteur de quelque chose.)Cette utilisation n’existe pas en français, au moins pas formellement. Ex : *Ce monsieur est une blague.
On ne va pas s’intéresser a cette utilisation.
·         En français québécois on a tendance à utiliser le mot (8) « une joke » prononcé \ ᴣᴐk\, au lieu du mot « blague »  en parlant français.
Comme le mot « joke » ne fait pas réellement partie des mots dans le français standard et que le mot « blague » est toujours formellement utilisé au Canada, on a décidé de faire notre recherche dans les blogs ou les sites de blagues où figurerait plutôt le mot « joke » au lieu du mot « blague ».
On va surtout s’intéresser a l’utilisation du mot « joke ». Comme c’est un mot emprunté à l’anglais mais utilisé avec une syntaxe et phonétisation françaises, on se demandait si les locuteurs vont aussi emprunter les deux façons sémantiques et pragmatiques d’utiliser le mot « blague » en français standard. La notion du genre des mots n’existe pas en anglais. On connait pas si « a joke » est au féminin ou au masculin. Quand les Canadiens ont emprunté le mot à l’anglais, ils ont aussi emprunté le genre du mot « blague » du français standard, ce qui est devenu une sorte d’amalgamation des deux langues : « une joke ».

v  Remarque linguistique : Il faut aussi noter que l’utilisation du mot « joke » au sens (7) est souvent précédée par le mot « practical » à « a practical joke » ou bien carrément remplacé par « prank »
On ne va pas considérer pour l’utilisation (5) tout ce qui s’éloigne du sens « blague/plaisanterie humoristique ».
On peut également trouver les utilisations « jouer un (mauvais) tour» en français et «play a (nasty) trick on someone » en anglais qui seront occasionnellement inclus dans l’univers des blagues, toutefois on ne va pas les considérer comme faisant partie de l’ensemble blague/plaisanterie : Toute blague (sauf les mauvais tours) est une plaisanterie, mais toute plaisanterie n’est pas nécessairement une blague.





Les URLs des sites pour “ blague” en français québécois :



1-25 : “blague” au sens (4) «raconter une blague »
26-50 : « blague » (5) « faire une blague »

















URLs Anglais de “joke”:


On a constaté qu’en anglais les occurrences du mot “joke” sans les mots « no »  ou  « practical » ont presque toujours le sens (6) comme le démontre les 50 URLs présents ici.

Le mot « joke » au sens (7) est généralement  utilisé de la façon suivante : « it’s no joke » et « a practical joke » :


On pourrait aussi l’utiliser pour parler des poissons d’avril ou une farce mais souvent sous forme d’un commentaire et souvent en utilisant des constructions comme « the joke is on you/me ».. Ex : http://blogs.dctc.edu/dawnbraa/2011/04/01/the-joke-is-on-me/
Si on parle de “joke” tout court sans précision cela généralement implique une blague au sens (4).