lundi 14 novembre 2016

Dump en espagnol et avancement du projet sur le terme "Elections"

  Pour correspondre à l'aspect multilingue du projet, nos trois langues choisies sont le français, l'anglais et l'espagnol, nous avons décidé de centrer notre recherche autour du mot "élections" (au pluriel donc). Il s'agit donc d'effectuer une recherche dans le milieu du web en particulier, en extrayant à partir d'URI/URLs (adresses web) du contenu textuel contenant notre terme de manière à en étudier les co-occurences.
  Il faudra pour cela mettre en place un programme UNIX capable d'extraire le contenu, le récupérer ou le convertir en UTF-8 afin d'établir une norme générale d'encodage, trier le tout dans un tableau offrant des liens vers le contenu extrait et enfin réfléchir à la question des co-occurents, que nous abordons en cours en ce moment.
  L'enjeu de ce projet est donc avant tout de nous rendre confortable dans le traitement informatique des données textuelles, ainsi que dans l'usage des fonctions et outils que nous offre l'ordinateur et en particulier, le système UNIX. Il nous faudra donc réfléchir à des méthodes efficaces et pertinentes pour créer et améliorer au fur et à mesure notre programme.

  La partie du projet qui m'a été assigné est l'espagnol, où "élections" se traduit par "elecciones", après cette courte introduction je m'attelle donc à la création d''un fichier contenant une cinquante d'URI/URLs en espagnol lié à notre projet. Il s'agit d'orchestrer la création de ce fichier depuis cygwin, étant utilisateur Windows.


Je décide de créer un dossier sur mon second disque dur, à la racine, avec la commande mkdir où projet_encadre sera le répertoire source du projet de mon coté, j'utilise ensuite touch pour créer un fichier vide où écrire ma liste et ls pour vérifier qu'il soit bien dans le bon répertoire.



J'ai opté sur une multi-approche pour récupérer des liens à la fois varié et pertinent, en recherchant le terme sur des moteurs de recherche de différente fonctions; des plus général comme Google, à des moteurs plus spécialisés comme BASE, ou encore DuckDuckGo, un métamoteur. La question du choix d'un moteur de recherche est pertinente, puisque nous pouvons ainsi cibler différents domaines directement et varier nos résultats de recherche. Histoire d'accorder un petit mot sur le sujet, un moteur de recherche est un instrument où l'utilisateur demande à un bot de consulter des bases de données dans le but de récupérer des liens hyper-texte (URL/URI) en fonction des mots-clés saisis et des pages indexés. Si nous connaissons tous Google, il n'est pas le seul à exister et il existe différentes alternatives. C'est le cas de DuckDuckGo, qui, en plus de protéger les données personnelles de l'utilisateur, est un métamoteur, il passe par plusieurs moteurs de recherche généralistes pour filtrer ses résultats.

Dans le but de montrer notre capacité à user des commandes UNIX, nous rentrerons à titre d'exemple quelques URL depuis la console de commande avant de préférer tout de même un éditeur (NotePad++) qui se montre plus ergonomique pour la tâche.


Nous utilisons ici deux fonctions, echo et cat, echo nous permet d'écrire dans notre fichier et cat d'en visualiser le contenu. Il est important d'utiliser un double-chevron << afin de concaténer toute nos adresses, le simple chevon > a la particularité d'over-ride; c'est à dire qu'il aurait effacé notre premier lien au profit du nouveau. Comme nous pouvons le voir sur la capture d'écran, les adresses ont été correctement écrites au sein du fichier "liste_es_elecciones".