|
|
Evénement
Big Picture Projets en accès direct
| Autograph Test Reuniondu21marsTAL et WikipédiaRetour vers les cr d'Autograph Présents : Julien Levrel (FT R&D), Nicolas Auray (ENST), Céline Poudat (CORAL), Christophe Prieur (LIAFA), Pascal Pons (LIAFA), Fabien Baille (LIAFA), Elie Naulleau (Semyosis), Nicolas Pissard (FT R&D), Marie Guegan (LIMSI), Sylvain Loiseau (PX/LIMSI), Bernard Desgraupe (Paris X), Matthieu Jacomy (RGTI/UTC), Dominique Cardon (FT R&D), Matthieu Latapy (LIAFA), Emmanuel Ruzé (CRG), Martine Hurault-Plantet (LIMSI), Christophe Martinetto (FT R&D), Sébastien Bertrand (FT R&D), Michèle Jardino (LIMSI), Christophe Aguiton (FT R&D). Ordre du jour: 1. TAL wikipediesque (Benoit Haber) 2. Traitement statistique de textes : identification d’auteurs (Michèle Jardino) 3. Réseau de catégories sur la base wikipedia (Elie Naulleau) 4. Le web 2.0 (Sébastien Bertrand) 5. Point divers - organisation (Voir aussi la page supports) I. TAL wikipediesque (Benoît Haber) Les transparents de la presentation sont disponible sur: http://www.limsi.fr/Individu/habert/Projets/Autograph/index.html Galop d’essai sur du texte wiki : pages « Philo » de Wikipedia 224 articles de 4 catégories (branche de la philo, histoire de la philo…) 130 000 mots (1 roman). Type d’entrée : Auteur, Ecole, Notion, Ouvrage, Navigation wikipedienne Possibilité d’utiliser les méta données du html comme des données Export du texte : textualisation brutale et dépoussiérage Etiquetage avec lemmatisation… Etiqueteur Cordial, TreeTagger? [ajouter] Comment faire des réseaux à partir des étiquettes ? - Choix des nœuds : page/mot de départ / mots racinisés / lemmes / lemmes étiquetés - Choix d’une relation : co-occurence (deux nœuds dans la même phrase)
Indice d’information mutuelle : deux mots qui s’attirent Fenêtre glissante de 20 mots au sein de chaque article. Pistes de recherche : - ne pas partir du texte html / remplacer le parseur MediaWiki? [ajouter] pour nettoyer le texte : éliminer certains objets textuels, transformer finement les textes (liens interne, lien externe, obtenir un texte… plus textuel). - Classification non supervisée : ne pas partir d’une catégorie mais de Wikipedia en global - Identifier les pages ressemblantes - graphe en gml sur le site de Benoît Haber Discussion : - ce genre d’analyse permet de repérer les scories, d’identifier différents type de co-occurrence (signification différente du lien de co-occurence) 2. Michèle Jardino (LIMSI) : Traitement statistique de textes : identification d’auteurs Recherche sur un défi : Discours de Chirac / Mitterrand 600 discours de Chirac "pollués" par des discours de Mitterrand Modèle n-grammes de mots : regarder le flux des mots en étudiant la probabilité des mots en fonctions des mots précédents. Deux modèles de n-gramme : un pour Chirac et un pour Mitterrand. Discussion : Est-ce que cette méthode pourrait être utile pour identifier la qualité des articles de Wikipedia : un article non abouti est un article au style hétérogène… 3. Elie Naulleau (Semyosis) : Trituration de la base wikipédia Voir le document d’Elie…trituration_wikipedia_semiosys170306.pdf 4. Sébastien Bertrand, Christophe Aguiton, Dominique Cardon (FT R&D) : Web 2.0 Présentation power-point Discussion : * remarque de Julien Levrel : dans del.icio.us il n'est pas possible de rentrer en relation avec les utilisateurs qui laissent les mêmes tags que moi.
* Faire un topo "folksonomy" sur le blog Autograph (del.icio.us, Flickr, Technorati) + enjeux de recherche ?
* Quels corpus de tags pourrait-on étudier ? Comment les récupérer ?
* Quels services (de visualisation) pourrait-on proposer aux utilisateurs de Flickr ou del.icio.us ?
* Ch. Aguiton : nuages de tags / folksonomy - étudier les pistes possibles, organiser les réseaux de tags par grands chapitres / centres d'intérêts, organiser un groupe de travail sur ce sujet ?
5. Point divers Discussion du travail sur la base Wikipédia (voir cr réunion du 7 mars 2006) Travailler chacun sur la base Wikipedia pour se familiariser avec la base et proposer des outils. Accès aux données à travers DVD et données et codes déposées sur GForge. Mise en place d’un groupe de travail Wikipedia. Julien recherche une date pour le groupe de conception avec wikipédiste (6 mai ?). Tour de table sur les actions engagées par les différents partenaires dans et autour d'Autograph : FT R&D Wikipedia : Julien Levrel Blog : Dominique Cardon, Hélène Delaunay, Christophe Martinetto (stage) Militants : Dominique Cardon, Christophe Aguiton Flickr : Sébastien Bertrand LIAFA Fabien et Toufik : Wikipédia Flickr : Pascal Pons (stage à FT R&D à partir de juillet) ENST Hot line communauté d’utilisateurs – résolution de problèmes : Bernard Conein et Matthieu Latapy. Ingénieur travail sur les listes Jeux en ligne de Social Media (joueuses de Sims) Wikipedia Questions de recherche : 1. coopération et qualité, 2. vandalisme (confiance), Délibération/concertation LIMSI Wikipedia : tous Faire une version dump instalable Rassembler les informations sur les contributeurs et les pages Contournement du parseur de départ / pour fournir des réseaux de mots INRIA Wikipedia Prochaine réunion Autograph – 18 avril - Foire au questions/réponses sur Wikipedia (Tous) - Présentation de Semiophore (Semiosys) - Première approche graphe sur wikipédia (LIAFA) - Point extraction des blogs. Présentation pour réunion de mai: -UTC/RGTI - Problématique sociologie Mise en place d'un atelier de réflexion : gouvernance/régulation des grands collectifs (pilotage Nicolas-Dominique) - date de réunion à suive
Il n'y a pas de commentaire sur cette page.
[Afficher commentaires/formulaire]
|