|
|
Evénement
Big Picture Projets en accès direct
| Autograph Test Reuniondu19septembreRéunion Autograph du 19 maiRetour vers les cr d'Autograph Présents : Dominique Cardon (FT R&D), Jean-Daniel Fekete (INRIA Futurs), Nicolas Auray? (ENST), Céline Poudat? (ENST), Mickaël Vicente? (ENST), Pascal Pons? (LIAFA), Julien Levrel (FT R&D), Camille Roth (CREA), Benoît Habert? (LIMSI), Elie Naulleau? ( Semiosys), Jean-Michel Cornu (FING), Fabien de Montgolfier? (LIAFA), Matthieu Latapy (LIAFA), Christophe Prieur (LIAFA), Christophe Aguiton (FT R&D). Point d'organisation- Contact avec RNRT pour infos - Mise en place d'une réunion de travail régulière sur Wikipédia : tous les vendredi matin 10h. Première réunion à FT à Issy-les-Moulineaux action attach : paramètre file manquant : 6 octobre à 10h - Réunion sur la base Flickr autour du travail de Pascal Pons tous les mercredis matin à FT R&D (réunion ouverte, pour participer, prévenir Dominique Cardon) - prochaine réunion Autograph :
Nouvelles extractionRéunion du matin (10h-13h). Dans le cadre de la collaboration avec Semiosys (Elie), il faut définir les demandes d'extraction de données textuelles et les prioriser. La réunion a permis de faire le point sur les différentes demandes : - Qu’est-ce qu’on aspire ? - Qu’est-ce qu’on peut aspirer ? - Qu’est-ce qu’on peut faire des aspirations ? - Caractériser les données à aspirer… Wikipedia : extraction faite - Limite sur la reconstructuabilité du réseau des acteurs - Travail sur des localités de Wikipedia - Marie Guégan a travaillé sur le réseau global et sur les sous-catégories : comment est structurée « Vie quotidienne ». Catégories qui correspondent à des vraies catégories textuelles (dispersion du lexique). - Voir l’évolution des catégories dans le temps - Julien Levrel travaille sur la base - Benoît : livraison d’une nouvelle version de la base en octobre. - LIAFA : recherche quelqu’un qui puisse lancer sur la base – continuer sur le travail sur les communautés lancés par Toufik et Fabien – Trouver des profils de contributeurs en faisant le graphe contributeur/page et le graphe des pages entre elles : profils des personnes en fonction du graphe des pages (spécialisés ou distribués). – profil des contributeurs : petites et grosses contributions. - Pascal à partir de janvier travaille sur autre chose, mais ok pour réfléchir sur indicateurs pour le traitement de Wikipedia - ENST : Mickaël, Céline : voir comment utiliser la base Wikipedia (cf. présentation en juin). Regarder la base de Pascal, travail sur la coopération dans Wikipedia, regarder des formats de coopération, degré de concentration (nombre de contributeur égal à contribution égale, format de coopération qui varie selon consensus et conflit, ratio des pages modifiés/supprimés/bloc déplacés). Établir des corrélations pour type d’article : plus ou moins condensé/dispersés/consensuel et autres indicateurs liés aux propriétés des contributeurs. Groupe de travail Wikipédia à constituer… Liste de discussion Matthieu : contrat en montage pour une vacation. Des stats et des paramètres : message, fil de discussion et les auteurs. Essayer de capturer les fils de message par fils (requête et réponse). Corpus DebianUser?. Extraction est faite… Pas d’utilisation du texte… Pas de focus textuel pour le traitement de cette base… Mickaël : analyse d’une polémique (Debian/Obuntu), a isolé 600 messages. Peut éventuellement faire l’objet d’un traitement textuel. Univers lexicaux selon les tenants des positions. Évolution de la polémique… Coopération/compétition dans le logiciel libre Militants Pas de données textuelles à extraire Blogs Chercher à se constituer des bases de données raisonnées issues de différentes plateforme. Travail plus local avec l'idée de créer une base d'information propre sur les différents types de blogs (à partir de la typologie DC et HDT) Constituer une bonne représentation des informations de la base… Infos pertinentes à relever les catégories pertinentes. Web 2.0 Synergies, Lindekind, Viaduc… My Space… Suivre l'évolution des différents sites et pister les extractions possibles si API ouvertes. Possibilité d’extraction : voir dans un Barcamp. Pair à pair Matthieu : sur le système edonkey 200 serveurs dans le monde, qq dizaine d’utilisateurs Données claire. Donnes textuelles : requêtes et noms de fichiers But : faire de la mesure à long terme Sur edonkey : activité pédo non négligeable Peu de pédo sur Bitorrent Plus de la pédo crypté. Liste de mots clé pédo. Flickr Voir l'exposé de Pascal Pons Del.icio Voir l’effet des nuages de catégorisation Del.ico : rentrer par « game » : url, tag associé Faire du longitudinal tous les 6 mois. Évolution des tags. Ventilation des bookmarks selon les thématiques. Comment extraire ? LiveMarks?, populicious : Ralph linton : outil de visualisation de del.icio Ivy : société française qui fait des interfaces de services pour del.icio / regarder comment extraire les données. Discussion séance Autograph Caler la problématique sur Wikipédia Faire des statistiques sur la base Convergence dans la discussion, niveau de maturité du groupe. Jean-Michel Cornu va présenter les résultats dans un mois… Regarder la gouvernance d’ensemble de Wikipédia Étape de décision de changement de politique dans Wikipédia. Rôle des événements externes sur la vie de Wikipédia. Debian et Autograph - Michaël Vicente Voir les transparents - à insérer - CVS : Concurent Version System – permet la synchronisation du travail Thèse de Gregorio Robles : thèse d’ingénierie logicielle Outil d’extraction développé par Gregorio Robles Debian : 1300 développeurs Thèse de Robles en ligne http://libresoft.urjc.es/grex/research Blogs (Dominique Cardon, Hélène Delaunay-Teterel) Voir les transparents - Typologie des blogs * Trouver des variables de génération aléatoire de réseaux sociaux. Flickr (Pascal Pons) Actions possibles sur Flick : - Uploader des photos - Taguer avec mots clés - Déclarer un utilisateur comme contact (ami, famille) - Déclarer une photo comme favorite - Laisser des commentaires sur des photos - S’affilier et poster des photos dans des groupes thématiques En pratique, les utilisateurs ne taguent pas les photos des autres 1 297 543 utilisateurs (1/3 utilisateurs) composante connexe à partir des groupes publics 121 380 352 photos (moyenne 94/utilisateur) Moyenne : 11 contacts/utilisateur Moyenne 35 commentaires laissés/utilisateur Moyenne : affiliation à 4 groupes 5,6 Go de textes
Il n'y a pas de commentaire sur cette page.
[Afficher commentaires/formulaire]
|