Vous êtes 38.107.191.101(Login)

overcrowded / Autograph Test Reuniondu19septembre

carte des liens de la page courante AutographTestReuniondu19septembre AutographReunions AutographTestCR BenoitHabert CamilleRoth CelinePoudat ChristopheAguiton ChristophePrieur DebianUser DominiqueCardon ElieNaulleau FabienDeMontgolfier JeanDanielFekete JeanMichelCornu JulienLevrel LiveMarks MatthieuLatapy MickaelVicente NicolasAuray PascalPons

Autograph Test Reuniondu19septembre

Réunion Autograph du 19 mai


Retour vers les cr d'Autograph

Présents : Dominique Cardon (FT R&D), Jean-Daniel Fekete (INRIA Futurs), Nicolas Auray? (ENST), Céline Poudat? (ENST), Mickaël Vicente? (ENST), Pascal Pons? (LIAFA), Julien Levrel (FT R&D), Camille Roth (CREA), Benoît Habert? (LIMSI), Elie Naulleau? ( Semiosys), Jean-Michel Cornu (FING), Fabien de Montgolfier? (LIAFA), Matthieu Latapy (LIAFA), Christophe Prieur (LIAFA), Christophe Aguiton (FT R&D).


Point d'organisation


- Contact avec RNRT pour infos
- Mise en place d'une réunion de travail régulière sur Wikipédia : tous les vendredi matin 10h. Première réunion à FT à Issy-les-Moulineaux action attach : paramètre file manquant
: 6 octobre à 10h
- Réunion sur la base Flickr autour du travail de Pascal Pons tous les mercredis matin à FT R&D (réunion ouverte, pour participer, prévenir Dominique Cardon)
- prochaine réunion Autograph :
  • Mardi 24 octobre 9h30 (présentation de Jean-Michel Cornu)
  • Mardi 21 novembre 9h30.
  • Mardi 19 décembre 9h30.


Nouvelles extraction


Réunion du matin (10h-13h). Dans le cadre de la collaboration avec Semiosys (Elie), il faut définir les demandes d'extraction de données textuelles et les prioriser. La réunion a permis de faire le point sur les différentes demandes :
- Qu’est-ce qu’on aspire ?
- Qu’est-ce qu’on peut aspirer ?
- Qu’est-ce qu’on peut faire des aspirations ?
- Caractériser les données à aspirer…

Wikipedia : extraction faite
- Limite sur la reconstructuabilité du réseau des acteurs
- Travail sur des localités de Wikipedia
- Marie Guégan a travaillé sur le réseau global et sur les sous-catégories : comment est structurée « Vie quotidienne ». Catégories qui correspondent à des vraies catégories textuelles (dispersion du lexique).
- Voir l’évolution des catégories dans le temps
- Julien Levrel travaille sur la base
- Benoît : livraison d’une nouvelle version de la base en octobre.
- LIAFA : recherche quelqu’un qui puisse lancer sur la base – continuer sur le travail sur les communautés lancés par Toufik et Fabien – Trouver des profils de contributeurs en faisant le graphe contributeur/page et le graphe des pages entre elles : profils des personnes en fonction du graphe des pages (spécialisés ou distribués). – profil des contributeurs : petites et grosses contributions.
- Pascal à partir de janvier travaille sur autre chose, mais ok pour réfléchir sur indicateurs pour le traitement de Wikipedia
- ENST : Mickaël, Céline : voir comment utiliser la base Wikipedia (cf. présentation en juin). Regarder la base de Pascal, travail sur la coopération dans Wikipedia, regarder des formats de coopération, degré de concentration (nombre de contributeur égal à contribution égale, format de coopération qui varie selon consensus et conflit, ratio des pages modifiés/supprimés/bloc déplacés). Établir des corrélations pour type d’article : plus ou moins condensé/dispersés/consensuel et autres indicateurs liés aux propriétés des contributeurs.
Groupe de travail Wikipédia à constituer…

Liste de discussion
Matthieu : contrat en montage pour une vacation. Des stats et des paramètres : message, fil de discussion et les auteurs. Essayer de capturer les fils de message par fils (requête et réponse). Corpus DebianUser?. Extraction est faite… Pas d’utilisation du texte…
Pas de focus textuel pour le traitement de cette base…
Mickaël : analyse d’une polémique (Debian/Obuntu), a isolé 600 messages. Peut éventuellement faire l’objet d’un traitement textuel. Univers lexicaux selon les tenants des positions. Évolution de la polémique… Coopération/compétition dans le logiciel libre

Militants
Pas de données textuelles à extraire

Blogs
Chercher à se constituer des bases de données raisonnées issues de différentes plateforme. Travail plus local avec l'idée de créer une base d'information propre sur les différents types de blogs (à partir de la typologie DC et HDT)
Constituer une bonne représentation des informations de la base… Infos pertinentes à relever les catégories pertinentes.

Web 2.0
Synergies, Lindekind, Viaduc…
My Space…
Suivre l'évolution des différents sites et pister les extractions possibles si API ouvertes.
Possibilité d’extraction : voir dans un Barcamp.

Pair à pair
Matthieu : sur le système edonkey
200 serveurs dans le monde, qq dizaine d’utilisateurs
Données claire. Donnes textuelles : requêtes et noms de fichiers
But : faire de la mesure à long terme
Sur edonkey : activité pédo non négligeable
Peu de pédo sur Bitorrent
Plus de la pédo crypté.
Liste de mots clé pédo.

Flickr
Voir l'exposé de Pascal Pons

Del.icio
Voir l’effet des nuages de catégorisation
Del.ico : rentrer par « game » : url, tag associé
Faire du longitudinal tous les 6 mois. Évolution des tags.
Ventilation des bookmarks selon les thématiques.
Comment extraire ?
LiveMarks?, populicious :
Ralph linton : outil de visualisation de del.icio
Ivy : société française qui fait des interfaces de services pour del.icio / regarder comment extraire les données.

Discussion séance Autograph

Caler la problématique sur Wikipédia
Faire des statistiques sur la base
Convergence dans la discussion, niveau de maturité du groupe.
Jean-Michel Cornu va présenter les résultats dans un mois…
Regarder la gouvernance d’ensemble de Wikipédia
Étape de décision de changement de politique dans Wikipédia.
Rôle des événements externes sur la vie de Wikipédia.

Debian et Autograph - Michaël Vicente
Voir les transparents - à insérer -
CVS : Concurent Version System – permet la synchronisation du travail
Thèse de Gregorio Robles : thèse d’ingénierie logicielle
Outil d’extraction développé par Gregorio Robles
Debian : 1300 développeurs
Thèse de Robles en ligne
http://libresoft.urjc.es/grex/research

Blogs (Dominique Cardon, Hélène Delaunay-Teterel)
Voir les transparents - Typologie des blogs *
Trouver des variables de génération aléatoire de réseaux sociaux.

Flickr (Pascal Pons)
Actions possibles sur Flick :
- Uploader des photos
- Taguer avec mots clés
- Déclarer un utilisateur comme contact (ami, famille)
- Déclarer une photo comme favorite
- Laisser des commentaires sur des photos
- S’affilier et poster des photos dans des groupes thématiques

En pratique, les utilisateurs ne taguent pas les photos des autres
1 297 543 utilisateurs (1/3 utilisateurs) composante connexe à partir des groupes publics
121 380 352 photos (moyenne 94/utilisateur)
Moyenne : 11 contacts/utilisateur
Moyenne 35 commentaires laissés/utilisateur
Moyenne : affiliation à 4 groupes
5,6 Go de textes
Il n'y a pas de commentaire sur cette page. [Afficher commentaires/formulaire]