lundi 8 juin 2009

Couverture thématique de Wikipédia : et sur fr: ?

Il y a pas très longtemps, des chercheurs de l'université Carnegie Mellon et du centre de recherche Xerox de Palo Alto ont publié des statistiques sur la couverture thématique de Wikipedia (vous pouvez aller pour le résumé en français). La méthode employée consiste à rechercher, pour chaque article, le chemin le plus court vers une catégorie sommet, une de celles qui se trouvent tout en haut de l'arbre catégorielle : la catégorie en question donne le thème de l'article (s'il y a deux chemins de même longueur, on fait moit'-moit'). C'est simple et brutal, mais ça donne des résultats pertinents.

Je me suis dit qu'il était possible de faire la même chose pour fr:. J'ai donc téléchargé une partie des dumps du 22 mai dernier ; ensuite, c'est du number crunching de bourrin.

Voici donc ce que j'obtiens au final :
  • Géographie et lieux : 22%
  • Culture et arts : 17%
  • Personnalités : 15%
  • Société et sciences sociales : 12%
  • Techniques et sciences appliquées : 10%
  • Histoire : 10%
  • Sciences physiques et naturelles : 7%
  • Mathématiques et logique : 3%
  • Santé : 3%
  • Religion et croyance : 1%
Bon, je ne vous cache pas que c'est de l'approximatif, mais les ordres de grandeurs me semblent corrects (et cohérents avec en:). Au niveau de la méthode, je vous avoue que j'ai plus donné dans le gonzo que dans l'analyse bien carrée, donc ne prenez pas ces résultats pour plus que ce qu'ils sont. :)

Le principal problème, sur fr:, consiste à trouver des catégories pertinentes auxquelles relier les articles. Sur en:, la catégorie « Main topic classifications » permet d'avoir de la matière. Sur fr:, la catégorie « Article » n'est tout simplement pas exploitable. Heureusement, sur le dump que j'ai utilisé, on trouve une catégorie « Classification thématique principale » ; cette dernière, bien qu'effacée depuis au prétexte que c'était le travail d'une seule personne et que ça faisait doublon, émulait plus ou moins bien la hiérarchie sommitale d'en:. Après, il faut regrouper les résultats de chacune des sous-catégories dans les grands thèmes donnés plus haut, ce qui se fait parfois un peu au chausse-pied (le papier des chercheurs mentionne le thème « Philosophie et pensée », mais je ne sais pas quoi y raccrocher ; il ferait à peine 1%, de toute façon).

Voilà, vous savez désormais que fr: est obsédée par la géographie. En l'absence d'une classification thématique facilement exploitable, le procédé atteint très vite ses limites, mais l'aperçu me semble intéressant.

3 commentaires:

nojhan a dit…

Très intéressant.

Je me demande comment interpréter l'absence de catégorisation de haut niveau.

Et la prédominance de la géographie, effet de bord des bots sur les communes ? Là où sur en: c'est noyé dans la masse, fr: n'a pas suffisamment d'article pour les masquer ?

Ludo a dit…

@Nojhan : les découpages administratifs permettent de mettre en place des catégorisations très efficaces dans le domaine de la géo.

yuanyuan.xu a dit…

Je voudrais poser une question: comment vous avez découvert le catégorie de dump, j'ai télécharger dump 09/12/2009, j'ai lancé SAX pour parcourir des balise de XML, je n'ai pas trouvé catégorie~-~