La structure de Wikipédia
Chaque article de Wikipédia contient des liens internes vers d'autres articles.
Ces liens sont bien-sûr asymétriques (un article en citant un autre ne sera généralement pas cité par ce dernier),
cela donne donc naturellement une structure de graphe orienté aux articles de l'encyclopédie.
Cette structure donne une information intéressante sur le contenu du site.
L'existence d'un lien témoigne généralement d'un rapport sémantique entre les deux sujets.
Ainsi la distance sur le graphe va traduire une forme de proximité entre les concepts.
Les articles centraux vont généralement être des sujets "importants" pouvant être approchés par de nombreuses facettes, alors que les sujets plus pointus vont être sur le bord du graphe avec une forte excentricité.
Tout comme tous les chemins mènent à Rome, il est dit que tous les articles mènent à une certaine personnalité. On peut ainsi aisément confirmer sur le graphe si le mythe est vérifié.
Méthodologie
Il existe différents types de liens et d'articles sur Wikipédia.
Je classifierais les liens en deux grandes catégories : les liens manuels et les liens automatiques. Les liens manuels sont ceux introduits explicitement dans le corps de l'article par l'auteur, et les automatiques sont tous ceux générés par MediaWiki.
Ces dernier apparaissent à des nombreuses occasions, par exemple lorsque un article s'inscrit dans une catégorie ou un portail, un lien vers la catégorie sera généré en pied de page, ou bien lorsque la prononciation d'un mot étranger est renseigné, un lien vers une page d'aide sera généré.
De même, les articles "classiques" ne représentent qu'une petite partie de Wikipédia. Le reste de Wikipédia est composé des pages de discutions, des pages utilisateurs, des pages "méta" ou techniques sur le fonctionnement même de MediaWiki, des pages (ou sections de pages) de références générées automatiquement (telles que la liste des objets d'une catégorie, ou bien la liste des naissances et décès à une certaine date), des pages média, des patrons, des scripts...
Pour des raisons aussi bien techniques que conceptuelles, j'ai choisi de ne considérer que les liens manuels entre des articles classiques. Ces derniers vont généralement donner un réel lien sémantique entre les articles, alors que les regroupements par catégorie, par exemple, vont artificiellement générer une grande proximité (à seulement 2 clics d'écart) entre des sujets autrement distants.
Il aurait pu être intéressant de considérer les interactions avec les projets frères tels que le Wiktionnaire, ou bien avec les médias, mais cela était techniquement trop complexe à mettre en place. Il aurait fallu traiter toutes les variantes linguistiques du site, et le faire avec la distribution particulière des médias soumis à des restrictions de distribution.
Ainsi, seules les variantes anglaise et françaises on été retenues.
L'analyse se base sur les cources xml de Wikipédia. Elles sont d'abord parcourues afin d'extraire tous les articles avec, pour chacun, la liste de ses liens sortants. Une seconde étape consiste à appliquer les redirections. Les articles sont ensuite filtrés afin de retirer toutes les pages spéciales. Cela donne un premier graphe orienté qui est décomposé en composantes fortement connexes suivant l'algorithme de Tarjan. Dans toutes les variantes testées, une composante très largement dominante existe (comprenant plus de 90% des articles) et va être conservée pour le calcul des excentricités. Les codes utilisés sont disponibles ici.
Au vu de la taille des sources et de l’existence des pages de tests, tous les cas limites, aussi bien de l'xml que des extensions utilisées par MediaWiki apparaissent. Le parseur codé pour l'occasion (qui est rétrospectivement trop simpliste) va très certainement mal interpréter certains cas, mais il semble tout de même fonctionner pour une grande majorité.
Il ne faut ainsi pas interpréter les résultats comme parfaitement exacts, mais en se rappelant qu'un lien pourrait peut-être manquer ou être de trop. La structure même de Wikipédia est par nature très instable à ce niveau, de nouveaux articles et liens sont écrits et supprimés à chaque instant.
La version anglaise utilisée date du 19 septembre 2022 et la française du 7 novembre 2022.
Plus précisément, les sources utilisés sont
enwiki-latest-pages-articles.xml (90,722,896,813 bytes, md5:4ea802eb02577abe4624b3508d9f6c04)
et
frwiki-latest-pages-articles.xml (5,599,729,496 bytes, md5:e279ca5aa85e7a9962836d310780cd0d)
.
Résultats
Certain articles forment des groupes dans le sens où il est possible de rejoindre n'importe quel article du groupe en partant de n'importe quel autre article du même groupe (aussi appelée composante fortement connexe).
Il existe des articles (ou groupe d'articles) impossible à rejoindre depuis n'importe quel autre article, et inversement il en existe qui ne donnent vers aucun autre article. Cependant, pour l'immense majorité des articles, il est possible de rejoindre n'importe quel article depuis n'importe quel autre. La structure générale sera donc composée d'un énorme groupe principal et de quelques petits groupes solitaires.
On peux trouver trois type de groupes solitaires : ceux qui mènent vers le groupe principal mais qu'aucun article du groupe principal ne référence, ceux qui sont référencés quelque part dans le groupe principal mais qui ne référence rien, et ceux qui sont complètement indépendants.
Le contenu des articles solitaires est cependant sensiblement le même dans tous les cas. Ce sont des articles courts portant sur des sujet obscurs ou hautement spécialisés. Les groupes formés par ces articles seront typiquement de petite taille.
Les groupes de taille 1 sont largement sur-représentés, ils ne sont cependant généralement pas des articles mais plutôt des pages destinées à rediriger vers des liens externes (comme le Wiktionary) ou bien étant destinés à être remplis automatiquement par MediaWiki (comme les listes de naissances et décès entre deux dates).
Il existe bien des articles traditionnels sans aucun lien entrant ou sortant (tel quel les les éléctions de 1892 du Manitoba).
Les groupes de tailles 2 et supérieurs vont généralement être composés de sujets très fortement liés,
tel que deux notions connexes
Taux de brassage horaire et Taux de renouvellement horaire,
Chiffre ABC et Chiffre UBCHI,
des objets proches Tour de télécommunication de Stuttgart et
Tour hertzienne de Stuttgart (lié uniquement par la légende d'une image),
des pages d'homonymies se référençant (Ymir et Ymer)
une espèce et son genre, un auteur et ses œuvres ou bien différents modèles d'une même gamme.
On peut noter certains groupes exceptionnellement grands. Sur la version anglaise, nous avons :
Quand à la version francaise, nous pouvons noter :
Bien que ces groupes ne soient pas fortement connectés (on ne peut pas aller et venir entre ces articles), ils vont généralement rester faiblement connectés (on pourra soit venir soit aller dans ces articles depuis d'autres groupes).
Plus précisément sur les 651000 groupes, il n'y a que 17945 groupes complétement déconnectés (et 749 sur les 203227 de la version française).
La plupart du temps (96% ou 99%), il va être possible de rentrer dans le groupe principal mais les articles ne seront eux-même référencés nulle part.
Lorsqu'il est possible de rejoindre le groupe principal, cela sera toujours rapide à faire (au maximum en 4 clics).
Inversement, puisqu'il n'est pas possible de faire des boucles entre ces groupes faiblement connectés, on ne pourra visiter qu'un certain nombre de groupes avant d'arriver dans le groupe principal.
Et on ne pourra progresser que de quelques articles en sortant du groupe principal.
Exemple d'une configuration possible. Dans ce cas, le chemin le plus long allant vers le groupe principal est de longueur 5, et le plus court de longueur 2.
Le chemin potentiellement le plus long sur la version anglaise part du
championnat senior de Hurling de Waterford de 2007
et arrive sur le groupe principal avec le
championnat senior de Hurling de Waterford de 1949.
Sur la version francaise, il part de
Points attribués lors de la saison 2017-2018 de snooker,
et arrive avec
Points attribués lors de la saison 2005-2006 de snooker.
Le chemin potentiellement le plus long sortant du groupe principal sur la version anglaise est
Oppo Joy 3→
Oppo Joy→
Oppo Joy Plus,
et sur la version française, un des plus long est
Paphinia seegeri var. semi-alba→
Paphinia seegeri.
Si l'on exclut ces cas marginaux pour se concentrer sur le groupe principal, on peux voir que tout est lié, mais certain liens sont plus forts que d'autres.
Une notion intéressante pour quantifier cela est celle de l'excentricité. L'excentricité d'un article est la longueur maximale d'un plus court chemin reliant tout autre article à celui ci.
Il sera ainsi toujours possible d'arriver à un article depuis n'importe quel autre article avec au plus un nombre de clics égal à son excentricité,
et pour certain points de départ, il sera impossible de faire plus court.
Le centre correspond aux articles avec la plus petite excentricité.
Dans la version anglaise du site, il existait une suite d'articles particulièrement longue et excentrée listant des autoroutes portant un certain numéro.
Au coeur du cycle (Liste des autoroutes numérotées 1158),
il fallait parcourir près de 30 pages pour rejoindre les autres types d'articles.
Ces articles ont depuis été transformés en redirections (Liste des autoroutes numérotées de 1000 à 1499),
et je les ai manuellement retirées du jeux de données pour l'analyse du groupe principal.
On peut à présent répondre à la question :
Il n'est donc pas toujours possible de l'atteindre en 3 clics.
Pour les deux versions du site, il existe un unique article demandant 6 clics.
L'article le plus éloigné dans la version anglaise est Oppo Neo 3,
il est alors possible de le rejoindre par le chemin:
Oppo Neo 3→Oppo Neo 5→
Oppo Neo 7→Mirroir en bronze→
Egypt antique→Napoleon.
Pour la version francaise, l'article le plus éloigné est Carcinome pulmonaire à cellules géantes,
et un chemin optimal est:
Carcinome pulmonaire à cellules géantes→
Carcinome pulmonaire à grandes cellules→
Carcinome neuroendocrine à cellules géantes du poumon→
Cancer bronchique à petites cellules→
Myasthénie→
Allemagne.
Cependant au vu de l'aspect très volatile des liens, il ne faut pas accorder trop d'importance à un unique cas,
et j'estimerais plutôt son excentricité à 5.
On peut tout de même se demander si d'autre articles sont plus centraux, et comment ils se placent dans la moyenne.
Le calcul de l'excentricité est relativement long (environs 1.6sec), il n'a donc pas été possible de calculer l'excentricité de l'intégralité des points mais seulement sur un échantillon de 324000 articles.
Voici la répartition des articles par leur excentricité:
On peut également observer le nombre moyen d'articles à distance maximale:
Certains vont avoir une très haute excentricité (par exemple
Tournée Morning Musume de 2009 de Yomiuri ~Land East Live,
Semaine 24,
Albert Assor,
Saison de hockey sur glace des Yale Bulldogs men de 1897-1898,
Ooni Ojigidiri,
Football en Équateur en 1997
sont à plus de 20).
Il existe quelques articles que l'on peut toujours atteindre en 5 clics (tant que l'on part d'un article du groupe principal). Il en existe peut être possible à atteindre en seulement 4 clics mais aucun n'a été trouvé. L'excentricité d'un article particulier est de toute façons très variable à l'ajout de nouveaux articles.