- Qu'est-ce-que le page rank ?
Le PageRank ou PR est le système de classement des pages Web utilisé par le moteur de recherche Google pour déterminer l'ordre et la pertinence des liens dans les résultats de recherche qu'il fournit. Ce système a été inventé par Larry Page, cofondateur de Google. Ce mot est une marque déposée.
- L'historique :
Le premier brevet (intitulé Method for Node Ranking in a Linked Database), déposé en janvier 1997 et enregistré le 9 janvier 1998, est la propriété de l'Université Stanford, qui a licencié cette technologie à Google en 1998 (amendée en 2000 et 2003), deux mois après sa fondation. Il s'agit d'une licence exclusive jusqu'en 2011, l'exclusivité prenant fin à cette date.
Les recherches qui ont abouti au développement de la technologie du PageRank ont été financées en partie par la National Science Foundation. Il est donc précisé dans le brevet que le gouvernement a certains droits sur cette invention.
- Le fonctionnement :
La base du PageRank aussi appelé PR est une formule mathématique, assez simple à comprendre.
Cette méthode est utilisée par Google pour déterminer l’importance d’une page Web.
Elle se base sur un concept très simple : un lien émis par une page A vers une page B est assimilé à un « vote » de A pour B. Au plus une page reçoit de « votes », au plus cette page est considérée comme importante par Google, exactement comme le principe des élections que nous connaissons tous. Toutes les pages n’ont pas le même pouvoir de « vote ». Un vote émis par la page d’accueil d’un site majeur tel que Microsoft ou Yahoo pèse beaucoup plus lourd qu’un vote émis par une page personnelle.
Retenons aussi que le PageRank est une mesure de l’importance d’une page, et non d’un site entier. Vous entendrez souvent parler de « site de rang n », il s’agit d’un abus de langage décrivant le rang de la page d’accueil du site. Il n’y a pas, de notion d’importance de site dans l’algorithme du PageRank. De même, l’importance d’une page est sans rapport aucun avec l’intérêt ou la pertinence de celle-ci, ces deux dernières notions étant totalement absentes de l’algorithme du PageRank. Elles interviennent néanmoins dans les pages de résultat de recherche.
Ce PageRank peut être visualisé par les utilisateurs de la « toolbar » Google, téléchargeable gratuitement, uniquement disponible pour Internet Explorer sous Windows. La représentation graphique se fait sur une échelle de 1 à 10. L’exemple ci-dessus montre l’affichage d’une page ayant un PageRank égal à 5 (noté PR5).
- L'algorithme
Une page A reçoit des liens (ou "votes") émis par les pages T1...Tn.
Le paramètre d est un facteur d’amortissement pouvant être ajusté entre 0 et 1.
Nous donnons généralement à d la valeur 0.85.
De même, C(A) est défini comme le nombre de liens émis par la page A (liens sortants). Le PageRank de la page A est défini comme suit :
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Le PageRank peut être calculé en utilisant un simple algorithme itératif, et correspond au vecteur propre principal de la matrice normalisée des liens du Web.
Voici l’explication de la notation utilisée :
| PR(A) | le PageRank de la page A |
| PR(Tn) | le PageRank de la page Tn |
| C(Tn) | le nombre de liens émis sur la page Tn |
| d | tous les « votes » sont additionnés, mais pour en limiter l’importance, le total est multiplié par ce coefficient d’amortissement (0.85) |
| 1 - d | Un petit peu de « magie mathématique » qui permet de garantir que la moyenne des PageRank de l’ensemble des pages du Web sera de 1. |
L’examen de cette formule permet de voir que le PageRank d’une page n’ayant aucun lien entrant sera de 0.15 soit : (1 - 0.85) + 0.85*(0) = 0.15
Ici apparaît la cause de la confusion la plus répandue au sujet du PageRank : pourquoi une valeur fractionnaire alors que la toolbar n’affiche que des valeurs entières ?
Il est généralement admis que l’échelle du PageRank est logarithmique, sans que ceci ne soit officiellement confirmé. Pour cette raison, la base utilisée ne peut qu’être estimée. Il est de même raisonnable de penser que cette base évolue dans le temps.
Prenons une échelle logarithmique de base 10 pour simplifier nos calculs, le raisonnement restant valable quelle que soit le base choisie :
| PageRank Affiché (log base 10) | PageRank réel (calculé) |
| PR0 | 0 ≤ PR < 1 |
| PR1 | 1 ≤ PR < 10 |
| PR2 | 10 ≤ PR < 100 |
| PR3 | 100 ≤ PR < 1000 |
| PR4 | 1000 ≤ PR < 10000 |
Il est important de comprendre que chaque niveau de PageRank est 10 fois plus élevé que le niveau précédent. Ce qui signifie en clair qu’il est 10 fois plus dur de passer de PR4 à PR5 que de passer de PR3 à PR4 (la base 10 a été choisie).
Une des raisons pour lesquelles on estime que l’échelle évolue dans le temps, est que le PageRank maximum n’est calculé que lorsque Google fait sa mise à jour de l’index, et que le nombre de pages indexées est en constante augmentation.
Cette évolution de l’échelle expliquerait pourquoi certaines pages voient leur PageRank diminuer au fil des indexations, alors que le nombre de liens entrant reste inchangé.
Dans tous les cas, vous l'aurez compris, le page rank est très important pour un site WEB. De manière générale, plus votre PR est élevé, plus votre site est visible par Google et donc, plus vous avez de visiteurs.
->
Accueil
-> Haut de page

