Dans le graphique, quatre exemples de corrélations et les courbes respectives sont présentées.
- Facteur A : Corrélation nulle – courbe linéaire, horizontale / moyenne élevée
- Facteur B : Corrélation positive (la plus élevée) – fonction exponentielle, en baisse
- Facteur C : Corrélation négative (la plus faible) – courbe linéaire, en hausse
- Facteur D : Corrélation positive – courbe irrégulière, en baisse
- Explication : Calcul de la corrélation et approches d’interprétation
- Algorithmes des moteurs de recherche et facteurs de classement de Google & Co.
- Black Hat SEO : Keyword Stuffing, Cloaking & Co.
- Causalité ≠ Corrélation
- « Cum hoc ergo propter hoc » – Erreur logique et corrélations illusoires
- Base de données pour les facteurs de classement de Searchmetrics
- Facteurs binaires et numériques – spécification versus existence
- Valeurs de corrélation versus valeurs moyennes et courbes
- Le facteur de marque
- Intention : Pourquoi les facteurs de classement ?
Explication : Calcul de la corrélation et approches d’interprétation
L’axe des y indique la valeur moyenne pour l’ensemble des 10 000 URL étudiées à la position X (axe des x). Les facteurs ayant la valeur « zéro », selon notre analyse, indiquent l’absence de corrélation mesurable entre les bons et les mauvais résultats de Google. Plus la valeur d’une corrélation est élevée, plus les différences entre les positions sont importantes et régulières. Les valeurs dans une fourchette négative sont mieux comprises avec l’affirmation opposée interprétée positivement.
En clair, plus les différences entre les positions 1 et 30 sont importantes, plus la valeur de la corrélation est élevée. Pour interpréter les facteurs, on utilise toujours des valeurs moyennes. Par exemple, les facteurs B et C du graphique ci-dessus ont la même valeur de corrélation (c’est-à-dire : 1), mais sont complètement différents en ce qui concerne leurs courbes respectives. Par contre, pour le facteur A, la valeur moyenne est de 95 (axe des y) pour chaque position (axe des x), mais pourrait même être à 5 (axe des y). La valeur de corrélation resterait identique à 0, mais l’interprétation du facteur serait complètement différente.
Algorithmes des moteurs de recherche et facteurs de classement de Google & Co.
Les moteurs de recherche fonctionnent en utilisant des algorithmes pour évaluer les sites Web par sujet et par pertinence. Cette évaluation est utilisée pour structurer les pages dans l’index du moteur de recherche, ce qui aboutit finalement à ce que les requêtes des utilisateurs affichent le meilleur classement possible de l’affichage des résultats. Les critères d’évaluation des pages web et de production de ce classement sont généralement appelés facteurs de classement.
Les raisons en sont simples : l’augmentation exponentielle du nombre de documents sur Internet – et dans l’index de recherche – rend impossible le classement de ces pages sans algorithme automatique, malgré l’existence de « correcteurs de qualité » humains. Cet algorithme est à la fois obligatoire (l’ordre, après tout, nécessite un modèle) et, en même temps, le secret le mieux gardé du commerce sur Internet, car pour les moteurs de recherche, il est essentiel de garder strictement confidentiels les facteurs sous-jacents qui composent l’algorithme.
Ce secret inhérent a moins à voir avec la concurrence entre les moteurs de recherche qu’avec des raisons plus fondamentales : Si les moyens d’obtenir de bons classements étaient largement connus, ils deviendraient sans intérêt car ils seraient constamment manipulés. Personne, à part Google, ne sait quels sont les véritables facteurs de classement. Nous analysons les données par le biais de l’analyse de corrélation des rangs pour produire nos conclusions sur la base des propriétés des résultats de recherche organiques existants. Nous en déduisons ce que pourraient être les facteurs de classement et leurs pondérations respectives. Notre immense base de données fournit une base fiable pour ces analyses.
Black Hat SEO : Keyword Stuffing, Cloaking & Co.
Au début de l’ère des moteurs de recherche, Google considérait les pages pertinentes pour des sujets spécifiques où les termes de recherche associés au sujet (mots-clés) étaient fréquemment utilisés. Les opérateurs de sites n’ont pas tardé à tirer parti de cette connaissance et à obtenir de très bonnes positions dans les SERP en « bourrant » les pages de mots clés, ce qui permettait à leurs pages souvent non pertinentes de se retrouver sur des positions bien classées pour les termes de recherche visés.
Cela a non seulement généré une véritable concurrence entre les moteurs de recherche et les SEO, mais a produit le mythe du facteur de classement. L’objectif de la recherche sémantique a créé un réseau de critères qui étaient initialement strictement techniques (par exemple, le nombre de backlinks), mais auxquels se sont ajoutés des éléments moins techniques (par exemple, les signaux des utilisateurs).
Ce développement, ainsi que la poursuite du résultat optimal, a abouti à l’évolution constante des facteurs de classement. La boucle de rétroaction sans fin des cycles de mise à jour permanents-itératifs est conçue purement pour générer des résultats de recherche qui offrent des améliorations constantes au chercheur individuel. La structure et la complexité des facteurs de classement, ajoutées à la forte influence des signaux de l’utilisateur, sont conçues pour produire le contenu le plus pertinent pour l’utilisateur.
D’un point de vue commercial, le succès à long terme peut être atteint en utilisant une stratégie commerciale durable basée sur l’incorporation de facteurs de qualité pertinents pour maintenir de fortes positions de recherche. Cette approche signifie un mépris des options d’influence négative et une concentration claire sur le contenu pertinent, tout en combattant le spam et le court-termisme.
Causalité ≠ Corrélation
Nous ne sommes pas Google. L’analyse et l’évaluation des facteurs de classement à l’aide de nos données sont basées sur une interprétation fondée – et non sur une spéculation – des faits ; à savoir l’évaluation et la structuration des propriétés des sites web ayant des positions élevées dans les résultats de recherche.
Les évaluations de classement de Searchmetrics sont exactes, fraîches et basées sur de nombreuses données. Chez Searchmetrics, nous agrégeons des milliards de points de données sur une base mensuelle – et voici la question à 64 millions de dollars : Quels facteurs distinguent les sites bien placés de ceux qui occupent des positions inférieures dans les résultats de recherche de Google ?
Nous comparons les propriétés des pages Web avec la somme de leurs positions chez Google et en tirons une liste structurée de facteurs plus ou moins pondérés. Ainsi, si dans les premières positions des SERP investiguées, par exemple, de nombreuses pages contiennent le mot-clé dans la balise titre, nous le reconnaissons comme une forte corrélation avec un bon classement. Ces corrélations peuvent donc offrir des conclusions quant aux pages affichées dans les premières listes de résultats de recherche qui présentent des caractéristiques similaires.
Il est toutefois nécessaire de souligner que les corrélations ne sont pas synonymes de relations causales, et qu’il n’y a donc aucune garantie que les facteurs respectifs aient réellement un impact sur le classement – ou soient jamais utilisés par Google comme un signal. Ce que nous faisons chez Searchmetrics, en revanche, c’est interpréter ces corrélations.
« Cum hoc ergo propter hoc » – Erreur logique et corrélations illusoires
Les plantes se fanent quand elles n’ont pas d’eau : la maison est chaude quand on monte le chauffage – et parce qu’un site a beaucoup de signaux sociaux, il grimpe à la première place ? Stop!
Il existe de nombreux exemples de corrélations ou d’évaluations illusoires que l’on qualifie de « sophisme logique » (Cum hoc ergo propter hoc – voir Wikipedia). Par exemple, la co-apparition de phénomènes comme le nombre de cigognes et le taux de natalité plus élevé dans certaines régions, ou la relation entre les ventes de glaces et l’incidence accrue des coups de soleil en été. Mais peut-on vraiment attraper un coup de soleil avec une glace ? Bien sûr que non. Ces exemples montrent une corrélation (illusoire), et non une relation de cause à effet. (Trouvez d’autres exemples ici)
Nous voulons éviter à tout prix les sophismes logiques et les corrélations illusoires, et notre expérience montre qu’il est trop facile d’évaluer un facteur de classement comme ayant une signification causale là où il n’y en a pas. Nous préférons travailler en utilisant un « coefficient de corrélation de rang », et cela nécessite une interprétation évaluée et une base de données solide.
Base de données pour les facteurs de classement de Searchmetrics
Notre analyse est basée sur les résultats de recherche pour un très grand ensemble de mots clés de 10 000 termes de recherche pour Google U.S.. Le pool de départ est toujours le top 10 000 termes de recherche par volume de recherche, mais duquel sont extraits des mots-clés spécifiques orientés navigation afin de ne pas fausser les évaluations. On considère que les recherches par mots-clés orientées vers la navigation sont celles où tous les résultats sauf un ne sont pas pertinents pour le chercheur, plus ou moins (par exemple : « Facebook Login »).
Notre base de données pour les analyses des facteurs de classement sont toujours les trois premières pages de résultats de recherche organique. En règle générale, les ensembles de mots-clés des années consécutives coïncident à plus de 90 % avec la base de données de l’année précédente. Nous avons ici cherché un juste milieu, pour prendre en compte deux facteurs, à savoir la préservation du « plus grand dénominateur commun » comme base optimale de comparaison avec l’étude précédente, et d’autre part, la prise en compte de nouveaux mots-clés, qui ont augmenté en volume de recherche dans le top 10 000.
La base de données de Searchmetrics est toujours à jour. Par conséquent, de nouveaux mots-clés pertinents sont utilisés pour les analyses actuelles, tels que « Samsung Galaxy S5 » ou « iPhone 6 », qui n’existaient pas auparavant.
Facteurs binaires et numériques – spécification versus existence
Les facteurs examinés sont divisés en caractéristiques binaires et numériques. Cela signifie qu’il existe une différence inhérente à la nature des facteurs utilisés dans cette analyse. Cette différence ne doit pas être négligée dans l’interprétation des valeurs.
Les éléments qui sont décrits à l’aide de facteurs binaires – comme une méta-description sur la page – sont soit présents, soit absents. Il n’y a pas de gradation. Il existe également des éléments dont les caractéristiques sont graduées et qui changent à des degrés différents. Par exemple, une URL peut avoir zéro ou six mille backlinks – mais chaque valeur intermédiaire est également possible.
Ces facteurs numériques sont en quelque sorte « meilleurs » pour les études utilisant des calculs de corrélation tels que Spearman, avec des rangs et / ou des principes de classement basés sur des gradations. Lorsqu’il s’agit d’interprétations basées sur la seule valeur de corrélation pure, les déclarations pour les facteurs numériques sont souvent plus significatives.
Pour soutenir la validité des corrélations des caractéristiques binaires dans notre étude, il faut donc préciser une valeur moyenne dans la règle. Par exemple concernant le facteur « Existence de la description », il se peut qu’il n’y ait qu’une corrélation proche de zéro avec les classements, mais en fait presque 100% de toutes les URL ont une description (voir l’exemple de corrélation pour le facteur A ci-dessus).
Valeurs de corrélation versus valeurs moyennes et courbes
Les valeurs de corrélation tracées sous forme de barre sont toujours calculées sur la base de toutes les données disponibles par caractéristique, donc pour un ou 10 000 mots-clés, chaque ligne du graphique a 30 valeurs par mot-clé.
Les valeurs moyennes sont calculées à partir de ces valeurs de courbe moyenne, qui laissent également de côté les cinq pour cent supérieurs de chaque caractéristique pour permettre la courbe la plus lisse possible et une échelle gérable (axe Y), sinon certaines moyennes inférieures dans les courbes respectives ne seraient pas vues. De même, les valeurs médianes et moyennes individuelles sont calculées pour les caractéristiques ne tenant pas compte des cinq pour cent supérieurs des résultats.
Le facteur de marque
L’une des constantes des études sur les facteurs de classement est une particularité intéressante des données que nous avons baptisée « facteur de marque », présent dans de nombreux facteurs et observations.
Ce que nous entendons par facteur de marque, c’est l’observation que les sites Web de marques très connues ou ayant une certaine autorité occupent généralement les toutes premières positions dans les classements, même s’ils ne tiennent pas compte de facteurs particuliers auxquels adhèrent les URL qui se classent légèrement plus bas.
Par exemple, en moyenne, les marques ont tendance à ne pas avoir de balise h1 sur leur page, leur contenu a un nombre de mots plus faible et le mot clé ne se trouve pas aussi souvent dans la description du méta-titre. En un mot : du point de vue du référencement, ils sont moins optimisés. D’un autre côté, les sites web de marque présentent généralement beaucoup plus de backlinks et de signaux sociaux que les autres URL.
Google est déjà très efficace pour identifier les marques de secteurs particuliers et pour attribuer à leurs URL un classement préférentiel. Des valeurs comme la reconnaissabilité, la confiance des utilisateurs et l’image de marque sont également reflétées dans les SERP dans une certaine mesure.
Intention : Pourquoi les facteurs de classement ?
Il est juste de dire que même Google lui-même ne sait pas comment son propre algorithme est composé, tant les métriques d’évaluation sont devenues complexes.
L’objectif des études Searchmetrics sur les « facteurs de classement » n’est pas de produire un évangile de vérité absolue. Au contraire, nous considérons les études Searchmetrics comme une analyse méthodologique dans une perspective interprétative. Cela signifie que notre objectif est de fournir à l’industrie en ligne un accès facile à une boîte à outils de données. En utilisant cette boîte à outils, l’industrie peut prendre des décisions éclairées sur la base de nos recherches intensives sur un large éventail de critères.
À l’étude : Ranking Factors 2018 : Analyse ciblée pour plus de succès sur Google et sur votre marché en ligne.