Learn how indexing, algorithms, deep learning systems, human raters, click and query data, and more shape Google’s Search results.

En octobre dernier, Pandu Nayak a témoigné lors du procès antitrust opposant les États-Unis à Google. Tout ce que je me rappelle avoir vu à l’époque, c’est ce qui ressemblait à un article de relations publiques publié par le New York Times.

Puis AJ Kohn a publié What Pandu Nayak taught me about SEO (Ce que Pandu Nayak m’a appris sur le référencement) le 16 novembre – qui contenait un lien vers un PDF du témoignage de Nayak. Il s’agit d’une lecture fascinante pour les référenceurs.

Vous trouverez ci-après mon résumé de ce que Nayak a révélé sur le fonctionnement de Google Search et du classement – notamment l’indexation, la recherche, les algorithmes, les systèmes de classement, les clics, les évaluateurs humains et bien d’autres choses encore – ainsi qu’un contexte supplémentaire tiré d’autres pièces du procès antitrust qui n’avaient pas encore été rendues publiques lorsque j’ai publié 7 documents incontournables sur le classement de Google Search dans les pièces du procès antitrust.

Certaines parties ne vous seront peut-être pas inconnues, et il ne s’agit pas d’un tableau complet de Google Search – beaucoup de choses ont été expurgées au cours du procès, de sorte qu’il nous manque probablement un peu de contexte et d’autres détails clés. Cependant, le contenu de ce document vaut la peine d’être creusé.

Google indexing : L’indexation de Google

Google explore le web et en fait une copie. C’est ce qu’on appelle un index.

Pensez à l’index que vous pouvez trouver à la fin d’un livre. Les systèmes traditionnels de recherche d’informations (moteurs de recherche) fonctionnent de la même manière lorsqu’ils recherchent des documents web.

Mais le web est en constante évolution. La taille n’est pas tout, a expliqué M. Nayak, et il y a beaucoup de doublons sur le web. L’objectif de Google est de créer un « index complet ».

En 2020, l’index comptera « peut-être » 400 milliards de documents, a indiqué M. Nayak. (Nous avons appris qu’il y a eu une période pendant laquelle ce chiffre a baissé, mais la date exacte n’est pas claire).

"Je ne sais pas si, au cours des trois dernières années, il y a eu un changement spécifique dans la taille de l'index.
"Plus grand n'est pas nécessairement meilleur, car vous risquez de le remplir de déchets." 

Il est possible de maintenir la taille de l’indice au même niveau si l’on réduit la quantité de déchets qu’il contient », a déclaré M. Nayak. « La suppression des éléments qui ne sont pas de bonnes informations est un moyen d’améliorer la qualité de l’index.

« Lorsque vous avez une requête, vous devez extraire de l’index les documents qui correspondent à la requête. L’index lui-même est au cœur de ce processus. Rappelez-vous, l’index est pour chaque mot, quelles sont les pages sur lesquelles ce mot apparaît. C’est ce qu’on appelle, pour diverses raisons, un index inversé. L’essentiel du mécanisme de recherche consiste donc à examiner les mots de la requête, à parcourir la liste – appelée liste des affichages – et à croiser la liste des affichages. C’est le cœur du mécanisme de recherche. Et comme on ne peut pas parcourir les listes jusqu’au bout parce que ce serait trop long, on trie l’index de manière à ce que les bonnes pages probables, qui sont de haute qualité – elles sont parfois triées par rang de page, par exemple, ce qui a été fait dans le passé – se trouvent en quelque sorte plus tôt dans l’index. Une fois que vous avez récupéré suffisamment de documents pour les ramener à des dizaines de milliers, vous espérez avoir suffisamment de documents. Il s’agit donc du cœur du mécanisme de recherche, qui consiste à utiliser l’index pour parcourir ces listes d’affichages et les croiser de manière à ce que tous les mots de la requête soient retrouvés ».

Google ranking : Classement Google

Nous savons que Google utilise l’index pour retrouver les pages correspondant à la requête. Le problème ? Des millions de documents peuvent « correspondre » à de nombreuses requêtes.

C’est pourquoi Google utilise « des centaines d’algorithmes et de modèles d’apprentissage automatique, dont aucun n’est totalement dépendant d’un grand modèle unique », selon un billet de blog rédigé par Nayak en 2021.

Ces algorithmes et modèles d’apprentissage automatique permettent essentiellement de « trier » l’index en fonction des documents les plus pertinents, a expliqué M. Nayak.

La phase suivante consiste à dire : "D'accord, j'ai maintenant des dizaines de milliers de documents. Je vais maintenant utiliser un ensemble de signaux pour les classer afin d'obtenir un ensemble plus petit de plusieurs centaines. Ensuite, je peux les envoyer à la phase suivante de classement qui, entre autres choses, utilise l'apprentissage automatique".

Le guide des systèmes de classement de Google Search contient de nombreux systèmes de classement que vous connaissez probablement déjà (par exemple, BERT, système de contenu utile, PageRank, système d’évaluation).

Mais Nayak (et d’autres pièces à conviction de procès antitrust) a révélé de nouveaux systèmes, jusqu’alors inconnus, sur lesquels nous devons nous pencher plus avant.

‘Maybe over 100’ ranking signals Peut-être plus de 100 signaux de classement

Il y a de nombreuses années, Google disait utiliser plus de 200 signaux pour classer les pages. Ce nombre a brièvement explosé pour atteindre 10 000 facteurs de classement en 2010 (Matt Cutts, de Google, a expliqué à un moment donné qu’un grand nombre des plus de 200 signaux de Google comportaient plus de 50 variations au sein d’un seul facteur) – une statistique que la plupart des gens ont oubliée.

Aujourd’hui, le nombre de signaux de Google a été ramené à « peut-être plus d’une centaine », selon le témoignage de M. Nayak.

Ce qui est « peut-être » le signal le plus important (ce qui correspond à ce que Gary Illyes de Google a déclaré à Pubcon cette année) pour la recherche de documents est le document lui-même, a déclaré M. Nayak.

"Tous nos principaux signaux d'actualité, nos signaux de classement des pages, nos signaux de localisation. Il y a toutes sortes de signaux qui examinent ces dizaines de milliers de documents et qui, ensemble, créent un score qui permet d'extraire les quelques centaines de documents les plus importants", a déclaré M. Nayak.

Les principaux signaux, selon M. Nayak, sont les suivants :

Le document (c'est-à-dire "les mots sur la page, etc.").
L'actualité.
La qualité de la page.
La fiabilité.
La localisation.
Navboost.

Voici la citation complète de l’essai :

« Je veux dire que dans l’ensemble, il y a beaucoup de signaux. Vous savez, peut-être plus d’une centaine de signaux. Mais pour la recherche de documents, le document lui-même est peut-être la chose la plus importante, ces listes d’affichages que nous utilisons pour rechercher des documents. C’est peut-être la chose la plus importante, pour descendre jusqu’à des dizaines de milliers. Ensuite, de nombreux facteurs entrent en ligne de compte. Il existe des algorithmes de type code IR, de type recherche d’information, qui sélectionnent l’actualité et d’autres éléments, ce qui est très important. Il y a la qualité des pages. La fiabilité des résultats est un autre facteur important. Il y a des choses de type localisation qui entrent en jeu. Et il y a aussi le navboost ».

Algorithmes de base de Google

Google utilise des algorithmes de base pour réduire le nombre de correspondances pour une requête à « plusieurs centaines » de documents. Ces algorithmes de base donnent aux documents un classement initial ou une note.

Chaque page correspondant à une requête obtient un score. Google trie ensuite les scores, qui sont utilisés en partie par Google pour les présenter à l’utilisateur.

Les résultats Web sont notés à l’aide d’un score IR (IR signifie recherche d’informations).
Système Navboost (alias Glue)

Navboost « est l’un des signaux importants » dont dispose Google, a déclaré M. Nayak. Ce « système de base » est axé sur les résultats web et ne figure pas dans le guide des systèmes de classement de Google. Il est également appelé système de mémorisation.

Le système Navboost est formé à partir des données des utilisateurs. Il mémorise tous les clics sur les requêtes des 13 derniers mois. (Avant 2017, Navboost mémorisait l’historique des clics des utilisateurs sur les requêtes de 18 mois).

Le système remonte au moins à 2005, si ce n’est plus tôt, a précisé M. Nayak. Navboost a été mis à jour au fil des ans – il n’est plus le même que lorsqu’il a été introduit pour la première fois.

"Navboost étudie un grand nombre de documents et en tire des conclusions. C'est donc lui qui permet de passer d'un grand nombre de documents à un nombre réduit de documents", explique M. Nayak.

Tout en essayant de ne pas minimiser l’importance de Navboost, M. Nayak a également précisé que Navboost n’était qu’un signal parmi d’autres utilisés par Google. À la question de savoir si Navboost est « le seul algorithme de base utilisé par Google pour extraire des résultats », M. Nayak a répondu « non, absolument pas ».

Navboost permet de réduire le nombre de documents pour les systèmes d’apprentissage automatique de Google, mais il ne peut pas aider à classer les « documents qui n’ont pas de clics ».

Tranches de Navboost

Navboost peut « découper les informations locales » (c’est-à-dire le lieu d’origine d’une requête) et les données qu’elles contiennent en fonction de la localisation.

Lorsqu’il évoque le « premier tri » des « documents locaux » et l’importance d’extraire les entreprises proches de l’endroit où se trouve le chercheur (par exemple, Rochester, N.Y.), Google les présente à l’utilisateur « pour qu’il puisse interagir avec elles et créer Navboost, etc.

"N'oubliez pas que vous n'obtenez Navboost qu'une fois que les données ont été récupérées", précise M. Nayak.

Cela signifie que Navboost est un signal de classement qui ne peut exister qu’après que les utilisateurs ont cliqué sur un document ou une page.

Navboost peut également créer des ensembles de données (tranches) différents selon qu’il s’agit de recherches effectuées sur un téléphone portable ou sur un ordinateur de bureau. Pour chaque requête, Google suit le type d’appareil sur lequel elle a été effectuée. L’emplacement est important, que la recherche soit effectuée sur un ordinateur de bureau ou sur un téléphone portable – et Google dispose d’un Navboost spécifique pour les téléphones portables.

"C'est l'une des tranches", explique M. Nayak.

Glue

Qu’est-ce que Glue ?

« Glue est juste un autre nom pour Navboost qui inclut toutes les autres fonctionnalités de la page », selon Nayak, confirmant que Glue fait tout ce qui n’est pas des résultats web sur la SERP de Google.

Glue a également été expliqué dans une autre pièce (présentation du professeur Douglas Oard, 15 novembre 2023) :

"Glue regroupe divers types d'interactions avec l'utilisateur, tels que les clics, les survols, les défilements et les glissements, et crée une mesure commune pour comparer les résultats Web et les fonctions de recherche. Ce processus détermine à la fois si une fonction de recherche est déclenchée et où elle se déclenche sur la page."

En outre, depuis 2016, Glue joue un rôle important dans le classement de l’ensemble de la page chez Google :

"Les données d'interaction de l'utilisateur provenant de Glue sont déjà utilisées dans Web, KE [Knowledge Engine] et WebAnswers. Plus récemment, il s'agit de l'un des signaux critiques dans Tetris."

Nous avons également appris l’existence d’Instant Glue, décrit en 2021 comme un « pipeline en temps réel agrégeant les mêmes fractions de signaux d’interaction avec l’utilisateur que Glue, mais uniquement à partir des journaux des dernières 24 heures, avec un temps de latence d’environ 10 minutes ».

Navboost et Glue sont deux signaux qui aident Google à trouver et à classer ce qui apparaît finalement dans les SERP.

Deep learning systems: Systèmes d’apprentissage profond

Google « a commencé à utiliser l’apprentissage profond en 2015 », selon Nayak (l’année du lancement de RankBrain).

Une fois que Google dispose d’un ensemble réduit de documents, l’apprentissage profond peut être utilisé pour ajuster les scores des documents.

Certains systèmes d’apprentissage profond sont également impliqués dans le processus de recherche (par exemple, RankEmbed). La majeure partie du processus de recherche se déroule dans le cadre du système principal.

Google Search fera-t-il un jour entièrement confiance à ses systèmes d’apprentissage profond pour le classement ? M. Nayak répond par la négative :

"Je pense qu'il est risqué pour Google - ou pour n'importe qui d'autre, d'ailleurs - de tout confier à un système comme ces systèmes d'apprentissage profond en tant que fonction de haut niveau de bout en bout. Je pense que cela rend les choses très difficiles à contrôler".

Nayak a évoqué les trois principaux modèles d’apprentissage profond utilisés par Google pour le classement, ainsi que la manière dont le MUM est utilisé.

RankBrain :

Examine les 20 ou 30 premiers documents et peut ajuster leur score initial.
Il s'agit d'un processus plus coûteux que certains des autres composants de classement de Google (il est trop coûteux de l'exécuter sur des centaines ou des milliers de résultats).
Il est entraîné sur des requêtes dans toutes les langues et tous les lieux où Google opère.
Il est affiné sur la base des données d'évaluation IS (Information Satisfaction).
Il ne peut pas être entraîné uniquement à partir de données d'évaluation humaines.
RankBrain est toujours réentraîné avec des données fraîches (pendant des années, RankBrain a été entraîné sur 13 mois de données de clics et de requêtes).
"RankBrain comprend les besoins des utilisateurs à longue traîne au fur et à mesure qu'il s'entraîne..." a déclaré M. Nayak.

DeepRank :

Est l'ORET lorsque l'ORET est utilisé pour le classement.
Reprend une plus grande partie des capacités de RankBrain.
Est formé sur les données des utilisateurs.
Est affiné sur les données d'évaluation de l'IS.
Comprend le langage et a du bon sens, selon un document lu à Nayak pendant le procès. Extrait d'un document de DeepRank cité lors du témoignage de Nayak :
    "DeepRank permet non seulement d'obtenir des gains de pertinence significatifs, mais aussi de lier plus étroitement le classement au domaine plus large de la compréhension du langage. 
    "Un classement efficace semble nécessiter une certaine compréhension de la langue associée à une connaissance du monde aussi large que possible.
    "En général, une compréhension efficace de la langue semble nécessiter un calcul approfondi et une quantité modeste de données.
    "En revanche, la connaissance du monde est une question de données ; plus il y en a, mieux c'est.
    "DeepRank semble avoir la capacité d'apprendre la compréhension du langage et le bon sens sur lesquels les évaluateurs s'appuient pour deviner la pertinence, mais pas assez pour apprendre la grande quantité de connaissances du monde nécessaire pour encoder complètement les préférences des utilisateurs.

DeepRank a besoin à la fois de la compréhension du langage et de la connaissance du monde pour classer les documents, a confirmé M. Nayak. (« La compréhension de la langue mène au classement. DeepRank fait donc aussi du classement »). Cependant, il a indiqué que DeepRank est un peu une « boîte noire » :

« Il a donc appris quelque chose sur la compréhension du langage, et je suis certain qu’il a appris quelque chose sur la connaissance du monde, mais je serais bien en peine de vous donner une déclaration claire à ce sujet. Il s’agit en quelque sorte d’éléments déduits », a expliqué M. Nayak.

Qu’est-ce que la connaissance du monde exactement et où DeepRank l’obtient-il ? Nayak explique :

"L'une des choses intéressantes est que l'on obtient une grande partie de la connaissance du monde à partir du web. Aujourd'hui, les grands modèles linguistiques formés sur le web (ChatGPT, Bard, etc.) disposent d'une grande connaissance du monde parce qu'ils ont été formés sur le web. Vous avez donc besoin de ces données. Ils connaissent toutes sortes de faits spécifiques à ce sujet. Mais vous avez besoin de quelque chose comme ça. Dans la recherche, vous pouvez obtenir la connaissance du monde parce que vous avez un index et vous récupérez des documents, et ces documents que vous récupérez vous donnent une connaissance du monde sur ce qui se passe. Mais la connaissance du monde est profonde, compliquée et complexe, et c'est pourquoi il faut trouver un moyen d'y accéder.

Rankembed BERT



    A été lancé plus tôt, sans BERT. 
    Augmenté (et renommé) pour utiliser l'algorithme BERT "afin qu'il comprenne encore mieux la langue".
    Il est entraîné à partir de documents, de clics et de données de requête.
    Il est affiné sur les données d'évaluation de l'IS.
    Doit être réentraîné afin que les données d'entraînement reflètent les nouveaux événements.
    Identifie des documents supplémentaires au-delà de ceux identifiés par la recherche traditionnelle.
    Entraîné sur une fraction plus petite du trafic que DeepRank - "avoir une certaine exposition aux données fraîches est en fait très utile".

MUM :

MUM est un autre modèle coûteux de Google, qui ne s’exécute donc pas pour chaque requête au moment de l’exécution, a expliqué M. Nayak :

"Il est trop gros et trop lent pour cela. Nous formons donc d'autres modèles plus petits à l'aide de la formation spéciale, comme le classificateur dont nous avons parlé, qui est un modèle beaucoup plus simple. Nous exécutons ces modèles plus simples en production pour répondre aux cas d'utilisation."

QBST et pondération des termes

QBST (Query Based Salient Terms) et la pondération des termes sont deux autres « composants de classement » sur lesquels M. Nayak n’a pas été interrogé. Mais ils apparaissent dans deux diapositives de la présentation d’Oard mentionnée plus haut.

Ces deux intégrations de classement sont formées à partir de données d’évaluation. QBST, comme Navboost, a été qualifié de système de mémorisation (ce qui signifie qu’il utilise très probablement des données de requêtes et de clics). Au-delà de leur existence, nous n’avons pas appris grand-chose sur leur fonctionnement.

Le terme « systèmes de mémorisation » est également mentionné dans un courriel d’Eric Lehman. Il s’agit peut-être simplement d’un autre terme pour désigner les systèmes d’apprentissage en profondeur de Google :

"La pertinence dans la recherche sur le web pourrait ne pas être rapidement prise en charge par la ML profonde, parce que nous nous appuyons sur des systèmes de mémorisation qui sont beaucoup plus importants que n'importe quel modèle de ML actuel et qui capturent une tonne de connaissances apparemment cruciales sur le langage et le monde."

Assembling the SERP: Assemblage de la SERP

Les fonctionnalités de recherche sont tous les autres éléments qui apparaissent dans le SERP et qui ne sont pas des résultats web. Ces résultats obtiennent également une note. Le témoignage n’indique pas clairement s’il s’agit d’un score IR ou d’un autre type de score.


Le système Tangram (anciennement connu sous le nom de Tetris)

Nous en avons appris un peu plus sur le système Tangram de Google, qui s’appelait auparavant Tetris.

Le système Tangram ajoute des fonctions de recherche qui ne sont pas récupérées sur le web, sur la base d’autres données et signaux, a expliqué M. Nayak. La colle est l’un de ces signaux.

Vous pouvez voir une vue d’ensemble de la façon dont Freshness in Tetris a fonctionné en 2018, dans une diapositive de la pièce à conviction du procès Oard :

Applique la colle instantanée dans Tetris.
Rétrograde ou supprime les fonctionnalités périmées pour les requêtes qui méritent d'être rafraîchies ; favorise les TopStories.
Signale les requêtes nouvelles.

Evaluating the SERP and Search results
Évaluation des SERP et des résultats de recherche

Le score IS est le principal indicateur de qualité de recherche de Google. Ce score est calculé à partir des classements des évaluateurs de la qualité de la recherche. Il s’agit d’une « approximation de l’utilité pour l’utilisateur ».

Le score IS est toujours une mesure humaine. Le score provient de 16 000 testeurs humains répartis dans le monde entier.

goggle recherche classement 2024 pandu nayak
« …Une chose que Google pourrait faire est d’examiner les requêtes pour s’inspirer de ce qu’il pourrait avoir à améliorer. … Nous créons donc des échantillons de requêtes sur lesquels nous évaluons notre performance globale à l’aide de la mesure IS, et nous examinons – souvent – les requêtes dont l’IS est faible pour essayer de comprendre ce qui se passe, ce qui nous manque ici… C’est donc une façon de comprendre comment nous pouvons améliorer nos algorithmes. »
Nayak a fourni quelques éléments de contexte pour vous donner une idée de ce qu’est un point d’IS :

« Wikipédia est une source très importante sur le web, avec beaucoup d’informations intéressantes. Les gens l’apprécient beaucoup. Si nous retirions Wikipédia de notre index, complètement, cela entraînerait une perte d’IS d’environ un demi-point. … Un demi-point est une différence assez significative si elle représente toute la richesse de l’information de Wikipédia… »

IS, classement et évaluateurs de la qualité de la recherche

Les documents notés par les évaluateurs sont parfois utilisés pour entraîner les différents modèles de la pile de recherche Google. Comme indiqué dans la section Classement, les données des évaluateurs d’IS aident à former plusieurs systèmes d’apprentissage en profondeur utilisés par Google.

Même si certains utilisateurs ne sont pas satisfaits de l’amélioration de l’IS, « [dans le corpus des utilisateurs de Google] il semble que l’IS soit bien corrélé avec l’utilité pour les utilisateurs en général », a déclaré M. Nayak.

Google peut utiliser des évaluateurs humains pour expérimenter « rapidement » tout changement de classement, a déclaré M. Nayak dans son témoignage.

"Les changements ne changent pas tout. Ce ne serait pas une très bonne chose. La plupart des modifications ne changent donc que quelques résultats. Ils peuvent modifier l'ordre des résultats, auquel cas il n'est même pas nécessaire d'obtenir de nouvelles évaluations, ou parfois ils ajoutent de nouveaux résultats et vous obtenez des évaluations pour ceux-ci. Il s'agit donc d'un moyen très puissant d'itérer rapidement sur des changements expérimentaux".

M. Nayak a également donné quelques précisions sur la manière dont les évaluateurs attribuent des notes aux ensembles de requêtes :

"Nous disposons donc d'ensembles de requêtes créés de diverses manières en tant qu'échantillons de notre flux de requêtes où nous avons des résultats qui ont été évalués par des évaluateurs. Et nous utilisons ces ensembles de requêtes pour expérimenter rapidement tout changement de classement." 
"Supposons que nous disposions d'un ensemble de 15 000 requêtes. Nous examinons tous les résultats de ces 15 000 requêtes. Et nous les faisons évaluer par nos évaluateurs."
"En général, ces projets sont constamment en cours, de sorte que les évaluateurs ont déjà attribué des notes à certains d'entre eux. Il se peut que vous fassiez une expérience qui produise des résultats supplémentaires, et vous les ferez alors évaluer."
"La plupart des résultats qu'ils produisent ont déjà été évalués par le passé. Et il y aura des résultats pour lesquels ils n'auront pas d'évaluation. Nous les envoyons alors aux évaluateurs pour qu'ils nous disent ce qu'ils en pensent. Ainsi, tous les résultats seront à nouveau évalués et nous obtiendrons un score IS pour l'ensemble expérimental".

Autre découverte intéressante : Google a décidé de réaliser toutes les expériences avec des évaluateurs sur mobile, selon cette diapositive :

Problèmes liés aux évaluateurs

Il est demandé aux évaluateurs humains de « se mettre à la place de l’utilisateur type qui pourrait se trouver là ». Les évaluateurs sont censés représenter ce qu’un utilisateur général recherche. Mais « chaque utilisateur a clairement une intention, que l’on ne peut qu’espérer deviner », a déclaré M. Nayak.

Les documents de 2018 et 2021 mettent en évidence quelques problèmes liés aux évaluateurs humains :

Les évaluateurs peuvent ne pas comprendre les requêtes techniques.
Les évaluateurs ne peuvent pas juger avec précision de la popularité de quoi que ce soit.
Dans IS Ratings, les évaluateurs humains n'accordent pas toujours suffisamment d'attention à l'aspect fraîcheur de la pertinence ou ne tiennent pas compte du contexte temporel de la requête, ce qui entraîne une sous-évaluation des résultats frais pour les requêtes fraîches.

Une diapositive d’une présentation (Unified Click Prediction) indique qu’un million de notes IS sont « plus que suffisantes pour affiner les courbes via RankLab et le jugement humain », mais ne donnent « qu’une image à faible résolution de la façon dont les gens interagissent avec les résultats de recherche ».

Other Google Search evaluation metrics: Autres mesures d’évaluation de Google Search

Une diapositive datant de 2016 révèle que Google Search Quality utilise quatre autres mesures principales pour capturer l’intention de l’utilisateur, en plus de l’IS :

  • PQ (page quality)
  • Side-by-Sides
  • Live experiments
  • Freshness
Toutes les expériences de classement sont exécutées en direct (si possible
Mesure les clics longs pondérés par la position
L'équipe d'évaluation utilise désormais également l'attention

Freshness :

« Un aspect important de la fraîcheur est de s’assurer que nos signaux de classement reflètent l’état actuel du monde. (2021) Toutes ces mesures sont utilisées pour le développement, le lancement et le suivi des signaux.

Learning from users

Si l’IS ne fournit qu’une « image à faible résolution de la manière dont les internautes interagissent avec les résultats de recherche », qu’est-ce qui permet d’obtenir une image plus claire ?

Les clics.

Non, pas les clics individuels. Nous parlons de billions d’exemples de clics, selon la présentation de la prédiction unifiée des clics.

Le volume des données de clics pour cette situation particulière est donc à peu près égal au volume total de toutes les données d'évaluation humaines.
L'apprentissage de cette association n'est pas seulement possible à partir des données d'apprentissage, mais il est nécessaire pour minimiser la fonction objective.

Clicks in ranking Les clics dans le classement

Google semble assimiler l’utilisation des clics à la mémorisation plutôt qu’à la compréhension de la matière. C’est comme si vous pouviez lire tout un tas d’articles sur le référencement sans vraiment comprendre comment faire du référencement. Ou comment la lecture d’un livre de médecine ne fait pas de vous un médecin.

Voyons plus en détail ce que la présentation de la prédiction unifiée des clics a à dire sur les clics dans le classement :

Le recours aux commentaires des utilisateurs (« clics ») dans le classement a régulièrement augmenté au cours de la dernière décennie.
Afficher des résultats sur lesquels les utilisateurs ont envie de cliquer n’est PAS l’objectif ultime du classement des sites web. Cela aurait pour effet de
Promouvoir des résultats de qualité médiocre, des appâts à clics.
Promouvoir des résultats réellement attrayants mais qui ne sont pas pertinents.
Être trop indulgent à l’égard de l’optionnalisation.
Dévaloriser les pages officielles, promouvoir le porno, etc.

L’objectif de Google est de déterminer ce sur quoi les utilisateurs vont cliquer. Mais, comme le montre cette diapositive, les clics sont un objectif indirect :
Mais montrer des résultats sur lesquels les utilisateurs ont envie de cliquer se rapproche de notre objectif.
Et nous pouvons faire cette chose « presque juste » extrêmement bien en nous appuyant sur des trillions d’exemples de comportement des utilisateurs dans les journaux de recherche.
Cela suggère une stratégie pour améliorer la qualité de la recherche :
Prédire les résultats sur lesquels les utilisateurs vont cliquer.
Améliorer ces résultats.
Régler les problèmes de qualité des pages, de pertinence, d’optionnalité, etc.
Ce n’est pas une idée radicale. Ce n’est pas une idée radicale. Nous procédons ainsi depuis des années.

Les trois diapositives suivantes traitent de la prédiction des clics, toutes intitulées « Life Inside the Red Triangle » (La vie dans le triangle rouge). Voici ce que les diapositives de Google nous apprennent :
La « boucle interne » pour les personnes travaillant sur la prédiction des clics devient l’accord sur les données de retour d’information des utilisateurs. L’évaluation humaine est utilisée dans les tests au niveau du système.
Nous recevons environ 1 000 000 000 de nouveaux exemples de comportement d’utilisateurs chaque jour, ce qui permet une évaluation de haute précision, même dans les petites localités. Le test est le suivant :

Vos prévisions de clics ont-elles été meilleures ou pires que la base de référence ?

Il s'agit d'un objectif entièrement quantifiable, contrairement au problème plus vaste de l'optimisation de la qualité de la recherche. La nécessité d'équilibrer de multiples mesures et éléments intangibles est largement reléguée en aval.

La méthode d’évaluation consiste à « s’entraîner sur le passé, prédire l’avenir ». Cela permet d’éliminer en grande partie les problèmes d’ajustement excessif aux données d’entraînement.
L’évaluation continue porte sur des requêtes fraîches et sur l’index en direct. L’importance de la fraîcheur est donc intégrée dans la métrique.
L’importance de la localisation et d’une personnalisation plus poussée est également intégrée dans la mesure, pour le meilleur ou pour le pire.
Ce remaniement crée un problème d’optimisation monstrueux et fascinant : utiliser des centaines de milliards d’exemples du comportement passé des utilisateurs (et d’autres signaux) pour prédire le comportement futur d’un grand nombre de sujets.
Le problème semble trop vaste pour qu’un système d’apprentissage automatique existant puisse l’avaler. Nous aurons probablement besoin d’une combinaison de travail manuel, de réglage de RankLab et d’apprentissage automatique à grande échelle pour atteindre des performances optimales.
En fait, la mesure quantifie notre capacité à imiter un chercheur humain. On ne peut s’empêcher de penser au test de Turing et à la chambre chinoise de Searle.
Passer de milliers d’exemples de formation à des milliards change la donne…

Les commentaires des utilisateurs (c’est-à-dire les données sur les clics)

Chaque fois que Google parle de collecter des données sur les utilisateurs pendant un certain nombre de mois, il s’agit de toutes les « requêtes et de tous les clics qui ont eu lieu au cours de cette période », pour tous les utilisateurs, a déclaré M. Nayak.

Si Google ne lançait qu’un modèle américain, il entraînerait son modèle sur un sous-ensemble d’utilisateurs américains, par exemple, a expliqué M. Nayak. Mais pour un modèle global, il examinera les requêtes et les clics de tous les utilisateurs.

Tous les clics figurant dans la collection de journaux de session de Google n’ont pas la même valeur. De même, les données les plus récentes sur les utilisateurs, les clics et les requêtes ne sont pas toujours meilleures.

"Cela dépend de la requête... il y a des situations où les données plus anciennes sont en fait plus précieuses. Je pense donc qu'il s'agit là de questions empiriques pour savoir ce qui se passe exactement. Il y a clairement des situations où les données fraîches sont meilleures, mais il y a aussi des cas où les données plus anciennes sont plus précieuses", a déclaré M. Nayak.

Auparavant, M. Nayak avait indiqué qu’il existait un point de rendement décroissant :

"...Il y a donc un compromis en termes de quantité de données utilisées, de rendement décroissant des données et de coût de traitement des données. Il y a donc généralement un point idéal où la valeur commence à diminuer, où les coûts augmentent, et c'est là que l'on s'arrête".

The Priors algorithm

No, the Priors algorithm is not an algorithm update, like a helpful content, spam or core update. In these two slides, Google highlighted its take on “the choice problem.” 

“The idea is the score the doors based on how many people took it.

In other words, you rank the choices based on how popular it is.

This is simple, yet very powerful. It is one of the strongest signals for much of Google’s search and ads ranking! If we know nothing about the user, this is probably the best thing we can do.”

Google explains its personalized “twist” – looking at who went through each door and what actions describe them – in the next slide:

“We bring two twists to the traditional heuristic.

Instead of attempting to describe – through a noisy process – what each door is about, we describe it based on the people who took it.

We can do this at Google, because at our scale, even the most obscure choice would have been exercised by thousands of people.

When a new user walks in, we measure their similarity to the people behind each door.

This brings us to the second twist, which is that while describing a user, we don’t not [sic] use demographics or other stereotypical attributes.

We simply use a user’s past actions to describe them and match users based on their behavioral similarity.”

The ‘data network effect’

One final tidbit comes from Hal Varian email that was released as a trial exhibit. 

The Google we know today is a result of a combination of countless algorithm tweaks, millions of experiments and invaluable learnings from end-user data. Or, as Varian wrote:

“One of the topics that comes up constantly is the ‘data network effect’ which argues that

High quality => more users => more analysis => high quality

Though this is more or less right, 1) it applies to every business, 2) the ‘more analysis’ should really be ‘more and better analysis”.

Much of Google’s improvement over the years has been due to thousands of people … identifying tweaks that have added up to Google as it is today.

This is a little too sophisticated for journalists and regulators to recognize. They believe that if we just handed Bing a billion long-tail queries, they would magically become a lot better.”