Google Dorks: Votre Allié Indispensable dans le Monde du Hacking Moderne

                                                 SOMMAIRE

Introduction



     Lorsque nous évoquons les Google Dorks ou le Google Hacking, il s'agit en réalité de techniques de recherche avancées appliquées au moteur de recherche Google. Ces approches d'investigation en ligne reposent sur le principe fondamental du ROSO (Renseignement d'Origine Source Ouverte ou OSINT en anglais), une méthodologie exploitant des sources ouvertes.


Dans ce guide, nous allons vous dévoiler comment exploiter pleinement les capacités de recherche de Google pour trouver des informations ciblées. Ces stratégies avancées de recherche permettent, de révéler des données normalement invisibles. Mais avant d'approfondir ces méthodes, il est crucial de comprendre le processus d'indexation des pages et du contenu par les moteurs de recherche.



Clause de non-responsabilité :Nous tenons à préciser que cet article est conçu à des fins éducatives. Nous déclinons toute responsabilité quant aux activités entreprises à partir des connaissances acquises grâce à ce contenu.


 II. L'indexation des pages et du contenu sur Google


       Les moteurs de recherche renferment des milliards de pages dans leurs index et ces pages sont restituées dans les résultats en fonction des requêtes des utilisateurs. Pour indexer ces pages, les moteurs de recherche font appel à ce que l'on appelle des "crawlers" (aussi appelés agents, bots ou robots).


Nous pouvons dire que les robots des moteurs de recherche sont capables de deux actions principales :


1. Analyser le contenu d'une page et enregistrer ses informations dans la base de données du moteur de recherche (processus d'indexation).

2. Suivre les liens présents sur une page pour accéder à d'autres pages, qui peuvent également être indexées.


Cependant, nous avons le contrôle sur la décision d'autoriser ou non le robot à indexer une page dans sa base de données. Pour cela, nous déployons à la racine de notre site web ou de notre application web un fichier appelé "robots.txt". Ce fichier contient les directives d'indexation que les robots doivent suivre.

Note : L'indexation des pages d'un site Internet repose également sur l'utilisation d'un fichier Sitemap. Ce fichier est conçu pour déclarer les pages à indexer, facilitant ainsi le travail des robots d'indexation.


        Dans l'exemple suivant, tous les User-agent, c'est-à-dire tous les robots, sont autorisés à accéder à tous les répertoires, à l'exception du contenu du répertoire "/wp-admin/". Ce répertoire est considéré comme sensible car il s'agit de l'interface d'administration sous WordPress.



 User-agent: *
 Disallow: /wp-admin/


De manière similaire, si vous avez des fichiers PDF hébergés sur votre site Web et que vous ne souhaitez pas qu'ils soient indexés, vous devrez inclure une règle spécifique à cet effet :

 User-agent: *
 Disallow: /*.pdf$

Il existe de nombreux robots différents. Par exemple, nous avons :

  • Google Images : Googlebot-Image,
  • Google : Googlebot,
  • Bing : Bingbot,
  • Qwant : Qwantify ou Qwant-news
  • DuckDuckGo : DuckDuckBot

Grâce au fichier robots.txt mentionné précédemment, il est possible de gérer les règles pour chaque robot, bien que cela soit généralement effectué de manière globale pour une cohérence d'ensemble. Il est important de noter que Google propose un outil en ligne pour tester son fichier "robots.txt", offrant ainsi un moyen pratique de vérifier ses règles.


Comme vous l'avez compris, un simple lien mal placé sur une page ou une gestion imprécise du fichier robots.txt peut entraîner l'indexation de pages ou de fichiers sensibles contenant des informations confidentielles. C'est à ce niveau que la notion de Google Dorks prend tout son sens !


Grâce aux Google Dorks, il est possible de dénicher des informations normalement cachées mais accessibles car indexées par Google. Les propriétaires de ces pages ne sont souvent pas conscients de leur indexation, ce qui peut potentiellement poser des risques sérieux et avoir des conséquences dommageables.

III. Que peut-on trouver avec les Google Dorks ?

      Comme nous l'avons mentionné précédemment, les Google Dorks permettent de mettre en lumière ce qui est normalement invisible ! Lorsque nous effectuons une recherche sur Google ou tout autre moteur de recherche, nous saisissons généralement une phrase ou quelques mots clés. Par exemple, "Qu'est-ce que les Google Dorks ?" ou "définition google dorks". En réponse, le moteur de recherche nous renvoie toutes les pages où il a trouvé ces termes, classant ces pages par pertinence grâce à ses algorithmes.


Il s'agit là de requêtes de base que nous utilisons au quotidien pour rechercher de l'information. Cependant, lorsque nous abordons le sujet du Google Hacking, nous effectuons des recherches beaucoup plus avancées, souvent associées à des investigations spécifiques.


Les possibilités offertes par les Google Dorks sont si vastes qu'il est impossible d'établir une liste exhaustive. Cependant, voici quelques exemples de ce que l'on peut découvrir grâce à ces techniques :


- Équipements non sécurisés exposés sur Internet : switchs, caméras, routeurs, imprimantes, etc.

- Fichiers sensibles : listes du personnel, listes d'utilisateurs et mots de passe, etc.

- Fichiers correspondant à des listes de prix (pricelist)

- Pages d'authentification sur des applications Web : espaces d'administration d'un site, PhpMyAdmin, etc.

- Serveurs exposés sur Internet et mal configurés, voire non configurés : page par défaut d'Apache, etc.


Lorsque nous utilisons les Google Dorks, nous pouvons effectuer des requêtes avancées pour obtenir des informations sans réel impact, mais aussi des requêtes à des fins offensives ou défensives. Les intentions derrière ces actions sont cruciales et l'éthique joue un rôle primordial !


Note : Il est vrai que nous avons tendance à parler principalement des Google Dorks, mais il est important de noter que d'autres moteurs de recherche prennent également en charge ces requêtes. Cependant, il est indéniable que Google est probablement le moteur de recherche le plus complet et le plus précis. Par conséquent, il est souvent préférable de l'utiliser dans le cadre d'une investigation. Cela dit, il peut être intéressant de comparer les résultats obtenus avec plusieurs moteurs de recherche.

IV. Google Dorks - Google Hacking : les opérateurs de recherche

         Nos recherches quotidiennes sont souvent simples et ne tirent pas pleinement parti de la richesse des moteurs de recherche. Les opérateurs de recherche sont des outils précieux qui permettent d'exploiter tout le potentiel de ces moteurs. Il est donc important de les maîtriser, et nous allons les découvrir à travers quelques exemples.


Prenons l'exemple que nous avons mentionné précédemment avec la requête :


"définitions google dorks"


Lorsque nous saisissons cette requête sur Google, nous obtenons plus de 5 millions de résultats. C'est impressionnant ! En réalité, Google retourne les résultats en considérant chacun des trois mots clés individuellement.


 

   En revanche, si nous modifions légèrement la requête comme ceci : "définitions "google dorks""  En entourant "google dorks" de guillemets, le nombre de résultats chute de plus de 5 millions à 253 000 ! Pourquoi ? Les guillemets indiquent au moteur de recherche de rechercher la phrase exacte et de ne retourner que les résultats incluant cette phrase précise. Ainsi, au lieu de chercher "google" et "dorks" séparément, le moteur de recherche recherche spécifiquement "google dorks", ce qui correspond précisément à ce que nous cherchons. Par conséquent, une page contenant les mots "google" et "dorks" séparément ne sera peut-être pas considérée comme pertinente.





Google propose une variété d'opérateurs de recherche qui permettent de peaufiner nos requêtes et d'obtenir des résultats précis. Celui que nous venons de voir est plutôt basique, mais il en existe d'autres bien plus puissants.


Voici une liste de quelques opérateurs de recherche très utiles et fréquemment utilisés :


- site:

Permet de rechercher sur un site spécifique ou de voir les pages indexées pour un site donné.

Exemple : site:it-connect.fr recherche les pages liées à Windows Server sur le site it-connect.fr.


- filetype:

Permet de rechercher des fichiers avec une extension spécifique.

Exemple : filetype:pdf CV recherche des fichiers PDF contenant le mot clé "CV".


- intitle:

Recherche des mots clés dans le titre de la page.

Exemple : intitle:"GLPI - Authentification" recherche des pages d'authentification GLPI.


- allintitle:

Similaire à intitle:, mais exige que tous les mots clés soient dans le titre de la page.


- inurl:

Recherche des mots clés dans l'URL de la page.

Exemple : inurl:/login.rsp recherche des caméras ou des enregistreurs vidéos (DVR).


- after:

Affiche uniquement les résultats référencés après une date spécifique.

Exemple : after:2021-05-01 pour des résultats datant après le 1er Mai 2021.

Il est important de souligner que plusieurs opérateurs peuvent être combinés dans une même requête. De plus, il est possible d'utiliser plusieurs valeurs possibles pour un même opérateur grâce à la directive "OR" (ou). Par exemple, on peut rechercher à la fois des fichiers DOCX et PDF contenant notre nom et notre prénom (à adapter en fonction de vos besoins) : 


 prenom nom filetype:docx OR filetype:pdf


Il existe également des mots clés un peu plus divertissants ! Par exemple, nous avons "movie:", qui permet de rechercher des films mettant en vedette un acteur spécifique.

 movie:will smith


V. Exemples Google Dorks - Google Hacking : GHDB

Bien que nous puissions créer nos propres requêtes en nous basant sur ce que nous avons vu précédemment ou en les combinant au mieux, il est bon de savoir que le site exploit-db.com propose une section appelée "Google Hacking Database" (GHDB, mis en place par Offensive Security), contenant plus de 6 500 requêtes Google Dorks différentes ! Cette base de données est régulièrement mise à jour par la communauté du site et constitue un véritable moteur de recherche pour les Google Dorks.


Pour cet exemple, nous allons utiliser une requête qui permet de rechercher des switchs NETGEAR référencés sur Google. Il est important de noter que ce cas n'est pas spécifique à NETGEAR, car des pages similaires peuvent être trouvées pour de nombreux autres fabricants. Le problème ne réside pas dans le fabricant en lui-même.




Nous allons simplement accéder à Google et entrer la requête Dork indiquée sur le site exploit-db.com. Cette requête retourne tout de même 282 résultats !


Mais que représentent ces résultats ? Il s'agit en fait d'interfaces d'administration de switchs NETGEAR, référencées sur Google ! Les URL affichées sont en réalité les adresses IP publiques auxquelles ces switchs sont accessibles. Certains switchs sont inaccessibles, tandis que pour d'autres, cela fonctionne !


Imaginons un instant un switch exposé de cette manière, vulnérable à des failles de sécurité, permettant à quiconque d'y accéder, etc. Les conséquences pour l'entreprise pourraient être graves. Cependant, nous pouvons adopter une approche plus éthique en cherchant à contacter le propriétaire du switch pour l'avertir et éviter ainsi tout problème. L'éthique doit toujours primer dans ce genre de situations !



Eh bien, celui-ci semble fonctionner... Nous voilà connecté à l'interface d'administration d'un switch !




Lorsqu'un équipement est référencé dans Google, son adresse IP correspond à l'URL du site. Pour vérifier si vous avez un équipement référencé sur Google, vous pouvez effectuer la requête suivante :



site:X.X.X.X


Où X.X.X.X correspond à votre adresse IP publique. Si vous en avez plusieurs, vous devrez répéter l'opération.


Si vous utilisez WordPress, vous pourriez également vérifier que votre interface d'administration n'est pas référencée dans Google :


inurl:/wp-admin/ site:<votre domaine>

Nous vous recommandons vivement d'utiliser les exemples de la base GHDB pour vous familiariser avec la syntaxe des opérateurs et la notion de Google Dorks.



Note : restez vigilant pendant vos recherches, notamment lorsque vous téléchargez des fichiers depuis un site.


VI. Conclusion


          En résumé, l'utilisation des Google Dorks est ouverte à tous! Pour trouver l'information recherchée, il faut faire preuve de créativité en imaginant la requête magique. Il est tout de même important de souligner que chaque moteur de recherche, y compris les réseaux sociaux, a ses propres mots-clés de recherche avancés. Maîtriser ces outils peut donner un réel avantage en permettant d'exploiter pleinement le potentiel des outils. Pour Google, la base de données du site exploit-db.com est déjà extrêmement importante.


Pour aller encore plus loin, des outils spécialement conçus pour utiliser les Google Dorks, tels que DorkMe et PaGoDo (Passive Google Dorks), sont disponibles.


Il est temps de passer à l'action en utilisant une session de Dorking défensive pour détecter d'éventuelles vulnérabilités qui pourraient impacter votre site Internet, vos serveurs ou vos équipements.


ENIX SARL May 10, 2024
Share this post
Tags
Archive
Intégration de la Sécurité avec le Développement (DevSecOps)
(DevSecOps)