Si la directive NoIndex a été créée, c’est parce que son utilisation sert non seulement à orienter les robots des moteurs mais aussi à éviter les actions pénalisantes de ces derniers. Prenons l’exemple du duplicate content. Lorsqu’un moteur de recherche découvre dans son index des pages ou des parties de pages présentes sur différentes URLs, il passe à la pénalisation de certaines d’entre elles dans l’esprit de décourager le plagiat de contenus. Il y a pourtant des cas où la duplication de contenus est nécessaire, pour la publicité d’un produit sur plusieurs pages ou sur plusieurs sites par exemple.
Le moyen est alors donné au webmaster qui s’en occupe d’indiquer aux robots que telles et telles pages sont des duplicate contents donc à ne pas indexer et il peut aussi indiquer la page originale dont l’adresse est ce qu’on appelle URL canonique. NoIndex sert aussi à ne pas indexer les pages de résultats de recherche interne à un site web, les pages de pagination, les contenus protégés par les droits d’auteur et les pages en double catégorie. Il sert en outre à empêcher l’indexation pendant la phase où le webmaster met en ligne une page juste pour tester ses fonctionnalités. Il est important de faire la distinction entre NoIndex et Disallow. Le second est indiqué dans le fichier robots.txt et est une véritable instruction d’interdiction. Contrairement au NoIndex qui laisse les robots consulter le contenu de la page, le Disallow bloque totalement l’accès à la page. Il est essentiellement utiliser pour protéger des parties sensibles du site ou des contenus ne devant pas être consultés.