Noindex non significa che Google non indicizza il tuo sito web

Data: 18 Giugno 2024 Tempo di lettura: 7 minuti
Argomenti:

Noindex è un’opzione passata tramite meta-dati che comunica a Google di non mostrare nei risultati di ricerca quella determinata pagina del sito web. Non significa che quel contenuto non viene indicizzato ma che, seppure inserito nell’indice, non viene mostrato nelle SERP.

Spesso quando si va a creare un sito web e questo deve essere pubblicato, si tende a mettere tutto online indicandolo come noindex nella convinzione che Google non lo indicizzi. E nel mentre si passa alle rifiniture e ottimizzazioni SEO finali. Il tag robots noindex, tuttavia, non impedisce ai crawler di Google di effettuare l’indicizzazione del sito web.

Il sito web viene comunque scansionato e indicizzato ma non viene mostrato nell’indice, da qui il tag noindex. Vediamo cosa serve e come si blocca la scansione del sito web da parte dei motori di ricerca.

Cosa significa noindex

No-index informa Google che quella data pagina del sito web non deve essere visualizzata fra i risultati di ricerca (SERP). È una direttiva fatta passare attraverso un così detto meta tag (tag HTML per informazioni sulla pagina in questione) i cui attributi name e content hanno valori rispettivamente robots e noindex.

Qui di seguito un esempio di tag HTML con valore noindex:

<meta name="robots" content="noindex, follow">

Le pagine noindex sono quelle perennemente uguali in tutti i siti web e volte alla mera consultazione dell’utente come privacy policy, cookie policy, condizioni generali di vendita nei siti e-commerce e altre ancora. Non ha senso andare a mostrarle in indice in quanto irrilevanti in termini di posizionamento.

Guida completa a WordPress GDPR 2024 per mettere in regola il sito web
Da leggere

Ti spiego come mettere in regola il tuo sito WordPress per la GDPR

Come bloccare indicizzazione del sito da robots.txt

Premesso che un utilizzo privo di cognizione di queste direttive può avere effetti collaterali sulla SEO del tuo sito, qualora tu avessi una vera necessità di bloccare l’indicizzazione, puoi comunque passare dal file robots.txt.

# robots.txt - bloccare l'indicizzazione
User-agent: Googlebot
Disallow: /

Codice spiegato in parole semplici:

  • User-agent: Googlebot specifica che la direttiva vale solo per i bot di Google. Altrimenti scrivi un asterisco (*) per indircare tutti i bot di tutti i motori di ricerca.
  • Disallow: / indica a Google di non scansionare alcuna pagina o sottopagina del sito a partire dalla root (radice) del sito stesso. Insomma, non fare nessuna scansione.
Guida completa aggiornata e in italiano al plugin WordPress Yoast SEO, aggiornata al 2024
Guida completa
Guida completa aggiornata al 2024 per configurare il plugin Yoast SEO di WordPress

Come bloccare la scansione di tutto il sito web

Per impedire a Google di scansionare il sito web in modo totale, tassativo e categorico puoi inserire una password nella cartella di WordPress presso il tuo hosting. Puoi farlo tramite cPanel.

Questa è la soluzione migliore in quanto Google non ha le credenziali di accesso alla cartella WordPress. Pertanto, non può indicizzare il sito perché non lo vede proprio.

Bloccare la cartella con password da cPanel

Collegati al cPanel del tuo hosting WordPress. Vai alla sezione File > Privacy directory e fai click sulla cartella del tuo sito WordPress. A seconda dei casi potrebbe essere www, public_html o quella di un possibile sottodominio.

Come bloccare l'indicizzazione di un sito web da cPanel

Crea un utente e una password come fosse un ulteriore login. In questo modo puoi creare una Basic Auth per WordPress. Aggiungi l’utente creato nella sezione Authorized user e sei a posto. Questo di seguito è il risultato finale.

Come bloccare l'accesso al sito web da parte di Google
La Basic Auth impedisce a Google di vedere, scansionare e indicizzare il tuo sito

Usare il meta tag robots noindex nel modo giusto

Concludo. Ora sai a cosa serve il tag noindex e perché non blocca l’indicizzazione del contenuto da parte di Google e dei motori di ricerca. Al contrario, per ottimizzare le risorse proprio di Google nel corso delle varie scansioni sul tuo sito web, può essere utile andare a bloccare alcune risorse attraverso il file robots.txt, come nel caso del backend di WordPress.

Se invece hai necessità, magari per via un ambiente di test speculare al tuo sito web, di impedire ai bot di Google di trovare, scansionare e indicizzare il tuo sito (i contenuti duplicati sono deleteri per il posizionamento SEO) allora la cosa migliore da fare è ricorrere alla privacy delle directory e aggiungere una password alla cartella di WordPress così da non permettere in alcun modo a Google di vedere il tuo sito web. Almeno fino a nuovo ordine.