Fișier WordPress Robots.txt pentru SEO: Ghid pas cu pas
Fișierul Robots.txt este una dintre cele mai importante date pe care le aveți pe site-ul dvs. Atât de esențial încât un fișier robot.txt scris incorect te poate tăia chiar și de la motoarele de căutare.
Deci, în acest ghid, vă voi arăta cum să creați un fișier robots.txt personalizat pentru dvs WordPress site-ul web.
SEO constă din mulți factori, dar nimic nu va funcționa dacă motoarele de căutare nu sunt capabile să acceseze cu crawlere site-ul dvs. Deci, înainte de a trece la robots.txt, trebuie să înțelegeți ce se întâmplă cu crawlere.
Ce este un motor de căutare crawler
Motoarele de căutare au programe numite crawler-uri, cunoscute și sub numele de „boți” sau „păianjeni web”.
Acești crawler-uri vizitează, scanează și citesc toate paginile web la îndemâna lor pentru a pregăti un index al motorului de căutare cu toate linkurile cunoscute, care include informații despre conținutul paginilor și alte informații.
Aceste crawler-uri lucrează pentru a parcurge toate rețelele web și pentru a descoperi noi postări, site-uri web și alte actualizări pe internet.
Crawlerele au un buget fix, o limită a cât de mult pot accesa cu crawlere un site web și timpul necesar pentru a face asta. – Aceasta este cunoscută drept limita sau bugetul ratei de accesare cu crawlere.
Depinde și de cererea de accesare cu crawlere: numărul de adrese URL și de pagini pe care un crawler dorește și trebuie să le acceseze cu crawlere pe site-ul dvs.
Dacă permiteți botului să acceseze cu crawlere părți inutile ale site-ului dvs. și este atinsă limita ratei de accesare cu crawlere sau dacă cererea este îndeplinită, acesta va părăsi site-ul dvs. și este posibil să nu acceseze cu crawlere paginile esențiale pe care doriți să le clasați pe Google.
Ce este Robots.txt
Crawlerele continuă să urmărească legăturile către orice altă pagină de pe un site web până când toate paginile au fost citite, iar robots.txt este folosit pentru a da crawler-ului instrucțiuni să oprească sau să controleze acest lucru.
Robots.txt le spune crawlerilor să părăsească un singur grup de pagini și linkuri de la accesare cu crawlere. Dacă nu sunt accesați cu crawlere de roboți, cel mai probabil nu vor apărea în paginile cu rezultate ale motorului de căutare.
Depinde de crawler. Dacă respectă instrucțiunile robots.txt, nu le poți forța.
Robots.txt este un fișier text situat în folderul rădăcină al serverului. Vezi exemplul.
Este cunoscut și ca „protocol de excludere a roboților și standard de excludere a roboților. Ei vorbesc și înțeleg un anumit limbaj cunoscut sub numele de protocol de excludere a roboților.
Când crawlerele motoarelor de căutare vă vizitează site-ul web, robots.txt este primul lucru pe care îl accesează cu crawlere. Fie va urma instrucțiunile date în fișierul dvs., fie va ignora.
Este mai puțin probabil ca crawlerul motorului de căutare să ignore instrucțiunile robots.txt, malware-ul sau boții „răi” îi vor ignora de fiecare dată și nu puteți face nimic pentru a le opri.
Bazele roboților.txt
Există câteva comenzi de instrucțiuni pe care trebuie să le cunoașteți, și anume:
- User-agent: *
- Permite: /
- Interzice: /
Cele 3 comenzi de bază de mai sus formează toate un fișier robots.txt.
Mai întâi, tastați un user-agent:
User-agent: *
Un asterisc după "agent utilizator" înseamnă că instrucțiunea robots.txt se va aplica fiecărui bot care vizitează site-ul web.
Când doriți să permiteți unui bot să acceseze cu crawlere o pagină a site-ului dvs., utilizați:
Permite: /
Când nu doriți ca nicio pagină să fie accesată cu crawlere, utilizați:
Interzice: /
De obicei, ați dori doar să interziceți anumite pagini, așa că trebuie să furnizați o adresă URL după bară oblică. Dacă pur și simplu utilizați comanda disallow, așa cum se arată mai sus, va împiedica crawlerele să acceseze cu crawlere oricare dintre paginile dvs. web.
Nu veți lăsa să se întâmple asta în majoritatea cazurilor, așa că, după comanda disallow, puneți o adresă URL pe care nu doriți să o acceseze cu crawlere.
Instrucțiunile de bază Robots.txt pentru un blog WordPress:
Mai jos am scris o comandă de bază a robots.txt pentru WordPress pe care o puteți copia și lipi pentru a o folosi pe blogul dvs.:
Agent de utilizator: * Nu permiteți: /wp-admin/ Permiteți: /wp-admin/admin-ajax.php
Este necesară utilizarea comenzilor de mai sus în robots.txt.
Robots.txt optimizat pentru SEO
User-agent: * Interzice: /cgi-bin/ Disallow: /wp-admin/ Disallow: /?* Disallow: /index.php Disallow: /xmlrpc.php
WordPress are pagina sa de conectare prin URL „/ Wp-admin”, iar această pagină nu are nicio valoare pentru motoarele de căutare. Este mai bine să le blochezi.
În mod similar, pagina „/index” este o pagină pe care nu veți dori să o afișați în motoarele de căutare, deoarece constă din fișierele dvs. aflate pe serverul dvs. Le blochezi si tu.
Apoi „/xmlrpc” este folosit pentru pingback-uri și trackback-uri în WordPress și ar trebui să adăugați și „/?*” în comanda disallow. Acesta va bloca roboții să scaneze rezultatele căutării interne și va ajuta la prevenirea paginilor duplicate și prea multe.
Acest lucru ajută la economisirea multor accesează cu crawlere bugetul.
Cum se creează un fișier Robots.txt
În primul rând, ar trebui să verificați dacă aveți deja un fișier robots.txt sau nu.
Mergi la "domeniul tău.com/robots.txt” a verifica.
* Înlocuiește „domeniul tău.com” cu adevăratul tău domeniu.
Dacă există deja un fișier robots.txt, îl puteți edita pur și simplu. Dacă nu există un fișier robots.txt pe serverul dvs., înseamnă că va trebui să îl creați.
O modalitate fără efort de a crea un fișier robots.txt pentru site-ul dvs. WordPress este prin instalarea Pluginul Squirrly.
Squirrly este un Plugin SEO care va crea automat un fișier robots.txt pentru site-ul dvs. la activare. Îl puteți edita accesând setările avansate:
Cu toate acestea, nu creează un robots.txt fizic, așa că dacă în viitor ștergeți acest plugin și datele sale, fișierul dvs. robots.txt se va pierde și el. WordPress creează un fișier virtual robots.txt pe serverul dvs., dacă nu există. Pentru a-l edita, puteți folosi fie Squirrly, fie Yoast.
Gazdele web ca CloudWays inițial vă va împiedica să editați fișierul robots.txt prin Plugin-uri SEO. Trebuie să contactați echipa lor de asistență sau să utilizați metoda FTP de mai jos.
Vă recomand să creați și să încărcați un fișier robots.txt pe serverul dvs.
1. Accesați serverul dvs. la nivel FTP.
Mai întâi ar trebui să instalați un client FTP pe computer pentru a vă accesa serverul de găzduire web. eu prefer FileZilla pentru a face asta.
Instalați Filezilla și conectați-vă la server folosind numele de utilizator și parola FTP/SFTP. Dacă nu știți despre ele, întrebați furnizorul dvs. de găzduire.
2. Găsiți fișierul robots.txt în public.html
Faceți clic pe folderul public.html din zona serverului dvs. FTP. Mai jos veți vedea fișierul robots.txt. Dacă nu aveți deja un fișier robots.txt, este posibil să nu îl vedeți. În acest caz, va trebui să creați unul.
3. Deschideți un editor de text
Notepad-ul ar funcționa. Deschideți Notepad pe computer și copiați/lipiți această instrucțiune robots.txt:
User-Agent: * Disallow: /wp-admin Disallow: /xmlrpc Disallow: /index.php
Permiteți: /wp-admin/admin-ajax.php
De asemenea, puteți adăuga sitemap-ul dvs. aici, dar nu este necesar să faceți acest lucru.
Salvați acest fișier text și denumiți-i roboți. Asigurați-vă că puneți extensia „.txt” și nu adăugați „.txt” în câmpul de nume.
4. Încărcați-l în rădăcina serverului dvs
Reveniți la Filezilla și faceți clic pe folderul public.html.
Trageți și plasați fișierul robots.txt în spațiul liber din partea stângă a ecranului computerului.
Asta e. Fișierul dvs. robots.txt este acum live.
Actualizare 2019: Google a anunțat recent că Eticheta Nofollow (rel=”nofollow) va fi tratat ca un indiciu. Aceasta înseamnă că Google poate sau nu onora eticheta Nofollow. Google a introdus două noi etichete numite „UGC (conținut generat de utilizatori)” și „sponsorizat”.
Eticheta rel=”UGC” poate fi folosită pentru conținutul generat de utilizatori, cum ar fi comentarii pe blog, link-uri de forum și eticheta rel=" sponsorizată” poate fi dat în judecată pentru link-uri afiliate și link-uri partenere. Puteți citi anunț oficial aici.
Sper că acum știți cum să pregătiți un fișier robots.txt optimizat pentru SEO pentru site-ul dvs. WordPress. Acum, crawlerele motoarelor de căutare nu vor accesa cu crawlere pagini inutile ale site-ului și blogului dvs., economisind bugetul de accesare cu crawlere.
Acest lucru le va permite să acceseze cu crawlere toate paginile pe care doriți să le clasați.
Spune-mi părerile tale în secțiunea de comentarii de mai jos.
Unul dintre cele mai bune ghiduri despre robots.txt pe care le-am citit. Este ușor de optimizat robots.txt acum, mulțumesc.
Grozav!
Folosim WordFence pe site-urile WordPress pe care le menținem, pentru a bloca roboții răi și pentru a-i clapa pe ceilalți care sunt prea agresivi.
Blocarea boților reduce și sarcina pe serverul nostru. Robots.txt sunt importante în multe privințe.
Foarte informativ articol. nimeni nu discută despre fișierul robot.txt, dar este un fișier important pentru WordPress.
Mulțumesc mult
Foarte binevenit 👍