Back to Question Center
0

Semalt: Hoe Darodar Robots.txt te blokkeren

1 answers:

Het bestand Robots.txt is een typisch tekstbestand dat instructies bevat over hoe webcrawlers of bots een site moeten crawlen. Hun toepassing is duidelijk in zoekmachines bots die gebruikelijk zijn in talloze geoptimaliseerde websites. Als onderdeel van het Robots Exclusion Protocol (REP) vormt het robots.txt-bestand een essentieel onderdeel van het indexeren van de website-inhoud en kan een server de gebruikersverzoeken dienovereenkomstig verifiëren.

Julia Vashneva, de Semalt Senior Customer Success Manager, legt uit dat linking een aspect is van Search Engine Optimization (SEO), waarbij verkeer wordt opgehaald van andere domeinen binnen uw niche. Voor de "follow" -links naar het overbrengen van link-juice is het essentieel om een ​​robots.txt-bestand op te nemen in de hostingruimte van uw website om op te treden als een instructeur van hoe de server op uw site reageert. Vanuit dit archief zijn de instructies aanwezig door toe te staan ​​of te verbieden hoe sommige specifieke user-agents zich gedragen.

Het basisformaat van een robots.txt-bestand

Een robots.txt-bestand bevat twee essentiële regels:

User-agent: [naam user-agent]

Disallow: [URL-string mag niet worden gecrawld]

Een volledig robots.txt-bestand zou deze twee regels moeten bevatten. Sommige ervan kunnen echter meerdere regels user-agents en richtlijnen bevatten. Deze opdrachten kunnen aspecten bevatten zoals toestemmingen, niet toegestaan ​​of crawl-vertragingen. Er is meestal een regeleinde die elke set instructies scheidt. Elk van de instructies voor het toestaan ​​of niet toestaan ​​van deze regel is gescheiden door dit regeleinde, met name voor het robots.txt-bestand met meerdere regels.

Voorbeelden

Een robots.txt-bestand kan bijvoorbeeld codes bevatten als:

User-agent: darodar

Disallow: / plugin

Disallow: / API

Disallow: / _comments

In dit geval is dit een robots.txt-blokbestand dat ervoor zorgt dat de Darodar webcrawler geen toegang heeft tot uw website. In de bovenstaande syntaxis blokkeert de code aspecten van de website, zoals plug-ins, API en de sectie met opmerkingen. Vanuit deze kennis is het mogelijk om vele voordelen te behalen door het effectief uitvoeren van het tekstbestand van een robot. Robots..txt-bestanden kunnen tal van functies uitvoeren. Ze kunnen bijvoorbeeld klaar zijn om:

1. Sta alle webcrawlers inhoud toe aan een webpagina. Bijvoorbeeld;

User-agent: *

Disallow:

In dit geval kan alle gebruikerscontent worden geopend door elke webcrawler die wordt gevraagd om naar een website te gaan.

2. Blokkeer een specifieke webinhoud van een specifieke map. Bijvoorbeeld;

User-agent: Googlebot

Disallow: / example-submap /

Deze syntaxis met de naam van de user-agent Googlebot is van Google. Het beperkt de bot van toegang tot elke webpagina in de tekenreeks www.ourexample.com/example-subfolder/.

3. Blokkeer een specifieke webcrawler van een specifieke webpagina. Bijvoorbeeld;

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

De user-agent Bing-bot behoort tot de webcrawlers van Bing. Dit type robots.txt-bestand beperkt de Bing-webcrawler om toegang te krijgen tot een specifieke pagina met de tekenreeks www.ourexample.com/example-subfolder/blocked-page.

Belangrijke informatie

  • Niet elke gebruiker gebruikt uw robts.txt-bestand. Sommige gebruikers kunnen beslissen om het te negeren. De meeste van dergelijke webcrawlers zijn Trojaanse paarden en malware.
  • Om een ​​bestand van Robots.txt zichtbaar te maken, moet dit bestand beschikbaar zijn in de websitemap op het hoogste niveau.
  • De tekens "robots.txt" zijn hoofdlettergevoelig. Daarom moet u deze op geen enkele manier wijzigen, inclusief het hoofdlettergebruik van sommige aspecten.
  • De "/robots.txt" is een openbaar domein. Iedereen kan deze informatie vinden door deze aan de inhoud van een URL toe te voegen. Indexeer essentiële gegevens of pagina's waarvan u wilt dat ze privé blijven, niet.
November 29, 2017
Semalt: Hoe Darodar Robots.txt te blokkeren
Reply