Content Scraping

Definition - Was bedeutet Content Scraping?

Das Scraping von Inhalten ist eine illegale Methode, um Originalinhalte von einer legitimen Website zu stehlen und die gestohlenen Inhalte ohne Wissen oder Erlaubnis des Eigentümers der Inhalte auf einer anderen Website zu veröffentlichen. Inhaltsschaber versuchen häufig, gestohlene Inhalte als ihre eigenen auszugeben, und geben den Eigentümern der Inhalte keine Zuordnung.

Das Scraping von Inhalten kann durch manuelles Kopieren und Einfügen erfolgen oder ausgefeiltere Techniken verwenden, z. B. spezielle Software, HTTP-Programmierung oder HTML- oder DOM-Parser.

Ein Großteil des Inhalts, der dem Scraping zum Opfer fällt, ist urheberrechtlich geschütztes Material. Das erneute Veröffentlichen ohne Erlaubnis des Copyright-Inhabers ist strafbar. Scraper-Sites werden jedoch auf der ganzen Welt gehostet, und Scraper, die aufgefordert werden, urheberrechtlich geschützten Inhalt zu entfernen, können einfach die Domains wechseln oder verschwinden.

Technische.me erklärt Content Scraping

Content Scraper können den Traffic auf ihre Websites lenken, indem sie qualitativ hochwertige, schlüsselwortreiche Inhalte von anderen Websites entfernen. Blogger sind dafür besonders anfällig, wahrscheinlich weil es unwahrscheinlich ist, dass einzelne Blogger einen legalen Angriff gegen Schaber starten. Schaber werden aufgefordert, diese Praxis fortzusetzen, da Suchmaschinen noch keinen wirksamen Weg gefunden haben, um eindeutigen Inhalt aus geschabten Inhalten herauszufiltern, sodass Schaber weiterhin davon profitieren können.

Website-Administratoren können sich durch einfache Maßnahmen vor dem Scraping schützen, z. B. durch Hinzufügen von Links zu ihrer eigenen Website innerhalb des Inhalts. Dies ermöglicht es ihnen zumindest, etwas Verkehr von abgekratzten Inhalten zu erhalten. Anspruchsvollere Methoden zum Umgang mit dem Scraping durch Bots umfassen:

  • Kommerzielle Anti-Bot-Anwendungen
  • Bots mit einem Honeypot fangen und ihre IP-Adressen blockieren
  • Blockieren von Bots mit JavaScript-Code