Die Entwicklung von Webseiten

Für die Fachschaft haben wir eine totes-Holz-Ausgabe des Konferenzbandes vom 22. Chaos Communication Congress gebastelt (22C3 Proceedings, PDF, knapp über 17 MB). Darin schreibt Isabel Drost zum Thema "Developing Intelligent Search Engines" und gibt als Referenz für Probleme mit Link Spam ein Paper an, das vom Titel her für das Hypertext-Seminar ganz interessant klang:

Fetterly, Manasse, Najork, Wiener: A large-scale study of the evolution of web pages. Das Paper erschien auch (falls der Link zu Microsoft Research mal sterben sollte) in "Software - Practice and Experience" 2004, 34: 213-237 und den "Proceedings of the International WWW conference" 2003.

Leider liefert das Paper wenig mehr als die von Drost verwendete Aussage zu Link Spam, vor allem keine Informationen darüber, wie sich die Autoren hinter den Seiten verändern. Die vier Autoren haben über 150 Millionen Seiten elf Wochen lang beobachtet und kommen (neben einer recht ausführlichen Diskussion von verfälschten Ergebnissen in der TLD .de durch einen Bot auf einer Porno-Seite, der Spidern bei jedem Zugriff eine neu generierte Seite vorsetzte) zu den Ergebnissen

  • Meist ändern sich Webseiten nur auf triviale Weise (d.h. es werden Fehler verbessert)
  • Große Dokumente ändern sich stärker als kleine

und, unglaublich überraschend, "past changes to a page are a good predictor of future changes". So weit so gut, aber aus diesen Daten hätte man noch viel interessantes rausholen können, etwa eine Analyse der für Linktexte verwendeten Worte. Obwohl die Office-Grafiken im Paper wirklich schön bunt sind ;-)