So faszinierend wie beunruhigend: Jemand organisiert akribisch all seine Gedanken mit einem ausgeklügelten Karteikartensystem. So habe ich mir das mit dem Bloggen eigentlich ursprünglich gedacht; die meisten Systeme sind auf kurze Notizen schlecht eingestellt. Trotzdem will ich mir nicht wieder Papier antun; dafür sind webbasierte Systeme zu praktisch.
Hypertext
Manchmal muss man’s manuell machen
Eigentlich hatte ich gehofft, einen großen Teil der Arbeit für mein Seminar zu Hypertexten automatisch erledigen zu lassen. Das wäre zwar (weil all die schönen Skripte ja auch erst geschrieben werden wollen) auch zeitaufwändig gewesen, aber wir hätten uns viel mehr Texte anschauen können — mir ist immer noch nicht wohl dabei, von einigen typischen Beispielen auf einen umfassenden Trend zu schließen. Die automatische Textklassifikation und -analyse scheint aber (immer) noch zu viele Probleme zu haben, um "einfach so mal eben" eingesetzt zu werden.
Die Analyse von Texten einfach nur mit statistischen Methoden (also Bayes-Klassifikation zur oder statt Textsortenklassifikation, oder der Versuch, Stiländerungen an statistischen Merkmalen wie Satzlänge und Linkfrequenz festzumachen) ist mir schon vor Weihnachten von Jemandem, der das wissen sollte, und einem Kollegen quasi ausgeredet worden. Na ja, nicht wirklich ausgeredet, aber nachdem ich mich auf einige fiese Probleme hinweisen lassen musste, ist mir dann aufgegangen, dass eine solche Analyse erstens ernsthaft viel Arbeit machen würde und zweitens auch nach der vielen Arbeit nicht allzu aussagekräftig wäre.
Schwierig ist dabei zunächst mal das Erstellen eines brauchbaren Korpus'. Die Texte müssten relativ homogen sein (denn eine Linkliste mit einem Fließtext zu vergleichen, macht natürlich auf keiner Analyseebene Sinn. In Linklisten stehen ja meist nicht einmal vollständige Sätze.), aber nicht so homogen, dass Änderungen im Internetumfeld an ihnen vorübergehen. Denken wir also ab hier mal an eine Sammlung von populärwissenschaftlichen Texten zur Erdgeschichte. Das ist ein Gebiet, in dem nicht so schnell neue Begriffe auftauchen wie z.B. in der Raumfahrt oder der Medizin, und "populärwissenschaftlich" schließt Fachvokabular aus.
Außerdem wäre es schön, wenn parallel dazu noch vergleichbare Texte auf Papier publiziert würden. Vergleichbare, aber nicht gleiche: Nur so kann man sich auch noch den Unterschied zum dead-tree-publishing anschauen. Klappt im Beispiel.
Dann muss man seine Analysemethoden kritisch anschauen: Bayes-Klassifikatoren eignen sich nur in sehr speziellen Ausnahmefällen dazu, Veränderungen an einer Textsorte über einen relativ kurzen Zeitraum zu analysieren. Meine Idee war, im Korpus eine zeitliche Lücke von - sagen wir mal - fünf Jahren zu lassen, so dass die Unterschiede recht deutlich ausfallen würden, und den Klassifikator danach zu fragen, anhand welcher Merkmale er die Texte nun in "alt" und "neu" sortiert hat. Dumm nur, dass die Wahrscheinlichkeit für eine Änderung im verwendeten Vokabular recht klein ist, viel eher würden sich wohl die Satzstrukturen ändern. Die Kreidezeit ist jetzt aber schon ein ganzes Weilchen die Kreidezeit...
Und dass Analysen zu Satzlänge und Linkfrequenz ihre Tücken haben, zeigen folgende Beispiele: Aufzählungen, die, von Kommata getrennt, mitten in verschachtelten, strukturell komplexen Sätzen auftauchen, wie "untere Trias", "mittlere Trias", "obere Trias", "schwarzer Jura", "brauner Jura", "weißer Jura" und so weiter, lassen einfache Algorithmen, wie natürlich auch menschliche Leser, kapitulieren. Und wenn in diesem Satz jetzt auch noch die einzelnen Epochen verlinkt werden...
The Electronic Labyrinth
Das "Electronic Labyrinth" habe ich noch nicht wirklich verstanden. Es scheint eine Arbeit aus den Zeiten zu sein, in denen man sich über Desorientierung im Hypertextumfeld noch freuen konnte...
Our project evaluates hypertext and its potential for use by literary artists in three ways:
1. By placing the development of hypertext in the context of the literary tradition of non-linear approaches to narrative. This context provides a means of re-evaluating the concept of the book in the age of electronic text. Specific points of investigation include Cortázar's Hopscotch, Nabokov's Pale Fire, Pavic's Dictionary of the Khazars, and Sterne's Tristram Shandy.
2. By investigating literary works created specifically for computerized hypertext. These include Joyce's Afternoon, A Story, McDaid's Uncle Buddy's Phantom Funhouse, and Wilmott's Everglade.
3. By evaluating the hardware platforms and software environments available to writers. Criteria include ease of use, availability, methods of distribution and publication, and the tools available to the writer and reader. Our emphasis is placed on the assumptions each environment makes of the writing and reading processes, the metaphors reinforced by the environment, and the freedom allowed the writer to explore new forms. We have focused on IBM-compatible and Apple hardware platforms, and reviewed such software as Eastgate System's Storyspace, Claris' HyperCard, IBM's Linkway, and Ntergaid's Hyperwriter.
Wenn man sich diese Projektziele so anschaut, ist mir das aber vielleicht auch einfach zu un-technisch.
Where World Wide Web Went Wrong
Andrew Pam kritisiert im Rahmen des Xanadu-Projekts Schwächen des World Wide Web: We are all aware by now of the phenomenal success of the WWW. In this paper I would instead like to examine some of the limitations inherent in the current WWW design and implementations and some possible solutions.
Sollte man mal lesen und auseinandernehmen.
Retro-Browsing in Bildern
Passend zu den "alten" Webseiten eben: Ein Screenshot des ursprünglichen HyperMedia-Editors von Tim Berners-Lee (CERN), implementiert für NeXTStep. Irgendwie nett, dass man sich mit GNUStep so was heute noch antun könnte - aber auch irgendwie nett, dass man sich das nicht mehr antun muss :-)
Retro-Surfen: Text und Links müssen reichen
Retro-Surfen: Archivkopie der ersten Webseiten. Überschriften, Absätze und Links. Wer braucht schon Layout?
Diese Seiten sind ein schöner Grund, nochmal genauer über die Trennung von Navigation und Inhalt nachzudenken, finde ich - solche Seiten sind für Robots nämlich schon fast trivial auszuwerten. Aktuelle Webseiten enthalten aber noch Navigations- oder Menüleisten, Suchfelder usw., und zwar in Containern, die direkt daneben auch Content enthalten können, also TDs oder DIVs. Absolut ekelhaft zu filtern, das dürfte eine automatische Textanalyse für das Seminar verhindern.
Some early ideas for HTML
Eine kurze Übersicht über die Geschichte von HTML (bzw. von Hypertexten) vom W3C - unter anderem mit dem interessanten Gedanken, dass die ersten Ursprünge des Hypertexts Marginalien und Fußnoten im mittelalterlichen Buchdruck waren. Mit einigen interessanten Links, aber leider nicht gerade ausführlich.
The original proposal of the WWW, HTMLized
Auf einer der Archivseiten beim W3C gibt's auch eine lesbare Kopie des Projektvorschlags von Tim Berners-Lee, der später zum WWW führte.
A hand conversion to HTML of the original MacWord (or Word for Mac?) document written in March 1989 and later redistributed unchanged apart from the date added in May 1990. Provided for historical interest only. The diagrams are a bit dotty, but available in versioins linked below. The text has not been changed, even to correct errors such as misnumbered figures or unfinished references.
Ob man in 15 Jahren die HTML-Kopie noch problemlos wird lesen können?
Mit Xanadu wär das auch passiert.
Jedenfalls vielleicht. Ich bin mir nicht ganz sicher, aber wenn man sich auf xanadu.com länger umschaut, hört man nicht nur auf zu verstehen, sondern auch zu glauben.
Mit Xanadu wär das nicht passiert
Weil ich mir, was das regelmäßige Verfassen von Blogeinträgen angeht, zu Recht mißtraue, habe ich ja jetzt endlich Spurl und Wordpress so weit verknüpft, dass neue Lesezeichen in bestimmten Kategorien sofort als Entwurf hier im Blog auftauchen und ich sie nur noch abschicken muss. Damit hätte sogar ich drei oder vier Posts pro Woche hinbekommen.
Irgendwie klar, dass so ein System gleich zu Anfang ausfallen muss, oder? Na ja. Dann bloggen wir halt von Hand.
Vielleicht wäre das mit Xanadu wirklich nicht passiert. Xanadu ist der Projektname eines schon 1960 angedachten Hypertextsystems, das aus den unterschiedlichsten Gründen (zu hohe Erwartungen, zu wenig Geld, überraschende Probleme mit der Weltrevolution) bis heute Vaporware blieb.
Bei Recherchen zu einem Nebenfachseminar zum Thema "Hypertextualität" bin ich über einen Artikel in den Archiven von Wired gestolpert, der diese fast tragische Geschichte wunderbar erzählt: The curse of Xanadu von Gary Wolf. Weil Wolf etwas zusammenhängender als der Protagonist von Xanadu schreiben kann, sollte man sich vor den "offiziellen" Webseiten diesen Artikel zu Gemüte führen, er ist ähnlich interessant wie der berühmte As We May Think von Vannevar Bush.
