Im ersten Teil habe ich die Idee des Projektes Zwei Welten vorgestellt, im zweiten Teil wie im Projekt Zwei Welten die Informationen mit Hilfe von XML Technologien extrahiert wurden und im dritten Teil die drei Hauptanwendungen Datenbank, Server und Client/Webseite beschrieben. In diesem letzten Teil fasse ich das Projekt noch einmal zusammen, gebe einen Ausblick auf mögliche Entwicklungen und liste die verwendeten Programme und Technologien auf.

Statische Live-Version des Projektes „Zwei Welten – Berlin damals und heute“.

Zusammenfassung

Für mich persönlich war es eine interessante Erfahrung, wie auf Basis einer einfachen Datenquelle eine mit Informationen versehene Webanwendung geschaffen werden kann. Dabei zeigt das Projekt „Zwei Welten“ nur den Anfang, was mit den zur Verfügung stehenden Datenquellen und Technologien möglich ist, was ich unter Ausblick noch weiter ausführen werde. Besonders deutlich wurde für mich, wie sinnvolle Annotationen (Tags) für die Stadtansichten die Qualität der daraus entstehenden Anwendung beeinflussen.

Die zu verwendenten Technologien XML Schema, XPath/XQuery, XSLT, SPARQL und REST wurden in dem Projekt sehr natürlich eingesetzt. Wobei aber auf XSLT zu Gunsten des sowieso schon eingesetzten XQuery auch hätte verzichten werden können, um die Abhängigkeiten des Projektes zu reduzieren.

Die Wahl eines Python Servers als Zwischenschicht hat uns etwas mehr Arbeit gemacht, als für die doch etwas begrenzte Datenmenge nötig gewesen wäre. Andererseits war es eine sehr lehrreiche Erfahrung und dank einer durchdachten Architektur, war der Code zur Erzeugung einer statischen Version der Webseite in nicht einmal einer halben Stunde geschrieben.

Ausblick

Im Zuge der Umsetzung des Projektes „Zwei Welten“ ergaben sich einige Punkte, die mit einem großzügigeren Zeitrahmen auch automatisch und/oder mit maschinellen Lernverfahren hätten umgesetzt werden können.

Weitere Informationen zum Bild

Bisher werden einige Informationen zu den Stadtansichten ignoriert. So wäre es zum Beispiel auch interessant Informationen zum Künstler, interessante Fakten zum Entstehungsjahr oder der verwendeten Technik anzuzeigen.

Annotationen korrigieren und verbessern

Als wichtigstes Element zur Informationsbeschaffung könnten die Annotationen automatisch erweitert und korrigiert werden. Zum Beispiel indem automatisch wichtige Stichwörter aus den Bildtiteln extrahiert und als Tags hinzugefügt werden. Aber auch umgekehrt könnten redundante Tags (Kind/Kinder, Pferd/Pferde/Reittier) identifiziert und automatisch entfernt werden.

Auch sind Tags für das Begreifen eines Bildes von unterschiedlicher Bedeutung. Im Kontext von Stadtansichten sind die dargestellten Gebäude und Plätze bezüglich des Informationsgehaltes weitaus wichtiger, als Reiter, Pferdekutschen oder Vogel, welche zur realistischeren Darstellung dem Gemälde hinzugefügt wurden. Die Tags könnten und sollten automatisch in entsprechende Kategorien eingeordnet und entsprechend in anderer Reihenfolge angezeigt werden, oder gegebenenfalls komplett ignoriert werden. Beispielsweise sind informative Texte und Bilder für Tags wie Akzise weitaus wichtiger, als für allgemeine verständliche Begriffe wie Kind, Mann und Frau.

Außerdem könnte auf Basis des Kontextes Stadtansichten von Berlin automatisch allgemeine und spezifische Begriffe verwendet werden. Also sowohl Informationen zu Stadtschloss und zu Stadtschloss Berlin gesucht und angezeigt werden. Umgekehrt könnten auch fehlerhafte Auflösungen identifiziert werden, also ein Wikipedia Eintrag zur Fischerhütte in den Alpen als unpassend zurechtgewiesen werden, da die Fischerhütte am Schlachtensee gemeint ist.

Texte und Informationen weiter analysieren

Viele Informationen sind in Wikipedia schon unter definierten Eigenschaften vorhanden und automatisch abrufbar. Aber gerade in weniger sorgfältig erstellten Wikipedia Artikeln ist es häufig notwendig, Informationen zum Beispiel zum Status eines Gebäudes (existiert es noch?) aus dem Text zu extrahieren.

Mit immer besseren Vernetzungen von Informationen via dem Semantischen Web, könnten sich auch mit maschinellen Lernverfahren weitere interessante Kontextinformationen identifizieren und mit anzeigen lassen, die beim händischen annotieren (taggen) der Stadtansichten vergessen oder ignoriert wurden. Vielleicht wurden Gebäude zu einem bestimmten Anlasse gebaut, haben den gleichen Architekten oder Auftraggeber, … Mit maschinellen Lernverfahren und einer Grundmenge an Annotationen (Tags) zu den einzelnen Bildern, könnten sicherlich noch weitere interessante und wichtige Informationen zu den Stadtansichten identifiziert werden.

Eignung der automatisch extrahierten Bilder

Wikipedia ist immer mal wieder für eine Überraschung gut. So werden als Vorschaubilder für die Wikipedia Artikel zu Mann und Frau jeweils Fotos einer komplett nackten Person zur Verfügung gestellt. Entsprechend beinhaltet die Webanwendung „Zwei Welten“ für die Tags Mann und Frau jetzt ebenfalls die automatisch extrahierten und entsprechend freizügigen Bilder. Dies sorgte Projektintern für eine kurze Diskussion, denn schließlich könnte dies einige Besuchern erschrecken, schockieren, …

Da ich das Projekt „Zwei Welten“ eher als Forschungsprojekt betrachte, gehören solche Ergebnisse zu den interessanten Aspekten, die nicht versteckt sondern zur Diskussion gestellt werden sollten. Daher wurden die Bilder in der Anwendung belassen. Bei der Abschlusspräsentation sorgte dieser Punkt für überraschtes Gelächter, was ich als Hinweis darauf deute, dass die Entscheidung richtig war.

Eingesetzte Sprachen, Bibliotheken, Programme, Tools und (XML-)Technologien

Informationsfluss und eingesetzte (XML-)Technologien im Projekt Zwei Welten

Der Informationsfluss und die eingesetzten (XML-)Technologien für das Projekt „Zwei Welten”

Sprachen und