Sekundäre Informationsstrukturierung : eine Methodologie zur Verbindung XML- und RDF-basierter Informationsmodellierung sowie ihre Anwendung auf linguistische Korpora

Sasaki, Felix

Ausgangspunkt der Arbeit ist die Methodologie der texttechnologischen Informationsmodellierung, die standardisierte Formate zur Modellierung von informationellen Ressourcen nutzt. Texte - als ein Beispiel einer informationellen Ressource - lassen sich auf verschiedenen, zumeist in hierarchischen Beziehungen zueinander stehenden Ebenen mit Informationen anreichern, wobei auf so genannte Auszeichnungssprachen wie XML (eXtensible Markup Language) zurückgegriffen wird. Die Eigenschaften von abstrakten, konzeptuellen Ressourcen ("Ontologien") hingegen lassen sich mittels RDF (Resource Description Framework) bzw. darauf aufbauenden Standards beschreiben. Die Verwendung von Auszeichnungssprachen zur Verarbeitung textueller Dokumente bezeichnet man als primäre Informationsmodellierung, die Modellierung abstrakter, konzeptueller Ressourcen geschieht auf einer konzeptuellen Ebene. Sekundäre Informationsstrukturierung verknüpft die Modellierungsinventarien, welche in der primären Informationsstrukturierung und in der konzeptuellen Ebene von Bedeutung sind, und erlaubt so eine Verbindung dieser beiden Formen von Informationsmodellierung. In der primären Informationsstrukturierung sind Regeln für den Aufbau von Dokumentklassen, d.h. Dokumentgrammatiken, und Strukturmuster in ausgezeichneten Dokumenten, so genannte Bedingungen relevant. Der Kern der Modellierung auf der konzeptuellen Ebene hingegen bilden Konzepte, die in eine Konzepthierarchie eingegliedert und durch interkonzeptuelle Beziehungen verbunden sind. Die sekundäre Informationsstrukturierung stellt nun eine Reihe vordefinierter Prädikate bereit, welche diese an sich heterogenen informationellen Ressourcen in logischen Aussagen aufeinander beziehen. Regel- und Bedingungsbeschreibungen werden in den Aussagen selektiert, in eine Konzepthierarchie integriert, und durch die Beschreibung interkonzeptueller Beziehungen zueinander bzw. zur konzeptuellen Ebene relationiert. Die Aussagen in der sekundären Informationsstrukturierung stellen eine intensionale, d.h. inhaltsseitige Beschreibung von Eigenschaften informationeller Ressourcen dar. Sie lassen sich operationalisieren in Hinblick auf ihre Extension bzw. ausdrucksseitige Beschreibung, d.h. in den informationellen Ressourcen selbst. Die vorliegende Arbeit definiert Operationen wie eine konzeptbezogene Suche, Validierung oder Transformation ausgezeichneter Dokumente in der primären Informationsstrukturierung.
Die Arbeit exemplifiziert die entwickelte Methodologie in der Domäne linguistischer, textueller Korpora. Zwei Themenbereiche stehen dabei im Fokus. Die Multidimensionalität der Sprache führt dazu, dass die integrierte Repräsentation verschiedener, linguistischer Auszeichnungsebenen in (textuellen) Korpora ein außerordentliches Problem darstellt. Hier ermöglicht es die sekundäre Informationsstrukturierung, Beziehungen zwischen den Ebenen separat zu den Auszeichnungen, d.h. als eine inhaltsseitige Beschreibung darzustellen. Die Auszeichnung tiefergehender Strukturen, d.h. nicht auf einzelne Auszeichnungssegmente beziehbarer linguistischer Phänomene, ist der zweite Bereich. Sekundäre Informationsstrukturierung macht diese Strukturen in Form von Aussagen über die impliziten Strukturen explizit. Die Methodologie leistet also in zweifacher Hinsicht einen substantiellen Beitrag zu einer linguistisch motivierten, korpusbasierten Informationsmodellierung.

Detailsuche

Bibliotheken

Projekt

Impressum

Datenschutz

Titelaufnahme