Projekt- und Datengenese

Im Repertorium Saracenorum werden Berichte zu sog. Sarazenen aus dem Zeitraum des 7. bis 11. Jahrhunderts in aufbereiteter Form aufgenommen, um den Zugang zu ihnen zu erleichtern und weiterführende Forschungen zu gestatten. Um die erhobenen Daten informationstechnologisch auswerten zu können, wurden die Berichte ausgezeichnet und kategorisiert, alle genannten Personen und Orte erfasst.

Es handelt sich dabei im Einzelnen um Daten, die im Zuge der Bearbeitung des von 2013-2017 von der DFG geförderten Projektes „Saraceni, Mauri, Agareni, … in lateinisch-christlichen Quellen des 7. bis 11. Jahrhunderts“ unter Leitung von Matthias Becher an der Abteilung für Mittelalterliche Geschichte erfasst und in Zusammenarbeit mit dem Cologne Center for eHumanities (CCeH) für die Veröffentlichung in einem digitalen Content Management System aufbereitet und transformiert wurden.

Ausgewählt wurde mit Semantic MediaWiki ein open-source-Format, auf das mittels eines Webbrowsers zugegriffen werden kann, das offen und erweiterbar ist und kollaboratives Arbeiten zulässt, und das über seine durch Wikipedia bekannte Oberfläche benutzerfreundlich ist. Als Erweiterung (extension) von MediaWiki bietet Semantic MediaWiki außerdem die Möglichkeit die Texte mit semantischen Annotationen zu versehen, so dass die Daten mit Hilfe des Systems verknüpft, durchsuchbar und analysierbar gemacht werden. Ganz bewusst wurde für das Projekt nicht die Entwicklung neuer technischer Lösungen angestrebt, die weitergehende Ressourcen erfordert und zugleich den Aufwand für die zukünftige Betreuung und Pflege erhöht hätten. Stattdessen wird mit Semantic MediaWiki eine Lösung nachgenutzt, die einerseits durch ihre einfache Technologie dauerhaft vorgehalten werden kann, die aber andererseits als Teil der aktuellen ‚Semantic Web‘-Entwicklungen auf die Bedürfnisse auch komplexer geisteswissenschaftlicher Vorhaben ausgerichtet ist.

Datengrundlage

Grundlage für die Generierung der Daten waren zum einen sog. Suchbegriffen, die Hinweise auf die Relevanz eines Werkes bzw. eines darin überlieferten Berichts geben sollten und von den Bearbeiter*innen aktiv genutzt wurden, um Werke zu durchsuchen. Zu diesen Suchbegriffen zählten Namen von Gruppen, Personen und Orten, wie etwa Saraceni oder Agareni, aber auch Abd ar-Rahman oder Jerusalem. Berücksichtigt wurden dabei auch Schreibvarianten im Lateinischen und deutsche Übersetzungen. Zum zweiten wurde vorab eine Liste von Werke erstellt, die für die Bearbeitung im Projekt in Frage kamen: Grundlage hierfür bildete das gedruckte, mehrbändige Repertorium „Fontium Historiae Medii Aevi“, ein umfassendes bibliographisches Nachschlagewerk mittelalterlicher Quellen gedruckt vom Istituto Storico Italiano per il Medio Evo in Rom, und das online-Repertorium „Geschichtsquellen des deutschen Mittelalters“[1]der Bayerischen Akademie der Wissenschaften, das wiederum auf dem erstgenannten Repertorium aufbaut. Die Liste umfasste so rund 3000 Werke (Download Werkeliste als XLSX), die im Untersuchungszeitraum abgefasst wurden. Aus diesen wurden Werke für die Bearbeitung ausgewählt, für die eine hohe Relevanz zu erwarten war.

Datenstrukturierung

In Zuge der Aufnahme in das Repertorium Saracenorum wurde jedem Werk eine Nummerierung gegeben, alle aufgenommene Berichte wurden ebenfalls chronologisch durchnummeriert, so dass sich für die interne Verwaltung eine eindeutige Zuweisung der Berichte anhand zweier vierstelliger Nummern ergibt, so etwa „0001“ für das „Chronicon sive Gesta Saxonum“[/wiki/Chronicon_sive_Gesta_Saxonum], „0001-0001“ für den ersten Bericht über sog. Sarazenen im „Chronicon sive Gesta Saxonum“[/wiki/Chronicon_sive_Gesta_Saxonum_0001].

Anhand einer Vielzahl von relevanten Berichten wurde dann die Datenstrukturierung angelegt, getestet und angepasst. Im Rahmen der Projektarbeiten wurden insgesamt rund 140 Werke durchsucht und für knapp 70 von ihnen in sehr unterschiedlichem Umfang Berichte (hier zur eindeutigen Abgrenzung gegenüber den „Werken“ als „Quellenstellen“ bezeichnet) zunächst in einheitlich formatierten Word-Dokumenten aufgenommen.

Neben der Aufnahme der originalsprachlichen und übersetzten Textpassagen erfolgte innerhalb dieser Dokumente durch die Bearbeiter*innen eine Einordnung des Berichteten in zeitlicher („Datierung“), geographischer („Geographischer Bezug“) sowie inhaltlicher und thematischer Hinsicht („Auffälligkeiten“, „Interaktion“). Darüber hinaus wurden die aufgenommenen Berichte durch weiterführende Informationen angereichert und mit ähnlichen Berichten verknüpft („Anmerkungen“).

Datentransformation

In einem Folgeschritt wurde dann in Zusammenarbeit mit dem CCeH die Transformation der generierten Daten in das Semantic MediaWiki in Angriff genommen: Hierbei mussten zum einen die Daten für die Transformation aufbereitet werden, zum zweiten die Struktur des Wikis in Anlehnung an die in Word vorstrukturierten Daten aufgebaut werden.

Zu diesem Zweck wurden die Word-Dokumente zunächst in eine XML-Struktur überführt. Im Rahmen eines Hauptseminars von Øyvind Eide (Historisch-Kulturwissenschaftliche Informationsverarbeitung der Universität zu Köln, WS 2016/17; Titel: Experimentelle historische Informationssysteme: Testbedingungen und Aufbau digitaler mittelalterlicher Quellensammlungen) und Katharina Gahbler (Projektmitarbeiterin, Universität Bonn), in dem die Daten als praxisnahes Beispiel eingebracht wurden, entstanden ein Personen- und Ortsregister, die weiter genutzt werden konnten und im weiteren Verlauf des Projekts mittels Entitäten und IDs mit den Daten verknüpft wurden. Hier wurden aus dem Quellentext alle Personen und Orte sowohl standardisiert als auch in Schreibvarianten erfasst. Diese konnten im weiteren Verlauf des Projekts mittels Entitäten und IDs mit den Daten verknüpft wurden.

In einem späteren Arbeitsschritt wurden aus den im XML-Format vorliegenden Gesamtdaten auch ein VerfasserInnen-Register erstellt.

Datenanreicherung

Schließlich erfolgte die Anreicherung der XML-Datei durch externe Daten. In einem manuellen bzw. halbautomatisierten Verfahren wurden hierzu die Einträge im Ortsregister mit parallelen Einträgen von Getty Thesaurus of Geographic Names Online (TGN), die Einträge im Personen- und VerfasserInnen-Register mit der Gemeinsamen Normdatei der Deutschen Nationalbibliothek (GND) abgeglichen und die Datensätze mittels Übertrag der in den jeweiligen Normdatenbanken verwendeten IDs verknüpft. Bei diesem Prozess der „Entity Reconciliation“ kam die Software OpenRefine[2] im Zusammenspiel mit der lobid-gnd-Schnittstelle[3] des Hochschulbibliothekszentrums des Landes NRW zum Einsatz. Auf gleiche Weise wurde eine Verknüpfung der im Wiki aufgenommenen Werke mit Einträgen in der GND hergestellt. Anschließend wurden die Datensätze im Wiki in einem zum Teil vollautomatisierten Verfahren um Verknüpfungen zu parallelen Eintragungen im Virtual International Authority File (VIAF®) und bei Wikidata ergänzt.

Die von außen eingebundenen Daten werden im Wiki optisch hervorgehoben, um den Benutzer*innen deutlich zu machen, dass es sich hierbei nicht um selbst erhobene Daten handelt, vgl. die Beispiele für Personen und Orte, ‚Karl I. der Große‘ bzw. ‚Rom‘:

Aufbau der Wiki-Struktur

Die Strukturierung der Daten im Semantic MediaWiki wird zunächst durch die Gliederung in Werkseiten und daran geknüpfte Quellenstellenseiten für jeden einzelnen Bericht erreicht. Anhand von Probeseiten wurden anschließend der Aufbau aller Seiten vorangetrieben: Welche Informationen müssen in den Infoboxen angezeigt werden? An welchen Stellen helfen Karten, die Informationen besser einzuordnen? Welche Abfragen bieten sich auf den Kategorien-Seiten an, um den Benutzer*innen den Einstieg in die Quellensammlung zu erleichtern und bereits erste Auswertungsoptionen anzuzeigen?

Alle erfassten Informationen zu VerfasserInnen, Berichts- und Abfassungszeiten, Abfassungsorten, sowie weitere die Berichte inhaltlich strukturierende Daten wurden mittels der Kategorie- und Attributsfunktion von Semantic MediaWiki strukturiert und für die Auswertung vorbereitet. Diese werden anhand von Abfragen nun als eigene Übersichtsseiten angezeigt (so etwa „Ortsnennungen“, „Auffälligkeiten“).

Jede Visualisierung und Abfrage, die im Repertorium Saracenorum zu illustrativen Zwecken erfolgt und einen besseren Zugriff ermöglichen soll, darf daher nur mit der entsprechenden Vorsicht ausgewertet werden. Rückschlüsse, die auf Grundlage der vorliegenden Daten gezogen werden, sind ggf. nicht für den gesamten Untersuchungszeitraum aussagekräftig, weil die Datengrundlage nicht ausreichend repräsentativ bzw. präzise ist. Mit zunehmender Datenerhebung werden die getätigten Abfragen und Visualisierung präziser.

Grafik der Projekt- und Datengenese:

Editorische Anmerkungen

Technisch betrachtet wurden die bestehenden Projektdaten, die wie gesagt hauptsächlich in strukturierten Textdokumenten vorlagen, mittels einer XML-Masterfassung in das relationale Datenbanksystem überführt, das MediaWiki zugrunde liegt. Dabei wurden alle Strukturen des bisher implizit gegebenen Modells bewahrt und publikationsseitig als Seitengliederung, Infoboxen, Kategorien- und Attributsystem ausgeformt. Die Besonderheit des Semantic MediaWikis liegt dabei in der Modellierung expliziter semantischer Aussagen. Während im Laufe des Projektes die Forschungsdaten zunächst separat erhoben und erst anschließend in die Wiki-Struktur integriert wurden, kann die künftige Erweiterung des Repertoriums Saracenorum durch weitere Werke und Quellenstellen ab seiner Freischaltung direkt online erfolgen. Die Editierung und Visualisierung der Daten erfolgt so mit Beginn der Datengenerierung.

Mit der Speicherung der Projektergebnisse in einem gängigen Datenbanksystem mit einfacher Benutzer*innen-Oberfläche ist eine dauerhafte Publikation als bearbeitbares und lesbares, zugleich hypertextuelles Repertorium gegeben, das zudem durch Verknüpfungen mit externen Informationsquellen angereichert worden ist. Für systematische analytische Nutzungsszenarien stellt das MediaWiki-System Schnittstellen zur Abfrage und zur Extraktion von Informationen bereit. Schließlich ist auch die Bereitstellung der Informationen in TEI-XML geplant, sodass die reinen Forschungsdaten konvergent zum vorherrschenden Standard in den digitalen Geisteswissenschaften vorliegen werden und damit auch unabhängig vom Publikationssystem zu nutzen sind.

Dokumentation der Ausgangsdaten (XML)

Register – VerfasserInnen, Personen, Orte

Unterschieden wurde im Repertorium Saracenorum zwischen in den Berichten genannten Personen und VerfasserInnen der Werke.

Beide Gruppen sind im Register separat erfasst. Für jeden Datensatz wurde eine ID (<Id/>) hinterlegt die genannten Namen sowie in den Berichten überlieferten Schreibvarianten (<Name/>, <Alternativnamen/>) aufgenommen (hier finden sich auch deklinierte Personennamen), für die in den Quellenstellen erwähnten Personen außerdem ihre Funktionen (<Rolle/>). Angereichert wurde der Eintrag mit OpenData der GND (Gemeinsame Normdatei der Deutschen Nationalbibliothek), dem Dienst VIAF® (Virtual International Authority File) und Wikidata (<gnd_Id/>, <viaf/>, <wikidata_ID/>); diese externen Daten sind im Repertorium Saracenorum optisch kenntlich gemacht (vgl. Abb. oben). Für die Verfasserinnen und Verfasser sind darüber hinaus Lebensdaten (<Lebensdaten/>), sofern überliefert, erfasst und als Metadaten hinterlegt.

<Orte/>

Auch alle in den Quellenstellen genannten Orte wurde erfasst und in einem Register verwaltet. Für jeden Datensatz wurde eine ID (<Id/>) hinterlegt und die genannten Namen sowie Schreibvarianten (<Name/>, <Alternativnamen/>) aufgenommen, so dass sich unter den ‚Alternativnamen‘ auch deklinierte Ortsnamen finden. Darüber hinaus wurden die Orte typisiert (<Typ/>), d. h. festgehalten, ob es sich um (bewohnte) Orte/Städte, Flüsse/Gewässer, Regionen, Berge/Gebirge oder Klöster handelt. Angereichert wurden die Einträge – sofern verfügbar – mit OpenData des Getty Thesaurus of Geographic Names Online; diese externen Daten sind im Repertorium Saracenorum optisch kenntlich gemacht (vgl. Abb. oben). Mit Hilfe von Anmerkungen (<editorial_notes/>) sind Besonderheiten für den Datensatz festgehalten, so etwa, wenn ein Ort nicht identifiziert werden konnte (<notes/note/>) oder wenn vom Eintrag im TGN abweichende Koordinaten des Ortes ermittelt wurden (<coordinates/>).

Werk-Seiten

Alle Werke (<Dokumente/>) wurden mithilfe einer ID nummeriert (<WerkID/>). Alle überlieferten Werktitel (<WerkTitel/>,<Alternativtitel/>) und die Verfasserinnen und Verfasser (<Autoren/>) wurden registriert; der Bezug zum Register wird mittels der ID festgehalten. Werkspezifisch werden die Lebensdaten der Verfasser*innen (<LebensdatenVerfasserIn/>) vermerkt, ebenso der Abfassungszeitraum (<Abfassungszeitraum/>) als Datum (<Datum date="">) sowie Berichtszeitraum (<Berichtszeitraum/>, ebenfalls als Datum), Abfassungsort (<Abfassungsort/>) und –region (<Region/>). Zur verwendeten Edition wurde der Titel (<Editionshinweise/>) vermerkt inklusive eines Links, sofern ein Digitalisat der Edition online verfügbar ist. Ausführlichere Informationen zum Werk werden in einem kürzeren Text mit weiterführenden Literaturhinweisen festgehalten <Werkinformation/>, sowie die über OpenData verfügbaren Daten der GND (Gemeinsame Normdatei der Deutschen Nationalbibliothek), dem Dienst VIAF® (Virtual International Authority File) und Wikidata (<gnd_Id/>, <viaf/>, <wikidata_ID/>) ergänzt.

Die einem Werk zugeordneten Kategorien werden im Semantic MediaWiki am Ende einer Seite aufgeführt. Alle Informationen zum Werk, die mittels eines Attributs angelegt wurden, werden innerhalb einer sog. fact-box (eine MediaWiki extension) unter „Fakten“ ebenfalls hier zusammenfassend angezeigt.

Quellenstellen-Seite

Jede Quellenstelle (<Quelle/>) ist je einem Werk zugeordnet und nummeriert worden (<QuellenId/>). Mithilfe einer Kurzzitation wird hier auf die verwendete Edition hingewiesen (<Zitation/>). Inhaltlich greifbar wird der Bericht nun über eine Inhaltsangabe (<Inhaltsangabe/>), den überlieferten lateinischen Text (<VolltextOriginalsprache/>) und eine Übersetzung der Textstelle, sofern sie vorliegt (<VolltextUebersetzung/>), samt Beleg (<ZitationUebersetzung/>). Bei den überlieferten, zeitlichen Angaben wurde unterschieden zwischen der in der Quellen hinterlassenen Angabe (<Dokumente/>) und einer Datierung (<Dokumente/>), die als Datum (<Datum date=""/>) festgehalten ist. Berichts- und Abfassungszeiträume (<Berichtszeitraum/>,<Abfassungszeitraum/>) sind noch einmal davon abgesetzt.

Ausgezeichnet wurden die Quellenstellen weiterhin anhand:

<editorial_notes/>

Weiterhin wurden in den Quellenstellen genannte Orte und Personen annotiert, indem in den Volltexten (<VolltextOriginalsprache/>,<VolltextÜbersetzung/>) jeweils Entitäten (<Entitaeten/>) vom Typ „Ort“ und „Person“ hinterlegt und anhand von IDs identifiziert wurden; sie verweisen so auf entsprechende Einträge für jede Entität in den Registern.

Dokumentation des Datenmodells im Wiki

Neben der Hauptseite bietet das Wiki Inhalts- sowie Übersichtsseiten. Im Sinne eines Best-Practice-Ansatzes für die Strukturierung von Semantic Wiki-Systemen wurden „ist ein“-Beziehungen mittels Kategorien definiert. Sie dienen im Wiki-System dazu, Objekte, die thematisch zusammengehören, zu gruppieren und auf speziellen Seiten darzustellen. Im Repertorium Saracenorum werden Kategorien genutzt, um insbesondere Werk-Seiten (Kategorie:Werk) und Quellenstellen-Seiten (Kategorie:Quelle) zu gruppieren. Aber auch das Repertorium Saracenorum selbst ist bereits eine Kategorie (Kategorie:Repertorium Saracenorum) mit insgesamt acht inhaltliche Unterkategorien.

Der Kategorienbaum sieht aus, wie folgt:

Repertorium Saracenorum
- Werk
- Quelle
- VerfasserIn
- Person
- Geographie
  - Berg‎
  - Gewässer‎
  - Kloster
  - Ort‎
  - Region‎
- Abfassungsregion
  - Britische Inseln
  - Iberische Halbinsel
  - Italienische Halbinsel
  - Osteuropa
  - Skandinavien
  - West- und Mitteleuropa
  - West- und Mitteleuropa – Ostfrankenreich
  - West- und Mitteleuropa – Westfrankenreich
- Auffälligkeit
- Schlagworte

Beschreibungsseiten, die zu den Kategorien gehören, führen alle Seiten (etwa alphabetisch) geordnet auf, die auf diese Kategorien verweisen. So etwa zeigt die Beschreibungsseite der Kategorie „Berg“ unter „A“ als ersten Listenpunkt „Alpen“ an. Bei Klick auf das Wort erfolgt die Öffnung einer Seite, die eine Kurzbeschreibung von „Alpen“ nach dem Getty Thesaurus of Geographic Names enthält und darunter alle (Orts-)Nennungen von „Alpen“ auf den Quellenstellen-Seiten anzeigt. Ein Blick auf die Kategorien-Zeile verrät neben der Oberkategorie „Geographie“ auch, dass „Alpen“ zudem der Kategorie „Ort“ angehört. De facto handelt es sich bei dieser Überblicksseite um die Weiterleitung auf eine Seite „Alpen“, auf der mittels einer automatisch generierten Abfrage, die als Template hinterlegt ist, der tabellarische Überblick gegeben wird, denn „Alpen“ ist auch als Wert den Attribute „Geographischer Bezug“ und „Ort“ zugeordnet (zu Attributen s. u.). Das heißt, mit Hilfe der doppelten Zuordnung können die Funktionen der Wiki-internen Kategorien- und Attribut-Verbindungen optimal ausgenutzt werden.

Zu benennende semantische Verknüpfungen wiederum werden als Attribute festgeschrieben. Die Strukturierung mittels Attribute (properties) im Semantic MediaWiki bietet dabei die Möglichkeit, Beziehungen, die für Menschen aus Text herauslesbar sind, als Struktur und damit maschinenlesbar zu hinterlegen - gewissermaßen als „Beziehungsnetz“, das hinter den für die Nutzer*innen interessanten Artikeln gespannt wird, inhaltliche Abfragen ermöglicht und Bezüge zwischen den Quellen-Berichten sichert. So etwa wird eine Quellenstellen-Seite durch das Attribut „gehört zu“ einem Werk eindeutig zugeordnet. Das heißt auch, dass die Gruppierung mittels Kategorie immer in einer Ebene der Objekthierarchie erfolgt. Darüber hinaus helfen die Attribut-Zuordnungen dabei, die Übersichtsseiten, die den Benutzer*innen zur Navigation im Repertorium Saracenorum dienen, inhaltlich zu füllen, d. h. zu Informationsträger zu machen: Diese Seiten müssen so nicht einzeln und manuell inhaltlich gefüllt werden, sondern das Wissen, welches die Nutzer*innen auf den Informationsseiten vorfinden, wird durch automatisierte Abfragen der Objekte in semantischen Verknüpfungen aggregiert, die mittels Templates vorbereitet werden (etwa „Person“, „Ort“, „Auffälligkeit“, „Schlagworte“). Mit OpenData werden sie darüber hinaus mit weiteren Daten angereichert, so dass die Nutzer*innen eine weitgefächerte Informationsseite erhalten und sich (auch über Drittseiten) weiter informieren können. Orte können so mittels ihrer Koordinaten auch visuell auf einer Weltkarte angezeigt werden.

Auf den Werk- und Quellenstellen-Seiten sind die zugeordneten Attribute wiederum mit Hilfe der Funktion „Fakten“ (fact box), die jeweils am Ende der Seite alle Attribute und die seitenspezifischen Attributwerte anzeigt, transparent und einsehbar.

Kategorien

Kategorie	Bezeichnung	Typ/Klasse für Seite	Attribute, die sich auf Seite/Entität beziehen
Werk	schriftliche Überlieferung, die (komplett oder anteilig) Untersuchungszeitraum abgefasst wurde	Werk-Seite	`Quelle`aus dem Werk, hat Unterobjekt `BerichtszeitraumBeginn`,`BerichtszeitraumEnde`, hat Unterobjekt `AbfassungszeitraumBeginn`,`AbfassungszeitraumEnde`
Quelle	einem Werk zuzuordnender, überlieferter Bericht bzw. Quellenstelle als Text(ausschnitt), in dem über Sarazenen berichtet wird	Quellenstellen-Seite	hat Unterobjekt `ZeitangabeBeginn`, `ZeitangabeEnde`
Person	in einer Quellenstelle genannte Person	Person-Seite	`Quelle` nennt Person
Geographie	Orte und Regionen, an denen sich das berichtete zutrug bzw. die im Text erwähnt werden	Geographie Unterkategorie-Seiten	ist Topkategorie von `Region`, `Gewässer`, `Berg`, `Kloster`, `Ort`
Abfassungsregion	Großregion, in der ein Werk abgefasst wurde	Abfassungsregion-Seite	`Werk` gehört zu
Abfassungsort	Abfassungsort eines Werkes	Abfassungsort-Seite fällt zusammen mit Ort-Seite, Kloster-Seite oder Region-Seite	`Werk` abgefasst in
Auffälligkeit	thematische Einordnung eines Berichts mittels inhaltlicher Schlagwörter	Aufälligkeit-Seite	`Quelle` berichtet von
Schlagworte	relevante Schlagwörter, die in der Quellenstelle genannt werden und anhand derer sie im Zuge der Bearbeitung als relevant eingeschätzt wurde	Schlagwort-Seite (geographisches Schlagwort kann mit `Region`, `Gewässer`, `Berg`, `Kloster`, `Ort` zusammenfallen)	`Quelle` hat relevante Schlagworte
VerfasserIn	Person(en), von der/denen das Werk abgefasst wurde	VerfasserIn-Seite	`Werk` abgefasst von
Ort	bewohnter Ort/Stadt, Unterkategorie von Geographie	Ort-Seite (Geografikum)	`Werk` abgefasst in, `Quelle` nennt Ort
Kloster	Unterkategorie von Geographie	Ort-Seite (Geografikum)	`Werk` abgefasst in, `Quelle` nennt Ort
Region	Unterkategorie von Geographie	Ort-Seite (Geografikum)	`Werk` abgefasst in, `Quelle` nennt Ort
Gewässer	Unterkategorie von Geographie	Ort-Seite (Geografikum)	`Quelle` nennt Ort
Berg	Unterkategorie von Geographie	Ort-Seite (Geografikum)	`Quelle` nennt Ort

Attribute

Attribute im Semantic MediaWiki enthalten stets einen oder mehrere Werte. So etwa enthält das Attribut „abgefasst in“ für das Werk „Chronicon sive Gesta Saxonum“ den Wert „Merseburg“. Alle Informationen zum Werk, die mittels eines Attributs angelegt werden, können in einer sog. fact-box (eine MediaWiki extension) unter „Fakten“ zusammenfassend am Ende einer Seite angezeigt werden.

Folgende Attribute wurden angelegt:

Attribut	Bezeichnung	Wiki Datentyp	Vorkommen auf Wiki-Seite
Abfassungsregion	führt die Großregion auf, in der das Werk entstanden ist	Page	Werk
Abfassungszeit	nennt den Zeitraum bzw. die Zeiträume der Abfassung des Werks	Text	Werk
AbfassungszeitraumBeginn	Beginn des Abfassungszeitraums	Date	Werk
AbfassungszeitraumEnde	Beginn des Abfassungszeitraums	Date	Werk
abgefasst in	bezieht sich auf den Abfassungsort des Werks oder Berichts	Page	Werk, Quellenstellen
abgefasst von	führt die/den VerfasserIn bzw. die Verfasser*innen des Werkes auf	Page	Werk, Quellenstellen
Alternativnamen	Alternativnamen einer Person, einer VerfasserIn oder eines Ortes	Text	Ort, Person, VerfassserIn
aus dem Werk	stellt den Bezug zum historisches Werk her, in dem der Bericht überliefert ist	Seite	Quellenstellen
berichtet von	bietet eine thematische Einordnung des Berichts	Text	Quellenstellen
Berichtszeitraum	nennt den Zeitraum, über den das Werk berichtet	Text	Werk
datiert auf	verweist auf die Datierung des Berichts, d. h. zeitliche Einordnung nach wissenschaftlichen Gesichtspunkten	Text	Quellenstellen
Datum laut Werk	gibt die zeitliche Einordnung des Berichts durch die/den VerfasserIn des Werkes wider, die sich durchaus von der Datierung unterscheiden kann	Text	Quellenstellen
geographischer Bezug	benennt Orte und Regionen, an denen sich das berichtete zutrug bzw. die im Text erwähnt werden	Page	Quellenstellen
getty coordinates	Koordinaten des Ortes aus dem Getty Thesaurus of Geographical Names	Geographic coordinates	Ort
getty coordinates editorial	Koordinaten des Ortes, hinzugefügt durch die BearbeiterInnen hinzugefügt, Korrektur der in TGN hinterlegten Koordinaten	Geographic coordinates	Ort
getty id	Id im Getty Thesaurus of Geographic Names	Text	Ort
GND id	Id in der Gemeinsamen Normdatei	Text	Person, Ort, VerfasserIn, Werk
Individuen	zeigt an, ob in der in der Quellenstelle Einzelpersonen erwähnt werden (unterscheidet zwischen Sarazenen und anderen Personen)	Text	Quellenstellen
Inhaltsangabe	bietet eine ausformulierte Inhaltsangabe des Berichts	Text	Quellenstellen
Interaktion	gibt den Hinweis darauf, ob im vorliegenden Bericht eine Interaktion zwischen lateinischen Christen und Sarazenen zur Sprache kommt	Text	Quellenstellen
Kollektive	nennt in der Quellenstelle erwähnte Personengruppen (unterscheidet zwischen Sarazenen und anderen Personen)	Text	Quellenstellen
Ort	nennt in der Quellenstelle erwähnte geographische Bezugspunkte	Page	Quellenstellen
Person	nennt in der Quellenstelle genannten Personen namentlich	Page	Quellenstellen
relevante Schlagworte	nennt Begriffe, die in der Quellenstelle genannt werden und anhand derer sie im Zuge der Bearbeitung als relevant eingeschätzt wurde	Page	Quellenstellen
Rolle	Position, Funktion oder Amt einer Person	Text	Person
Sarazenenbezug	stellt fest, ob das Werk relevante Berichte für das Repertorium Saracenorum bereit hält	Text	Werk
Werk	nennt den Werktitel	Page	Werk
Werknummer	nennt die vierstellige interne Zählung des Werks	Text	Werk
Wikidata description	Beschreibung aus Wikidata	Text	Person, VerfasserIn
Wikidata id	Id in Wikidata	Text	Person, VerfasserIn
ZeitangabeBeginn	Datierung des Berichtsbeginns	Date	Quellenstelle
ZeitangabeEnde	Datierung des Berichtsendes	Date	Quellenstelle
Zitation	nennt die verwendete Edition des Werks	Text	Werk, Quellenstellen

Unterobjekte für Datierungs-Attribute

Eine Besonderheit bilden die Attribute für die maschinenlesbare Angabe von Zeiträumen für die Datierung. Datierungen im bearbeiteten Zeitraum lassen sich auf Grund der Überlieferungssituation und oftmals historischen Ungenauigkeit der Quellengattungen nicht in Datumsgenauer schärfe ausdrücken. Diese Unschärfe wird in textueller Form durch n der Wissenschaftstradition etablierte Formulierungen wiedergegeben („wohl 926/27“, „vor der zweiten Hälfte des 10. Jahrhunderts“, „letztes Drittel 9. Jh.“, usw.). Für eine Abfrage der Datenbasis und Generierung von Übersichten (insbesondere Timelines) müssen diese durch Näherungswerte in einem Jahreszahlformat übersetzt werden. Diese ersetzen die „textuelle“ Datierung („Abfassungszeit“, „datiert auf“, „Datum nach Werk“) nicht, sondern ergänzen diese. Um Zeiträume abzubilden müssen zudem Beginn und Ende eines Ereignisses annotiert werden. Quellenstellen können über Vorgänge berichten, die sich in abgegrenzten Zeiträumen abspielen. Da Attribute nicht wiederholbar sind muss hierfür auf eine Hilfskonstrukt zurückgegriffen werden: Jede mit einer Quellenstelle oder Werk verbundene Datierung stellt ein Unterobjekt dar, das nur ein Attributpaar zu Beginn und Ende der Datierung enhält.

Attribute	Unterobjekt zu	korreliert mit
`ZeitangabeBeginn`, `ZeitangabeEnde`	Quellenstelle	datiert auf
`AbfassungszeitraumBeginn`, `AbfassungszeitraumEnde`	Werk	Abfassungszeitraum

Projekt- und Datengenese

Inhaltsverzeichnis