Vol. 3 (2020), No 1: 7–13

DOI: 10.21248/jfml.2020.37

Rezension

Schneider, Roman (2019): Mehrfach annotierte Textkorpora. Strukturierte Speicherung und Abfrage. Tübingen: Narr Francke Attempto (Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache, Band 8). 315 Seiten. € 98,00 ISBN 978-3-8233-8286-7

Friedrich Markewitz

Hinwendungen zur Korpus- und Computerlinguistik sind inzwisch­en umfassend erfolgt und diese „von einem technischen Spezial­gebiet zu einer Standardmethode avanciert, die in vielen Universi­tätscurricula fest verankert ist“ (Hirschmann 2019: 2). Der „data-driven turn“ (Bubenhofer/Scharloth 2015: 3) erzwingt aber auch ent­sprechende Reflexionen des Umgangs mit der zunehmenden Daten­fülle: So kann zwar von einer „tiefgreifenden und beinahe flächen­deckenden Verdatung der Welt“ (Bubenhofer 2018: 209; vgl. auch Bubenhofer/Scharloth 2015: 1) gesprochen werden, deren Auswert­ungsmöglichkeiten und -grenzen aber ebenso thematisiert wie reflektiert werden müssen. Dem damit verbundenen Zusammen­hang zwischen Korpusgröße und Untersuchungsdesign widmet sich Roman Schneider in seiner Monographie.

Ausgehend von der Herausforderung, dass die „anfallende Menge an Sprachdaten […] immer öfter unsere Möglichkeiten der Aus­wertung [übersteigt]“ (15), besteht sein Ansatz darin, „komplexe linguistische Phänomenbeschreibungen in überschaubare, unab­hängig voneinander abarbeitbare Aufgaben zu unterteilen“ (18). Da­bei geht es dem Autor vornehmlich um Fragen der Laufzeitoptimier­ung von Suchanfragen. Diese Optimierung – so sein Plädoyer – soll durch „die Segmentierung linguistisch motivierter Suchkriterien als Gegenentwurf zur physischen Segmentierung des Datenbestandes“ (290) erreicht werden. Er vollzieht diese Reflex­ionen dabei vor­nehmlich anhand automatisierter bzw. maschineller Annotationen und Suchanfragen.

Schneiders Ausführungen sind insgesamt methoden-reflektie­rend und empirisch-evaluierend ausgerichtet. Sein Buch zielt in­nerhalb der Linguistik einen prinzipiell offenen Adressatenkreis an, kann aber von allen Forschenden produktiv rezipiert werden, die mit großen Datenmengen und komplexen Analysekriterien arbeit­en.

Das Buch ist in sich logisch und konsistent in sieben Kapitel un­tergliedert, innerhalb derer in den ersten drei Kapiteln die unter­suchungsleitenden Themenzusammenhänge eingeführt und reflek­tiert werden, um in den sich anschließenden Kapiteln empirisch evaluiert und modifiziert zu werden:

Im Kapitel Einleitung und Motivation werden zunächst zen­trale Parameter des korpus- oder computerlinguistischen Para­digmas herausgearbeitet. Die Relevanz der Arbeit mit Sprach­kor­pora „zur Aufdeckung bislang unbekannter bzw. primär intro­spektiv bewerteter Phänomene“ (30) sei allerdings nur dann ge­geben, sofern sie produktiv mit geeigneten Werkzeugen und unter spezifischen Rahmenbedingungen ausgewertet werden können (vgl. 31). Diese problemorientierte Sichtweise führt zum eigentlichen Thema: Da inzwischen „Textkorpora mit Tokenzahlen im zwei­stelligen Milliar­denbereich keine Fiktion mehr“ sind (12), stelle sich immer dring­ender die Frage nach geeigneten Nutzungsbedingungen dieser Kor­pora (vgl. 13). Ziel des Buches ist die dahingehende Mo­dellierung und Evaluierung eines Ansatzes zur angemessenen Spei­cherung und Abfrage mehrfach annotierter (schriftsprachlicher) Sprachkorpora (vgl. 19). Dabei argumentiert Schneider aus einer de­zidiert sprach- bzw. informationstechnischen Perspektive (vgl. 18).   

Im zweiten, theoretischer ausgerichteten Kapitel zu Lingu­is­ti­schen Anforderungen an Sprachkorpora werden konzise ei­ner­seits Bedingungen des korpuslinguistischen Arbeitens sowie der korpuslinguistischen Methodik herausgearbeitet und andererseits Überblicke über Aufbau und Funktionalität existierender Korpus­projekte gegeben. Neben der Klärung grundlegender Be­griffe, z. B. des Sekundärdaten-Begriffs (der sowohl im Sinne von Anno­tationen [vgl. 38] als auch im Sinne von Metadaten [vgl. 44] zu ver­stehen sei), wird konsequenterweise aufgrund der thematischen Anlage des Buches vor allem das Größen-Paradigma reflektiert. Da­bei geht Schneider von einem Maximalgrößenansatz aus, kann dies aber überzeugend begründen, sowohl mit dem Hinweis darauf, dass nied­rigfrequente Phänomene nur in großen Sprachdatensamm­lungen aufgefunden werden können (vgl. 33) als auch mit der War­nung, dass „bei der Verwendung zu kleiner Datensammlungen“ (34) die Gefahr „der Überbewertung von Zufallsfunden“ (34) bestehe. Diese klas­si­schen Argumente einer quantitativen Korpuslinguistik sind weit­hin zutreffend, doch spielt auch die forschungsfragen­geleitete Korpus­zusammenstellung eine wichtige Rolle und kann so Schneiders Ori­entierung an Frequenz- bzw. Verteilungsprobleme bis zu einem gewissen Grad relativieren. Denn es werden auch Plädoyers da­hin­gehend formuliert, mit kleineren Korpora zu ar­beiten, deren Aus­wertung ebenfalls zu produktiven Erkenntnissen führe (vgl. z. B. bei Scherer 2014: 6–8). Auf Prinzipien und Meth­oden der Generierung kleinerer Korpora geht Schneider aber nicht weiter ein.

Hinsichtlich der Korpuszusammenstellung betont er zudem die Relevanz großer Streuungen, wobei er auf eine hohe Textsorten­vielfalt (vgl. 37) sowie „ein möglichst breites Autoren­spektrum“ (38) Bezug nimmt. In dieser Hinsicht kommt der medialen Ausprägung der Daten eine wichtige Rolle bei der Korpuszusammenstellung zu. Dass das – mit McLuhan gesprochen – Medium die Message beein­flusst bzw. beide Größen in einem interdependenten Zusammen­hang stehen, wird zwar nicht in dieser Form explizit gemacht, ist aber als Hintergrund-Argument von Schneiders Argumentation er­kennbar. Weiterführende Reflexionen, z. B. des written language bias und dahingehende kategoriale Unterschiede oder die Not­wendigkeit des Hinzuziehens anderer Korpora werden allerdings nicht weiterverfolgt. Die sich anschließenden Analysen und Reflex­ionen setzen das Kriterium der Korpusgröße zentral. Aspekte der Korpusmodellierung, insbesondere hinsichtlich der unterschied­lichen Medialität der Daten, werden zwar eingangs thematisiert, spielen aber für den Analysegang leider keine große Rolle mehr.

Anhand der Vorstellung verschiedener Korpusprojekte doku­mentiert der Autor schließlich den Stellenwert „natürlichsprach­licher Korpora als Arbeitsgrundlage der empirisch arbeitenden Sprachwissenschaft“ (57). Eine umfassende und durch reiche Bebild­erung hervorragend unterstützte Darstellung von Recherchemög­lichkeiten in ausgewählten Korpussammlungen (DeReKo/Cosmas [vgl. 63–68], LCC [vgl. 68–73] und dem DWDS [vgl. 73–77]) wird da­zu genutzt, zur Reflexion multidimensionaler Suchkriterien über­zuleiten (vgl. 77–95). All diese in hohem Maße transparenten Zu­sammenhänge führen, die Ausführungen synthetisierend, in die For­mulierung eines Anforderungskatalogs (vgl. 97–98), der sich aus „in­formationstechnologischer Perspektive in vier Sektionen gliedert“ (96):

a)      Suchmuster aus diskreten Elementen mit oder ohne Platz­halterzeichen,

b)     als lineare Verkettung mehrerer Einzelelemente über deren relative Position,

c)      aus linearen Abfolgen sowie hierarchischen Annotations­merkmalen und

d)     mit regulären Ausdrücken (vgl. 97–98).

Der Katalog wird dann im weiteren Verlauf angewandt und kritisch überprüft.

Bevor es dazu kommt, werden im dritten Kapitel Reflexionen zu Design und Implementierung eines Korpusabfragesystems vorangestellt, um Bedingungen wie Möglichkeiten der Bearbeitung der Datenmengen zu thematisieren. Nach einer knappen aber kon­sequenten Einführung in Zusammenhänge des Designs sowie der Speichermöglichkeiten von Korpusverwaltungssystemen (vgl. 102–110) verengt Schneider seinen Fokus auf „die Praktikabilität re­lationaler Datenbanktechnologien für die Verwaltung von Mehr­ebenen-Korpora“ (111). Im ersten Schritt führt er in prototypische Aspekte relationaler Datenbanksysteme ein (wie die Behandlung von Primär- und Sekundärdaten [vgl. 111–115], die konzeptuelle Datenmodellierung [vgl. 115–119], ein physisches Datenbankschema [vgl. 119–125], die Hard- und Software [vgl. 125] sowie Datenimporte [vgl. 125–135]), um dann einzelne Designentscheidungen zu eva­luieren. Hinsichtlich der Datenmodelle plädiert er für token­orien­tierte Relationierungen statt für N-Gramm-Tabellen, da ers­tere, trotz längerer Abfragezeiten (vgl. 153), deutlich umfang­reichere Ab­fragemöglichkeiten eröffnen (vgl. 174). Platzhalter­operatoren und reguläre Ausdrücke werden als sinnvoll angesehen, wenn Indizes angelegt sind (vgl. 175). Im Rahmen der Reflexion num­erischer und textueller Schlüsselwerte sieht der Autor keine Lauf­zeitvorteile (vgl. 165). Die Abfrage hochfrequenter Phänomene schließlich profitiert von einer Auslagerung in „separate Tabellen“ (173). Diese Erkenntnis der Relevanz der Segmentierung von (Teil-)Abfragen zur Verbes­serung der Abfrage(lauf)zeit ist für den Autor zentral und wird auch für den weiteren Verlauf leitend sein.

Nach diesen Reflexionen kommt Schneider im vierten Kapitel zur Evaluation des Anforderungskatalogs (aus Kapitel 2). Anhand von sechs Evaluationskorpora (mit zwischen einer Million und acht Milliarden Textwörtern) will der Autor „Zusammenhänge zwischen wachsenden Suchraum-Datenmengen, Tabellenverknüpfungen, Be­legzahlen und Retrievalzeiten“ (177) genauer thematisieren. Ein wei­teres Mal zeigt sich, dass Schneider vornehmlich an Korpus­größen interessiert ist. Weiterführende Thematisierungen des Auf­baus der Korpora (z. B. nach Textsorten oder nach mündlichen oder schrift­sprachlichen Daten) finden nicht statt.

Für die Evaluation greift er auf die vier Sektionen seines An­forderungskatalogs zurück (vgl. 177–202). Die einzelnen Schritte werden – und dies zeichnet das Buch insgesamt aus – so detailliert und transparent wie möglich dargestellt. Die Vielzahl an Visualisier­ungen (durch Tabellen sowie Abbildungen) erleichtert das Verständ­nis und vermag auch unkundigeren Rezipierenden mit Erkenntnis­gewinn den Analysegang zugänglich zu machen.

Insgesamt kommt Schneider zum Ergebnis, dass ein signifikanter Zusammenhang zwischen den Suchattributen sowie der „Abfrage­komplexität und Abfragedauer“ (214) bestehe – und zwar unabhäng­ig von der Anzahl der Belegtreffer (vgl. 214). Dies sei bei wenigen Suchattributen noch kein großes Problem. Werden diese allerdings erhöht, „erreichen die ermittelten Laufzeiten ein für die Recherche­praxis weniger ansprechendes Niveau“ (214). Aus diesem Befund leitet er die Notwendigkeit der „Modifikation des Recherche­mo­dells“ (214) ab, verweist aber zusätzlich auf die Relevanz der Be­achtung von Hardwareentscheidungen: Leistungsfähigere Hardware würde sich ebenfalls positiv auf die Abfragedauer auswirken (vgl. 215), z. B. durch die „Nutzung von leistungsfähigeren […] Mikro­prozessoren“ (217).

Abgeleitet aus der Evaluation des Anforderungskatalogs entwick­elt der Autor im fünften Kapitel den Versuch einer Laufzeit­optimierung durch segmentierte Abfragen. Mit Rekurs auf den „Map-Reduce-Ansatz“ (221), also der Aufteilung komplexer An­fragen in singuläre aber parallele Abfragehandlungen, die am En­de wieder zusammengeführt werden (vgl. 221–224), präsentiert er (s)ei­nen Ansatz der segmentierten Modellierung. Dabei geht es ihm nicht nur darum, „die Eingabedaten, sondern die zu erledigenden Auf­ga­benstellungen“ (225) aufzugliedern. Anhand der Optimierung von Abfragetypen

a)      auf Wortebene,

b)     unter Einbeziehung textbezogener Metadaten sowie

c)      unter Einbeziehung syntaktischer Strukturen (vgl. 232)

wird der Segmentierungsansatz umfassend dargestellt. Trotz unter­schiedlicher Ergebnisse hinsichtlich der Zeitersparnis und der Fest­stellung, dass es nicht zu einer „proportional linear[n] Verbesserung der Abfragezeiten“ (298) komme, lasse sich durch Segmentierungen doch „eine signifikante Reduzierung der Suchzeiten für mittlere und große Korpora feststellen“ (261). Damit scheint die Aufteilung kom­plexer Abfrageschritte ein sinnvoller Umgang mit großen Korpora zu sein.

Im sechsten Kapitel werden Möglichkeiten der Integration in ein Online-Framework diskutiert. Nach Hinweisen auf charakt­eristische Architekturzusammenhänge (vgl. 275) geschieht dies an­hand von vier Elementen (Suchformularen [vgl. 275–278], der Spei­cherung von Beleglisten [vgl. 278–280], Schnittstellen zu Statistik­werkzeugen [vgl. 280–282] sowie Übersichtslisten [vgl. 282–284]). Eine konzise Zusammenfassung schließt das Buch konstruktiv ab.

Roman Schneiders Arbeit zum Umgang mit großen Sprachdaten­sammlungen überzeugt sowohl hinsichtlich der nachvollziehbaren Entfaltung seines Analysegegenstandes als auch bezogen auf die so ausführliche wie transparente Darstellung der Schritte seines me­thodischen Designs sowie der Konstruktion, Evaluation und Mo­difikation seines Modellierungsansatzes. Dieser setzt an einer kor­puslinguistisch wichtigen Schnittstelle zwischen Korpus und Analy­sedesign an und zeigt die Relevanz, nicht nur der Passung von Korpus und Forschungsfrage, sondern insbesondere zwischen Kor­pusgröße und methodischem Vorgehen der Modellierung des Fo­rschungs- bzw. Auswertungsprozesses. Dabei werden oft wenig the­matisierte Aspekte (wie z. B. die Abfragelaufzeit und die ‚Über­for­derung‘ bisheriger korpuslinguistischer Tools) angesprochen und konstruktiv Lösungen aufgezeigt, dem Missverhältnis zwischen wachsenden Korpusgrößen und fehlender Angepasstheit sowie Leistung der verwendbaren Tools zu begegnen.

Die „korpuslinguistische Brille“ (285) ist dabei ein grundlegend gesetztes Paradigma. Kritische Reflexionen finden sich nicht, seine Produktivität gilt als umfassend bewiesen und wird – insbesondere in den ersten Kapiteln – auch hervorgehoben. Dabei verweist Schneider zwar zu Beginn auf das Zusammenspiel zwischen quanti­tativen und qualitativen Analyseschritten. In seinen weiteren Aus­führungen wird aber nicht weiterführend darauf eingegangen. Dabei ist das Buch sehr offen angelegt, geht es doch um die Thematisierung und Reflexion der Modellierung eines Analyse- bzw. Abfrage­an­satzes, der aber sowohl qualitativ, quantitativ als auch beide He­rangehensweisen integrierend ausfallen kann.

Dabei schafft es der Autor durch seine transparente Themen­führung und seinen zugleich präzisen aber nachvollziehbaren Stil ein komplexes Thema darzustellen und mit Erkenntnisgewinn Lö­sungen zu skizzieren. An mittleren sowie größeren Korpora arbeit­enden Forschenden, die sich insbesondere der eigenständigen Mo­dellierung von Suchdesigns sowie Abfragemöglichkeiten zuwenden, sei das Buch daher umfassend empfohlen.

Literatur

Bubenhofer, Noah (2018): Diskurslinguistik und Korpora. In: Warn­ke, Ingo H. (Hg.): Handbuch Diskurs. Berlin/Boston: de Gruyter, 208–241.

Bubenhofer, Noah/Scharloth, Joachim (2015): Maschinelle Textana­lyse im Zeichen von Big Data und Data-driven Turn – Überblick und Desiderate. In: Zeitschrift für germanistische Linguistik (43), 1–26.

Hirschmann, Hagen (2019): Korpuslinguistik. Eine Einführung. Ber­lin: J.B. Metzler.

Scherer, Carmen (2014): Korpuslinguistik. Zweite, aktualisierte Aus­gabe. Heidelberg: Universitätsverlag Winter.