[OPR] Habscheid & Hector & Hrncal & Waldecker: Intelligente Persönliche Assistenten mit Voice User Interfaces als ,Beteiligte‘ in häuslicher Alltagsinteraktion

Update (22.03.2023): Das Open Peer Review zu dieser Einreichung ist abgeschlossen. Auf Grundlage des Open Peer Reviews wurde der Artikel zur Veröffentlichung im Journal für Medienlinguistik angenommen und ist abrufbar unter: https://doi.org/10.21248/jfml.2021.44.

Auf dieser Seite können Sie das Diskussionspapier zu der Einreichung für das Journal für Medienlinguistik im PDF-Format herunterladen. Das Blogstract fasst die Einreichung allgemein verständlich zusammen. Sie können das Diskussionspapier und das Blogstract unter diesem Beitrag kommentieren. Bitte benutzen Sie hierfür Ihren Klarnamen. Bei Detailanmerkungen zum Diskussionspapier beziehen Sie sich bitte auf die Zeilennummerierung des PDFs.


Zum Diskussionspapier (PDF)

Blogstract zu

Intelligente Persönliche Assistenten (IPA) mit Voice User Interfaces (VUI) als ,Beteiligte‘ in häuslicher Alltagsinteraktion. Welchen Aufschluss geben die Protokolldaten der Assistenzsysteme?

von Stephan Habscheid, Tim Moritz Hector, Christine Hrncal und David Waldecker

Stationäre Sprachassistenzsysteme, die als „Intelligente Persönliche Assistenten“ (IPA) fungieren sollen, sind in einer zunehmenden Zahl von Haushalten im Einsatz. Sie werden durch die Nutzer_innen mündlich über sog. „Voice User Interfaces“ bedient und sollen verschiedene Funktionen erfüllen: Dazu zählen – dem Zukunftsversprechen der Anbieter nach – u.a. Aufgaben, wie sie traditionell von Hauspersonal, Sekretariaten, Konversationspartner_innen und Überbringer_innen von Nachrichten übernommen wurden. Zudem sollen sich die Dialoge mit den Systemen perspektivisch mehr und mehr der „natürlichen“ sprachlichen Interaktion unter menschlichen Haushaltsmitgliedern annähern.

Um solche Aufgaben und Leistungen auf mündlichen Zuruf erbringen zu können, müssen IPA die Räume, in denen sie eingesetzt werden sollen, dauerhaft nach zu hörenden Geräuschen und Gesprächsbeiträgen „absuchen“. Wenn das Aktivierungswort (z.B. „Alexa“ oder „Siri“) fällt, verarbeitet der IPA die nachfolgenden Signale. Das dauerhafte „Scannen“ der Wohnung ist insofern einerseits erwünscht, um den Komfort einer Reaktion des IPA auf Zuruf nutzen zu können. Es ist andererseits aber auch umstritten, denn zur Erbringung von Leistungen werden die Daten durch die Hersteller verarbeitet und in die Logik ihrer Systemarchitekturen eingebettet. Dabei ist für die Endnutzer_innen nicht klar erkennbar, wie und zu welchen Zwecken die Daten verarbeitet werden und wie sich dadurch ihr Alltag unmerklich verändert. Welche Daten von den IPA aufgezeichnet werden und wie der IPA „reagiert“ hat, ist allerdings in einer zugehörigen Smartphone-App hinterlegt. Die Nutzer_innen können die Daten dort noch einmal anhören, Feedback an den Hersteller senden und die Daten auch, jedenfalls aus der Oberfläche der App, löschen.

In unserem Beitrag gehen wir der Frage nach, welchen Aufschluss diese „Protokolldaten“ über die Rolle von IPA im kommunikativen Alltag geben können: Wie sind die Mensch-Technik-Dialoge heute gestaltet? Wie sind sie mit laufenden Gesprächen unter den Nutzenden einerseits, mit der Plattform der Anbieter (z.B. Amazon) und der für IPA aufgebauten technischen Infrastruktur andererseits verwoben? Welchen Aufschluss geben die Aufzeichnungen darüber, wie im Dialog mit Sprachassistenten neue alltägliche Situationen entstehen?

Anhand der bisher durchgeführten Untersuchungen auf Basis von realen Protokolldaten, die uns Nutzer_innen von „Amazon Echo Dot“ mit Hilfe von Bildschirmvideos zur Verfügung gestellt haben, können wir zeigen, wie die Protokolldaten u.a. als Möglichkeit präsentiert werden, als Nutzer_in Einfluss auf die von Amazon gespeicherten Daten zu nehmen. Dabei ist in der App die Löschung der Daten, nicht aber ihr Export möglich. Die Daten können hier also lediglich der Kontrolle durch Amazon entzogen werden, sollen jedoch entsprechend dem Interface-Design nicht ohne weitere Umstände für andere Zwecke verwendet werden.

In medienlinguistischer Perspektive geben die Protokolldaten einen Einblick in die sprachlichen Nutzungsstrategien, den Umgang mit Störungen und die versuchte Bedienung der Geräte durch mehrere Personen gleichzeitig. Auch wenn hier bereits erste Schlussfolgerungen gezogen werden können, zeigt sich, dass für ein umfängliches Bild der Alltagspraxis auch einbezogen werden muss, was der IPA (vor und nach den an ihn gerichteten Kommandos) nicht aufgezeichnet hat. Ebenso sind längere Einheiten nur über die Protokolldaten nicht greifbar. Verschiedene Nutzungssituationen im Alltag können hingegen erfasst und klassifiziert werden. Auch zeigt sich, wie die Nutzer_innen das Gerät testen und „herausfordern“, um den Funktionsumfang und dessen Grenzen kennenzulernen.

3 Replies to “[OPR] Habscheid & Hector & Hrncal & Waldecker: Intelligente Persönliche Assistenten mit Voice User Interfaces als ,Beteiligte‘ in häuslicher Alltagsinteraktion”

  1. Katharina CyraApril 21, 2021 at 09:26Reply

     
    Vorbemerkung
    Das folgende Review – insbesondere die paraphrasierende Übersicht des Textes – sind sehr detailliert und lang geworden. Dies ist zum einen meinem großen Interesse am Thema geschuldet, zum anderen aber auch dem Versuch, die Argumentation des Beitrags genau nachzuzeichnen und daran meine Beurteilung anzuschließen.
     
    Zusammenfassung des Beitrags
    Die Autor*innen des Diskussionspapiers zielen darauf ab, zu untersuchen, welche Erkenntnisse aus der Analyse sogenannter Protokolldaten kommerzieller Sprachassistenten zu den folgenden Fragestellungen abgeleitet werden können:
    1) Welche Einsichten liefern die Protokolldaten darüber, wie die Sprachdialogsysteme durch ihre Verbindung zu Plattformen und Infrastrukturen arbeiten?
    2) Welche Erkenntnisse liefern die Protokolldaten darüber, a) wie Dialogsysteme aktuell gestaltet sind und b) wie Nutzer*innen diese Dialogsysteme in ihre Alltagsinteraktionen in unterschiedlichen Teilnehmerkonstellationen einbinden?
    3) Welche Informationen liefern die Protokolldaten über a) die alltagspraktischen und diskursiven Kontexte, in denen die Intelligenten Persönlichen Assistenten (IPAs) vom System, d.h. von den Anbietenden und Entwickler*innen der Dialogsysteme, und in der sozialen Interaktion durch die Nutzer*innen platziert werden, und b) wie insbesondere Datenschutzfragen auf beiden Ebenen verhandelt werden?

    Als Protokolldaten werden Logdaten definiert, die in den zugehörigen Anwendungen (Apps) zur Einrichtung und Steuerung von Sprachassistenten den Nutzer*innen zugänglich sind (es ist anzunehmen, dass es sich hierbei lediglich um einen Teil der Logdaten des Systems handelt). Diese Daten stellen die Grundlage des Datenkorpus dar, mit dessen Hilfe die o.g. Fragestellungen bearbeitet werden sollen. Protokolldaten wurden den Forscher*innen durch Datenspenden zugänglich gemacht.
    In Kapitel 1 führen die Autor*innen den Phänomenbereich bzw. Gegenstand und einige grundlegende Begriffe ein, stellen den Projektkontext, die Datenerhebung und das Datenkorpus vor, und umreißen ausgehend von einer konzeptuellen Verortung der Forschung die Forschungsfragen des Artikels. Am Beispiel von Amazon Alexa werden also zunächst Sprachassistenten (u.a. die von den Herstellern intendierte Nutzung, die Funktionsweise, notwendige Hard- bzw. Software und ein Kurzüberblick der Bedienung) und eine Problemstellung (Datenschutzfragen) vorgestellt, die aus der Nutzung dieser Technologie resultiert. Daran anschließend wird eine Möglichkeit, Sprachassistenzsysteme zu untersuchen, skizziert: die Analyse so genannter Protokolldaten, die den Nutzer*innen dieser Systeme zur Verfügung gestellt werden. Die Autor*innen beschreiben die Verortung der Protokolldaten (also die Menüführung in der App), Bearbeitungsmöglichkeiten durch Nutzer*innen und eine erste Unterscheidung typischer ‚Interaktionen‘ bzw. „IPA-Dialoge“ (Z.95), zu denen die Selbstaktivierung des Systems gehört. Ausgehend von dieser ersten Typisierung wird der Projektkontext bzw. das Teilprojektziel vorgestellt, wie auch das Datenkorpus, die Datenerhebung und -aufbereitung. Mit der Einführung des Begriffs der Daten bzw. Datenpraktiken wird die Relevanz der Protokolldaten über ihre Verwendung durch individuelle Nutzer*innen hinaus deutlich gemacht: Protokolldaten verweisen auf komplexere Infrastrukturen, in die sie eingebettet sind. Weiter werden Sprachassistenten als technische Artefakte kurz im Kontext der Akteur-Netzwerk-Theorie Latours als Aktanten und aus einer praxistheoretischen Perspektive als Beteiligte in Interaktion (Hirschauer 2004) diskutiert. Schließlich werden die Forschungsfragen bzw. die zu untersuchenden Teilaspekte vorgestellt.
    In Kapitel 2 diskutieren die Autor*innen den (medien-)linguistischen Medienbegriff und führen eine praxeologische Perspektive als Erweiterung bestehender Definitionen, die sich auch auf Daten bzw. Datenpraktiken anwenden lässt, und als konzeptuelle Verortung des Beitrags ein. Zunächst werden Medien im engeren Sinne (u.a. technische Artefakte) und im weiteren Sinne (u.a. Techniken und Verfahren) eingeführt und deren Potenzial zur Beschreibung kommunikativer Praktiken in der Interaktion mit Sprachassistenzsystemen angerissen. Diese Ansätze werden durch eine praxeologische Perspektive herausgefordert, die Medien „als kooperativ erarbeitete Kooperationsbedingungen“ (Z.228-229, Schüttpelz 2016) versteht und damit Praxis ins Zentrum der Theoriebildung stellt. Die Autor*innen erläutern die eingangs vorgestellten Positionen (Brock & Schildhauer 2017 einerseits und Goodwin 2018 sowie Schüttpelz & Meyer 2017, 2018 andererseits) im Kontext kontingenter Interaktionssituationen und der Möglichkeit der Teilnehmenden, neue Handlungen und Praktiken unter Einbezug unterschiedlicher (materialer) Ressourcen ko-operativ hervorzubringen. Weiter werden grundlegende Prinzipien und Begriffe der Praxistheorie vorgestellt und diskutiert (u.a. wechselseitige Verfertigung und wechselseitige Improvisation nach Schüttpelz & Meyer 2017; Relevanz von Materialität; die Unterscheidung von Wechselseitigkeit und Gemeinsamkeit) sowie deren ethnomethodologische Fundierung erläutert.
    Kapitel 3 ist zweigeteilt: zuerst werden Daten aus einer praxeologischen Perspektive behandelt (Kap. 3.1) und dann unter Rückgriff auf Beiträge aus den Science and Technology Studies sowie den Platform Studies die erste Forschungsfrage bearbeitet, in der Protokolldaten als mit Infrastrukturen und Plattformen verflochten dargestellt werden (Kap. 3.2). Der praxeologischen Verortung in Kapitel 2 folgend, werden Daten im Kapitel 3.1. mit Bezug auf Laborstudien und die Erzeugung wissenschaftlicher Fakten als hergestellt, als wechselseitig verfertigt beschrieben. Dies beziehen die Autor*innen sowohl auf die Herstellung wie auch auf die Aufbereitung und Darstellung der Protokolldaten der Dialogsysteme in den zugehörigen Apps.
    Kapitel 3.2 zielt darauf ab, Datenpraktiken im Kontext von Infrastrukturen und Plattformen zu beschreiben. Zunächst erläutern die Autor*innen die Zugänglichkeit und beschränkte (Weiter-)Nutzung der Protokolldaten für individuelle Nutzer*innen und Forscher*innen außerhalb der App. Die Verflechtung der Sprachassistenten bzw. Dialogsysteme mit anderen Diensten innerhalb einer Gesamtinfrastruktur wird anhand eines Screenshots der Protokolldaten aus dem Datenkorpus exemplarisch illustriert. Die Autor*innen führen dann die Begriffe Infrastruktur und Plattform ein, diskutieren diese im Kontext von Sprachassistenten und Smart Home-Geräten und zeigen auf, dass IPAs Teil großtechnischer Systeme bzw. Netzwerke sein können: Denn die Inbetriebnahme und grundlegende Nutzung der smart speaker (Hardware der Sprachassistenten) an sich ist bereits voraussetzungsreich (Strom, Telefon- bzw. Internetverbindung, Smartphone) und wird durch mögliche weitere Geräte (z.B. smarte Glühbirnen) und Erweiterung der Basisanwendungen (Skills) noch mal potenziert. Diese infrastrukturellen Erfordernisse und möglichen Erweiterungen der Sprachassistenten verweisen auf ein komplexes Netzwerk bzw. eine komplexe Infrastruktur verschiedener Dienste und Dienstleister. Die Autor*innen vertiefen anschließend den Begriff der Plattform, diskutieren Mechanismen bzw. Logiken der Plattform-Ökonomie, deren Akteure und Märkte. Auch für den Markt der IPAs werden diese Plattformlogiken nachgezeichnet. Schließlich geht es um den reziproken Zusammenhang von Infrastrukturen und Plattformen und die Flexibilität von Infrastrukturen (Star & Bowker 2006 folgend), die sich aus der steten „Pflege und Reparatur, Integration und Adaption“ (Z.567 f.) ergibt. Diese Arbeit an Infrastrukturen wird u.a. durch individuelle Nutzer*innen vollbracht, was wiederum auf das in Kap. 2 eingeführte Konzept von Medien bzw. „kooperativ erarbeitete[n] Kooperationsbedingungen“ (Z.581 f.) verweist. Die kooperative Arbeit an Infrastrukturen umfasst schließlich die vernetzten Plattformen und Akteure der Infrastrukturen, wie auch auf einer mikrosoziologischen Ebene technische Artefakte, Nutzer*innen und Interaktionen.
    Kapitel 4 präsentiert insgesamt fünf Datenbeispiele aus dem Datenkorpus der IPA-Dialoge: drei nutzerseitig initiierte und zwei systemseitig initiierte Dialoge, welche ‚gelingende Dialoge, Reparaturen, Tests bzw. Frotzelaktivitäten der Nutzer*innen wie auch systemseitige Vorschläge umfassen. Die Datenbeispiele illustrieren Aspekte des zugrundeliegenden Dialogdesigns, die Integration der Sprachassistenten in Interaktionen von Mehrpersonenkonstellationen wie auch die gemeinsame Problembehandlung bzw. gemeinsame Reparaturen. Das Kapitel ist zweigeteilt: Kapitel 4.1 behandelt einige Merkmale des Dialogdesigns der IPA-Dialoge und ihre Einbettung in Interaktionen (Forschungsfrage 2), Kapitel 4.2 zielt darauf ab, die Nutzungskontexte im Alltag anhand von Protokolldaten nachzuzeichnen und damit die dritte Forschungsfrage zu bearbeiten.
    In Kapitel 4.1 führen die Autor*innen zu Beginn das Konzept von hybridem Austausch (Krummheuer 2010) ein, mit dem sich sprachliche Interaktion mit technischen Artefakten wie Sprachassistenten fassen lässt, und betonen die Unterschiede zu sozialer Interaktion nach Goffman. Das erste Beispiel einer Wissensabfrage zeigt den von Krummheuer beschriebenen hybriden Austausch, der durch die Beschränkung auf zwei Redezüge (Sprachbefehl des Nutzers und Antwort des Systems) und den damit fehlenden Aushandlungsprozess (next-turn proof procedure) charakterisiert wird. Diese Form des Austauschs stellt das Gros der IPA-Dialoge in dem Datenkorpus dar. Das zweite Beispiel zeigt einen IPA-Dialog, an dem zwei Teilnehmer*innen beteiligt sind: Die Teilnehmer*innen W1 und W2 aktivieren den Sprachassistenten und einen skill aus dem Bereich Unterhaltung; nach einer Reparatur führt das System den gewünschten Befehl aus und formuliert dann einen Vorschlag zur Exploration eines weiteren skills, den die beiden Teilnehmer*innen ablehnen (s. hierzu auch Beispiel 4). Dabei werden zwei Reparaturverfahren (selbst- und fremdinitiierte Reparatur mit Verweis auf unterschiedliche Interpretation der trouble source) deutlich, die sich in Mehrparteienkonstellationen finden lassen. Der Vorschlag des Dialogsystems als Expansion eines Beitrags zeigt kontrastiv zum ersten Beispiel, wie eine Fortsetzung des hybriden Austauschs mit dem Sprachassistenten in Richtung einer multi-turn Interaktion gestaltet werden könnte. Die mehrzügige (z.T. frotzelnde) Ablehnung der Teilnehmer*innen wird einmal in ihrer sprachlichen Form und in ihrer provokativen, nur für die menschlichen Beteiligten – als Spott – verständlichen Form beschrieben. Ausgehend von dem forschungspraktischen Problem, dass Sprachassistenten mit den eingebauten Sensoren / Mikrofonen ‚nur‘ die sprachlichen Beiträge der Teilnehmer*innen aufzeichnen und (als Teil der) Protokolldaten Nutzer*innen und Forscher*innen zugänglich machen, diskutieren die Autor*innen kurz Grenzen und Möglichkeiten der Analyse von Protokolldaten für u.a. multimodale Interaktionsanalysen und kommen zu dem Schluss, dass diese Daten für eine grundlegende Beschreibung von IPA-Dialogen geeignet seien.
    In Kapitel 4.2 zeigen die Autor*innen mit Verweis auf eigene Beispiele und eine Studie (Ammari et al. 2019) einige typische Nutzungspraktiken auf, die im Umgang mit Sprachassistenten zu finden sind: Wissensabfragen (wie in Beispiel 1), Exploration von skills (s. Beispiel 2), eine Reihe an Gebrauchsroutinen mit und ohne vernetzte smarte devices (bspw. Abruf von Musik oder Wetterabfragen, Steuerung von TV-Geräten) usw. Wie auch zuvor beschrieben, finden sich systemseitig initiierte IPA-Dialoge seltener, werden hier aber anhand von Beispiel (3) und Beispiel (4) angeführt, u.a., um auf spielerische Nutzungskontexte hinzuführen, wie in Beispiel (5) – hier in einer das System testenden Form – genannt. Abschließend wird auf Möglichkeiten hingewiesen, nutzerseitig datenschutzrelevante Einstellungen vorzunehmen: Mikrofon ausschalten und, wie zuvor schon beschrieben, über die App einzelne oder alle Aufzeichnungen in den Protokolldaten zu löschen.
    In Kapitel 5, Fazit und Ausblick, geben die Autor*innen einen Überblick über einige der zuvor behandelten Themen und Erkenntnisse: Die Verortung der Protokolldaten in der App und die eingeschränkten Bearbeitungsmöglichkeiten (Löschen möglich, Export nicht möglich); die Einordnung der Protokolldaten als natürliche Daten in dem Sinne, dass sie ohne ‚Intervention der Forschenden‘ (Z.891) erhoben wurden; die Einschätzung, dass „die Infrastruktur“ (Z.897) durch die Protokolldaten detaillierte Einblicke in die Nutzung erlangen kann, die auch Missverständnisse und ein Scheitern der IPA-Dialoge enthalten können; die Einschätzung, dass (erwartungsgemäß) anhand der Protokolldaten die Verflechtung mit Plattformen und Infrastrukturen von Sprachassistenten und ihr Operieren innerhalb dieser nachgezeichnet werden kann wie auch, dass die Protokolldaten Aufschluss über die Gestaltung der Dialogsysteme und die intendierte Nutzung geben können. Ebenso werden Limitationen der Sprachaufzeichnungen durch das System (als Teil der Protokolldaten) für eine rekonstruktive Analyse aufgezeigt. Zuletzt weisen die Autor*innen darauf hin, dass die Protokolldaten aus Nutzer*innensicht keine hohe Relevanz haben und die Möglichkeit des Löschens bzw. Kontrollierens der eigenen Daten selten realisiert wird (Malkin et al. 2019).
     
    Relevanz des Beitrags
    Der Artikel behandelt ein aktuelles Thema (kommerzielle Sprachassistenten bzw. Intelligente Persönliche Assistenten), das aus linguistischer bzw. praxeologischer Sicht bislang kaum erforscht ist. Der spezifische Fokus auf Protokolldaten, also Logdaten des Systems, die von den Anbietern der Sprachassistenten gesammelt und den Nutzer*innen in aufbereiteter Form bereitgestellt werden, bietet einen interessanten Einblick in die automatisierte Erfassung detaillierter Informationen zur Nutzung neuer Technologien, die auf sprachlicher Interaktion basiert. Die übergreifende Frage danach, wie diese Daten genutzt werden können, d.h. für die (linguistische) Forschung fruchtbar genutzt werden können (ein methodischer Aspekt, der sicherlich auch in anderen Kontexten, die auf automatisiert erfassten Daten (Big Data) basieren), wie auch danach, welche Einsichten und Erkenntnisse sich überhaupt durch deren Analyse ergeben können, erscheint mir produktiv. Insbesondere eine systematische Betrachtung der verschiedenen Akteur*innen, die auf die Protokolldaten einzelner Nutzer*innen Zugriff haben können, und die empirische Untersuchung der Datenpraktiken haben das Potenzial, über allgemeine Vorstellungen und öffentliche Diskurse (v.a. bezüglich Datenschutzfragen) hinauszugehen. Eine solche systematische und empirische Aufarbeitung der unterschiedlichen Datenpraktiken wäre für weitere Forschungen und ggf. auch für praktische Kontexte anschlussfähig. Dieses Potenzial einer mehrdimensionalen Beschäftigung mit Protokolldaten, das im Rahmen der Forschungsfragen aufgespannt wird, kann der Beitrag leider nicht einlösen.
     
    Zentrale Überarbeitungshinweise
    Grundlegend sollte der Aufbau und die Struktur des Beitrags überarbeitet werden, wie auch die Fragestellungen weniger breit gefasst sein, um die Kernanliegen des Beitrags in der Tiefe bearbeiten zu können. Folgende Punkte könnten eine Überarbeitung leiten und den Beitrag vor allem auf die Kernfrage der Aussagekraft von Protokolldaten und Datenpraktiken noch stärker fokussieren.
     
    A. Begründung, Argumentation und Ableitung der Fragestellungen
    Die Ausführungen zum theoretischen bzw. konzeptuellen Hintergrund sind leider nicht durchgehend verständlich, nicht immer sinnvoll miteinander verknüpft und übersichtlich verfasst: es finden sich neben der Einleitung (Kap. 1) in den Kapiteln 2 bis 4 theoretische Beiträge, die zentrale Begrifflichkeiten bzw. Theorielinien einführen (bspw. Akteur-Netzwerk-Theorie & Aktanten (Z.158-161), Praxistheorie & ‚Beteiligte‘ (Z.161-167), Daten, Datenpraktiken, Infrastruktur, Plattform, hybrider Austausch) – die allerdings in der Einleitung fehlen.
    Eine systematische Aufarbeitung des Forschungsstands zu Assistenzsystemen bzw. den synonym verwendeten Intelligenten Persönlichen Assistenten (IPAs) oder Voice User Interfaces (VUIs) und ggf. verwandten Phänomenen (z.B. (Embodied) Conversational Agents oder anderen Dialogsystemen) fehlt. Auch wenn es aktuell noch wenige Studien mit explizit linguistischem, gesprächsanalytischem oder praxistheoretischem Hintergrund zu Sprachassistenten gibt, und dies klar eine Forschungslücke darstellt, finden sich zahlreiche Studien (auch aus anderen Disziplinen), die vor allem mit Protokolldaten der Sprachassistenten arbeiten und quantitative Auswertungen zu u.a. Nutzungspraktiken beschreiben. Zugleich gibt es bspw. mit Crawford & Joler (2018) einen Beitrag, der die Verflechtung der unterschiedlichen Akteur*innen in Netzwerken und Infrastrukturen auf unterschiedlichen Ebenen nachzeichnet und dem vorliegenden Artikel eine gute Rahmung geben könnte. Ebenso wäre im Kontext der gewählten Fragestellungen eine kurze Aufarbeitung von Studien zu automatisiert erstellten und erhobenen Logdaten und Datenpraktiken wünschenswert, um den spezifischen Beitrag und die Einordnung der Studie besser nachzuvollziehen (bspw. zur Analyse von Logdaten: Candello & Pinhanez (2018) oder zu Datenpraktiken im Kontext von Self-Tracking: Wiedemann (2019)). Die genannten Quellen sind größtenteils gut ausgewählt und, soweit ich das beurteilen kann, qualitativ hochwertig. Einzig die im Beitrag mehrfach zitierte – und demnach als zentral für die Argumentation einzuordnende – Studie von Strüver (2020) erscheint mir problematisch: Diese Studie ist eine unveröffentlichte Masterarbeit (bitte diesen Hinweis im Literaturverzeichnis ergänzen), die mir als Leserin nicht zugänglich ist und die ich weder auf ihre Qualität noch auf die referenzierten Argumente überprüfen kann. Zusätzlich sind die mehrfachen Verweise auf den SFB 1187, der den Projektrahmen darstellt, inhaltlich nachvollziehbar, aber im Kontext eines Journal-Artikels als Teil einer theoretischen Herleitung nicht wirklich relevant.
    Zum Schluss des ersten Kapitels wird in den Zeilen 168 bis 183 das Erkenntnisinteresse formuliert und es erfolgt die Ableitung von 3 bzw. insgesamt 5 Teilfragestellungen. Die Argumentation zur Begründung dieser Fragestellungen bzw. zur Art und Weise, wie die Fragestellungen im Folgenden bearbeitet werden, fällt meines Erachtens zu knapp aus bzw. fehlt vollständig. Hinweise zur Ausrichtung der Arbeit (bspw. theoretisch, explorativ, qualitativ) bzw. zur Methode (z.B. Konversationsanalyse) fehlen. Es wird leider nicht deutlich, woran die Studie anknüpft und welchen spezifischen Beitrag sie leisten kann.
    In einer Überarbeitung sollten die Fragestellungen noch einmal geprüft werden und der Zuschnitt des Artikels bestenfalls eingeengt bzw. fokussiert werden wie auch eine stringentere Argumentation erarbeitet werden. Momentan erscheinen die einzelnen Teile des Beitrags nicht durchgängig zusammengehörig bzw. es werden Aspekte vertieft, die sich in anschließenden Textteilen nicht immer wiederfinden oder erschließen.
    In Abgrenzung zu bisherigen Studien zu Sprachassistenten erscheinen mir die folgenden Aspekte für eine Überarbeitung des Beitrags relevant: Welchen Aufschluss geben die Protokolldaten für die unterschiedlichen Akteur*innen, denen die Protokolldaten zugänglich sind (systematische Aufführung dieser Akteur*innen und ihrer Zugangsmöglichkeiten)? Hier auch vorab die Frage, mit welchen unterschiedlichen Interessen und Herangehensweisen mögliche Akteur*innen auf die Daten zugreifen und daran anschließend: Wie lassen sich die Datenpraktiken dieser Akteur*innen empirisch beschreiben (wenn dies auf Basis von Protokolldaten überhaupt möglich ist) – hier wäre auch die Frage danach zentral, welche Datenpraktiken der Nutzer*innen sich beschreiben lassen (in den Z. 928-940 wird deutlich, dass es hier bereits Studien gibt bzw. die Autor*innen dies selbst auch kritisch reflektieren, dass Nutzer*innen sich mit Protokolldaten kaum auseinandersetzen). Methodisch gewendet und für die (medien-)linguistische bzw. gesprächsanalytisch arbeitende Community relevant ist daran anschließend die Frage danach, wie aus einer Forschungsperspektive mit diesen Daten gearbeitet werden kann (Datenerhebung, Datenaufbereitung, Übertragung der unterschiedlichen Informationen der Protokolldaten in ein GAT2-Transkript usw.). Zusätzlich sollten Argumente integriert werden, die die dann gewählte Vorgehensweise und Bearbeitung der präsentierten Fragestellungen begründen.
     
    B. Methodische Transparenz, Daten und Nachvollziehbarkeit des analytischen Vorgehens
    Im vorliegenden Diskussionspapier fehlt ein expliziter ‚Methodenteil‘, der wichtige Aspekte zur Methodendarstellung (quellengestützt) adressiert und auch die Inhalte zur Datengrundlage enthält (aktuell Teil der Einleitung). Diese Aspekte umfassen die Datenerfassung (‚natürliche‘ Daten (im Fazit als solche benannt) bzw. die Videoaufzeichnung der Protokolldaten durch die Datenspender*innen), die Auswertungsstrategie (Konversationsanalyse im vierten Kapitel; Vorgehen zur Analyse des Bildmaterials?), den Feldzugang und zumindest eine kurze Beschreibung der Nutzer*innen. Insgesamt lässt die konzeptuelle bzw. methodologische Verortung des Beitrags im Rahmen der Praxistheorie (Kapitel 2) einigen Spielraum hinsichtlich möglicher Methode(n), die nicht expliziert werden. Der Beitrag enthält neben der – überwiegend leider eher deskriptiven Bearbeitung der Transkripte in Kapitel 4 – auch die Bearbeitung der Protokolldaten im ‚unbearbeiteten Zustand‘, d.h. als Screenshot. Die Datenaufbereitung nach GAT2 wird zwar genannt, es erscheint mir aber sinnvoll, die vorliegenden Daten und ihre Überführung in ein Transkript nach GAT2-Konvention zu reflektieren und Vorschläge zu möglichen erweiterten Darstellungsweisen zu erarbeiten (die auch für daran anschließende Forschung fruchtbar wäre). Die in den Beispielen (1) bis (5) enthaltenen Transkripte enthalten zwar ein ‚Mehr‘ an Informationen gegenüber den Screenshots (1) und (2), weil die Spracheingaben transkribiert wurden; zugleich gehen in den vorliegenden Transkripten Informationen bspw. zur Zeitlichkeit (Uhrzeit), zu ‚Aktivitäten‘ des Systems (Verweis auf bspw. Apple Music in Screenshot 2) und zur Sprachaufnahme selbst verloren, die in den ‚Original-Daten‘ enthalten sind (z.B. Sind die Beiträge von W1 und W2 (Z.001 bis 002) im Beispiel (2) eine einzelne durchgehende Sprachaufnahme oder vom System als drei verschiedene Spracheingaben ‚interpretiert‘?). Es wäre zu überlegen, ob es forschungspraktisch interessant wäre, ebenso die vom System automatisch erstellten Transkripte der Nutzer*innenbeiträge im Transkript zu integrieren (ähnlich wie Krummheuer 2010, die Tastatureingaben mitannotiert) und die Beiträge des Systems nicht wie aktuell im Beitrag zu finden, durch ausführliche Kommentare abzusetzen, sondern mit einer geeigneten Annotation in das Transkript zu integrieren. Übergreifend fehlt die Information, dass das System in der Regel das wake word nicht aufzeichnet – dieses aber zugleich zentral für die Bedienung bzw. Aktivierung des Sprachassistenten ist (zugleich finden sich in den Screenshots (1) und (2) Aufzeichnungen, die das wake word beinhalten, was von den Autor*innen zumindest kommentiert werden könnte).
    Bezüglich der gewählten Daten und Datenausschnitte, d.h. der als IPA-Dialoge operationalisierten Ausschnitte aus den Protokolldaten wäre es sinnvoll, zu beschreiben, wie nach welchen Kriterien die Autor*innen die Protokolldaten als IPA-Dialoge sequenzieren (als Analyseeinheiten behandeln): Wann wird ein IPA-Dialog als beendet verstanden? Welche Beiträge werden als zusammengehörig annotiert? Ist jedes Adjazenzpaar bereits ein abgeschlossener IPA-Dialog? Daran anschließend lässt sich ggf. die Diskussion um das Dialogdesign, mögliche Reparatursequenzen und auch die Nutzer*innenpraktiken erweitern (konkret beziehe ich mich hier z.B. auf den Screenshot (1) und dort auf die zwei unteren Beiträge: 1. Beitrag: 12:31 AM, Alexa: „Übrigens, du hast eine neue Benachrichtigung. Soll ich deine Benachrichtigung vorlesen?“ – Nutzer*in (System-Transkript): „ja“, 2. Beitrag: 12:31 AM: Nutzer*in (System-Transkript): „spiele meine nachrichten ab“. Diese Protokolldaten weisen auf eine Reparatursequenz hin, die interessanterweise auf eine systemseitige Aktivierung und Vorschlagssequenz folgt. Anders als im Beispiel (2) wird hier deutlich, dass es auch einen nicht-frotzelnden Umgang mit Vorschlägen des Systems gibt und der Beitrag somit relevant und gewünscht sein kann, aber ‚nicht gelingt‘; zu Vorschlägen des Systems vgl. auch Opfermann et al. 2017).
     
    C. Ergebnisdarstellung und -diskussion
    Im empirischen Teil bzw. in den den Forschungsfragen zugeordneten Unterkapiteln (Kap. 3 und 4) finden sich, wie oben bereits beschrieben, theoretische Darstellungen zu relevanten Begriffen und Konzepten neben der Nennung empirischer Daten, die aber teilweise lediglich illustrierenden Charakter haben (z.B. in Kap. 3.2 der Screenshot (2) und dort eine Detailinformation zur Vernetzung mit Diensten von Drittanbietern, die als Ausgangspunkt einer umfangreichen, im überwiegenden Teil theoretisch fundierten Darstellung von Verflechtungen von Sprachassistenten, Protokolldaten, Plattformen und Infrastrukturen genutzt wird). Die Darstellung der Transkripte in Kapitel 4 bleibt größtenteils deskriptiv (Beispiel (1)) bzw. werden die Transkripte auch hier nur illustrierend zur Unterstützung von Beschreibungen eingesetzt (Beispiele (3) bis (5)). Beispiel (2) wird als einziges Transkript systematisch ‚durchanalysiert‘, so dass hier die Schlussfolgerungen plausibel und empirisch begründet erscheinen.
    Die in diesem Teil angeführten Kommentare meinerseits sollen nicht so verstanden werden, dass die dargestellten Ergebnisse nicht plausibel erscheinen – es ist aber so, dass die empirische Anlage, das umfangreiche zur Verfügung stehende Datenkorpus und die exemplarischen Beispiele zunächst eine empirische Fundierung der Bearbeitung der Fragestellungen erwartbar machen. Die gezeigten Beispiele eignen sich (so wie ich sie verstehe) auch gut, um die gemachten Punkte zu unterstützen – zugleich sind sie durch die Form der Transkripte (s. Hinweise unter B) auch nur eingeschränkt als Protokolldaten zu verstehen. Die Analyse und Bearbeitung der Fragestellungen, wie auch die zu erwarteten Ergebnisse würden von einer genaueren und systematischen Analyse der Daten profitieren. Grundsätzlich ist eine detaillierte Fallbearbeitung und Ergebnisdarstellung nach z.B. konversationsanalytischer Vorgehensweise aufgrund von Zeichenlimitierung hoch anspruchsvoll. Zugleich sehe ich gerade in der konzeptuellen Verortung (Kap. 2) und detaillierten theoretischen Darstellungen in Kap. 3 die Möglichkeit, hier stärker die empirische Arbeit an und mit den Protokolldaten hervorzuheben.
    Die Limitierung, die die automatisiert durch das System und die Sensoren der smart speaker erstellten Protokolldaten, im Kontext multimodaler Interaktionsanalysen mit sich bringen, liegt auf der Hand. Anders jedoch als Zugangsweisen, die sich bspw. ethnografisch oder videografisch dem Phänomen der Sprachassistenten im Alltag nähern, könnten in diesem Beitrag die Potenziale einer Analyse von Protokolldaten mit stärkerem Bezug auf die Datenpraktiken hervorgehoben werden.
     
    Weitere Bearbeitungshinweise

    Bildmaterial / Screenshots und Bildunterschriften: Ein beschreibender Untertitel, ggf. eine Legende mit Hinweisen zu relevanten Bereichen im Bildmaterial sollte eingefügt werden. Ebenso sollte jeweils auf relevante Bildausschnitte fokussiert werden – entweder in Form einer Beschreibung oder Zurechtschneiden des Bildmaterials (hier beziehe ich mich v.a. auf den Screenshot 2 und dort die für das Kapitel 3 relevante Zeile zu Apple Music, die im zugehörigen Text dann lediglich als Dienst von Dritten genannt wird, was der Leser*in das Auffinden der relevanten Stelle im Material erschwert).
    Beschreibung der App und Funktionalitäten (Kapitel 1): Dieser Teil sollte in einem Abschnitt außerhalb der Einleitung untergebracht werden, die die konkrete Anwendung beschreibt. Zugleich vermischen sich hier sehr detaillierte Beschreibungen und analytische Teile.
    Quellen / Referenzen: Bei Studien, die sich mit technischen Artefakten befassen, macht es stellenweise Sinn zu ergänzen, auf welchen Phänomenbereich bzw. Interaktionskontext sich diese beziehen, so dass die Leser*in den Beitrag entsprechend einordnen kann (konkret geht es zum einen um Krummheuer (2010), deren Analysen sich zwar auf ein Dialogsystem beziehen, dieses aber über eine andere Schnittstelle (Eingabe über Tastatur und nicht über Sprachsteuerung) verfügt, was sich ggf. auf die Interaktionsordnung auswirken kann; zum anderen geht es um Pitsch et al. (2017), die die Interaktion mit einem Museumsroboter untersuchen, der im Kontext einer spezifischen interaktionalen Aufgabe eingesetzt wurde: die Selbstaktivierung dieses Roboters im Museum und eine Fortsetzung der Interaktion erscheint mir interaktional etwas anderes zu sein als ein Sprachassistent, der die Aufzeichnung abbricht Z. 731-740).

     Abschließende Beurteilung
    Abgesehen von meinen oben ausgeführten Kritikpunkten, möchte ich die Autor*innen ausdrücklich dazu ermutigen, das Manuskript zu überarbeiten und mit Blick auf eine stringentere Argumentation das Erkenntnisinteresse zuzuspitzen. Die Studie ist aus meiner Sicht relevant, interessant und eröffnet wichtige und gewinnbringende Einblicke in die Arbeit und Erkenntnismöglichkeiten von Protokolldaten. Das Diskussionspapier enthält in der vorliegenden Version aber Mängel, die vor der Veröffentlichung behoben werden müssen. Ich empfehle die Annahme mit major revisions.
     
    Literaturhinweise
    Candello, H., & Pinhanez, C. (2018). Recovering from dialogue failures using multiple agents in wealth management advice. In Studies in conversational UX design (pp. 139-157). Springer.
    Crawford, C. & Joler, V. (2018): ‚Anatomy of an AI System: The Amazon Echo As An Anatomical Map of Human Labor, Data and Planetary Resources‘, AI Now Institute and Share Lab, September 7, 2018. https://anatomyof.ai
    Opfermann, C., Pitsch, K., Yaghoubzadeh, R., & Kopp, S. (2017). The Communicative Activity of“ Making Suggestions“ as an Interactional Process: Towards a Dialog Model for HAI. In Proceedings of the 5th International Conference on Human Agent Interaction (pp. 161-170).
    Wiedemann, L. (2019). SELF-TRACKING: Vermessungspraktiken im Kontext von Quantified Self und Diabetes. Springer.

  2. RedaktionApril 29, 2021 at 09:34Reply

    Gutachten von: Netaya Lotze
    Empfehlung: Überarbeitung erforderlich

    Die Autor_innen beschäftigen sich im Übergangsbereich von Medienwisssenschaften und interaktionaler Linguistik mit dem innovativen Forschungsbereich der sog. „Intelligenten persönlichen Asstistenzsystemen“ (IPAs) am Beispiel von Amazon Alexa, also mit Human-Computer Interaction (HCI). Das Forschungsinteresse verstehe ich in erster Linie als explorativ, da in einer Erstanalyse Logfiles, die das Dialogsystem von User_innen-Interaktionen aufzeichnet, hinsichtlich ihrer Verwendbarkeit für weiterführende linguistische Analysen geprüft werden (z.B. von Mehrparteien-Dialogen mit den System).

    Die Forschungsgrppe kommt (nicht überraschend) zu dem Schluss, dass die Analyse der automatisch erstellten Protokolle (in orthografischer Transkription) durchaus erste Anhaltspunkte für interessante Analyseaspekte liefern kann, nicht aber die (Video-)Aufzeichnung nach Kiterien der Gesprächsforschung und die detaillierte Transkiption nach GAT2 ersetzt. Der Untersuchungsbereich der User_innen-Kommunikation mit IPAs ist aber aus linguistischer Perspektive selbstverständlich noch kaum erschlossen, sodass der explorative Zugang durchaus gerechtfertigt und interessant ist.

    Der Artikel lässt sich thematisch grob in zwei Teile gliedern, nämlich a) einen medientheoretischen Abriss zur definitorischen Einordnung von Interaktionen mit IPAs in ein Konzept der wechselseitigen „Praxis“ nach Schüttpelz und Meyer (2017) bzw. der „Co-operative Action“ nach Goodwin (Theorieteil) sowie b) die Ergebnisse der explorativen Analyse (Empirieteil). Dabei ist der Theorieteil sehr reflektiert geschrieben und versucht das Phänomen „Künstiche Intelligenz“ aus linguistischer, soziologischer und technologischer Perspektive zu fassen. Das an sich ist lobenswert, weil viele Ansätze der KI-Forschung entweder einem technologischen Determinismus verfallen oder allein die User_innen in den Fokus nehmen und Prinzipien aus der Mensch-Mensch-Kommunikation übertragen, die für die Mensch-Maschine-Interaktion nur bedingt gelten. Meiner Erfahrung nach haben aber auch diese Ansätze noch einen blinden Fleck – nämlich die User_innen-Kogintion. Die virtuelle Assistentin stellt die Illusion einer menschlichen Interaktionspartnerin (mit zahlreichen Einschränkungen) dar. Welche Rolle spielt diese Illusion, die ja nur innerhalb der User_innen-Kognition bestand hat, für die Interpretation von HCI? (Vgl. z. B. die Ergebnisse der Studien zur Rezeption von anthropomorphen KIs seitens ihrer User_innen von z.B. Kämer sowie Lotze 2018, Lotze 2016, Kap. 1.2.6 (zur User_innen-Perzeption), 1.3.2 (zu Restriktionen von KI) und 5.1.3 (zum Interaktionsmodell der HCI)).

    Der Empirieteil ist innovativ und gibt erste Hinweise auf relevante Forschungparameter der HCI für weiterführende Studien. Besonders interessant erscheint mir hier die neue Praktik des „Austestens von System-Funktionen“ seitens der User_innen. Zu prüfen bleibt, wie diese interpretierbar sind (z.B. als neue Form von „Computer-Talk“ im Sinne von Zoeppritz (1985), vgl. Lotze 2016, Kap.4.4).

    Eine technologische Frage habe ich noch bzgl. der Datensicherheit: Auch wenn die System-Logfiles von User_innen gelöscht werden können, sodass sie für Dritte nicht einsehbar sind, wie sicher ist es, dass sie auch für Amazon selbst nicht rekonstruierbar sind? Da die Technologie auf Basis von „Big Data Analysis“ und „Machine Learnig“ funktioniert, die beide auf großen Mengen von Dialog-Logfiles basieren, halte ich das wirklich für fraglich. Durch die automatische Analyse von Logfiles wird die Technologie doch permanent verbessert. Außerdem verfolgt Amazon ein Datenhandelgeschäftsmodell, in dessen Rahmen jegliche Nutzer_innen-Daten extrem wertvoll sind.

    Zur Gewichtung der Unterkapitel: Der Theorieteil ist im Vergleich zum Empirieteil etwas zu lang. Ich würde empfehlen, ersteren etwas zu straffen und letzteren um zusätzliche Sprachbeispiele und deren Analyse zu ergänzen.
    Stil und Orthografie: Manche Sätze sind syntaktisch extrem komplex und sollten zugunsten der besseren Lesbarkeit aufgeteilt werden. Es finden sich noch einzelne Tippfehler.

    Angenommen mit kleineren Überarbeitungen!

  3. RedaktionJuni 9, 2021 at 12:03Reply

    Kommentar der Autor*innen zur Überarbeitung des Beitrags

    Wir danken den Gutachterinnen für die sehr sorgfältige Lektüre und diverse Hinweise sowie Anregungen zur Verbesserung des Beitrags, die wir zum größten Teil gerne aufgegriffen und umgesetzt haben. Wie wir den Beitrag vor dem Hintergrund der Gutachten überarbeitet haben und aus welchen Gründen wir in einigen Punkten den Änderungsvorschlägen nicht gefolgt sind, stellen wir im Folgenden im Überblick dar.

    Ebene der Darstellung:

    In einer neuen Einleitung geben wir – über eine Vorstellung des Phänomens der Protokolldaten hinaus – klarer Auskunft über die Zielsetzungen und den daraus abgeleiteten Aufbau des Beitrags, führen alle basalen Begriffe und Diskurse ein und grenzen den Gegenstandsbereich des Beitrags, auch im Kontext unseres Forschungsprojekts, deutlicher ab.

    Wir haben den Artikel neu strukturiert und separate Abschnitte mit einer Überblicksdarstellung des Forschungsstands (2.) und zu methodischen Überlegungen (4.) eingefügt. Der Forschungsstand wurde darüber hinaus auch in den Analyseabschnitten 5.2 und 5.3 umfassender aufgegriffen.

    Zielsetzungen:

    Die Zielsetzung des Beitrags im Blick auf die Untersuchung der Protokolldaten haben wir nun wie folgt präzisiert (Einleitung): „Mit diesen Daten, genauer: der Frage nach ihrer wissenschaftlichen Verwendbarkeit wollen wir uns in diesem Beitrag näher beschäftigen. Darüber hinaus gehen wir auf die Frage ein, welche potenzielle alltägliche Nutzung der Protolldaten durch die Aufbereitung in der App nahelegt wird. Zu der Frage, wie die User_innen die Protokolldaten tatsächlich nutzen, lässt sich auf der Basis der Protokolldaten selbst allenfalls spekulieren. Dies gilt auch und noch mehr für die Frage, wie solche automatisch erfassten Logdaten durch die Anbieter der Systeme bzw. durch Dritte zur Verbesserung der Systeme und Skills und/oder im Kontext der Datenverwertung und u.U. des Datenhandels genutzt werden. In dem vorliegenden Artikel beschränken wir uns auf die Protokolldaten selbst und versuchen – über die nahegelegten alltäglichen Nutzungsweisen hinaus – zu explorieren, welchen Aufschluss ein methodisch reflektierter Umgang mit solchen Daten im Kontext einer sozialtheoretisch und techniksoziologisch informierten, praxeologischen Medienlinguistik und einer gesprächsanalytischen Untersuchung der sprachbasierten Nutzung von IPA und ihrer Einbindung in alltägliche Mehrparteieninteraktion geben kann.“

    Als ein „Nebenziel“ mit Eigengewicht wird bestimmt, die etablierten Grundlagen der Medienlinguistik im Blick auf ihre sozialtheoretische Dimension zu erörtern und zu erweitern.

    Dies entspricht im Wesentlichen den Zielsetzungen, wie sie auch im Gutachten von N. Lotze zusammengefasst werden. Eine weiter gehende „Betrachtung der verschiedenen Akteur*innen, die auf die Protokolldaten einzelner Nutzer*innen Zugriff haben können“ und besonders „die empirische Untersuchung der Datenpraktiken“ dieser Akteur_innen, wie sie im Gutachten von K. Cyra als Desiderat angeführt werden, ist auf der Datenbasis des vorliegenden Beitrags aus unserer Sicht nur ansatzweise möglich. Diese Grenzen werden nun ausdrücklich thematisiert. Im Ausblick wird deutlich, wie derartige Fragen im Blick auf die Gruppe der Nutzer_innen durch eine Interview-Studie im Rahmen unseres Projekts weiterverfolgt werden.

    Den Hinweis, dass anhand der Benutzeroberfläche nicht überprüft werden kann, wie tief die angebotene Löschung der Daten systemseitig greift (Gutachten N. Lotze), haben wir aufgenommen (Einleitung).

    Theoretischer und konzeptueller Hintergrund:

    Im Blick auf eine theoretisch fundierte Unterscheidung der HCI-Dialoge von sozialer Interaktion (Gutachten N. Lotze) haben wir – über die mikrosoziologische Argumentationslinie im Anschluss an Goffman hinaus – nun auch die Diskussion im Kontext der Philosophie des Geistes aufgenommen (Abschnitt 5.2). Ebenfalls kurz aufgegriffen haben wir den Hinweis auf die Relevanz der anthropomorphen Gestaltung der KI (hier z.B. im Blick auf die Stimmqualität der VUI-Persona, vgl. dazu auch Abschnitt 2) für die nutzerseitige Perzeption und das hierauf basierende Nutzerverhalten im Umgang mit der Technik (Gutachten N. Lotze).

    Aufarbeitung des Forschungsstands

    In einem neuen Abschnitt (2) haben wir, wie von K. Cyra vorgeschlagen, eine gebündelte Darstellung des Forschungsstands ergänzt. Diese speist sich einerseits aus den bereits im Artikel erwähnten Studien, darüber hinaus haben wir weitere relevante Arbeiten berücksichtigt. Besonders haben wir auch den Verweis auf Studien zu Protokolldaten aus anderen Disziplinen aufgegriffen (Gutachten K. Cyra). Die Studie zu Logdaten im Kontext von Chatbots (Candello/Pinhanez 2018) haben wir ebenso berücksichtigt wie die Arbeit von Wiedemann (2019), letztere allerdings an anderer Stelle (im neuen Abschnitt 4 zur Methodologie) als ein Beispiel für den Mehrwert einer praxeologischen Methodologie.

    Methodische Überlegungen zur Aufbereitung und Verwendung der Daten im Kontext linguistischer Forschung:

    Die bisher in den einzelnen Abschnitten nur knapp erläuterte Methodik wurde nun gebündelt und ausführlicher in einem neuen Abschnitt 4 dargestellt. Dazu gehört eine kurzgefasste Korpusbeschreibung unter Berücksichtigung von Feldzugang, Datenerfassung und Videoaufzeichnung. Die „Natürlichkeit“ von Daten wird kurz erläutert, und die drei Auswertungsstrategien werden mit Verweis auf die jeweiligen Abschnitte im Überblick vorgestellt. Die tabellarische Aufbereitung und die Entscheidung zur Transkription werden genauer erläutert. Der Vorschlag von K. Cyra, die Umschrift des Systems in den Transkripten zu ergänzen ist prinzipiell für folgende Arbeiten überlegenswert, scheint aber für die vorliegende Exploration zu unübersichtlich, zumal die beschriebene tabellarische Darstellung hinreichend Vergleichsmöglichkeiten bei der Analyse bietet.

    Den Hinweis darauf, dass „das System in der Regel das Wake word nicht aufzeichnet“ (Gutachen K. Cyra) haben wir bearbeitet, indem die Angaben präzisiert wurden (das Wake Word wird häufig auch erfasst, zwischen Aktivierungswort und Sprachbefehl kommt es aber auch zu Lücken, sodass oft keine Angaben darüber gemacht werden können, was die ko-präsenten Sprecher_innen in der Zwischenzeit sagen).

    Gesprächsanalytische Untersuchungen:

    Die gesprächsanalytischen Untersuchungen (Abschnitt 5.2) haben wir durch weitere Verweise auf Forschungsarbeiten unter Berücksichtigung des in den jeweiligen Untersuchungen fokussierten Phänomenbereichs (Chatbots, Embodied Conversational Agents, soziale Roboter) sowie durch einen Verweis auf den im Rahmen weiterer Untersuchungen zu prüfenden Zusammenhang zwischen der Praktik des Austestens von Funktionen des IPA und dem Konzept des „Computer Talk“ (Zoeppritz 1985, Lotze 2018) ergänzt und – soweit dies auf Basis der vorliegenden Protokolldaten möglich war – differenzierter ausgearbeitet.

    Praxeologische Untersuchungen:

    In den praxeologischen Analysen (Abschnitt 5.3) haben wir die Analysen ausgebaut und die Dialektik der sprachlich-kommunikativen Nutzungspraktiken zwischen systemseitiger „Kuratierung“ (Dolata 2019) und nutzungsseitiger „Domestizierung“ (Brause/Blank 2020) zur Strukturierung der Erkenntnisse hervorgehoben.

    Literaturverarbeitung:

    In der Literaturverarbeitung haben wir differenzierter berücksichtigt, auf welche Arten von Conversational agents sich die zum Vergleich herangezogenen Studien beziehen (vgl. Anmerkung 3 und Abschnitt 5).

    Im Fall der zitierten unveröffentlichten Master-Arbeit von Strüver sehen wir das Problem, dass die Arbeit nicht ohne Weiteres zugänglich ist. Da wir die Arbeit mit Genehmigung des Autors rezipieren konnten, halten wir es aber für geboten, sie an den entsprechenden Stellen als Quelle anzuführen.

Leave a Comment