Vol 2 (2019), No 2: 157–194

DOI: 10.21248/jfml.2019.16

Gutachten und Kommentare abrufbar unter:

http://dp.jfml.org/2019/opr-held-face-to-face/

Face to Face

Sozio-interaktive Potentiale der Videotelefonie

Tobias Held

Abstract

The present article shows an experimental subject investigation on elements of video telephony in relation to experiencing and feeling connectedness and intimacy within private interpersonal communi­cation. Particular interests are questions about possible relationships between image detail, angle of view or perspective as well as image format or the foreign and personal perception of the communica­tors. Central to this is the question of whether the practices and interactions of users in dealing with communication technology can be used to derive possible conclusions on negotiation measures or even adaptation services. The obtained results are presented on the basis of an introductory theoretical discussion. It is followed by a summary and analysis as well as an outlook on the further use and significance of the results.

Keywords: Videotelefonie, Human Computer Interaction, Designforschung, Medienforschung, Bewegtbildwissenschaft

0. Einleitung

In Zeiten vor allem beruflich bedingter, stetig zunehmender räum­licher Trennung und Flexibilisierung, wachsen zugleich die Bedürf­nisse nach interpersonaler Kommunikation, um Gedanken und Ge­fühle, aber auch Sorgen und Ängste mit nahestehenden Menschen teilen zu können. Wohnen die Menschen, die uns nahestehen, je­doch nicht in direkter Nachbarschaft, ist es schwierig solche alltäg­lichen Momente miteinander zu erleben. Um diese jedoch auch in Phasen räumlicher Trennung miteinander teilen zu können, bietet die digitale Kommunikation Möglichkeiten, jene Formen der Nähe und Verbundenheit auch auf Distanz zu erleben: Chatten, Telefo­nieren oder Skypen werden zur Kommunikation und somit zur Überbrückung der Trennungszeit und Aufrechterhaltung sozialer Beziehungen genutzt. Insbesondere die Videotelefonie, deren An­bieter mit Slogans wie »Überall zusammen sein« (Skype 2010, zit. n. Schlütter 2011: 89) oder »Verbindet Menschen« (MSN 2010, zit. n. Schlütter 2011: 89) werben, erfreut sich dabei, durch steigende Usa­bility und Verfügbarkeit begünstigt, zunehmender Beliebtheit.

Zentrales Element des vorliegenden Artikels bildet das Erleben von Nähe und Verbundenheit, die durch das visuelle Element der Videotelefonie beeinflusst wird. Der Fokus liegt dabei auf der Video­telefonie im privaten Bereich unter Verwendung handels­üb­licher Kommunikationselektronik wie dem Smartphone. Im Mit­tel­punkt steht deshalb die Frage, welche sozio-interaktiven Poten­tiale der Videotelefone zugeschrieben werden können. Und weiter­hin:

          Besteht ein direkter Zusammenhang zwischen dem Bild­ausschnitt und dem Empfinden von Nähe?

          Wie werden unterschiedliche Kameraperspektiven be­ziehungsweise Aufnahmewinkel wahrgenommen? Verän­dern diese die Fremdwahrnehmung des Gegenübers be­ziehungsweise (wie) lässt sich dadurch die Eigenwahrneh­mung steuern?

          Welche Rolle kann dem simulierten Blickkontakt zuge­schrieben werden? (Wie) wird das Verbundenheitserleb­nis durch verschiedene Blickrichtungen beeinflusst?

          Welche Vorgehensweisen und Interaktionen lassen sich im Umgang mit der Technologie erkennen? Lassen sich daraus eventuelle Handlungsmuster ableiten, die mög­licherweise Rückschlüsse auf Aushandlungsmaßnahmen oder gar Anpassungsleistungen zulassen?

Um einer Klärung dieser Fragestellungen näher zu kommen, soll die dazu erfolgte theoretische Auseinandersetzung kurz vorgestellt wer­den (siehe Kapitel 2). Diese wird unterstützt durch die Ergebnisse praktischer Forschung, die sich primär dem Feld der Design-, Me­dien- und Kommunikationsforschung zuordnen lassen (siehe Kapi­tel 3).[1] Deren Ziel war es, (Nutzer-)Informationen bezüglich der Ein­flussfaktoren und Variablen zu validieren und hinsichtlich ihrer Aus­wirkungen auf kommunikative Effekte zu analysieren. Es geht folg­lich um kommunikative Praktiken, mit denen Privatheit bzw. Nicht-Privatheit im (nicht/semi-)öffentlichen Austausch in und mit mobi­len Medien kontextualisiert wird. Dafür wurde eine Probandenbe­fragung mit 176 Teilnehmern sowie ein darauf aufbauendes Inter­aktionsexperiment mit 18 Probanden durchgeführt. Abschließend werden die gewonnenen Ergebnisse und Erkenntnisse zusammen­geführt (siehe Kapitel 4).

Der Inhalt des vorliegenden Beitrags lässt sich überwiegend dem ersten Themenbereich des Themenheftes zuordnen, der den Ge­brauch persönlicher mobiler Endgeräte fokussiert. Dabei ist er be­wusst die Bereiche Öffentlichkeit, Privatheit und Anonymität über­greifend positioniert. Insbesondere der Aspekt, der die Ausdeutung und Interaktion mobiler Medien durch die Nutzer zum Inhalt hat, ist aufgrund der Herangehensweise, die eine neue, für die Medienlin­gu­istik bereichernde Sichtweise auf Formen medial vermittelter Kommunikation eröffnet, von Interesse.

1. Theoretische Vorüberlegungen

1.1 Terminologische und historische Verortung

Obwohl Begriffe wie Bildtelefonie, Videotelefonie oder Videokon­ferenz allgegenwärtig sind, herrscht Uneinigkeit über deren termi­nologische Einordnung sowie eventuelle Grenzen. Und all das auch, da dem Namen ›Videotelefon‹ nie solch eine Standardisierung wie seinem früheren Gegenstück ›Telefon‹ zuteilwurde. Das führte wie­derum dazu, dass eine Vielzahl von Namen und Begriffen verwendet werden.

Allgemeinhin ist unter Videotelefonie ein bidirektionaler, volldu­plexfähiger, audiovisueller Echt-Zeit-Kommunikationsdienst zwi­schen Benutzergruppen in zwei oder mehr örtlich getrennten Stand­orten gemeint. Als Ergebnis dessen erscheinen sowohl Monitordar­stellungen (Bewegtbilder) als auch Töne, die »eine technisch vermit­telte Reproduktion der ursprünglich stattgefundenen kommunikati­ven Handlungen sind« (Kopp 2004: 17). Die Qualität und Detailge­nauigkeit der Reproduktion ist dabei abhängig von diversen Fakto­ren, zu denen die Leistungsfähigkeit der Aufnahme- und Wieder­gabegeräte sowie die zwischen den beiden Endstellen bestehende Datenverbindung, aber auch der jeweils verwendete Codec zu zäh­len ist. Weiterhin ist es für den kommunikativen Prozess wichtig, dass die Zeitspanne von der Aufzeichnung auf der einen Seite und der Darstellung auf der anderen Seite der Verbindung möglichst ge­ring ist.

Videotelefonie ist folglich eine Form technisch vermittelter, in­terpersoneller, synchroner Kommunikation bestehend aus Bewegt­bildern und Ton (für einen Vergleich zu anderen Kommunikations­technologien siehe Abbildung 1).

Abbildung 1: Videotelefonie im Spektrum technisch vermittelter, interper­sonaler Kommunikation (eigene Darstellung)

Darüber hinaus kann kaum ein Telekommunikationssystem auf eine solch lange und wechselhafte Entwicklungshistorie, bestehend aus stetigem gesellschaftlichem und kulturellem Interesse einerseits und gleichzeitig ausbleibendem Erfolg andererseits, zurückblicken wie die Videotelefonie.[2]

Dabei sind die ersten Ideen, mit den Mitteln elektrischer Kom­munikation neben der Sprache auch ein bewegtes Bild zu übertra­gen, fast so alt wie das Telefon selbst. Bereits zwei Jahre nachdem A. G. Bell sein Telefon patentieren ließ, tauchte die Idee erstmals auf (vgl. Briggs 1977: 520 f.). Doch trotz der zahlreichen Bemühungen und Versuche blieb ihr der Erfolg stets verwehrt.[3] Parallel dazu war die Videotelefonie auch immer Bestandteil popkulturellen Interes­ses.[4]

Erst die vergangenen Jahre[5] brachten die Hoffnung auf den schlussendlichen Durchbruch der Technologie mit sich. Durch die flächendeckende Verbreitung des Desktop-PCs sowie dem Auf­kommen moderner Smartphones oder Tablets gehört die Video­telefonie heute zum tagtäglichen Medienhandeln vieler Menschen.

Insgesamt verfolgte die Videotelefonie stets das Ziel, das reale Ge­spräch vis-a-vis möglichst realistisch zu reproduzieren. Deswe­gen gilt sie seither als eine der Kommunikationsarten, die als adä­quater Ersatz angesehen werden kann, wenn eine Face-to-Face-Si­tuation nicht herzustellen ist (vgl. Short/Williams/Christie 1976: 20). Denn sie bietet die Möglichkeit, den Kommunikationspartner über zwei Sinneskanäle gleichzeitig wahrzunehmen: den auditiven und den visuellen. Ergebnis dessen sind Synästhesien,[6] die zur Kom­ple­xitäts­reduktion der Informationsübertragung beitragen. Der ganze Be­reich visuell vermittelter, nonverbaler Kommunikation kann hier­bei, soweit technische Parameter wie der Bildausschnitt es zu­lassen, ausgeschöpft werden. Sowohl Mimik als auch Gestik und deren Be­standteile sind wahrnehmbar, ohne dass zwei Personen zur selben Zeit am selben Ort sein müssen.[7]

1.2 Videotelefonie im Vergleich zu Face-to-Face-Kommunikation

Auch, wenn das Gespräch mittels Videotelefonie nicht in vollem Umfang die Möglichkeiten einer Face-to-Face-Kommunikationssi­tuation bietet, kommt es nah an die ›natürliche‹ Art interpersoneller Kommunikation heran und ist dazu in der Lage, diese zu simulieren.[8] So betonen auch Miller/Sinanan (2014), dass technikvermittelte Kommunikation nicht ›unnatürlicher‹ ist als Kommunikation von Angesicht zu Angesicht. Sie ist nur anders – und dieses Anderssein ist eine Folge der genauen Ausgestaltung der Situation und damit auch der verwendeten Technik. Aus diesem Grund ist es notwendig, die häufig zitierte Nähe der audiovisuellen Kommunikation zur Face-to-Face-Situation weitaus zurückhaltender und kritischer zu betrachten, als von Befürwortern häufig propagiert wird. Weiterhin ist darauf hinzuweisen, dass die Videotelefonie keinesfalls als Zwi­schenstufe inmitten des auditiven Telefonats und der Face-to-Face-Kommunikation zu beurteilen ist (vgl. Friebel et al. 2003: 3). Viel­mehr sollte sie als ein eigenständig zu bestimmender Kommunika­tionsprozess wahrgenommen werden, der deshalb nicht mit prima facie vergleichbaren Kommunikationspraxen unter Anwesenheits­bedingungen zu identifizieren ist (vgl. Friebel et al. 2003: 3).

Trotz ihrer gleichzeitigen Andersartigkeit und Ähnlichkeit im Vergleich zur Face-to-Face-Kommunikation kommt es vor, dass die Nutzer die Videotelefonie als unzureichend hinsichtlich der Über­tragung nonverbaler Informationen und speziell von Emotionen em­pfinden (vgl. Held 2017; Pahre 2006). Zu groß ist die Diskrepanz zwi­schen der Wirklichkeit und den Werbeversprechen nach Verbun­denheit. Ein Umstand, der oft zu Frustrationen oder Missverständ­nissen führt (vgl. Held 2017; Held 2020b). Und auch die Forschungen zum Thema ›Intime Kommunikation‹ im Bereich der Mensch-Com­puter-Interaktion verdeutlichen die mitunter große Kluft zwischen universellen Bedürfnissen und konkreten technischen Lösungen (vgl. Hassenzahl et al. 2009: 235).

Dabei liegt genau darin, in der Vermittlung von Verbundenheit, Privatheit und Nähe, im Schaffen von Intimität[9] mittels technischer Medien, eine der zentralen Motivationen zur Nutzung dieser – ins­besondere innerhalb privater Kommunikation (vgl. Held 2020b). Denn: Videotelefonie lässt eine neue Form elektronisch erzeugter und subjektiv empfundener Nähe entstehen (vgl. Hahn 2014).[10] Hier­bei handelt es sich um eine Form der Intimität, bei der körperliche Kopräsenz nicht die Voraussetzung ist, die jedoch, so die Theorie, ein Mehr an kommunikativer Arbeit fordert, da der gemeinsame lebensweltliche Kontext in all seinen materiellen und leiblichen Aspekten in Zeichen übersetzt werden muss, um vom Gegenüber wahrgenommen werden zu können.

Fraglich ist in diesem Kontext jedoch, welche Bestandteile, Vari­ablen oder Parameter dabei relevant sind. Welche Bedeutung kann dem Bild, also dem visuellen Element, bei der Entstehung von Inti­mität beziehungsweise beim Empfinden von Verbundenheit zuge­schrieben werden?

Ein Bild, das Screenshot enthält.

Automatisch generierte Beschreibung

Abbildung 2: Schematische Darstellung aller für die Videotelefonie notwen­digen Komponenten (eigene Darstellung)

Grundlegend muss dazu festgehalten werden, dass die moderne Vi­deotelefonie mittels einer Vielzahl unterschiedlicher Geräte durch­geführt werden kann. Insbesondere mit der zunehmenden Verbrei­tung mobiler Endgeräte lässt sich eine gestiegene Konnektivität so­wie eine Vervielfältigung des Spektrums technischer Geräte beob­achten. Diese Geräte unterscheiden sich jedoch in ihren Eigenschaf­ten, Merkmalen und Aufgaben und lassen sich nach Nutzerbedürf­nissen, Nutzungskontexten, technischen Möglichkeiten oder Be­schränkungen definieren. Insbesondere physikalische Gegebenhei­ten wie die Größe des Screens, die durchschnittliche Entfernung zwischen Nutzer (Augen) und Bildschirm oder die Positionierung der Kamera am Gerät sind von herausragender Bedeutung.

Deswegen lassen sich die für die Videotelefonie im privaten Mas­senmarkt relevanten digitalen Endgeräte in hauptsächlich drei mit­telfristig relevante Geräteklassen einteilen: (1) Desktop-PCs bezieh­ungsweise Laptops, (2) Tablets und (3) Smartphones. Allen Geräten gemein ist, dass sie sowohl über die System-, als auch die physikali­schen Voraussetzungen zur Videotelefonie verfügen und diese ver­einen.

Das Spektrum der zur Durchführung eines Gespräches mittels Vi­deotelefonie notwendigen Komponenten ist grundlegend wie folgt zu unterteilen (siehe Abbildung 2): (1) Bildschirm oder Display, (2) Kamera, (3) Apparaturen zur Aufzeichnung und (4) Wiedergabe des Tons; darüber hinaus (5) Optionen bezüglich Beleuchtung oder Hin­tergrund sowie (6) der Datenübertragung.

Darüber hinaus unterscheidet sich die audiovisuelle Fernkommu­ni­kation von der Face-to-Face-Kommunikation dahingehend, dass die technischen Rahmenbedingungen vor allem eigene (meta-)kom­munikative Handlungsmuster mit sich bringen. Deswegen ist es wichtig zu betonen, dass die praxisorientierten Kompetenzen in puncto Rhetorik und Verhalten sowohl erlernt werden können als auch erlernt werden müssen, um eine zufriedenstellende Kommu­nikation zu ermöglichen (vgl. Meier 2016: 429). Denn »jedes Medium der Kommunikation erfordert nicht nur technikbezogene Anpas­sungsleistungen, sondern auch die Ausformung und Koordination spezifischer […] Regeln« (Schlütter 2011: 91). Und auch Friebel et al. (2003: 564) benennen die individuellen Kompetenzen der an der Kommunikation beteiligten Personen als Variablen einer eigenstän­digen Kommunikationsform, die sich erst in der je spezifischen Inge­brauchnahme der Technologie realisieren.

2. Analyse der kommunikativen Variablen der Videotelefonie

Im weiteren Verlauf soll es deshalb um die mit der Videotelefonie verbundene Analyse gegenwärtiger kommunikativer und sozialer Strukturen und die Frage, welche Phänomene als für diese spezifisch gelten, gehen. Und weiterhin: Welche Variablen beeinflussen das Entstehen subjektiv empfundener Nähe und Verbundenheit inner­halb privater Kommunikation mittels Videotelefonie? Von besonde­rem Interesse sind dabei Fragestellungen hinsichtlich Perspektive, Format, Bildausschnitt sowie Blick.

Zentrales Element der Probandenuntersuchungen sowie der the­oretischen Analyse bilden die Möglichkeiten der Darstellung sowie der Aufnahme. Neben den technischen Merkmalen und Spezifika­tionen, die Auswirkung auf die Qualität der aufgenommenen, darge­stellten beziehungsweise übermittelten Bilder haben, hat insbeson­dere die Position der Kamera entscheidende Auswirkungen auf so­ziale Aspekte audiovisueller Kommunikationsereignisse.

2.1 Die Kamera

Grundlegend ist festzuhalten, dass der Kamera die Aufgabe zu­kommt, die kommunikativen Ereignisse der beteiligten Individuen aufzunehmen und in Form von technischen Signalen zu codieren. Die gesendeten Signale der Kameras werden einerseits an die je­weils andere Endstelle übertragen, andererseits dienen diese Signale auch zur Wiedergabe des Eigenbildes beziehungsweise Kontroll­bildes.

Unabhängig davon, ob das Videotelefongespräch in einem Büro, unterwegs oder zu Hause auf dem Sofa stattfindet, gibt es dabei jedoch bestimmte Punkte, die zu berücksichtigen sind. Denn, neben den technischen Merkmalen und Spezifikationen, die Auswirkung auf die Qualität der aufgenommen beziehungsweise übermittelten Bilder haben, hat auch die Position der Kamera entscheidende Aus­wirkungen auf soziale Aspekte audiovisueller Kommunikationser­eignisse. Diese beiden Faktoren sollen nachfolgend kurz vorgestellt und deren mögliche Auswirkungen aufgezeigt werden.

Bereits im 15. Jahrhundert verglich der Kunsttheoretiker Leon Battista Alberti (1404-1472) das Bild mit einem Fenster zur Wirklich­keit. Demnach legt der Künstler mittels Bildausschnitt fest, wie nahe man an den gewählten Wirklichkeitsausschnitt herantreten kann und welche Einblicke somit in eine andere Welt gewährt werden. Ein Bild gibt demnach stets nur einen Ausschnitt aus einem größeren Ganzen wieder. »Die verschiedenen Ausschnitte sind Reduktionen des maximal wahrnehmbaren Gesamtbildes. Auch die Totalansicht der Kamera ist […] eine solche Reduktion des wirklichen Bildes.« (Acker/Nann 1986: 30 f.).

Mit dem gewählten Ausschnitt lässt sich folglich die Informa­tionsvergabe, die von der Einstellungsgröße ausgeht, steuern und dosieren. Der Zuschauer sieht nur das, was er im Bild zu sehen be­kommt, und das ist ein Ausschnitt, der seine Aufmerksamkeit lenkt. Die Einstellungsgrößen entsprechen immer dem Ausmaß der bild­wichtigen Informationen. Eine flächenmäßige Begrenzung des Bild­ausschnittes führt zwangsläufig auch zu einer qualitativen Fixierung (vgl. Acker/Naan 1986:30 f.).

2.1.1 Die technische Komponente der Kamera

Generell muss zwischen zwei Gruppen von Kameras unterschieden werden. Einerseits den additiven Webcams, die per USB mit dem Endgerät verbunden werden. Andererseits den fest verbauten Frontkameras der Smartphones, Tablets, Laptops oder All-in-One-PCs.

Zeitgenössischen Geräten gemein ist, dass sie sich durch eine hohe Frequenz der aufgenommenen Bilder auszeichnen. Darüber hinaus verfügen sie (in Kombination mit der Software) über Funk­tionen wie automatische Beleuchtungssteuerung, Echtzeitverbes­serungen des Bildes, automatische Gesichtsverfolgung und Autofo­kus.

Aufgrund der kompakten und schlanken Bauform können in por­tablen Geräten lediglich kleine Kameras verbaut werden. Technisch gesehen hat dies zur Folge, dass ausschließlich schmale Weitwinkel­objektive im Bereich von Brennweitenbereich 24 bis 32 mm verbaut sind.[11] Dies führt in der Aufnahme dazu, dass mehr vom Raum zu sehen ist und sich infolgedessen auch der ›eigentliche‹ Fokus (der Gesprächspartner) verschiebt. Jedoch können auch Elemente ins Bild rücken, die einerseits ablenken oder verwirren. Andererseits können (in Kombination mit der jeweiligen Umgebungssituation) auch positive Effekte auftreten, die sich auf das Kommunikations­setting im Allgemeinen auswirken. So kann eine Erweiterung des Sichtfeldes zur Folge haben, dass die Intimität eines Gesprächs auf­gebrochen und für andere geöffnet wird (Schneider et al. 2015: 3). Darüber hinaus führt der Einsatz jener Weitwinkelobjektive auch dazu, dass das Bild vergleichsweise verzerrt wiedergegeben und so­mit die Raumwahrnehmung beeinträchtigt wird. Je weiter das Bild­motiv außerhalb des Bildzentrums liegt, desto mehr wird es verzerrt – wohingegen in der Mitte alles schmaler und komprimierter wirkt. Eine optische Deformation der Realität ist die Folge.

Als ein enorm positiver Effekt fest verbauter Kameras gilt hinge­gen deren Form und Präsenz. Zum einen ist diese aufgrund ihrer geringen Größe und ihres zurückhaltenden Designs (fest verbaute Geräte fallen optisch kaum auf, gliedern sich vielmehr harmonisch ins Gesamtbild des Gerätes ein) weniger auffällig als die weitaus größeren additiven Modelle. Damit ist gewährleistet, dass die Kame­ra dem Nutzer weniger präsent erscheint, wodurch sich eine mög­liche ›Kamerascheue‹ minimiert (vgl. Held 2020a). Zum anderen tritt aufgrund der ständigen Präsenz der Kameras im Alltag computer­vermittelter Kommunikation ein vertrauteres Gefühl und somit eine höhere Akzeptanz auf, die sich wiederum durch einen nativeren Umgang äußert.

2.1.2 Position der Kamera

Einen weiteren Einflussfaktor bildet die Position der Kamera. Der beste Ort für diese ist direkt über und so nah am Bildschirm der übertragenen Seite wie möglich. Nur so ist die beste Blickrichtungs­erkennung gewährleistet (vgl. Andberg 2008: 4). Diese Erkenntnis hat sich auch in der Gestaltung moderner, der Videotelefonie dien­licher Kommunikationsgeräte durchgesetzt. Ob bei Laptops, Smart­phones, Tablets oder Desktop-PCs mit fest verbauter Kamera, die Kamera ist stets in möglichst geringer Distanz zum Display verbaut.

Ein Bild, das Computer enthält.

Automatisch generierte Beschreibung

Abbildung 3: Positionierung der (Front)Kamera im Gerät (eigene Darstel­lung)

Dabei besteht jedoch eine Diskrepanz, die Auswirkungen auf die Frage des Bildformats hat. Sowohl beim Laptop als auch beim Desk­top-PC erfolgt die Nutzung nahezu ausschließlich im Querformat. Deswegen ist die Kamera bei diesen Geräten auch mittig oberhalb des Displays verbaut.

Selbiges gilt für das Smartphone. Anders als beim Laptop erfolgt dessen Nutzung jedoch, bedingt und unterstützt durch Gewohnhei­ten einerseits, den Aufbau der Geräte andererseits, überwiegend im Hochformat.[12] Dadurch haben sich viele User an die hochformatige Nutzung gewöhnt, obwohl die größere Tastatur-Darstellung das Querformat attraktiver macht (vgl. Brinkmann 2019: 12). Deswegen ist es auch folgerichtig, dass die Frontkameras aller modernen Smartphones möglichst mittig auf der kürzeren Seite des Gerätes positioniert sind (siehe Abbildung 3).

Im Falle des Tablets erscheint die Lage jedoch unklar. Eine Eta­blierung, welches Format das vorherrscht, ist zum aktuellen Zeit­punkt (noch) nicht erkennbar. Vielmehr scheint diesbezüglich ak­tuell ein Aushandlungsprozess und Umbruch zwischen Nutzern und Entwicklern sowie den Geräteherstellern stattzufinden. Hersteller wie Apple konstruieren ihre Tablets als größere, leistungsfähigere Pendants zu ihren Smartphones, bei denen sich in Bezug auf die Positionierung der Kamera kaum Unterschiede auftun.[13] Andere Hersteller wie Lenovo, Microsoft oder Huawei setzen hingegen überwiegend auf eine Nutzung des Tablets im Querformat. Dies wird auch durch die Positionierung der Kamera mittig auf der länge­ren Seite des Rechtecks unterstützt (siehe Abbildung 4). Eine dritte Gruppe, zu der auch Samsung gehört, befindet sich hingegen im Um­bruch. Die ersten Tablets des südkoreanischen Technologieprodu­zenten waren noch für eine Nutzung im Querformat konzipiert (Ka­mera mittig der längeren Seite). Die aktuellen Modelle gleichen hin­gegen den firmeneigenen Smartphones, die lediglich in der Größe angepasst wurden.

Ein Bild, das Monitor, Screenshot, sitzend, Telefon enthält.

Automatisch generierte Beschreibung

Abbildung 4: Positionen beim Tablet im Vergleich (eigene Darstellung)

Diese Entwicklung hat jedoch Auswirkungen auf die Videotelefonie mittels Tablet. Auch wenn der Nutzer es gewohnt ist, im Querformat zu videotelefonieren (oder dieses Format schlichtweg favorisiert), ist dies nur mit Einschränkungen oder Einbußen der Gesprächsqualität möglich. Einerseits ist die Wahrscheinlichkeit relativ hoch, dass beim Halten des Tablets mit beiden Händen der Daumen (oder ein anderer Finger) die Kamera verdeckt und andererseits hat die seit­liche Positionierung der Kamera zur Folge, dass das Gefühl des »An­geschaut-Werdens« enorm reduziert wird.

Dennoch lässt sich die grundlegende Positionierung der Kamera – egal ob fest verbaut oder additiv – als positiv bewerten.[14] Aufgrund ihrer geringen Maße ist sie sehr flexibel und kann so auch leicht am Monitorrand, möglichst nahe zu dem eigentlichen Videokommuni­kationsfenster, platziert werden. Auf diese Weise kann annähernd gewährleistet werden, dass eine Zuwendung zum Kommunikations­fenster hin auch einer Zuwendung zur Webcam gleichkommt.

2.2 Das Bildformat

Eine weitere potenzielle Variable für das Entstehen von Verbunden­heitserlebnissen bildet die Frage nach dem Bildformat, welche meist in direktem Zusammenhang mit der Positionierung der Kamera steht. Doch insbesondere anhand der Entwicklung des Tablets, des­sen Historie in Bezug auf die Positionierung der Kamera bereits kurz angedeutet wurde, ist die Frage zulässig, ob sich Präferenzen seitens der Nutzer bezüglich des verwendeten Bildformats erkennen lassen.

Ein Bild, das Screenshot enthält.

Automatisch generierte Beschreibung

Abbildung 5: Übersicht über die jeweiligen Bildformate der Endgeräte (eigene Darstellung)

Wie bereits im Absatz zu den Geräteklassen angesprochen, kann grundlegend zwischen zwei Bildformaten unterschieden werden: dem Hoch- sowie dem Querformat (siehe Abbildung 5).

Auf den ersten Blick scheint es trivial, ob, rein auf die formelle Ebene beschränkt, das Hoch- oder das Querformat gewählt wird. Jedoch treten Unterschiede hervor, die Einfluss auf das Empfinden von Verbundenheit einerseits sowie auf die Quantität und Qualität der Informationsvermittlung andererseits haben können.

Ein Bild, das Elektronik, Screenshot, Computer enthält.

Automatisch generierte Beschreibung

Abbildung 6: Ungenutzte Fläche bei der Darstellung im Hochformat auf einem für das Querformat ausgelegten Display (eigene Darstellung)

Wie bereits kurz dargelegt, ist die Entscheidung beziehungsweise die Wahl des Formats, keineswegs allein dem Nutzer überlassen. Vielmehr wird sie durch den Aufbau und die Gestaltung der Endge­räte vorgegeben oder vorbestimmt. Insbesondere anhand des Lap­tops ist dies gut darzulegen. Die Kamera sitzt mittig oberhalb des Bildschirmes. Ein Verwenden im Hochformat ist weitestgehend aus­geschlossen – es sei denn das Gerät wird gedreht oder man be­schneidet das Bild, was jedoch zu Einbußen führt.

Und auch beim Smartphone lässt sich eine klare, auf der Gestal­tung der Geräte beruhende Präferenz erkennen. Denn die Kameras sind nahezu ausnahmslos neben der Hörmuschel, also auf der kür­zeren Seite, platziert. Das heißt, dass das Smartphone, um eine mög­lichst verzerrungsfreie, zentrierte Aufnahme zu ermöglichen, im Hochformat gehalten werden muss. Andererseits tritt der Effekt ein, den Gerfen (1986) als das »Aneinander vorbeischauen« bezeichnet und der im weiteren Verlauf des Textes noch einmal besprochen werden soll. Ein nahezu identisches Phänomen lässt sich auch das Tablet übertragen.

Ein interessanter Effekt tritt hingegen dann auf, wenn ein Gerät, das im Hochformat genutzt wird (beispielsweise ein Smartphone), mit einem Gerät, das im Querformat genutzt wird (beispielsweise ein Laptop), kommuniziert (siehe Abbildung 7). Da das Smartphone das Bild im Hochformat nutzt, nimmt es das Bild des jeweiligen Kom­munikatoren auch in eben jenem Hochformat auf. Um dieses jedoch auf dem Bildschirm des Gegenübers darzustellen, wird es in dieses eingepasst. Dabei geht jedoch ein Großteil der Bildschirmkapazitä­ten des Querformat-Gerätes verloren beziehungsweise bleiben un­genutzt.

Im Umkehrschluss bedeutet das jedoch auch, dass Möglichkeiten des Querformat-Gerätes hinsichtlich dessen Kamera ungenutzt blei­ben, da dieses für die Darstellung auf dem Smartphone des Gegen­übers beschnitten wird.

2.3 Perspektive und Aufnahmewinkel

Unter der Kameraperspektive wird der Sichtwinkel verstanden, aus dem ein Geschehnis beziehungsweise eine Person aufgenommen wird (vgl. Nessmann 1991: 76). Auch hierbei bedient man sich an aus der Filmproduktion und -theorie bekannten Termini. Demnach wird zwischen Normal-, Vogel- und Froschperspektive sowie der Drauf- und Untersicht unterschieden. Ordnungskriterium für die Unterteilung ist die Höhe der Kamera im Verhältnis zur Bild- oder Handlungsebene.

Überträgt man dies auf die Bildaufnahmen innerhalb der Video­telefonie, ist grundlegend zu unterscheiden, ob diese technisch be­dingt (technisch möglich)[15] oder frei wählbar (und damit der Kom­petenz der Beteiligten zuzuschreiben) sind.

Die jeweiligen Kameraperspektiven haben Einfluss auf die Art der übermittelten Informationen. So ist es über die Wahl der Kame­ra­perspektive (aber damit verbunden des Bildausschnittes) nicht nur möglich, die Fremdwahrnehmung beziehungsweise Selbstdarstel­lung gezielt zu steuern,[16] sondern es kann auch entscheidend sein, ob nur der Kopf, der Oberkörper oder gar weite Teile des Hinter­grunds beziehungsweise des (Aktions-) Raums sichtbar sind:[17]

»[...] if the picture is just of the head, [...], almost all the infor­mation from posture will be lost. If a more complete picture is provided, the postural cues will be retained, but at some trade-off against the smaller signals (such as eye movements) which are less visible with a more remote picture.« (Short et al. 1976: 50)

2.4 Blick und Blickkontakt

Wirft man einen Blick in die akademischen Forschungen zur Video­telefonie, so wird deutlich, dass die Bedeutung des (vermeintlichen) Blickkontaktes zwar stets thematisiert und erkannt wurde,[18] der Fokus der Bemühungen und Entwicklungen jedoch meist auf der grundlegenden technischen Realisierbarkeit sowie der Bild- und Tonqualität lag. So führten schon Short et al. (1976: 55) aus:

»The visual channel available in most video systems does not restore eye-contact as a cue; it makes things even worse. The camera cannot be placed exactly in line with the picture of the eyes, so if person A thinks he is looking person B in the eye, he will appear to B to be looking elsewhere […].«

Ein Umstand, den Kopp (2004: 165) als »one-way-direction-gaze«, andere hingegen als »eye-contact-dilemma«[19] bezeichnen. Unab­hängig der Bezeichnung beschreibt es den Konflikt, dass die gegen­wärtig geläufigen technischen Systeme, aufgrund der Positionierung der Kamera oberhalb des Bildschirms, keinen direkten, wechsel­seitigen Blickkontakt erlauben. Ursache dafür ist das Wegfallen ent­sprechender räumlicher Relationen, da der Blick immer automatisch nach vorne auf den Monitor beziehungsweise zur Kamera hin aus­gerichtet wird (Anderson et al. 1997a; Doherty-Sneddon et al. 1997; Finn 1997; Meier 2000; Olson/Olson 2000; Wegge/Bipp 2004; Whittaker/O'Conaill 1997).

»Schaue ich in die Kamera, dann sehe ich nicht meinen Ge­sprächspartner auf dem Monitor, der allerdings hat den Ein­druck, direkt angeblickt zu werden. Schaue ich meinen Ge­sprächspartner auf dem Monitor an, dann hat dieser den Ein­druck, daß ich ihn nicht anblicke« (Schmitz 1999: 6)

Die faktische Unmöglichkeit gleichzeitig die Augen des Gegenübers auf dem eigenen Bildschirm zu betrachten und in die Kamera zu schauen führt indessen zu einer Veränderung aller mit Blick und Augenkontakt verbundenen kommunikativen Aktivitäten:

»The regulatory function of eye-contact may thus be worse than removed, its operation may be reversed. For example, when thinking he is looking away during an utterance, ›A‹ may look at the camera; on such occasions ›B‹ may experien­ce eye-contact and take it as his turn to speak.« (Short et al. 1976: 55)

Heißt: Der direkte Blick in die Kamera vermittelt zwar dem Ge­sprächspartner den Eindruck, direkt angeschaut zu werden, jedoch ist dieser Effekt nur von kurzer Dauer. Für üblich bemerken die Interaktionspartner zeitnah, dass diese Blickrichtung für den Ge­samtprozess wenig sinnvoll ist, da die unmittelbaren Reaktionen des Angeblickten auf diesen Blick in die Kamera von dem Produzenten nicht wahrgenommen werden können. Wer also direkt in die Kame­ra blickt, vermittelt seinem Gesprächspartner einerseits eine Illusion und sieht andererseits selbst nichts mehr. Für bestimmte interaktive Situationen und als bestimmtes kommunikatives Mittel kann dieser Blick in die Kamera sinnvoll sein, im Rahmen einer allgemeinen An­wendung ist dieser one-way-direction-gaze jedoch vermutlich sehr anstrengend, konfliktreich und der Verständigung kaum dienend (vgl. Kopp 2004: 164).

Eine aus der Face-to-Face-Kommunikation vertraute wechsel­seitige Steuerung der Gesprächspartner ist folglich weitestgehend ausgeschlossen (vgl. Friebel et al. 2003: 12).

Weiterhin können sich die Kommunikatoren, da eine gemein­same räumliche Struktur fehlt, nicht (angezeigt durch Blickrichtung, Körperhaltung) bewusst zu- oder abwenden (Vilhjálmsson 2003). Dabei betonen Brochu et al. (2004: 1):

»Pointing is used to guide attention to items on a diagram or towards members of a group. Eye gaze is another such exam­ple- it is a subtile mechanism for directing participants’ atten­tion, indicating interest in a speaker and achieving deixis.«

Das führt dazu, dass weder Anblicken oder Wegblicken möglich sind. Der vermeintliche Blickkontakt und das vermeintliche Weg­blicken können folglich weder ihre sonstigen gesprächsregulieren­den, noch ihre üblichen kommunikativen Funktionen erfüllen.[20] Simmel (1958 [1908]), für den der gegenseitige Augenkontakt etwas Besonderes, nahezu unnachahmliches, darstellt, beschreibt die Fol­gen des Fehlens wie folgt:

 »[...] der ganze Verkehr der Menschen, ihr Sichverstehen und Sichzurückweisen, ihre Intimität und ihre Kühle, wäre in unausrechenbarer Weise geändert, wenn der Blick von Auge in Auge nicht bestünde – der, im Unterschiede gegen das ein­fache Sehen oder Beobachten des Anderen eine völlig neue und unvergleichliche Beziehung zwischen ihnen bedeutet.«

2.5 Das Eigenbild

Ein weiteres Untersuchungselement bildet das Eigenbild. Neben dem Bild des Gesprächspartners kann jeder Teilnehmer auch ein Bild[21] von sich selbst sehen. Dieses dient der Feststellung und Prü­fung der eigenen Positionierung und Darstellung in Kombination mit der Aufnahmeperspektive, der herrschenden Übertragungsverhält­nisse sowie der Rückversicherung.

In der Regel ist das eigene Kontrollbild als Bild-in-Bild in die Dis­playwiedergabe integriert und ist dabei erheblich kleiner als das übertragene Bild der Gegenstelle, jedoch in seiner Größe und Posi­tionierung flexibel.[22]

Anders als es in einer normalen Face-to-Face-Situation üblich ist, bietet die Videotelefonie folglich die Möglichkeit, sich selbst zu se­hen. Die Tatsache, sich selbst beim Sprechen aus der Perspektive des Gegenübers zu sehen, ist zunächst lediglich eine technische Funktion. Diese führt allerdings zu einer verstärkten Ich-Wahrneh­mung und beeinflusst somit auch das Verhalten, Kommunikation und Erleben (vgl. Schneider et al. 2015: 352).

Dazu kann vor allem der Aspekt der Selbstinszenierung gezählt werden, den Flohrer (1990: 67) wie folgt beschreibt: »[der] Benutzer zeigt sich so, wie er gesehen werden will, nicht wie er ist (das ist unnatürlich).« Das Eigenbild wird folglich genutzt, um die Fremd­wahrnehmung zu beeinflussen oder gar gezielt zu steuern. »Sich richtig ins Bild [zu] setzen« (Flohrer/Mosel 1989: 202) oder »sich unter Kontrolle zu haben« (Friebel et al. 2003: 12) bietet demnach nicht nur Möglichkeiten der Kontrolle sowie zur Vermeidung uner­wünschten Verhaltens, sondern auch der Selbstinszenierung, die in der normalen Kommunikation vis-a-vis undenkbar wären.

Darüber hinaus kann das Eigenbild auch konkrete Auswirkungen auf den vermittelten Bildinhalt haben. Heißt: Ist das Eigenbild un­günstig positioniert oder nimmt zu viel Platz vom Bildschirm ein, kann es passieren, dass die Beobachtung des Gesprächspartners ein­geschränkt wird.

Eine weitere Fragestellung im Zusammenhang mit dem Eigenbild richtet sich auf die Ablenkung, die dieses bewirkt. Kopp (2004: 181) beschreibt das Eigenbild als ein den Kommunikationsprozess verzö­gerndes Merkmal, mithilfe dessen die Sprechenden sich selbst sehen und das sie infolgedessen vom eigentlichen Geschehen ablenkt. Heath et al. (1997: 324) stellten in ihren Untersuchungen[23] sogar fest, dass die Probanden das Eigenbild dem Bild des Gesprächspartners vorzogen.

3. Ergebnisse der qualitativen und quantitativen Forschung

Im bisherigen Verlauf des Textes wurden die theoretischen Überle­gungen zu den Auswirkungen der (technischen) Spezifikationen der Kamera sowie des Eigenbildes auf das Empfinden von Nähe und Verbundenheit dargelegt. Im weiteren Verlauf soll die Überführung dieser in die praktischen Probandenexperimente dargelegt und de­ren Ergebnisse aufgezeigt werden.

Um der Beantwortung der Fragen näher zu kommen wurden ver­schiedene Ansätze mit jeweils spezifischen thematischen Schwer­punkten gewählt. Diese gliedern sich wie folgt:

          Fragekomplex I (Kapitel 3.1) widmet sich dem Bildaus­schnitt und damit verbunden der Frage nach dem subjek­tiven Distanzempfinden der Probanden.

          Fragekomplex II (Kapitel 3.2) untersucht die Kamerapers­pektive beziehungsweise den Aufnahmewinkel.

          Fragekomplex III (Kapitel 3.3) fragt nach der Bedeutung und Wirkung unterschiedlicher Blickrichtungen inklusive des direkten Blicks in die Kamera.

          Fragekomplex IV (Kapitel 3.4) hat die Nutzungsdistanz sowie den Blickwinkel zum Inhalt.

3.1 Untersuchung Bildausschnitte – Fragekomplex I

Vorab ist es wichtig darauf hinzuweisen, dass sich im direkten Zu­sammenhang zum Bildausschnitt[24] (der durch die Brennweite direkt beeinflusst wird) auch die Frage danach, wie der Nutzer das Gerät hinsichtlich der Distanz und des Winkels hält, befindet.

Weiterhin stellt sich die Frage, ob sich die natürlichen Distanzzo­nen[25] auch auf audiovisuelle Fernkommunikation übertragen lassen.

Ein Bild, das Foto, anzeigend, verschieden, Elemente enthält.

Automatisch generierte Beschreibung

Abbildung 7: Übersicht der in Fragekomplex I verwendeten Aufnahmen (eigene Darstellung)

Deswegen wurden 176 Probanden[26] zu ihren Empfindungen hin­sichtlich ihrer empfundenen Nähe verschiedener Bildausschnitte befragt. Dazu wurden diesen mittels eines 10-Zoll-Tablets sechs in­haltlich und formell identische Farbaufnahmen vorgelegt, die jedoch unterschiedliche Bildausschnitte darstellten. Die den Probanden zur Auswahl stehenden Ausschnitte variierten dabei zwischen Einstel­lungsgrößen im Spektrum der Halbtotalen und der Detailaufnahme (siehe Abbildung 7). Dabei sind vor allem unterschiedliche Abstu­fungen der Sichtbar- und Erkennbarkeit von Mimik und Gestik aus­zumachen. Unter den Abbildungen befand sich ein jeweils dazuge­höriger Schieberegler. Der Reglerknopf war in seinem Grundzu­stand mittig positioniert und leicht transparent. Bewegte man ihn jedoch, so verlor er die Transparenz. Die dazugehörige Skala war in Fünfer­schritten von 0 bis 100 unterteilt. Das verbundene Szenario sowie die Frage lauteten wie folgt: »Sie videotelefonieren mit einer Ihnen vertrauten Person (Partner/in, Freund/in, Familienmitglied) und nutzen dafür einen Tabletcomputer. Bitte betrachten Sie nun die nachfolgenden Bilder. Bewerten Sie das empfundene Verhältnis von Nähe und Distanz zu ihrem virtuellen Gesprächspartner.« Daran an schloss sich eine Frage im identischen Szenario. Doch dieses Mal mussten sich die Probanden für einen der sechs Bildausschnitte entscheiden.[27] Diese konnte durch das Klicken auf eine der Abbil­dungen getroffen werden. An die Auswahl schloss sich weiterhin eine offene Frage an. In dieser wurden die Probanden gebeten ihre zuvor getätigte Entscheidung zu begründen. Diese Begründung konnte in ein vorgefertigtes Textfeld geschrieben werden. Die Be­antwortung der Frage war den Probanden freigestellt.

Ein Bild, das Screenshot enthält.

Automatisch generierte Beschreibung

Abbildung 8: Visualisierung der Ergebnisse der Nutzerbefragung bzgl. der Bildausschnitte (eigene Darstellung)

Das Ergebnis ist, dass, der quantifizierten Wertung der Probanden nach zu urteilen, ein Großteil der Befragten bei einem Bildausschnitt zwischen Nahaufnahme und Close-up am ehesten das Gefühl hat, dem jeweiligen Gesprächspartner nahe zu sein (siehe Abbildung 8). Und bei der Frage danach, für welchen der abgebildeten Bildaus­schnitte sie sich entscheiden würden, sprachen sich 53% der Befrag­ten für Bildausschnitt 3 31% hingegen für Ausschnitt Nummer 6, aus. Als Begründungen dafür erfolgten Dinge wie:[28]

          »Man ist noch relativ nah an der Person, hat aber auch eine angemessene Distanz«

          »Ich fühle mich unwohl eine Person viel zu nahe zu ›er­leben‹. In Gesprächen von Angesicht zu Angesicht stelle ich mich auch nicht 20cm vor die Person hin.«

          »[…] ohne dass ich mich bedrängt gefühlt habe oder wegen der Entfernung das Gefühl hatte schreien zu müssen.«

           »Das ist für mich eine normale Gesprächsentfernung im echten Leben. Würde das daher auch im digitalen so nut­zen wollen.«

          »Das Bild gibt den Ausschnitt wieder, den man auch bei einer direkt vor sich stehenden Person im unmittelbaren Blickfeld hätte.«

          »Nah genug, um sich nah zu fühlen, aber nicht zu nah, da­mit es unangenehm wird.«

          »Bildausschnitt [3 – Anm. d. Verf.] wirkt als würde mir die Person an einem Tisch gegenübersitzen«

          »Man sieht den Oberkörper der Person, ganz ähnlich wie bei einem Vieraugengespräch, bei welchem man nicht den kompletten Raum um die Person herum wahrnimmt. Wiederum ist es nicht zu nah – in einem normalen Ge­spräch wahrt man ja auch eine gewisse Distanz«

          »Ich mag es lieber, wenn die Person mit der ich telefo­niere näher am Bildschirm ist, weil es sich persönlicher anfühlt.«

          »Der Bildausschnitt kommt dem am nächsten, was der Re­alität […] entspricht. Nicht zu fern, so dass die Kommuni­kation persönlich ist. Jedoch auch nicht zu nah, damit die persönliche Distanz gewahrt wird.«

Die Probanden entschieden sich folglich in der Mehrheit für einen Bildausschnitt, den sie ihrem subjektiven Empfinden nach am natür­lichsten, angenehmsten oder intuitivsten erachteten. Das heißt: Es ist gewünscht, dass die Gesprächsdistanz zum virtuellen Gegenüber mit der zum realen Gegenüber vergleichbar ist.

3.2 Untersuchung Aufnahmewinkel – Fragekomplex II

Welche Auswirkungen die Position der Kamera beziehungsweise damit einhergehend der Blick- und Aufnahmewinkel auf die Wahr­nehmung der Gesprächspartner hat, wurde in einem weiteren Teil untersucht.

Grundlage dessen bildete die Vermutung, dass sich beim Video­telefon eine ähnliche Veränderung des übermittelten Ausdrucks allein durch die Anordnung der aufnehmenden Kamera ergeben könnte. Deswegen wurde eine zeitlich identische Aufnahme aus drei unterschiedlichen, leicht veränderten Perspektiven angefertigt (sie­he Abbildung 9), die sich mit denen der verschiedenen Endgeräte vergleichen lassen.[29]

Abbildung 9: Drei verschiedene Aufnahmewinkel im Vergleich (eigene Dar­stellung)

Die unterschiedlichen Aufnahmen wurden den Probanden in Kom­bination mit dem folgenden Szenario zur Beurteilung vorgelegt:[30] »Sie videotelefonieren mit einer Ihnen vertrauten Person (Part­ner/in, Freund/in, Familienmitglied) und nutzen dafür einen Lap­top.« Die dazugehörige Frage lautete: »Bitte betrachten Sie die nach­folgenden, sich unterscheidenden Bilder.«

Darunter waren die drei Farbaufnahmen zu sehen unter denen sich jeweils ein Polaritätenprofil, auch semantisches Differential ge­nannt, befand. Dieses besaß folgende Eigenschaften: In insgesamt zwölf Zeilen standen sich jeweils zwei semantisch gegensätzliche Pole, die jeweils den Endpunkt der Skala darstellten, gegenüber. Da­zwischen befanden sich sieben Kategorien, auf denen die Befragten den zu beurteilenden Meinungsgegenstand verorten sollten (siehe Abbildung 10).

Ein Bild, das Text, Karte enthält.

Automatisch generierte Beschreibung

Abbildung 10: Erstellte Graphen zur Visualisierung der verzeichneten Mit­telwerte (eigene Darstellung)

Dabei wurde deutlich, dass dem Empfinden der Probanden nach zu urteilen kaum Unterschiede zwischen dem frontalen Aufnah­mewinkel und der leicht von oben herabkommenden bestehen – dieser findet sich beispielsweise bei einem Desktop-PC mit aufge­setzter Web-Cam (oder einem iMac mit großem Bildschirm) wieder. Starke Abweichungen sind jedoch bei der Aufnahme von unten fest­zustellen. So wird die Person aus diesem Winkel heraus als distan­zierter, arroganter, unfreundlicher und unglaubwürdiger aber auch als selbstbewusster und wacher wahrgenommen. Es wird folglich deutlich, dass der Aufnahmewinkel auch in der Videotelefonie ein nicht zu vernachlässigender Faktor ist und die Qualität des Gesprä­ches bzw. die Wahrnehmung der vermittelten Informationen maß­geblich beeinflusst. Ein häufig zur Videotelefonie benutztes Gerät, der Laptop, verändert rein durch seinen technischen Aufbau und die damit verbundene typische Nutzungsweise (Gerät im Abstand von circa 40 bis 60 cm – Kameraaufnahme von unten) die Fremdwahr­nehmung enorm.

3.3 Untersuchung Blickrichtung – Fragekomplex III

Ebenfalls mit der Positionierung der Kamera verbunden ist die Frage nach der Blickrichtung. Auch diese wurde anhand eines Bestandteils der Nutzeruntersuchung erforscht. Strukturell umfasste das Unter­su­chungselement vier Frage-Bild-Blöcken sowie das voran­gestellte Szenario-und-Frage-Modul. Dieses lautete wie folgt: »Sie video­tele­fonieren mit einer Ihnen vertrauten Person (Partner/in, Freund/in, Familienmitglied) und nutzen dafür einen Desktop-PC mit großem Bildschirm. Bitte betrachten Sie nun die nachfolgenden, sich unter­scheidenden Bilder. Bewerten Sie mit Hilfe des Schiebe­reglers die empfundene Nähe zu ihrem Gesprächspartner.« Darunter schlossen sich die vier unterschiedlichen Farbabbildungen an, die inhaltlich jeweils eine unterschiedliche Blickrichtung des Gegen­übers simu­lierten (siehe Abbildung 11). Unter diesen befanden sich jeweils die Schieberegler, die zwischen 0 (wenig) und 10 (stark) in Einer­schrit­ten bewegt werden konnten, um so das Gefühl des »An­geschaut-Werdens« zu bewerten.

Ein Bild, das Straße enthält.

Automatisch generierte Beschreibung

Abbildung 11: Versuchsaufbau sowie jeweilige simulierte Blickrichtung (ei­gene Darstellung)

In Anbetracht der obigen Überlegungen hinsichtlich der Positionie­rung der Kamera am Gerät war anzunehmen, dass sich diese Ergeb­nisse in ähnlichem Maße wiederholen würden. Das heißt, dass eine deutliche Diskrepanz zwischen dem Gefühl des ›Angeschaut-Wer­dens‹ beim Blick in die Kamera, dem Blick auf den unteren Bereich des Monitors sowie dem Blick seitlich des Bildschirms besteht.

In den ermittelten Ergebnissen zeigt sich jedoch, dass die ange­nommene Relevanz nicht erreicht werden konnte. Vielmehr ähneln sich die Ergebnisse sehr stark. Betrachtet man den direkten Blick in die Kamera (Bild 1) als Optimum (Mittelwert = 6,60), so besteht ledig­lich eine Differenz von 0,99 Punkten zum schlechtesten Wert (Bild 3 – Blick seitlich des Monitors). Daraus lassen sich zwei Vermutung­en anstellen: (1) Dem vermeintlichen Blickkontakt, der durchaus da­zu in der Lage ist, das Gefühl von Nähe und Verbundenheit zu evo­zieren, kommt innerhalb der Videotelefonie keine so bedeutsame Rolle wie innerhalb der Face-to-Face-Kommunikation zu. Das kön­nte (2) daran liegen, dass sich im Zuge der erhöhten Verbreitung der Videotelefonie die Bedeutung des eye-contact-dilemmas geän­dert hat und die heutigen Nutzer diese gänzlich anders einschätzen, als es bei den Probanden experimenteller Untersuchungen der acht­ziger und neunziger Jahre der Fall war. Und auch der Parallaxwin­kel[31] scheint nicht mehr ein so großes Problem darstellen, wenn die­ser weit unter 7,5° und damit unter der in empirischen Versuchen ermittelten Toleranzgrenze der Abweichung (vgl. Flohrer 1988: 397) liegt.

3.4 Die Nutzungsdistanz sowie Blickwinkel – Fragekomplex IV

Darauf aufbauend bleibt weiterhin die Frage nach der (natürlichen) Nutzungsdistanz bestehen. Heißt: In welcher Distanz (zum Gesicht) wird das Smartphone gehalten?

Im direkten Zusammenhang zum Bildausschnitt und -format be­findet auch die natürliche oder technisch bedingte Distanz zwischen dem Nutzer sowie dem entsprechenden Endgerät. Wie bereits be­schrieben, unterscheiden sich die Endgeräte sowohl stark in der Entfernung zwischen Nutzer und Gerät als auch damit einhergehend hinsichtlich der Größe des Displays. Bei jeder der drei Geräteklas­sen hat der User eine typische durchschnittliche Entfernung zwi­schen sich (den Augen) und der Bildschirmmitte. Diese variiert zwi­schen 10 cm und 110 cm (siehe Abbildung 12).

Ein Bild, das Screenshot enthält.

Automatisch generierte Beschreibung

Abbildung 12: Übersicht über die Endgeräte und deren jeweilige prototypi­sche Nutzungsdistanz (nach Nagel/Fischer 2013: 35).

Dabei spielen neben den nonverbalen Kommunikationsformen, die über eine aktive Bewegung wirksam werden, auch die Position und die Nähe zum Kommunikationspartner, also die Körperbewegungen im Raum, eine Rolle. Gesprächspartner stehen sich ›von Angesicht zu Angesicht‹ gegenüber und wenden sich das Gesicht zu oder ab. In beiden Fällen wird sowohl die Positionierung der Kommunikations­partner zueinander, als auch eine bestimmte Art der Kommunika­tion definiert.

Damit einhergehend kann die Nähe oder Distanz zum Kommuni­kationspartner ebenfalls einen inhaltlichen Wert besitzen, der aller­dings je nach Situation gedeutet werden muss. Das heißt, sich nahe zu kommen oder voneinander zu entfernen kann in zweierlei Pers­pektive verstanden werden. Unklar ist dennoch, wie sich das natür­liche Distanzverhalten innerhalb der Videotelefonie gestaltet be­ziehungsweise ob es sich 1-zu-1 darauf übertragen lässt.

Fraglich ist deswegen, ob letzten Endes die ›natürliche‹ Nutzungs­distanz eines Smartphones von circa 10–40 cm das ›innere‹ Gefühl, den Gesprächspartner auf eine Armlänge entfernt zu halten – also in einer Distanz von circa 70 Zentimetern – überwiegt.

Um der Beantwortung dieser Fragen näher zu kommen, wurde ein praktisches Experiment unter Laborbedingungen durchgeführt. Ziel war es, dass jeder der 18 an der Untersuchung teilnehmenden Pro­banden,[32] jeweils ein Zweiergespräch mit einer ihr bekannten und vertrauten Kontrollperson mittels Videotelefonie führt.[33] Dazu wur­de das Experiment in zwei verschiedenen Modi, bestehend aus je­weils zwei verschiedenen Setups, durchgeführt. In Modus I wurde das Endgerät frei genutzt – das realtypische Nutzerverhalten wird folg­lich hervorgerufen. Als Kontrast dazu, und um einen Vergleichs­wert zu generieren, wurde das Experiment in einem zweiten Modus wiederholt durchgeführt. Dabei fand jedoch ein variabel durch den Probanden einstellbares Kamerastativ Anwendung.[34],[35] Um das mög­lichst volle Spektrum der Nutzungsmodi eines Smartphones abzu­bilden, fand das Experiment zudem sowohl im Stehen als auch im Sitzen (dabei saßen die Probanden auf einem Stuhl am Tisch) statt.[36]

Das erste Setup, bei dem die Probanden stehend videotelefonie­ren sollten, betreffend lassen sich folgende Ergebnisse festhalten (siehe Abbildung 13):

          Der durchschnittliche Abstand zwischen Endgerät und Nutzer beträgt 40,2 cm. Das Spektrum liegt dabei zwi­schen 32 und 48 cm.

          Der durchschnittliche Neigungswinkel des Smartphones beträgt 81,3°. Der geringste 62°, der größte 98°.

          Dabei wurde das Endgerät in einer Durchschnittshöhe von 153,7 cm gehalten. Das heißt, dass sich die Display­mitte durchschnittlich 7,4 cm unterhalb der Augenhöhe befand.

Ein Bild, das Zeichnung enthält.

Automatisch generierte Beschreibung

Abbildung 13: Die Durchschnittswerte des ersten Setups – freie Nutzung des Smartphones, stehend (eigene Darstellung)

Im direkten Vergleich dazu steht das dritte Setup, das sich vom ersten lediglich in der Verwendung des durch die Probanden frei einstellbaren Stativs unterscheidet. Die dabei ermittelten Ergebnisse lauten wie folgt (siehe Abbildung 14):

          Der durchschnittliche Abstand zwischen Endgerät und Nutzer beträgt 45,2 cm. Die geringste Distanz beträgt 38 cm, die größte 56 cm.

          Der durchschnittliche Neigungswinkel des Smartphones beträgt 84,6°. Der geringste beträgt 68°, der größte 98°.

          Dabei wurde das Endgerät in einer Durchschnittshöhe von 155,9 cm gehalten. Das heißt, dass sich die Display­mitte durchschnittlich 5,2 cm unterhalb der Augenhöhe befand.

Ein Bild, das Karte, Skifahren, Mann, Schnee enthält.

Automatisch generierte Beschreibung

Abbildung 14: Durchschnittswerte des dritten Setups – Nutzung mit Stativ, stehend (eigene Darstellung)

Die Ergebnisse des zweiten Setups, also der freien Verwendung des Endgerätes im Sitzen, fallen hingegen wie folgt aus (siehe Abbildung 15):

          Der durchschnittliche Abstand zwischen Endgerät und Nutzer beträgt 39,9 cm. Die geringste Distanz beträgt 33 cm, die größte 55 cm.

          Der durchschnittliche Neigungswinkel des Smartphones beträgt 66,4°. Der geringste 30°, der größte 96°.

          Dabei wurde das Endgerät in einer Durchschnittshöhe von 99,7 cm gehalten. Das heißt, dass sich die Display­mitte durchschnittlich 18,1 cm unterhalb der Augenhöhe befand.

Abbildung 15: Durchschnittswerte des zweiten Setups – freie Nutzung des Endgerätes, sitzend (eigene Darstellung)

Im direkten Vergleich dazu steht das vierte Setup. Die dabei ermit­telten Ergebnisse lauten wie folgt (siehe auch Abbildung 16):

          Der durchschnittliche Abstand zwischen Endgerät und Nutzer beträgt 43,9 cm. Die geringste Distanz beträgt 37 cm, die größte 51 cm.

          Der durchschnittliche Neigungswinkel des Smartphones beträgt 72,9°. Der geringste beträgt 40°, der größte 96°.

          Dabei wurde das Endgerät in einer Durchschnittshöhe von 103,4 cm gehalten. Das heißt, dass sich die Display­mitte durchschnittlich 14,4 cm unterhalb der Augenhöhe befand.

Abbildung 16: Durchschnittswerte des vierten Setups – Nutzung mit Stativ, sitzend (eigene Darstellung)

Zusammenfassend konnte innerhalb dieser Untersuchung herausge­funden werden, dass sich teilweise deutliche Diskrepanzen in der Differenz aus Augenhöhe und der Höhe des Endgerätes ergeben. Dies wird insbesondere anhand der folgenden Punkte deutlich:

          Die Augen befinden sich fast ausnahmslos oberhalb des Displays. Das heißt, der Nutzer schaut auf das Gerät, und somit auch auf seinen Gesprächspartner, herab. Nur in wenigen Fällen lässt sich eine annähernd horizontale Aus­richtung (wie auf Augenhöhe) ausmachen.

          Bei der Verwendung des Stativs wird das Smartphone höh­er positioniert als es bei der Handhaltung der Fall ist.

          Es ergeben sich relevante Unterschiede in der Distanz zwischen Endgerät und Nutzer hinsichtlich der Verwen­dung des Stativs. So lässt sich erkennen, dass das Smart­phone näher am Körper gehalten wird, die Distanz bei der Nutzung des Stativs jedoch größer ist.[37]

          Im Stehen wird eher dazu tendiert, auf Augenhöhe zu sprechen als im Sitzen.

          Auch anhand der jeweiligen Neigungswinkel ergeben sich teils erhebliche Unterschiede.

          Die Vorannahme bezüglich des zu erwartenden Bildaus­schnittes, der sich im Bereich des klassischen Porträts aus Kopf und Schulter bewegt, konnte bestätigt werden.

4. Fazit, Schlussbemerkung und Ausblick

Das Hauptinteresse der dargelegten Argumentation war es, einer­seits einen Beitrag zum in Bezug auf moderne Videotelefonie und ihre medienspezifischen Ausprägungen bestehenden Forschungs­interesse zu leisten. Andererseits sollte ein Schritt zur Legitimierung der aufgestellten Annahmen geschaffen werden. Der Fokus lag dabei auf Aspekten der Verbundenheit, die durch das visuelle Element der Videotelefonie beeinflusst werden beziehungsweise die Wahrneh­mung dieser durch potentielle Nutzer.

Zusammenfassend lässt sich, aufgrund der (hier nur verkürzt dar­gestellten) theoretischen sowie der praktisch-experimentellen Aus­einandersetzung festhalten, dass der übertragene Bildausschnitt so­wie weitere mit dem visuellen Element der Videotelefonie verbun­dene Bestandteile eine für die nonverbale Kommunikation nicht un­erhebliche Rolle spielen.

Weiterhin lässt sich erfassen, dass eine Abbildung der realtypi­schen Nutzung des verwendeten Endgerätes möglich war. Dabei wurde deutlich, dass diese sich kaum von der normalen Nutzung (beispielsweise zum Schreiben, Surfen oder Ähnlichem) unterschei­det. Denn: Sowohl die Nutzungsdistanz als auch der Blickwinkel (meist ›von oben herab‹) sind sehr ähnlich zueinander. Spezielle Anpassungsleistungen, die der jeweiligen Kommunikationssituation entsprechen (beispielsweise ein Ändern der Nutzungsdistanz und somit des Bildausschnittes, um mehr Bildinhalt zu generieren) ließen sich hingegen nicht verifizieren.

Zudem ist es gelungen, einen Beitrag zur Klassifizierung und Be­standsaufnahme moderner Videotelefonie und ihrer medienspezifi­schen Ausprägungen zu leisten.

Das weitere Ziel wird es sein, die gewonnenen Erkenntnisse in einen Theorie-Praxis-Bezug zu setzen, um so die Grundlage für die wei­tere, praxisbasierte Auseinandersetzung im Sinne des klassi­schen Produktdesigns zu legen. Dabei soll der Fokus auf praktischen Er­lebnissen der Verbundenheit, also jenen nach Nähe und Intimität, sowie sozialer Eingebundenheit liegen. Die Herausforderung wird darin bestehen, Praktiken zu erkunden, die Verbundenheitserleb­nisse auch auf Distanz erlauben und diese zu verstehen, neu zu inter­pretieren und anschließend, mit dem Ziel neue Erfahrungen und Er­lebnisse zu kreieren, in Technik zu übersetzen.

Literatur

Acker, Alexander/Nann, Otto-Michael (1986): Film-Fernsehen-Video: ein Leitfaden für die Praxis. München: TR-Verlag-Union.

Andberg, Sami (2008): Video conferencing in distance education. Pro Gradu Thesis, Department of Computer Science, University of Helsinki.

Anderson, Anne H/O'Malley, Claire/Doherty-Sneddon, Gwyneth/ Langton, Steve/Newlands, Alison/Mullin, Jim/Fleming, Anne Marie/Van der Velden, Jeroen (1997): The impact of VMC on collaborative problem solving: An analysis of task performance, communicative process, and user satisfaction. In: Finn, Kathleen E./Sellen, Abigail J./Wilbur, Sylvia B. (Hg.): Video Mediated Communication. Mahwah, New Jersey: Lawrence Erlbaum Associates, 133–155.

Bavelas, Janet/Coates, Linda/Johnson, Trudy (2002): Listener responses as a collaborative process: The role of gaze. In: Journal of Communication 52 (3), 566–580.

Bohannon, Leanne S./Herbert, Andrew M./Pelz, Jeff B./Rantanen, Esa (2013): Eye contact and video-mediated communication: A review. In: Displays 34 (2). 177–185.

Briggs, Asa (1977): The tube of plenty: towards an “age of television”. In: Futures 9 (6). Elsevir, 519–525.

Brinkmann, Annika (2019): Struktur und Design responsiver Web­sei­ten auf Smartphones: Wie Sie das mobile Internet userfreund­lich gestalten. Wiesbaden: Springer Fachmedien.

Brochu, Eric/Carbonetto, Peter/Moffatt, Karyn/Muyan, Pinar (2004): Playing pictionary: An exploration in Human-Computer Interaction. Vancouver: University of British Columbia.

Doherty-Sneddon, Gwyneth/Anderson, Anne/O'Malley, Claire/ Langton, Steve/Garrod, Simon/Bruce, Vicki (1997): Face-to-face and video-mediated communication: A comparison of dialogue structure and task performance. In: Journal of Experimental Psychology: Applied 3 (2), 105.

Fischer, Kurt (1987): Bildkommunikation: Bedeutung, Technik und Nutzung eines neuen Informationsmediums. Berlin, Heidelberg, New York, London, Paris, Tokyo: Springer-Verlag.

Finn, Kathleen (1997): Introduction: An Overview of video-mediated communication literature. In: Finn, Kathleen E./Sellen, Abigail J./Wilbur, Sylvia B. (Hg.): Video Mediated Communication. Mahwah, New Jersey: Lawrence Erlbaum Associates, 3-22.

Flohrer, Walter (1988): Benutzergesichtspunkte des Bildtelefons. In: ITG-Fachtagung "Nutzen und Technik von Kommunikations­endgeräten" (ITG-Fachbericht, Bd. 101). Berlin, Offenbach: vde-Verlag, 393–407.

Flohrer, Walter (1990): Methodisches Gestalten am Beispiel des Bildtelefons. In: Ohnsorge, Horst (Hg.): Benutzerfreundliche Kommunikation/User-Friendly Communication. Berlin, Heidel­berg: Springer-Verlag, 66–81.

Flohrer, Walter/Mosel, H-J (1989): Vom Telefon zum multifunktio­nalen Bildtelefon. In: it-Information Technology 31 (3), 196–204.

Friebel, Martin/Loenhoff, Jens/Schmitz, H. Walter/Schulte, Olaf A. (2003): „Siehst Du mich?“–„Hörst Du mich?“ Videokonferenzen als Gegenstand kommunikationswissenschaftlicher Forschung. In: kommunikation@ gesellschaft 4, 1–23.

Gerfen, Wilfried (1986): Videokonferenz. Alternative für weltweite geschäftliche Kommunikation - ein Leitfaden für Anwender. Heidelberg: Decker's Verlag.

Hahn, Kornelia (2014): E< 3Motion. Intimität in Medienkulturen. Wiesbaden: Springer VS.

Hassenzahl, Marc/Heidecker, Stephanie/Eckoldt, Kai/Diefenbach, Sarah/Hillmann, Uwe (2012): All you need is love: Current stra­tegies of mediating intimate relationships through technology. In: ACM Transactions on Computer-Human Interaction (TOCHI). New York, Article No. 30.

Heath, Christian/Luff, Paul/Sellen, Abigail (1997): Reconfiguring media space: supporting collaborative work. In: Finn, Kathleen E./Sellen, Abigail J./Wilbur, Sylvia B. (Hg.): Video Mediated Communication. Mahwah, New Jersey: Lawrence Erlbaum Associates, 323–347.

Held, Tobias (2017): Design und virtuelle Kommunikation: Eine designwissenschaftliche Studie zur digitalen Kommunikation in Fernbeziehungen. In: Grabbe, Lars/Rupert-Kruse, Patrick/ Schmitz, Norbert (Hg.): Bildverstehen: Spielarten und Ausprä­gungen der Verarbeitung multimodaler Bildmedien. Darmstadt: Büchner-Verlag, 205–236.

Held, Tobias (2020a): Face-to-Interface: Eine Kultur- und Technikgeschichte der Videotelefonie. Welt|Gestalten. Marburg: Büchner-Verlag.

Held, Tobias (2020b): Vom realen Gespräch zum digitalen Pendant: Überlegungen zur Reproduktion der Face-to-Face-Kommunika­tion im Cyberspace. In: Bracker, Jacobus/Johns, Stefanie/Seifert, Martina (Hg.): Visual Past. A Journal for the Study of Past Visual Cultures, Volume 5: Bildsinne – Image Senses, 139–173.

Judge, T./Neustaedter, C. (2010): Sharing Conversation and Sharing Life: Video Conferencing in the Home. Proc. CHI, ACM Press (2010), 655–658.

Kappas, Arvid/Krämer, Nicole C. (2011) Face-to-face communica­tion over the Internet: emotions in a web of culture, language, and technology. Studies in emotion and social interaction. Cambridge: University Press.

Kirk, D./Sellen, A./Cao, X. (2010): Home video communication: Mediating ‘closeness’. 2010 ACM Conference on Computer Supported Cooperative Work, ACM Press.

Kopp, Guido (2004): Audiovisuelle Fernkommunikation: Grund­lagen der Analyse und Anwendung von Videokonferenzen. Wies­baden: VS-Verlag für Sozialwissenschaften.

Lanwer, Jens Philipp (2019): Erzählen im virtuellen Interaktions­raum. Networx 84.

Licoppe, Christian/Morel, Julien (2012): Video-in-interaction: “Talking heads” and the multimodal organization of mobile and Skype video calls. In: Research on Language & Social Interaction 45 (4), 399–429.

Meier, Christoph (2000): Videokonferenzen-Beobachtungen zu Struktur, Dynamik und Folgen einer neuen Kommunikations­situation. In: Boos, Margarete/Jonas, Kai J./Sassenberg Kai (Hg.): Computervermittelte kommunikation in Organisationen, 153–164.

Meier, Simon (2016): Telegrafie, Telefon, Bildtelefonie, SMS: Tech­nische Medien der Individualkommunikation. In: Scheuermann, Arne/Vidal,Francesca (Hg): Handbuch Medienrhetorik 6. Berlin, Boston: De Gruyter, 422–439.

Miller, Daniel/Sinanan, Jolynna (2014): Webcam. Cambridge: Polity.

MSN (2010): Willkommen bei Messenger: www.messenger.live.de [04.07.10].

Nessmann, Karl (1991): Die Elemente der Filmsprache: Darstellungs­formen und Gestaltungsmittel. In: Massenmedien verstehen: Hin­tergrundwissen für Lehrer und Medienerzieher. Wien: Öster­reichischer Bundesverlag, 74–81.

Neustaedter, Carman/Greenberg, Saul (2012): Intimacy in long-dis­tance relationships over video chat. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.

Olson, Gary/Olson, Judith (2000): Distance matters. In: Human–computer interaction 15, 139–178.

Pahre, Christoph (2006): Mobile Multimedia Messaging. URL: http://www.medien.ifi.lmu.de/fileadmin/mimuc/hs_ss2006/reports_final/06_ChristophPahre_MobileMultimediaMessaging.pdf.

Rosen, Evan (1996): Personal videoconferencing. Manning: Greenwich.

Rüggenberg, Sabine (2007): So nah und doch so fern. Soziale Präsenz und Vertrauen in der computervermittelten Kommunikation. Dissertation an der Universität zu Köln.

Schlütter, Martin (2011): „Man simuliert ein bisschen so das Beisam­mensein“. Die Aneignung von internetbasierter Videotelefonie. In: Elsler, Monika (Hg.): Die Aneignung von Medienkultur. Wiesbaden: Springer Fachmedien, 89–102.

Schmitz, H. Walter (1999): Videokonferenz als eigenständige Kom­munikationsform – Eine explorative Analyse. Unveröffentlicher Vortrag, Universität Klagenfurt.

Schneider, Thies/Hassenzahl, Marc/Lenz, Eva/Kohler, Kirstin/ Adamow, Wasili/Beedgen, Patrick (2015): Nähe auf Distanz-sensible Gestaltung von Kommunikationstechnik. In: Diefenbach, Sarah/Henze, Niels/Pielot, Martin (Hg.): Mensch und Computer 2015–Proceedings. Stuttgart: Oldenbourg Wissenschaftsverlag, 351–354.

Schulte, Olaf (2003): Blick nach vorn: Das eye contact dilemma und andere Problemfelder der Videokonferenzforschung. In: Döring, Jana/ Schmitz, H. Walter/Schulte Olaf A. (Hg.): Connecting Perspectives. Videokonferenz: Beiträge zu ihrer Erforschung und Anwendung. Aachen: Shaker, 43–57.

Short, John/Williams, Ederyn/Christie, Bruce (1976): The social psychology of telecommunications. London: Wiley.

Simmel, Georg (1958 [1908]): Soziologie: Untersuchungen über die Formen der Vergesellschaftung. Berlin: Duncker & Humbolt.

Skype (2010): Überall zusammen sein: www.skype.com/intl/de/ home [04.07.10].

Stokes, R. (1969): Human factors and appearance design considera­tions of the mod II PICTUREPHONE® station set. In: IEEE Transactions on Communication Technology 17 (2), 318–323.

Vilhjálmsson, Hannes Högni (2003): Avatar augmented online conversation. Massachusetts Institute of Technology.

Wegge, Jürgen/Bipp, Tanja (2004): Videokonferenzen in Organisa­tionen: Chancen, Risiken und personalpsychologisch relevante Anwendungsfelder. In: Zeitschrift für Personalpsychologie 3, 95-111.

Weinig, Katja (1996): Wie Technik Kommunikation verändert: Das Beispiel Videokonferenz. Münster: Lit-Verlag.

Whittaker, Steve/O'Conaill, Brid (1997): The role of vision in face-to-face and mediated communication. In: Finn, Kathleen E./Sellen, Abigail J./Wilbur, Sylvia B. (Hg.): Video Mediated Communication. Mahwah, New Jersey: Lawrence Erlbaum Associates, 23–49.



[1]     Beispielsweise Neustaedter/Greenberg (2012), Hassenzahl et al (2012), Kirk et al (2010) oder Judge/Neustaedter (2010).

[2]    Für eine ausführlichere Betrachtung der Technik- und Kulturhistorie der Video­telefonie siehe Held (2020a).

[3]    Die ersten Versuche zur Realisierung fanden bereits in den zwanziger Jahren statt. In den dreißiger Jahren wurden sowohl in den USA als auch im Deutschen Reich kommerzielle Bildtelefonverbindungen eingerichtet, die jedoch aufgrund mangelnder Nachfrage und den verschobenen Prämissen im Zuge des 2. Welt­kriegs eingestellt wurden. Der zweite Anlauf zur Realisierung erfolgte in den fünfziger beziehungsweise sechziger Jahren. Daran schlossen sich bis in das neue Jahrtausend hinein eine Reihe neuer Gerätschaften, Technologien, Ser­vices und Systeme an. Egal ob das Picturephone I und II, das BIGFON-Projekt der Deutschen Post, die Versuche der Telekom oder das ISDN-Bildtelefon: Sie alle scheiterten aufgrund ausbleibenden Markterfolgs, technischer Limitierung­en, zu schlechter Qualität oder der mitunter horrenden Preise.

[4]    Ausgehend von den Fantasien der Belle Epoque (beispielsweise bei George du Maurier, Jules Verne, oder Jean-Marc Coté) über die zahlreichen futuristischen Anwendungsszenarien (die durchaus eine Zukunft der Videotelefonie zeich­neten) in den Sci-Fi-Filmen oder Fernsehserien der zwanziger, dreißiger (zu nennen sind: Metropolis, High Treason, Modern Times) und sechziger Jahre (The Jetsons, 2001: A Space Odyssey) bis hin zu zeitgenössischeren Beispielen (Moon, Johnny Mnemonic).

[5]    So kam bereits 1992 die erste Software für Videochat (= Chat + Bewegtbild) mittels Desktop-PC und Internet auf den Markt. In den darauffolgenden Jahren verfügten sogar die meisten Windows PCs von Haus aus über die theoretischen Möglichkeiten, da die Software Netmeeting bereits vorinstalliert war. 2005 er­weiterte Skype sein Repertoire auf die VoIP-Videotelefonie und trug so maß­geblich zur Demokratisierung (im Sinne von etwas, das bisher einem auserwähl­ten Kreis zugänglich war, allgemein offen, erreichbar zu machen) der Video­telefonie bei. Der Begriff skypen ging sogar in den Sprachgebrauch über. 2010 erschien das iPhone 4 – das nicht nur über eine Frontkamera verfügte, – son­dern damit nahm auch die Ausstattung aller Apple-Geräte mit Facetime ihren Anfang. Erstmals schien die Lösung des Problems der kritischen Masse gewähr­leistet. Die Videotelefonie erfreute sich in den darauffolgenden Jahren an gestei­gerter Verbreitung und Nutzung. Allein in Deutschland verwenden mehr als neun Millionen Menschen die kostenlosen Dienste des Anbieters Skype. Welt­weit sind es sogar deutlich über 1,3 Milliarden (vgl. Trefis.com 2018).

[6]    Synästhesie ist hier nicht im psychologischen oder alltagssprachlichen Sinn zu verstehen, sondern nach der Wortherkunft (griechisch synaísthēsis = ›mitem­pfinden‹ oder ›zugleich wahrnehmen‹) als letzteres. Demnach führt die Wahr­nehmung mittels Videotelefonie zu einer ›Vermischung‹ der sonst separat zu betrachtenden auditiven und visuellen (und damit verbunden auch der proprio­zeptiven) Wahrnehmung.

[7]    Dabei ist darauf hinzuweisen, dass Einschränkungen durch Zeitverzögerungen oder schlechte Datenübertragung die Qualität und Quantität der vermittelten Informationen stark beeinflussen können.

[8]    Simulation bedeutet in diesem Kontext jedoch keineswegs gleichwertigen Er­satz, sondern lediglich Nachahmung (vgl. Weinig 1996: 66).

[9]    Dabei ist wichtig festzuhalten, dass Intimität hierbei keineswegs rein sexuell ver­standen werden soll. Vielmehr soll es um Zweisamkeit, um Verbundenheit, Ver­trautheit und Nähe aber auch um Privatheit, gehen, die sich durch ein spezi­fisch empfundenes, intensives Erleben oder innere Bewegtheit auszeichnen und insofern emotional sind.

[10] Siehe hierzu vor allem: Hahn (2014), Kappas/Krämer (2011) und Rüggenberg (2007).

[11]   Zuverlässige Zahlen seitens der Hersteller existieren kaum. Doch aufgrund der Tatsache, dass nahezu alle Hersteller Kameras mit einer Festbrennweite von 4 bis 4,3 mm verbaut haben, lässt sich dies unter Einbeziehen der Sensorgröße und des Cropfaktors ausrechnen. Im Falle von Apples iPhone 5, das über einen 1/3.2“-Sensor verfügt, bedeutet dies: Die Sensordiagonale ist damit ~5,7mm. 35mm-Kleinbild (das als Vergleichswert herangezogen wird) hat eine Größe von 36mm x 24mm; damit eine Diagonale von ~ 43mm. 43/5,7=7.54; das ist der Cropfaktor. Laut Auswertung der EXIF-Daten einer Aufnahme liegt die Brenn­weite des iPhone 5 bei 4,1 mm. Das heißt: 4,1 mm x 7,54 = 30,9 mm~31 mm. Die Brennweite beträgt daher ungefähr 31 mm.

[12] Dies liegt zum einen an der einfacheren Nutzung mit einer Hand, aber auch daran, dass die Darstellung einer App im Hoch- und Querformat doppelten Entwicklungsaufwand bedeuten würde.

[13] Bei allen aktuellen Apple-Geräten befindet sich die Kamera auf der gegenüber­liegenden Seite des Homebuttons. Im Falle der iPhones findet dabei eine leichte Verschiebung zur linken Seite statt (aufgrund der Hörmuschel, die zentriert po­sitioniert ist).

[14] Eine Montage seitlich des Displays wäre prinzipiell auch denkbar. Aufgrund di­verser Untersuchungen wie der von Gerfen (1986), wonach das Gefühl des »An­geschaut-Werdens« bei einer seitlich positionierten Kamera am geringsten wird, setzte sich jedoch die Montage oberhalb des Displays durch.

[15] Zu den technisch bedingten Faktoren zählen die Brennweite der verbauten Ka­mera, aber vor allem die Nutzungsdistanz zum entsprechenden Gerät.

[16]  Eine entscheidende Rolle kommt dabei dem Eigenbild zu, da mit dessen Hilfe Kontrolle über das zu übertragende Bild ausgeübt werden kann. Die Möglichkeit ›sich unter Kontrolle zu haben‹, kann jedoch auch zur Vermeidung unerwünsch­ten Verhaltens führen (vgl. Friebel et al. 2003: 12).

[17]   Siehe hierzu auch Licoppe/Morel (2012), die zu ganz ähnlichen Befunden kom­men und dabei von einem »talking heads arrangement« sprechen.

[18] So finden sich bereits bei Stokes (1969) und Verweise darauf, dass die Bedeutung des Augenkontaktes für das Gespräch mittels Videotelefon von Interesse war.

[19] Unter anderem Bohannon et al. 2013; Friebel et al. 2003; Rosen 1996; Schlütter 2011; Schmitz 1999; Schulte 2003a)

[20] Darüber hinaus charakterisieren Bavelas et al. (2002) die Herstellung von mutual gaze als Etablierung eines gaze window, das für die Regulierung des verbalen Rückmeldeverhaltens von zentraler Bedeutung ist. Dem entgegen stehen die Ergebnisse von Lanwer (2019), der in seiner Arbeit den Versuch unternimmt, mittels kleinschrittiger Analysen des Handlungsgeschehens in Videotelefonaten zwischen vertrauten Interaktionspartnern eventuelle, damit verbundene Ver­haltensweisen oder Ähnliches nachzuweisen. Dabei ist es ihm gelungen aufzu­zeigen, dass sich diese durchaus so verhalten, als könnten sie Blickkontakt her­stellen. Darüber hinaus schlägt er vor, statt von einem mutual gaze-dilemma von einem mutual gaze-paradox zu sprechen.

[21] Im Gegensatz zu dem seitenverkehrten Bild, das der Gesprächspartner erhält, wird das Eigenbild in zeitgenössischen Anwendungen spiegelverkehrt wieder­gegeben – man sieht sich folglich in Form des gewohnten Spiegelbildes. Da­durch ist es dem Nutzer möglich, auf bekannte Bewegungsroutinen, wie sie vor dem eigenen Spiegelbild angewandt werden, zurückzugreifen.

[22] Diese Aussage trifft zumindest auf die beiden gängigsten Softwareanwendungen Skype, Google Hangouts und Facetime zu (Stand Februar 2019).

[23] Dabei verwendeten sie handelsübliche Desktop-PCs mit 14-Zoll-Bildschirmen, additiven Webcams, Mikrophonen und Lautsprechern.

[24] Durch die Einstellungsgröße der Kamera wird der Bildausschnitt gekennzeich­net, den die Kamera vom Dargestellten erfasst. Verändert werden kann diese entweder durch Zoom oder den Abstand zwischen Kamera und Objekt.

[25] Nach Hall (1976), der zwischen der Intimzone (15-50 cm), der persönlichen Zone
(50-150 cm), der gesellschaftlichen Zone (1,5-3 m) und der öffentlichen Zone (>3m) unterscheidet. Aus Perspektive der Gesprächsforschung siehe auch Sager (2000): Kommunikatives Areal, Distanzzonen und Displayzirkel. Zur Beschrei­bung räumlichen Verhaltens in Gesprächen. In: Richter, Gerd/Riecke, Jörg/ Schuster, Britt-Marie (Hg.): Raum, Zeit, Medium – Sprache und ihre Determi­nanten. Festschrift für Hans Ramge zum 60. Geburtstag. Darmstadt.

[26]  Die Repräsentativität der Stichprobe wird durch einen gegenüber der Gesamt­bevölkerung erhöhten Anteil an Personen unter 30 Jahren (73,87%) einge­schränkt, der sich jedoch in Anbetracht der Statistiken zur Nutzung der Video­telefonie relativiert (Laut einer Erhebung von Januar 2018 für den US-ameri­kanischen Markt sind 61% der Nutzer zwischen 18 und 29 Jahren). 68,18% der Probanden sind weiblich, 31,82% männlich. Die Akquirierung der Probanden erfolgte per Zufallsstichprobe und mittels breit angelegter Streuung über das ei­gene Umfeld, Verteiler der Universität und Fachhochschule sowie der Konrad-Adenauer-Stiftung. Darüber hinaus gaben 93,75% der befragten Probanden an, dass sie bereits einmal videotelefoniert haben. Lediglich 6,25% verneinten dies. Auf die sich daran anschließende Frage nach der Häufigkeit der Nutzung von Videotelefoniediensten antworteten die Probanden hingegen wie folgt: 19,16% gaben an, dass sie oft, also mindestens einmal in der Woche videotelefonieren. 32,93% hingegen nutzen die Möglichkeiten regelmäßig, also mindestens einmal im Monat. Bei der Mehrheit, 48,5% findet sie hingegen nur selten, also min­destens halbjährlich Anwendung.

[27] Die dazugehörige Frage lautete: »Für welchen der abgebildeten Bildausschnitte würden Sie sich bei einem Videotelefoniegespräch entscheiden?«

[28] Die Wiedergabe der Zitate erfolgt im Original.

[29] ›Bild 3‹ kommt beispielsweise der Aufnahme eines Laptops gleich, der auf dem Schreibtisch vor dem Nutzer steht; ›Bild 1‹ hingegen einem Desktop-PC mit aufgesetzter Webcam.

[30] Dazu wurde ein Laptop mit einem 13,3-Zoll-Display verwendet. Dieser befand sich auf einem Tisch vor den Probanden.

[31] Der sogenannte Fehlwinkel (Flohrer 1990; Flohrer/Mosel 1989; Gerfen 1986) oder auch Parallax-Winkel (Kopp 2004) ist ein gängiges Problem der Videokom­munikation, das den »Winkel zwischen Kamera und der Abbildung des Ge­sprächspartners« (ebd.: 26) beschreibt. Dieser resultiert aus »der Position der Kamera im Verhältnis zu der Monitordarstellung der Aktivitäten der Gegen­stelle« (Kopp 2004: 18). (1) reagiert der Nutzer »keineswegs hin zur aufnehmen­den Kamera, sondern ausschließlich hin zum Bild des Partners auf dem Schirm – sonst könnte er ja dessen Darstellung nicht beobachten und dessen Reaktio­nen auf seine eigenen nicht sehen« (Kopp 2004: 69 f.). Und (2) ist die Position der Kamera, aufgrund der Tatsache, dass nahezu alle handelsüblichen Endgeräte über fest verbaute hochleistungsfähige Kameras verfügen, kaum zu beeinflus­sen. Durch die Abweichung zwischen der meist oberhalb des Monitors ange­brachten Kamera und dem Monitor kommt ein vermeintlicher Blickkontakt nur dann zustande, wenn der Parallaxwinkel die menschliche Wahrnehmungsfähig­keit unterschreitet; dies soll bei etwa 12°–7° der Fall sein (vgl. Fischer 1987: 66). Deswegen ist es nicht möglich, dass sich die Gesprächspartner gegenseitig in die Augen sehen.

[32] Die Alters- und Geschlechterverteilung der Probanden ist relativ ausgeglichen: Zehn der Probanden waren weiblich, acht männlich. Acht lassen sich der Alters­gruppe der 18-32-Jährigen zuordnen. Weitere sieben waren zwischen 33 und 59 Jahren alt. Zwei Personen waren über 60, eine unter 18 Jahren. Auch hierbei erfolgte die Auswahl der Probanden nach dem Zufallsprinzip und durch Akqui­rierung aus dem privaten und universitären Umfeld. Homogen fällt hingegen die durchschnittliche Mediennutzung in Bezug auf Videotelefonie aus. Alle der Pro­banden gaben an, oft (mindestens 1x/Woche) oder regelmäßig (mind. 1x/Monat) zu videotelefonieren.

[33] Somit sollte das Nutzerverhalten in der realtypischen Anwendung der Videote­lefonie zu erforscht werden. Als Kommunikationsgerät fand ein handelsübliches Smartphone mit einem 4,7-Zoll-Display Anwendung.

[34] Die verbaute Smartphonehalterung umfasste einen Drehkugelkopf der Einstel­lungen im vollen Spektrum ermöglicht. Zur Durchführung des Experiments fand ein handelsübliches Smartphone Anwendung.

[35] Dessen Maximalhöhe beträgt 195 cm, die minimale 4 cm. Sowohl im Stehenden als auch im Sitzenden Setup war es somit möglich, das Smartphone (weit) ober­halb der Augenhöhe zu positionieren.

[36] Zur Messung der Distanzen sowie der Winkel wurde ein handelsübliches Laser­messgerät verwendet. Gemessen wurde innerhalb der Untersuchung (nach 2-3 Minuten Gespräch) durch anlegen des Messgerätes. Hierbei ist anzumerken, dass die Probanden sich kaum bewegten und auch die Halteposition des Smart­phones kaum veränderten.

[37] Dabei muss berücksichtigt werden, dass das Halten des Smartphones auch mit körperlicher Anstrengung zu tun hat und das Ergebnis somit maßgeblich beein­flusst.