Direkt zum Inhalt

Roßkopf-Winderl, Sarah

Sound Matters - On the Influence of Audio Renderings on Socio-Cognitive Processing, Presence, and Fear in Social Situations in Virtual Reality

Roßkopf-Winderl, Sarah (2026) Sound Matters - On the Influence of Audio Renderings on Socio-Cognitive Processing, Presence, and Fear in Social Situations in Virtual Reality. Dissertation, Universität Regensburg.

Veröffentlichungsdatum dieses Volltextes: 12 Mai 2026 06:29
Hochschulschrift der Universität Regensburg
DOI zum Zitieren dieses Dokuments: 10.5283/epub.79424


Zusammenfassung (Englisch)

Humans are inherently social beings, and social cues such as faces and voices guide attention and behavior. Auditory perception, especially binaural hearing, is essential for social cognition, enabling sound localization and speech comprehension in noisy environments. Deficits in auditory processing can impair social functioning, and conditions such as social anxiety are linked to reduced social ...

Humans are inherently social beings, and social cues such as faces and voices guide attention and behavior. Auditory perception, especially binaural hearing, is essential for social cognition, enabling sound localization and speech comprehension in noisy environments. Deficits in auditory processing can impair social functioning, and conditions such as social anxiety are linked to reduced social functioning. Since social functioning is closely linked to overall well-being, improving social behavior represents a key objective in psychological research.
Virtual reality (VR) is increasingly used to study social behavior due to its flexibility and ecological validity. However, users often report limited social presence, reducing the effectiveness of VR-based interventions especially for social anxiety. One reason may be the dominance of visual over auditory realism: audio is often presented in mono or stereo, reducing naturalness and presence. Binaural auralizations, which provide realistic, externalized spatial audio, may enhance presence and support virtual social interactions.
This thesis pursues four main research objectives: identifying suitable behavioral and subjective measures for evaluating binaural realism; assessing immersion, realism, and audio quality across auralization techniques; comparing synthetic and natural speech in a socially stressful VR scenario; and examining effects of binaural audio on affect, presence, and attention under varying social stress levels.
Study 1 examined how the virtual visual scene and measurement method affect localization and distance perception of physical sound sources. Across two experiments (N=60), audiovisual incongruence reduced localization accuracy but did not affect presence or realism. Distance estimation was influences by the interaction of task and scene: overestimation increased when using a placement task in a reduced-visibility scene.
Study 2 compared localization accuracy for loudspeakers and four virtual audio renderings using a placement task and a gaze-based paradigm (N=49). Binaural renderings produced slightly lower localization accuracy but similar ratings of social presence and realism. A simple generic rendering performed as well as more complex ones. Only the anchor condition lacked externalization and was inferior across measures. Social presence and subjective realism were strongly correlated.
Study 3 compared AI-generated text-to-speech with natural human speech in the Trier Social Stress Test (N=40). Both conditions elicited substantial stress responses and produced similar presence and affect ratings, demonstrating the practicality of synthetic speech in virtual social interactions.
Study 4 investigated audiovisual realism in a virtual social stress scenario (N=78). A high-stress group showed stronger physiological and subjective stress responses than a low-stress group. Binaural audio increased perceived realism and externalization but did not affect social presence, stress responses, or gaze behavior. High arousal across all groups may have masked audio effects.
Across all 4 studies, social anxiety did not consistently affect auditory perception or presence but influenced affective states and subjective evaluations of the interaction.
Overall, the findings highlight the importance of VR-specific auditory perception and the role of acoustic immersion. Auditory realism enhances social and physical presence, though its impact varies by context. It appears most effective in low- to moderate-arousal scenarios and may be less critical in highly affective VR applications such as anxiety treatments. Practical advancesn such as TTS integration and simplified binaural rendering methods can support the broader use of realistic audiovisual VR environments in psychological research.

Übersetzung der Zusammenfassung (Deutsch)

Der Mensch ist ein soziales Wesen, dessen Verhalten stark durch soziale Hinweisreize wie Gesichter und Stimmen beeinflusst wird. Besonders das binaurale Hören spielt eine zentrale Rolle für soziale Kognition, da es die Lokalisierung von Interaktionspartnern und das Sprachverstehen in komplexen Geräuschumgebungen ermöglicht. Einschränkungen der auditiven Verarbeitung können soziale Interaktionen ...

Der Mensch ist ein soziales Wesen, dessen Verhalten stark durch soziale Hinweisreize wie Gesichter und Stimmen beeinflusst wird. Besonders das binaurale Hören spielt eine zentrale Rolle für soziale Kognition, da es die Lokalisierung von Interaktionspartnern und das Sprachverstehen in komplexen Geräuschumgebungen ermöglicht. Einschränkungen der auditiven Verarbeitung können soziale Interaktionen beeinträchtigen; ebenso sind psychische Störungen wie soziale Angst mit reduzierter sozialer Funktionsfähigkeit verbunden. Da diese eng mit dem Wohlbefinden verknüpft ist, ist die Förderung sozialer Interaktionen ein wichtiges Forschungsziel.
Virtuelle Realität (VR) bietet hohe ökologische Validität für die Untersuchung sozialer Interaktionen, jedoch berichten Nutzer häufig eine eingeschränkte soziale Präsenz. Dies kann die Wirksamkeit VR-basierter Interventionen, insbesondere bei sozialer Angst, reduzieren. Ein Grund dafür könnte der Fokus auf visuellen statt auditiven Realismus sein. Oft werden nur Mono- oder Stereoformate genutzt, was die Natürlichkeit der Interaktion mindert. Binaurale Auralisationen könnten die Präsenz steigern, indem Stimmen räumlich korrekt wahrgenommen werden.
Die Arbeit verfolgt vier Ziele: geeignete Evaluationsmethoden für binaurale Auralisationen zu identifizieren; Immersion, Realismus und Audioqualität verschiedener Auralisierungstechniken zu untersuchen; ein sozial stressreiches VR-Szenario zu implementieren, um natürliche und synthetische Sprache zu vergleichen; sowie Effekte binauraler Auralisationen auf affektive Reaktionen, Präsenz und Aufmerksamkeit zu untersuchen.
Studie 1 untersuchte den Einfluss der visuellen Szene und der Messmethode auf Lokalisierung und Distanzwahrnehmung realer Schallquellen. Eine audiovisuelle Inkongruenz verschlechterte die Lokalisierung, beeinflusste jedoch Präsenz und Realismus nicht. Die Distanzschätzung hing von der Interaktion zwischen dem visuellen Raummodell und der Messmethode ab.
Studie 2 verglich physische Lautsprecher mit vier Audio-Renderings. Obwohl die Lokalisierungsgenauigkeit bei Renderings geringer war, unterschieden sich soziale Präsenz und Realismus nicht. Die generische binaurale Bedingung schnitt ähnlich gut ab wie aufwendigere Renderings. Nur die Ankerbedingung wurde als nicht externalisiert wahrgenommen und war in allen Bewertungen unterlegen.
Studie 3 verglich synthetische Sprache mit menschlichen Sprachaufnahmen im Trierer Sozialen Stresstest. Beide Bedingungen lösten vergleichbare Stressreaktionen und ähnliche Präsenzbewertungen aus, was die Praktikabilität synthetischer Sprache in VR bestätigt.
Studie 4 untersuchte audiovisuellen Realismus in einem sozialen Stressszenario. Die Hochstressgruppe zeigte stärkere physiologische und subjektive Stressreaktionen. Binaurale Auralisationen wurden als realistischer bewertet, beeinflussten jedoch weder soziale Präsenz noch Stressreaktionen.
Über alle Studien hinweg zeigte soziale Angst keinen konsistenten Einfluss auf soziale Präsenz oder auditorische Wahrnehmung, jedoch auf affektive Zustände und die Bewertung der Interaktion.
Insgesamt verdeutlichen die Ergebnisse die Bedeutung auditorischen Realismus in VR. Binaurale Auralisationen können soziale und physische Präsenz steigern, ihre Wirkung hängt jedoch vom Kontext ab. Besonders in Szenarien mit geringer bis mittlerer Affektivität scheint akustische Immersion wirksam zu sein. Eine weitere Vereinfachung der Implementierung von Audiorenderings und die Nutzung von TTS-Technologie können die Integration realistischer VR-Szenen in die psychologische Forschung erleichtern.


Beteiligte Einrichtungen


Details

DokumentenartHochschulschrift der Universität Regensburg (Dissertation)
Ort der Veröffentlichung:Regensburg, Deutschland
Datum12 Mai 2026
Begutachter (Erstgutachter)Prof. Dr. Andreas Mühlberger
Tag der Prüfung23 März 2026
InstitutionenHumanwissenschaften > Institut für Psychologie > Lehrstuhl für Klinische Psychologie und Psychotherapie - Lehrstuhl für Psychologie VIII - Prof. Dr. Andreas Mühlberger
Projekte
Gefördert von: Deutsche Forschungsgemeinschaft (DFG) (422686707)
Stichwörter / Keywordsvirtual social interaction; social anxiety; binaural auralisations; social presence; VR social stress paradigm; audiovisual integration; spatial audio; TTS
Dewey-Dezimal-Klassifikation100 Philosophie und Psychologie > 150 Psychologie
StatusVeröffentlicht
BegutachtetJa, diese Version wurde begutachtet
An der Universität Regensburg entstandenJa
URN der UB Regensburgurn:nbn:de:bvb:355-epub-794245
Dokumenten-ID79424

Bibliographische Daten exportieren

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

nach oben