Nachrichten, Gerüchte, Meldungen und Berichte aus der IT-Szene
Redaktion: Heinz Schmitz
Wie attraktiv klingen KI-Stimmen?
KI-generierte Stimmen werden oft für menschliche gehalten, im Durchschnitt aber als weniger attraktiv wahrgenommen. (Quelle: MPIEA/L. Bittner)
Insgesamt 75 Personen nahmen an der Online-Studie teil. Die Teilnehmer hörten verschiedene Versionen eines Satzes, der von insgesamt acht Stimmen vorgetragen wurde. Vier davon waren menschliche Stimmen, die anderen vier künstlich generierte Text-to- Speech-(TTS)-Stimmen. Jede Stimme präsentierte den Satz viermal in unterschiedlicher emotionaler Färbung: neutral, fröhlich, traurig und wütend. Die Teilnehmer beurteilten die Attraktivität der Stimmen und gaben an, wie gerne sie mit ihnen interagieren würden. Darüber hinaus beschrieben sie, welche Emotion sie jeweils wahrgenommen hatten.
Camila Bruder vom MPIEA berichtet: „Fröhliche Stimmen wurden insgesamt positiver bewertet als solche, die traurig oder wütend klangen – egal, ob es sich dabei um menschliche oder künstlich erzeugte Stimmen handelte. Das deutet darauf hin, dass die wahrgenommene Emotion die Bewertung aller Stimmen in gleicher Weise beeinflusst beziehungsweise das KI-Stimmen ähnlich wie menschliche Stimmen behandelt werden.“
Zudem sollten die Teilnehmer angeben, ob sie die jeweilige Stimme für menschlich oder KI-generiert hielten. Menschliche Stimmen identifizierten die Zuhörer zu 86 Prozent korrekt, KI-Stimmen hingegen nur zu 55 Prozent. Am deutlichsten zeigten sich Fehleinschätzungen bei KI-Stimmen, die als wütend wahrgenommen wurden.
Dies könnte darauf zurückzuführen sein, dass die Teilnehmer möglicherweise nach wie vor eher „emotionslose“ synthetische Stimmen erwarteten.
Darüber hinaus zeigte sich, dass auch das Alter eine Rolle bei der Einschätzung spielte: Ältere Teilnehmer hatten größere Schwierigkeiten, zwischen menschlichen und KI-generierten Stimmen zu unterscheiden. Die Tatsache, dass die Mehrheit der Teilnehmer von den TTS-Stimmen „getäuscht” wurden, deutet auf erhebliche Fortschritte in der Ausdruckskraft und Natürlichkeit dieser Systeme hin.
Pauline Larrouy-Maestri resümiert: „Im Gesamtergebnis wurden menschliche Stimmen immer noch als attraktiver und ansprechender empfunden als synthetische. Allerdings gab es in der Beurteilung deutliche individuelle Unterschiede. Dieses Ergebnis unterstreicht die Notwendigkeit weiterer Studien mit differenzierteren Bewertungsmethoden und einer größeren Vielfalt an Zuhörern. Nur so können wir die menschliche Stimmwahrnehmung in all ihrer Komplexität erfassen.“
Originalpublikation:
Bruder, C., Breda, P., & Larrouy-Maestri, P. (2025). Attractive Synthetic Voices. Computers in Human Behavior: Artificial Humans, 6, Article 100211.
https://doi.org/10.1016/j.chbah.2025.100211
Siehe auch: