RuhrCampusOnline.de - Das studentische Magazin von Rhein und Ruhr
Keine Suchergebnisse
Alle Suchergebnisse einsehen
Gartenfreunde
  • Bochum
  • Bonn
  • Dortmund
  • Duisburg
  • Düsseldorf
  • Essen
  • Gelsenkirchen
  • Köln
  • Krefeld
  • Wuppertal
  • Bochum
  • Bonn
  • Dortmund
  • Duisburg
  • Düsseldorf
  • Essen
  • Gelsenkirchen
  • Köln
  • Krefeld
  • Wuppertal
Keine Suchergebnisse
Alle Suchergebnisse einsehen
Justnow Press
Keine Suchergebnisse
Alle Suchergebnisse einsehen

Startseite » Wuppertal » Im Kneipenlärm: Automatische Spracherkennung auf menschlichem Niveau

Im Kneipenlärm: Automatische Spracherkennung auf menschlichem Niveau

15. Januar 2025
in Wuppertal
Reading Time: 2Minuten Lesezeit
Im Kneipenlärm: Automatische Spracherkennung auf menschlichem Niveau
Share on FacebookShare on Twitter

(openPR) Die automatische Spracherkennung (ASR) hat in den letzten Jahren bemerkenswerte Fortschritte gemacht, insbesondere bei global häufig verwendeten Sprachen wie Englisch. Während man noch vor 2020 davon ausging, dass menschliche Spracherkennungsfähigkeiten denen von automatischen Systemen weit überlegen sind, zeigen einige aktuelle Systeme eine vergleichbare Leistung. Ziel der Weiterentwicklung von ASR war, die Fehlerrate zu minimieren, unabhängig davon, wie gut Menschen in der gleichen Geräuschumgebung abschneiden. Denn auch Menschen erreichen in geräuschvollen Umgebungen keine perfekte Genauigkeit.

In ihrer aktuellen Studie verglich die UZH-Computerlinguistin Eleanor Chodroff gemeinsam mit ihrerz Kollegin Chloe Patman von der Cambridge University die Spracherkennungsleistung zweier beliebter Systeme – «wav2vec 2.0» von Meta und «Whisper» von OpenAI – direkt mit britischen Muttersprachler:innen. Sie testeten die ASR-Systeme unter Bedingungen wie sprachähnlichem Rauschen oder Kneipenlärm, jeweils mit und ohne Gesichtsmaske aus Baumwolle.

Die Ergebnisse zeigten, dass Menschen beiden ASR-Systemen überlegen waren. Allerdings übertraf das neueste OpenAI-System «Whisper large-v3» die menschliche Leistung in allen getesteten Bedingungen deutlich, ausser bei realistischem Kneipenlärm, wo es mit der menschlichen Leistung mithalten konnte.

«Whisper large-v3» bewies damit seine Fähigkeit, die akustischen Eigenschaften von Sprache zu verarbeiten und sie erfolgreich einem Satz zuzuordnen. «Dies war beeindruckend, als die getesteten Sätze aus dem Zusammenhang gerissen wurden und es auch schwierig war, ein Wort aus den vorhergehenden Wörtern vorherzusagen», erklärt UZH-Expertin Eleanor Chodroff.

Ein genauerer Blick auf die ASR-Systeme und ihre Trainingsmethoden zeigt, wie bemerkenswert die menschliche Leistung nach wie vor ist. Beide getesteten Systeme basieren auf Deep Learning, aber das leistungsstärkste System «Whisper» benötigt immense Mengen an Trainingsdaten. Während «wav2vec 2.0» von Meta mit 960 Stunden englischer Sprachdaten trainiert wurde, griff das Standardsystem von «Whisper» auf mehr als 75 Jahre Sprachdaten zurück. Das System, das die menschlichen Fähigkeiten tatsächlich übertraf, nutzte sogar mehr als 500 Jahre Sprachdaten. «Menschen erreichen diese Leistung in nur wenigen Jahren», betont Chodroff. «Ausserdem bleibt die automatische Spracherkennung in fast allen anderen Sprachen weiterhin eine grosse Herausforderung.»

Die Studie zeigte auch, dass Menschen und ASR-Systeme unterschiedliche Fehler machen. Englische Hörer:innen bildeten fast immer grammatikalisch korrekte Sätze, schrieben aber häufig Satzfragmente, anstatt zu versuchen, für jeden Teil des gesprochenen Satzes ein geschriebenes Wort zu liefern. «wav2vec 2.0» hingegen produzierte unter schwierigsten Bedingungen häufig Kauderwelsch. «Whisper» lieferte zwar grammatikalisch korrekte Sätze, neigte aber dazu, Lücken mit völlig falschen Informationen zu füllen.

wissenschaftliche Ansprechpartner: Kontakt Prof. Dr. Eleanor Chodroff Institut für Computerlinguistik Universität Zürich +41 76 426 27 07

Vorherige News

Membrantechnologie im Wasser- und Energiemanagement – Wichtiger Beitrag zur Versorgung in Afrika

Nächste News

Land in Sicht! – Küstenlinie der Insel der Stabilität der superschweren Elemente durch Experimente bei GSI/FAIR enthüllt

Ähnliche Beiträge

Fraunhofer FIT begrüßt 120 Gäste zur Jubiläumsfeier »50 Jahre Zahlen für eine evidenzbasierte Wirtschaftspolitik«
Wuppertal

Fraunhofer FIT begrüßt 120 Gäste zur Jubiläumsfeier »50 Jahre Zahlen für eine evidenzbasierte Wirtschaftspolitik«

15. Juli 2025
Das neue Workbook zum Ersthelfer*in Psychische Gesundheit von Norbert Hüge MILD ist da!
Wuppertal

Das neue Workbook zum Ersthelfer*in Psychische Gesundheit von Norbert Hüge MILD ist da!

15. Juli 2025
Kryo-Elektronenmikroskopie – Reaktionszyklus eines Enzyms zur CO2-Fixierung entschlüsselt
Wuppertal

Kryo-Elektronenmikroskopie – Reaktionszyklus eines Enzyms zur CO2-Fixierung entschlüsselt

14. Juli 2025
Deutsche Krebshilfe fordert wissenschaftliche Evaluation von weiteren Krebsfrüherkennungsuntersuchungen
Wuppertal

Deutsche Krebshilfe fordert wissenschaftliche Evaluation von weiteren Krebsfrüherkennungsuntersuchungen

14. Juli 2025

Beliebte News

  • (v.l.) Chr. Mohr (RC BO-Hellweg), Dzenana Hukic, Kim Stratmann und H. Adamsen (RC BO-Hellweg)

    Rotary Club Bochum-Hellweg engagiert sich fürs Deutschlandstipendium

    0 shares
    Share 0 Tweet 0
  • Rotary Club Bochum-Hellweg verleiht RUB-Universitätspreis für herausragende Abschlussarbeit an Nele Borgert

    0 shares
    Share 0 Tweet 0
  • Desk-Sharing Plattform aus Bonn erobert Deutschlands Coworking-Markt

    0 shares
    Share 0 Tweet 0
  • RFH Köln informiert über Bachelor Wirtschaftsinformatik

    0 shares
    Share 0 Tweet 0
  • Berufsausbildung Sprachen statt Studium in Zeiten von Corona? Infoabend 4.8. in der Dolmetscherschule Köln

    0 shares
    Share 0 Tweet 0
  • Impressum
  • Datenschutz
  • Kontakt
© 2020 RuhrCampusOnline.de
Keine Suchergebnisse
Alle Suchergebnisse einsehen
  • Bochum
  • Bonn
  • Dortmund
  • Duisburg
  • Düsseldorf
  • Essen
  • Gelsenkirchen
  • Köln
  • Krefeld
  • Wuppertal

Cookie-Zustimmung verwalten
Wir verwenden Cookies, um unsere Website und unseren Service zu optimieren.
Funktional Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
Optionen verwalten Dienste verwalten Verwalten von {vendor_count}-Lieferanten Lese mehr über diese Zwecke
Einstellungen anzeigen
{title} {title} {title}