Freitag, 9. März 2012

Über Abtastraten und zeitliche Auflösung

Zu den hartnäckigsten Mißverständnissen bei Digital-Audio gehört der Mythos, daß die "zeitliche Auflösung" durch die Abtastfrequenz begrenzt ist. Daß also z.B. die CD mit ihren 44,1 kHz nur bis zu etwa 22 µs auflösen kann.

In der einfachsten Form (und viele Audiophile kommen nur so weit) geht das Argument so, daß das menschliche Ohr angeblich 10µs (oder gar noch weniger) noch auflösen könne, was schon seit langem bekannt sei, und daß deswegen die Abtastrate entsprechend hoch sein müsse, als z.B. 96 kHz oder gar 192 kHz.

Ich hatte darüber 2008 im Hifi-Forum schon mal eine Auseinandersetzung mit Ralf Koschnicke von Acousence, in der er - ausgehend von seinem Artikel im Studio Magazin - die Trommel rührte für höhere Abtastraten, und damit letztlich für die Produkte seiner Firma. Ich hatte damals wenigstens einen Teilerfolg, da er einen besonders klar sichtbaren Denkfehler zugab, was ihn aber in der Folge nicht davon abgehalten hat, mit entsprechend nebulöserer Argumentation weiterhin dasselbe zu behaupten. Nicht daß mich das wirklich überrascht hätte.

Den Anlaß zu diesem Blog-Artikel gab aber letztlich, daß ich über Jakob auf die Artikel eines Dr. Kunchur aufmerksam wurde, der vor ein paar Jahren zwei wissenschaftliche Fachartikel über von ihm durchgeführte Untersuchungen veröffentlichte, in denen er aus einem von ihm gefundenen Auflösungsvermögen des menschlichen Ohres von etwa 5 µs ebenfalls auf die Forderung nach höheren Abtastraten als bei der CD kam. Ich weiß nicht wie mir diese Artikel bisher entgehen konnten (einen Artikel hatte ich auf der Festplatte, aber anscheinend vergessen), denn wie ich inzwischen gefunden habe, haben sie insbesondere im englischsprachigen Hifi-Forums-Zirkus beträchtlichen Wirbel gemacht. Besonders im Stereophile-Forum ging's voll zur Sache, als ein paar Leute, allen voran James Johnston, es doch tatsächlich gewagt hatten, des Doktors Untersuchungen zu kritisieren, und die Fehlschlüsse ans Licht zu zerren. Das macht die Sache nicht bloß auf der trocken-technischen Ebene interessant, sondern zeigt auch eindrucksvoll, wie sich die feingeistige Audiophilen-Elite gegen das grobe Techniker-Gesocks zur Wehr setzt. Oder war's doch andersrum?

Aber zunächst soll es um den Inhalt dieser Untersuchungen gehen. Im ersten Artikel von 2007 benutzt Kunchur eine Versuchsanordnung, bestehend aus zwei Hochton-Lautsprechern, die übereinander gestellt werden, und mit dem gleichen Signal angesteuert werden. Der obere Lautsprecher kann gegenüber dem unteren einige Millimeter vor- und zurück geschoben werden, so daß sein Signal geringfügig früher oder später am Ohr des genau horizontal 4,3m entfernten Hörers ankommt. Eine Verschiebung von einem Millimeter entspricht wegen der Schallgeschwindigkeit einer Laufzeit von etwa 3 µs. Die Verschiebung des Lautsprechers geschieht automatisch im Verlauf des Blindtests, und zwar ohne Unterbrechung des Schalls, um eine möglichst nahtlose Vergleichsmöglichkeit zu schaffen. Als Testsignal wird ein Rechtecksignal von 7 kHz verwendet, das über  breitbandige analoge Elektronik erzeugt und verstärkt wird. Im Signalweg befindet sich also keine Digitaltechnik. Mit dieser Anordnung wurden mit 5 Personen Blindtestreihen durchgeführt, bei denen für 6 verschiedene Verschiebungen des oberen Lautsprechers je 10 Versuche gemacht wurden, um die kleinste Verschiebung zu finden, die mit statistsicher Signifikanz noch unterschieden werden kann. Im Ergebnis wurde die Verschiebung bis herunter zu 2,3 mm sicher detektiert, eine Verschiebung von 2,0 mm wurde immerhin noch von einem Subjekt detektiert. Kunchur folgert daraus eine Hörbarkeitsschwelle für "Zeitfehler" von ca. 6 µs.

Im zweiten Artikel von 2008 benutzt Kunchur eine andere Versuchsanordnung, und ersetzt die Lautsprecher durch ein einfaches RC-Glied als Tiefpaßfilter, das er im Rahmen der Blindtests ein- und ausschalten kann. Abgehört wird diesmal über Kopfhörer. Wieder benutzt er breitbandige Analogelektronik, und arbeitet mit dem 7 kHz Rechtecksignal. Durch Variation des Widerstandswertes im RC-Filter kann die Zeitkonstante des Filters gewählt werden, und Kunchur versucht wiederum durch Blindtestreihen herauszufinden, welches die kleinste Zeitkonstante ist, die mit statistischer Sicherheit noch unterscheidbar ist. Das Ergebnis zeigt daß 4,7 µs in etwa die Grenze darstellt. Weitere Blindtests sollten sicherstellen, daß es nicht Artefakte aufgrund des Umschaltens waren, die zur Hörbarkeit führten.

Beide Artikel sind in wissenschaftlichen Fachzeitschriften erschienen, in denen die Artikel vor der Veröffentlichung begutachtet werden ("peer-review"), um die Einhaltung wissenschaftlicher Standards zu gewährleisten. Trotzdem gibt's an beiden Arbeiten einiges auszusetzen, wie ich noch zeigen werde. Kunchur hat noch einen Vortrag auf einem Treffen der "Acoustical Society of America" gehalten, und dafür einen Konferenzbeitrag geschrieben (dort dürfte es kein "peer-review" gegeben haben). Die Diskussionen in amerikanischen Foren haben außerdem zu einer Antwort in Form eines FAQ-Papiers geführt. Einige Zeit danach schließlich trat Kunchur noch auf der AES Convention in London auf, wo er im Rahmen eines Workshops eine kurze Einführung gab.

Welche Fehler sehe ich?
  1. Es ist nicht klar, ob die in den Blindtests gehörten Unterschiede überhaupt auf das Konto der Zeitverschiebung gehen, oder ob sie nicht stattdessen z.B. aufgrund von Amplitudenunterschieden zustande kommen.
  2. Die Annahme, daß die Zeitabstände der Abtastungen in einem digitalen Audiosystem eine Grenze für die Auflösung von Zeit- oder Phasenverschiebungen darstellen, ist falsch. Das Mißverständnis mag weit verbreitet sein, und auch den einen oder anderen Fachmann betreffen, aber das macht es nicht richtiger.
Daneben finde ich noch, daß die Wahl eines 7 kHz Rechtecksignals unzureichend begründet und recht eigenartig ist. Die damit zusammenhängenden Erklärungen, speziell warum ein analoger Generator anstatt eines digitalen verwendet wurde, lassen bei Kunchur darüber hinaus noch weitere Defizite im Verständnis von digitalem Audio erkennen.

Zum ersten Problem:

Beide Versuchsanordnungen verursachen nicht nur eine Zeitverschiebung, sondern auch eine Amplitudenänderung. Es ist also nötig, zu klären welcher der beiden Effekte tatsächlich gehört wurde. Bei beiden Versuchen ergibt sich ein Amplitudenunterschied an der Detektionsgrenze der Blindtests, der bei ca. 0,25 dB liegt. Das ist besser als der aus älteren Untersuchungen für 7 kHz bekannte Wert von 0,7 dB, den Kunchur anführt. Für ihn ist das der Anlaß, den Amplitudenunterschied als Ursache auszuschließen, aber das ist eine fadenscheinige Begründung, denn der Wert der Zeitauflösung, den er als detektierbar findet, ist ja auch besser als die bisher bekannten Schwellen. Warum soll es also ausgerechnet die Zeitdifferenz sein, und nicht die Amplitudendifferenz, wenn doch bei beiden das gleiche Argument angewendet werden könnte? Kunchur's Wahl ist willkürlich. Er hätte zusätzliche Versuche machen sollen, die die Entscheidung zwischen den beiden Alternativen erlauben. Im Falle des RC-Glieds wäre das sogar sehr einfach gewesen.

Zum zweiten Problem:

Das ist eigentlich die kniffligere Sache und für viele Leute geht es gegen ihre Intuition. Die Probleme fangen schon damit an was mit dem Begriff "Auflösung" genau gemeint ist.

Manchmal wird damit die Frage verbunden, wie dicht nacheinander zwei scharfe Impulse kommen dürfen, damit man sie noch als zwei Impulse voneinander unterscheiden kann, anstatt sie als einen einzelnen verschmolzenen Impuls wahrzunehmen. Das ist für's Gehör aber eine ziemlich irrelevante Betrachtungsweise in unserem Fall, denn bevor das Gehör Impulse voneinander getrennt wahrnimmt, müssen sie sehr viel weiter voneinander entfernt sein, als 22 µs. Deshalb zeigt man da auch eher Oszilloskopbilder oder Bilder vom Computerbildschirm aus der Audio-Software. Da sieht man dann ab wann zwei Impulse optisch miteinander verschmelzen, wenn man sie immer näher zusammenrückt. Man sollte sich aber hüten, aus der optischen Erscheinung auf die akustische zu schließen.

Kunchur tut das auch nicht, aber wenn es nicht darum geht zwei Impulse voneinander zu trennen, sondern nur darum daß der Zeitabstand in das Gesamtergebnis eingeht, auch wenn er kleiner als 22 µs ist, dann ist die Abtastung der Digitaltechnik kein Hindernis. Der Abtastvorgang verursacht keine weiteren Einschränkungen als es die Bandbreitenbegrenzung ohnehin tut, die man vor der Wandlung machen muß. Die zeitliche "Verschmierung" von der er redet, ist eine direkte Folge der Bandbreitenbegrenzung, und damit kein Digital-Effekt. Die Effekte einer Tiefpaßfilterung wie mit dem RC-Glied, oder die Überlagerung zweier Wellenfronten wie im Versuch mit den zwei Lautsprechern, sind bandbreiten-neutral. Man kann mit solchen Versuchen daher nicht zeigen, daß man eine bestimmte Mindest-Bandbreite braucht, und folglich auch nicht daß man eine bestimmte Mindest-Abtastrate braucht.

Beispiel Lautsprecher-Versuch von Kunchur. Die beiden Lautsprecher führen zu einer Überlagerung der Wellen vor den beiden Lautsprechern, und der Effekt ist eine Richtwirkung in der Vertikalen. Es ist das Prinzip hinter den sog. "Line-Arrays", einem Stapel senkrecht übereinander angeordneter Lautsprecher. Wenn man einen Lautsprecher etwas vor oder zurück verschiebt, dann hat das Auswirkungen auf die Richtwirkung. Die Richtung wandert nach oben oder unten, das heißt daß in der horizontalen Hörposition der Pegel kleiner wird. Die Richtwirkung ist frequenzabhängig, genauer gesagt abhängig vom Verhältnis der Wellenlänge des Audiosignals zum Abstand der Lautsprecher.

Wegen der Verwendung von Rechtecksignalen könnte man argumentieren, daß die Verschiebung des Lautsprechers zur Folge hat, daß nun anstelle einer Wellenfront zwei kurz hintereinander folgende Wellenfronten am Ohr ankommen, und daß es das ist was das Ohr unterscheiden kann. Das wurde aber weder nachgeprüft, noch ist es auf eine Distanz von über 4 Meter zu erwarten.

Das Sonstige:

Kunchur hat nicht wirklich schlüssig erklärt wieso er Rechtecksignale benötigt. Er scheint Wert auf eine schnelle Anstiegszeit zu legen, aber man erfährt nicht warum das wichtig sein soll, bzw. welche Anstiegszeit man braucht um einen negativen Einfluß auf den Ausgang des Versuchs zu vermeiden. Man hat den Eindruck, es läuft nach dem Motto: Je schneller je besser. Das muß noch kein Problem sein, aber die Erklärungen, die man von ihm im Konferenzbeitrag zum Thema analoge vs. digitale Rechteckgeneratoren liest, läßt sein Verständnis von digitaler Signalverarbeitung in einem ziemlich schlechten Licht dastehen, und zeigt daß er einigen der Irrtümer und Denkmuster unterliegt, die man auch bei Audiophilen findet.

So behauptet er beispielsweise, man könne nur unter großen Schwierigkeiten eine exakt periodische Signalform auf digitalem Weg erzeugen und Jitter sei dabei ein sehr ernstes Problem. Um das plausibler zu machen, führt er als Beispiel den Rechteck-Generator in SoundForge an, einem Audio-Editor für den PC, der in dieser Hinsicht mit Audacity vergleichbar ist, wie ihn vielleicht mehr Leute kennen werden. Der da vorgestellte Generator ist so naïv implementiert, daß er unter ernsten Aliasing-Effekten leidet. Das ist kein Beispiel mit dem man die Digitaltechnik im Ganzen diskreditieren könnte. Mit SoundForge könnte man sowieso kein Rechtecksignal erzeugen, das seinen Vorstellungen von Flankensteilheit auch nur annähernd entsprechen würde, denn dafür ist die Bandbreite viel zu niedrig. Das heißt aber nicht daß es so etwas nicht geben würde. Kommerzielle Arbiträrgeneratoren können so etwas ohne große Probleme. Eine Abtastrate von 40 MHz wäre dem von ihm verwendeten Analoggenerator ebenbürtig bei der Flankensteilheit, und würde beim Jitter erheblich besser abschneiden, als Kunchur's Analoggenerator. Der ist nämlich beileibe nicht besonders jitterarm, wenn man seine eigenen Angaben zugrunde legt. Das sind solche Analoggeneratoren eher selten. Beispiel für einen geeigneten Digitalgenerator: Der Agilent 33120A, ein sehr verbreitetes Gerät.

Mein Fazit:

Die Artikel von Kunchur geben das nicht her, was er selbst als Schlußfolgerungen zieht, insbesondere nicht die Notwendigkeit einer höheren Abtastrate als die bei der CD verwendete. Er unterliegt ein paar ziemlich fundamentalen Mißverständnissen im Zusammenhang mit digitaler Signalverarbeitung. Ich wundere mich wie er das an den anonymen Reviewern bei den Fachzeitschriften vorbei gekriegt hat, ein Ruhmesblatt für sie ist das nicht gerade.

Die Forums-Rezeption:

Das Highlight ist definitiv das Stereoplay-Forum*. Da produzieren sich ein paar ausgesprochene Arschlöcher, unter ihnen Steven Sammet von SAS Audio Labs, ein Teilnehmer unter dem Pseudonym "michiganjfrog", von dem vermutet wird es handle sich um Stereophile's Mitarbeiter Michael Fremer, oder auch "ncdrawl", der sich selber offenbar eher als neutraler Moderator versteht, aber auf einem Auge eindeutig blind ist.

Die Debatte hat aber schnell metastasiert, und fand in unterschiedlicher Giftigkeit in mindestens mal folgenden Foren statt: Gearslutz, Hydrogenaudio, Audio Asylum Propellerhead Plaza, und ich weiß nicht wo sonst.

Wer des Englischen mächtig ist, und sich das geben will, der wird sicher seine ohnehin bestehenden Vorurteile über Diskussionen mit Audiophilen in allen Punkten bestätigen können. Ich war ganz begeistert.


Ihr auch?


P.S.: Monty hat eine sehr ausführliche Seite über 24/192 geschrieben. Paßt gut hierher, braucht aber Geduld und gute Englischkenntnisse.

* Nachträgliche Korrektur: Es muß natürlich heißen "das Stereophile-Forum". Ich schätze das war ein "Freud'scher Verschreiber". :-)