Konnte die spezifische Wirksamkeit eines Homöopathikums endlich in replizierbaren Versuchen mit Grasfröschen nachgewiesen werden, wie Anfang 2013 berichtet wurde? Wobei nicht nur die Frösche eine Metamorphose durchliefen, sondern offenbar auch die Ergebnisse…
Vorab ein Hinweis auf die Online-Petition zur Überprüfung des Status der Gemeinnützigkeit des Vereins ‚Homöopathen ohne Grenzen‘, in dessen Namen Notleidende in der Dritten Welt mit Homöopathie anstatt wirksamer Medizin behandelt werden. (Link) (eingefügt 18.9.)
Als wissenschaftlich nachgewiesen können solche Aussagen gelten, die in mehreren unabhängigen Untersuchungen mit ähnlichen positiven Ergebnissen erfolgreich überprüft wurden und im Rahmen einer unabhängigen Metaanalyse einer Gesamtbetrachtung mit signifikantem positiven Ergebnis unterzogen wurden. Genau dies läge vor, behauptet eine Forschergruppe um P.C. Endler aus Graz in Österreich auf ihrer Webseite (Link).
Dies wäre eine Sensation – warum bleibt es dann aber in Kreisen der Homöopathie so merkwürdig ruhig? Ute Parsch hat sich des ganzen Komplexes einmal angenommen und die Arbeiten einem umfangreichen Review unterzogen. Hier, im ersten Teil, betrachtet sie die in der ersten der Arbeiten erkennbare Metamorphose – nicht der untersuchten Frösche, sondern der Ergebnisse.
Der zweite Teil folgt in Kürze.
In Kürze
- Seit 1991 beschäftigt sich eine Forschergruppe um den Biologen P.C. Endler mit Einflüssen von über das Avogadrolimit verdünntem Thyroxin auf die Metamorphose von Kaulquappen. Dabei soll eine stabile und reproduzierbare Verlangsamung der Metamorphose durch Thyroxin D30 beobachtbar sein.
- Bereits die Aussage, dass Thyroxin D30 die gesamte Metamorphose verlangsamen würde, ist so nicht richtig. Die Kurven der beiden Gruppen zeigen in den zur Verfügung stehenden Grafiken meist kein für diese Behauptung charakteristisches Auffächern, sondern laufen mit vergleichbarer Steigung.
- Inwiefern auftretende Differenzen der zu einem bestimmten Zeitpunkt entwickelten Tiere auf geschicktes Pooling der Daten, auf die Zeitpunkte des Zählens oder auf einen eventuellen Bias zurückzuführen sind, wird in keiner der gefundenen Arbeiten auch nur andiskutiert und kann deshalb auch vom Leser nicht beurteilt werden.
- Im Internet veröffentlichte „Rohdaten“ der Experimente sind ebenfalls bereits in diesem Sinne gepoolt und lassen keine Abschätzung der Streuung der Werte für die Wassergruppe zu.
- Eine Verfolgung der Darstellung der Ergebnisse der ersten Versuchsreihen durch die verschiedenen Veröffentlichungen zeigt den Phantasiereichtum der Forscher, die Ergebnisse plakativ zu verstärken und die ursprünglichen Daten zu verschleiern.
Homöopathische Wunderwirkungen bei Kaulquappen
Schon seit 1991 beschäftigt sich eine Forschergruppe um P. C. Endler, damals an der Universität Graz, mit der Wirkung des Wachstumshormons Thyroxin in homöopathischer Verdünnung auf die Entwicklung von Fröschen. Dazu werden Kaulquappen in Becken gesetzt, deren Wasser Thyroxin in einer D30-Potenz (‚T30x‘ genannt) zugetropft wird. Die Kontrollgruppe erhält reines Wasser, das einen ähnlichen Verschüttelungsprozess durchlaufen hat (‚W30x‘). Betrachtet wird die Zeitdauer für die Entwicklung der Kaulquappen vom zweibeinigen zum vierbeinigen Stadium. Man will herausgefunden haben, dass dies bei den Tieren unter dem potenzierten Wachstumshormon langsamer erfolgte, wie es dem Ähnlichkeitsgesetz der Homöopathie entspricht.
Im Jahr 2013 hat B. Harrer eine Arbeit veröffentlicht [2], die auf froghom.net (link) zu einer Metaanalyse hochstilisiert wird (s. Teil 2). Das liest sich dann so:
‚Eine unabhängige Metaanalyse (Link) zeigt, dass die meisten der Unterversuche [was immer das auch ist] – wobei die einzige Ausnahme zwei vom ursprünglichen Team selbst durchgeführte Experimente waren – die T30x-Tiere trendmäßig langsamer waren (bis zu 6 h innerhalb 3 Tagen) als die W30x-Tiere. Für das ursprüngliche Team [wer auch immer das ist] waren die gepoolten T30x-Werte 10,4 % kleiner als die W30x-Werte (100%) (…), für die fünf unabhängigen ForscherInnen waren die gepoolten T30x-Werte 12,4 % kleiner (…) als die W30x-Werte, d.h. in beiden Fällen waren die Unterschiede zwischen den Gruppen statistisch hoch signifikant und die Effektstärken groß.‘
Handelt es sich also bei dieser Versuchsreihe tatsächlich um das seit 200 Jahren so händeringend von homöopathischer Seite gesuchte Experiment, das eine signifikante und deutliche Wirkung der homöopathischen Hochpotenzen zuverlässig reproduzierbar belegt?
Versuchsbeschreibung
Die erste und grundlegende Arbeit Endlers zu diesem Thema [1] stammt bereits aus dem Jahr 1991. Veröffentlicht wurde sie unter anderem im „Berlin Journal on Research in Homeopathy“, eine Zeitschrift, von der überhaupt nur 5 Hefte insgesamt erschienen. Damit ist die Studie aber immer noch besser veröffentlicht als ein Teil der anderen Arbeiten dieser Versuchsreihe. Einige sind nur online veröffentlicht, über manche Arbeiten erfährt man nur aus Endlers Büchern. Im Folgenden wird deshalb mehrmals auf sein Buch „Expedition Homöopathieforschung“ [4] Bezug genommen. Es erstaunt, dass reproduzierbare Ergebnisse, die dem Autor den Nobelpreis einbringen könnten, teilweise nur in wissenschaftlich überhaupt nicht relevanter Buchform erschienen sind.
Ich möchte diese Studie von 1991 benutzen, um die Versuche erst einmal genau vorzustellen. Wir konzentrieren uns dabei auf die schon oben angedeuteten Untersuchungen zur Entwicklungsgeschwindigkeit der Kaulquappen vom 2-beinigen bis zum 4-beinigen Stadium. Diese Arbeit (und auch die späteren) enthalten noch weitere Tests, wie zum Beispiel die Untersuchung der Kletteraktivität der fertigen Fröschlein. Doch diese Tests sind weitgehend aus den heute auftauchenden Referenzen auf die Versuche verschwunden. Deshalb möchte ich mich in diesem Artikel wirklich nur auf die „Parade-Testreihe“, beginnend mit der ältesten Arbeit [1], beschränken, es wird auch so ausführlich genug:
Die Experimentreihen wurden zwischen August und Oktober 1990 in Graz von Peter Christian Endler selbst, seiner Kollegin Waltraud Pongratz (heute Scherer) und in Utrecht von Roel van Wijk durchgeführt. Für diese ersten Experimente beobachtete man (wie gesagt unter anderem) mehrmals im Laufe der Sommermonate bis in den Herbst hinein die Metamorphose von „Rana temporaria“ – das ist der gewöhnliche Grasfrosch – von der zweibeinigen Kaulquappe bis zum Jungfrosch.
Die Entwicklungsstadien von Kaulquappen sind in der sogenannten Gosner-Tafel seit 1960 kategorisiert (Link). Die Entwicklung ist dort in insgesamt 46 Einzelschritte unterteilt. Die charakteristischen Unterschiede sind teilweise nur unter dem Mikroskop erkennbar. P.C. Endler und seine Kollegen peilten als Ausgangspunkt das Entwicklungsstadium „31“ an, in dem die Kaulquappe gerade schwach entwickelte Hinterbeine hat. Zielpunkt des hier betrachteten Teilexperimentes war der Zeitpunkt „as they entered the 4-legged stage”, also das Stadium, in dem die Vorderbeine der Kaulquappe durchbrachen. Dazu werden Kaulquappen in Becken gesetzt, deren Wasser Thyroxin in einer D30-Potenz (‚T30x‘ genannt) zugetropft wird. Die Kontrollgruppe erhält reines Wasser, das einen ähnlichen Verschüttelungsprozess durchlaufen hat (‚W30x‘). Die Versuche drehen sich darum, wie lange es dauert, bis diese Stadien durchlaufen sind, je nachdem ob T30x oder W30x dem Wasser zugegeben wurde.
Interessanterweise ist im Paper kaum beschrieben, wie die Versuche vorbereitet wurden. Eine weitaus genauere Beschreibung hierzu findet sich in Endlers Buch „Expedition Homöopathieforschung“:
„Die Nacht vor dem Versuchsansatz forderte, wie so oft, Marathonarbeit. Hunderte Kaulquappen aus dem Teich wurden auf Gleichheit des Entwicklungsstadiums hin sortiert. Sodann wurde der Reihe nach in jedes der zimmertemperierten Aquarien ein Tier eingesetzt. Ist die Reihe durch, folgt ein zweites. Ein drittes. Lange nach Mitternacht ein zwanzigstes.“ (S.42)
Nun kann man Herrn Endler und Kollegen zwar zutrauen, das richtige Stadium erkennen zu können, allein wird nirgends in der Arbeit gesagt, dass und ob man tatsächlich ein Mikroskop einsetzte, obwohl sich die meisten Gosner Stadien laut [5] nur so sauber voneinander unterscheiden lassen. Auch dass die Zugabe der Substanzen verblindet geschah, erfährt nur der Leser des Buches, nicht der der wissenschaftlichen Veröffentlichung:
„Wie üblich fanden alle Versuche blind statt, d.h. die Person im Labor wusste nicht, welchem Becken sie nun was (Potenz von Thyroxin oder von Wasser) zutropfte“ (S.43)
Das ist äußerst ungewöhnlich. Normalerweise gilt in einer wissenschaftlichen Veröffentlichung das, was nicht explizit gesagt wird, als nicht gemacht. Warum vergisst man in einem Paper eine so essentielle Information wie die Frage, ob die Versuchsdurchführung verblindet erfolgte? Wusste nur die die Potenz eintropfende Person nicht, was sie eintropfte, oder wusste es niemand im ganzen Labor? Warum vergisst man zu erwähnen, ob die Einstufung der Stadien unter dem Mikroskop erfolgte? Warum macht man keine Angaben zu sonstigen Eigenschaften der Tiere? Waren die Tiere der beiden Gruppen zum Beispiel vergleichbar groß? Kaulquappen ein und desselben Entwicklungsstadiums können recht unterschiedliche Größe haben. Hatten sie dasselbe Geschlecht? Alle diese zur Bewertung der Versuche essentiellen Angaben fehlen im Paper komplett. Wurden diese Daten überhaupt jemals erhoben? Wie kann es sein, dass P.C. Endler hier in einem populären Sachbuch mehr – wenn auch bei weitem nicht ausreichend – Informationen gibt als in dem Paper, in dem er die Messungen offiziell veröffentlicht?
Im weiteren Verlauf hatte man also eine Vielzahl flacher Becken mit je etwa 5 Litern Wasser und überall derselben Anzahl Kaulquappen, wobei diese Anzahl von Einzelexperiment zu Einzelexperiment variierte. Die Position der Becken wurde während eines Versuchs „regelmäßig verändert“, um Licht- und Temperaturunterschiede auszugleichen. Diesen Becken tropfte man nun in der betrachteten Versuchsreihe alle 48 Stunden entweder Thyroxin in der Potenz D30 oder vergleichbar verschütteltes Wasser zu.
Als Ergebnis zählte man jeden zweiten Tag die Tiere, die das 4-Beinstadium erreicht hatten, und verglich sie mit der Anzahl der Tiere, die noch immer nur 2 oder erst 3 Beine hatten. („These cumulative frequencies were proved as a 4-field table in a chi-square test for each measuring point (every other day) in each single experiment.”).
Darstellung der Ergebnisse
Diese Einzeldaten sind in der Arbeit nicht enthalten. Präsentiert werden ausschließlich gepoolte Daten. Das ist höchst schade, weil man auf diese Weise niemals zu sehen bekommt, wie deutlich denn die einzelnen Daten schwanken. Interessant wäre zum Beispiel, wie stark denn die ausschließlich mit Wasser behandelten Kaulquappen Entwicklungsunterschiede zeigen. Und ob die langsamsten Tiere überhaupt nicht dann doch wieder aus einem „Wasserbecken“ kamen.
Es werden also nur Ergebnisse gezeigt, die aus mehreren Einzelexperimenten zusammengesetzt wurden. Da die einzelnen Experimente deutlich unterschiedlich lang dauerten, hat man für die Zusammenfassung der Ergebnisse erst einmal die Zeitachse normiert. Wie das gemacht wurde, ist auf Seite 4 der Originalarbeit zu lesen:
„tg ist definiert als der Startpunkt, ab dem eine sichtbare Veränderung der Tiere in den Wasserbecken erfolgt war und nicht gleich dem Zeitpunkt, an dem die Tiere in die Becken ausgesetzt wurden. tmax ist gleich dem Zeitpunkt, an dem 90% der Kontrolltiere das Zielstadium erreicht hatten. Die Zeit zwischen t0 und tmax wird in 4 Viertel unterteilt. t0 ist dann der Beginn des ersten Viertels und tmax der Zeitpunkt am Ende des vierten Viertels. Die Messdaten beziehen sich auf das Ende jedes Viertels.“ (Text aus [1], Übersetzung von mir = Ute Parsch)
Einmal abgesehen davon, dass es sich bei „tg“ entweder um einen nie bereinigten Tippfehler handelt oder um einen weiteren, nicht näher definierten Zeitpunkt, gilt: Das ist eine einigermaßen aufwendige Methode, bei der eigentlich klar sein muss, dass man ein wenig Äpfel mit Birnen vergleicht, wenn bei den Versuchen, wie es hier der Fall ist, sehr große Unterschiede in den Zeitdauern vorliegen (beispielsweise zwischen 11 und 27 Tagen, s. Tabelle unten).
Warum definiert man mit t0 einen neuen Nullpunkt der Zeitskala? Erst betreibt man einigen Aufwand (wenn man einmal vom Mikroskopieren der Tiere ausgeht), um die Tiere in allen Becken vergleichbar zu haben. Und dann nimmt man als Nullpunkt der Zeitmessung einen möglicherweise variierenden Zeitpunkt, an dem nicht näher definierte, daher möglicherweise auch unterschiedliche „sichtbare Veränderungen“ da waren? Und dann wird der Zustand der Gruppen zu diesem Beginn der Messung nirgends dokumentiert: Als Daten werden im Paper nur die Zahlenwerte am Ende der resultierenden 4 Viertel grafisch dargestellt.
Gleichzeitig wurden die entwickelten Tiere nur jeden zweiten Tag gezählt: Wie passen die Messwerte dann zu den Endpunkten der 4 Viertel, an denen die Ergebnisse präsentiert werden?
Folgende Tabelle ist ein Teilauszug aus der Tabelle 1 des Papers. Ergänzt habe ich sie um die Dauer bis zum Erreichen des 90%-Zeitpunktes in den 10 Einzelexperimenten. In der Originalarbeit ist dies nur aus den angegebenen Kalenderdaten zu sehen:
Experiment | Start (Datum) | 50 % Dauer (Tage) | 90 % Dauer (Tage) | Anzahl Tiere | Signifikanz |
---|---|---|---|---|---|
Uid1 | 7.8. | 2,5 | 5 | 180 | > 0,05 |
Uid2 | 7.8. | 2,5 | 5 | 180 | < 0,05 |
Gid1 | 21.8. | 5 | 7 | 160 | > 0,05 |
Gid2 | 21.8. | 5,5 | 7 | 128 | > 0,05 |
Gid3 | 21.8. | 4 | 13 | 160 | < 0,01 |
Gid4 | 4.9. | 4 | 17 | 54 | < 0,01 |
Gid5 | 19.10. | 7,5 | 14 | 47 | > 0,05 |
Ggn1 | 21.8. | 4 | 18 | 100 | > 0,05 |
Ggn2 | 29.8. | 15 | 27 | 90 | < 0,01 |
Ggn3 | 12.9. | 3,5 | 11 | 40 | < 0,05 |
(Dargestellt sind 10 Einzelexperimente, die zu 3 Experimentreihen zusammengefasst warden: Uid = Utrecht; indoor, Gid= Graz, indoor; Ggn = Graz, Greenhouse)
Endler begründet die Zeitunterschiede in der Dauer der Testreihen mit der unterschiedlichen Jahreszeit. Tatsächlich nimmt die Versuchsdauer in den Herbst hinein im Schnitt zu. Das Experiment mit der längsten Dauer (Ggn2) endete jedoch am 24. September, während das letzte Experiment (Gid5), das am ersten November endete, wieder kürzer ist. Waren es vielleicht eher die Temperaturunterschiede, denen der Froschlaich ausgesetzt war, bevor er hereingeholt wurde, die eine Rolle spielten? Wie können eigentlich so große Zeitunterschiede zustande kommen, wenn man die Versuchsbedingungen gleich gehalten hat? Was kann es bedeuten, wenn die Varianz in der Zeitdauer von Versuch zu Versuch größer ist als im Versuch zwischen den Gruppen? Eine Diskussion dieser Fragen fehlt.
Und: Wenn man nur jeden zweiten Tag nachzählt, wie viele Tiere das 4-Beinstadium erreicht haben: Wie stellt man dann fest, dass es z.B. 2,5 Tage gedauert hat, bis es bei 50% der mit Wasser behandelten Tiere soweit war?
Und offenbar erfolgt die Entwicklung nicht gleichmäßig, sondern mitunter recht schlagartig. Beim Experiment „Gid2“ (Graz, indoor, zweiter Versuch) dauerte es z.B. 5,5 Tage, bis 50% der Tiere das gesuchte Stadium erreicht hatten, die nächsten 40% kamen innerhalb von eineinhalb Tagen nach. Wie will man denn so etwas sinnvoll interpolieren und normieren?
Wenn man also nur für jeden zweiten Tag einen Messpunkt hat und die Zeitskala im Nachhinein neu kalibriert auf 4 äquidistante Messpunkte: Woher nimmt man bei so wenigen ursprünglichen Werten die exakten Werte für die vier als Ergebnis präsentierten Viertelwerte? Hier muss irgendein Interpolationsverfahren angewendet worden sein, um die Zwischenwerte zu bestimmen. Doch welches? Und erfolgte die Änderung der Anzahl auch tatsächlich so wie interpoliert? Oder hat man doch öfter gezählt? Und wenn ja, warum sagt man es nicht? Hier fehlen also ganz essentielle Informationen, ohne deren Angabe man eigentlich nicht mehr nachvollziehen kann, wie sinnvoll das gewählte Verfahren des Datenpoolings eigentlich war.
Aber auch die gepoolten Ergebniswerte selbst fehlen in der Veröffentlichung. Sie sind nur in einer recht groben Grafik gegeben (Fig. 1 der Arbeit). Aus urheberrechtlichen Gründen habe ich die Abbildung nicht einkopiert, sondern neu gezeichnet. Wer meiner Genauigkeit misstraut und das Original ansehen möchte, kann das im unten angegebenen Link [1] tun.
(Von oben nach unten: Ergebnisse aus Utrecht; Graz „indoor“; Graz „Greenhouse“)
Richtig ist, dass die so gepoolten Kurven für Thyroxin unterhalb der Wasserkurven liegen. Was allerdings vollkommen falsch ist, ist das, was P.C. Endler in den Daten sehen will: Im Abstract schreibt er „eine homöopathische Lösung von Thyroxin verlangsamt in kleiner aber signifikanter Weise die Metamorphose“. Und das ist hier eben nicht der Fall, denn dann müssten die Kurven ganz anders aussehen.
Wenn ein Wachstum verlangsamt ist, also eine geringere Geschwindigkeit der Entwicklung vorliegt, dann entwickeln sich die Gruppen auseinander: Die Unterschiede werden im Lauf der Zeit größer. Die Kurven müssten also V-förmig auffächern. Das tun sie aber nicht. Die Wasserkurven können die Thyroxinkurven nicht abschütteln, die groben Verläufe, Steigungen etc. sind gleich. Die Kurven sprechen also gegen ein verlangsamtes Wachstum. Bestenfalls – wenn wir der Zusammenfassung der Daten einmal trauen wollen – gibt es irgendeinen einmalig am Anfang eingefahrenen Rückstand – wodurch auch immer hervorgerufen – und ansonsten eine recht identische Entwicklung.
Diesen Umstand diskutiert man in der Arbeit aber überhaupt nicht an. In keiner der zahlreichen Arbeiten zum Thema findet sich eine Diskussion hierzu. Damit bleibt auch notgedrungen offen, warum das nun mehrmals über den Beobachtungszeitraum eingebrachte Thyroxin für den beobachteten Rückstand verantwortlich sein soll. Wenn man wirklich argumentieren möchte, der einmal eingestellte Unterschied der Gruppen sei durch das Thyroxin bedingt, dann haben die Experimente aber gleichzeitig auch belegt, dass weitere Gaben des Homöopathikums völlig überflüssig weil ohne Effekt sind: In der obersten Grafik (der Utrechter Experimente) können die Thyroxin-Frösche zum vierten Wert den Rückstand sogar nahezu komplett aufholen, sie entwickeln sich im vierten Viertel also offensichtlich vermehrt und schneller zum 4-Bein-Stadium. Und das in einer Phase, in der sie sicher schon mehrfach Thyroxin D30 erhalten haben. In den anderen beiden Darstellungen (für die Experimente „Graz, indoor“ und „Graz, greenhouse“) verlaufen die Kurven parallel, die relative Entwicklung also völlig gleich.
Man kann also als erstes Ergebnis der Betrachtungen festhalten, dass bereits die grundlegende Aussage, dass in Endlers Versuchsreihe die Entwicklung der Kaulquappen durch Thyroxin D30 verlangsamt wird, so überhaupt nicht stimmt.
Es gibt einen gewissen Unterschied, der teilweise schon am ersten Messpunkt (der ja nicht der Start des Experimentes ist) vorhanden ist. Interessant ist auch, dass die Datenpunkte der Wasserkurven am Ende des letzten Punktes keineswegs alle bei 90% liegen – obwohl doch laut dem Text die Grafik genau darauf geeicht worden ist. Ob die Daten also genau so aufbereitet wurden, wie beschrieben, erscheint zweifelhaft.
Es stellt sich also die Frage, inwiefern diese Darstellung dazu beiträgt, zu verschleiern, wie sehr und in welcher Weise die ursprünglichen Daten streuten, wie stark interpoliert wurde und wie deutlich die Originaldaten beider Gruppen tatsächlich voneinander abweichen.
Vergleich zwischen Original und späteren Darstellungen der Ergebnisse
Diese Frage wird vor allem wichtig, weil P.C. Endler dieselben Daten später noch öfter und immer wieder verändert präsentiert. Und wenn man die verschiedenen Darstellungen vergleicht, dann ist es erstaunlich zu beobachten, wie die Unterschiede zwischen den Gruppen mit der Zeit größer und größer werden.
Betrachten wir einmal gezielt, wie sich die zusammenfassende Darstellung für die beiden Utrechter Experimente im Laufe der Jahre verändert (wieder von mir aus urheberrechtlichen Gründen selbst gezeichnet):
Das sollen tatsächlich alles dieselben Ergebnisse sein, nämlich die Zusammenfassung der beiden Utrechter Experimente Uid1 und Uid2 vom August 1990:
- Oben: die (abgezeichnete) Ergebnisgrafik wie sie 1991 in [1] erschien (siehe auch oben)
- Mitte: Die Grafik, wie Endler sie in seinem Buch „Expedition Homöopathieforschung“ von 1998 zeigt (die Grafik ist beschriftet mit „Verändert aus“ der Arbeit aus dem „Berlin Journal“ von 1991. Es besteht also kein Zweifel, dass es sich um dieselben Daten handeln soll, denn diese Zeitschrift erschien ja nur 5-mal.)
- Unten: Grafische Darstellung der Utrechter Ergebnisse nach Tabelle 3 aus einer zusammenfassenden Arbeit von Endler und Lingg von 2011 [3]
Bereits zur mittleren Darstellung hin ist der Unterschied deutlich: Die Zeitachse ist nun in 7 „Messpunkte“ unterteilt. Die Unterschiede zwischen den Kurven wirken aber auf alle Fälle erheblich größer als im Original. Es ist auch geschickter abgeschnitten, so dass man beispielsweise nicht mehr sieht, wie die Thyroxin-Tiere zum ursprünglich letzten Viertel wieder aufholen. Dadurch scheinen die Kurven jetzt tatsächlich etwas aufzufächern.
Aber wirklich beeindruckend ist erst der Vergleich mit der unteren Darstellung: Wow! Hätten Sie die Ergebnisse wieder erkannt? Ich nicht. Die sukzessive optische Verdeutlichung der gemessenen Unterschiede erinnert mich sehr an den Witz vom Angler, dessen gefangener Fisch mit jedem Erzählen größer und größer wird.
Weil diese dritte Darstellung so beeindruckende Unterschiede zwischen den Wassertieren und den Thyroxintieren zeigt, müssen wir genauer ansehen, wie sie zustande kommt. Das ist besonders deshalb so interessant, weil es sich dabei angeblich um die „Rohdaten“ der Experimente von 1990 handelt: Man findet den Text von Endler und Lingg [3] von 2011, aus dessen Tabelle 3 die Zahlen stammen, die ich in der rechten Grafik dargestellt habe, auf der Webseite www.froghom.net unter „Rohdaten.zip“ (EDIT 15.08.17: Link inzwischen erloschen; Edit 12.02.2018: Daten aus Webarchiv: Link). Außerdem findet sich dort eine Excel-Datei, die tatsächlich das enthält, was Licht auf die oben aufgeworfenen Fragen wirft: Die einzelnen Messdaten dieser (und späterer) Experimente.
Schauen wir aber zuerst, wie Tabelle 3 und damit die untere Grafik zustande kommt:
In der zusammenfassenden Arbeit von Endler und Lingg [3] ist die Zeitachse nun in insgesamt 10 Referenzpunkte unterteilt. Die neuen „Messpunkte“ werden recht kompliziert ermittelt: Die Punkte der Zeitachse stehen jetzt dafür, wie viel Prozent der Versuchstiere bei einer bestimmten Zählung das 4-Beinstadium erreicht haben. Die Entwicklung von 0% aller Versuchstiere bis 100% soll in gleichmäßigen Schritten von jeweils 10% beschrieben werden. Hierfür wird bei jeder erfolgten Zählung aus der Summe der bisher entwickelten Tiere der Mittelwert aus Thyroxin- und Wassergruppe gebildet. Dieser Mittelwert der bisher durchschnittlich entwickelten Tiere stellt eine bestimmte Prozentzahl der Versuchstiere pro Gruppe dar. Die Zählung wird dann demjenigen „10%-Schritt“ zugeordnet, dem diese Prozentzahl am nächsten liegt.
Ein Beispiel: In einem Experiment seien 100 Tiere pro Gruppe. Wenn Endler bei einer Zählung in der einen Gruppe 46 entwickelte Tiere zählt, in der anderen 53, so sind das im Durchschnitt 49,5 Tiere und Endler würde diese Zählung als Referenzpunkt „RP50“ bezeichnen, weil etwa 50% der Tiere die Entwicklung vollendet haben.
Existiert für einen der gesuchten Referenzpunkte keine Zählung (weil die Entwicklung zu schnell erfolgte), so wird für diesen Referenzpunkt aus den benachbarten Zählungen gemittelt.
Puh. Das genannte Verfahren ermöglicht sicherlich das Addieren der Daten aus mehreren Experimenten unterschiedlicher Dauer. Es hat aber „Nebenwirkungen“: Die Zeitachse erscheint zwar durch die Referenzpunkte 0…90 linear, sie ist in Wahrheit aber abschnittsweise gestaucht oder gestreckt. Und zwar wird sie genau dann gestreckt, wenn die Entwicklung schnell verläuft, denn dann werden einzelne Referenzpunkte zwischen die ursprünglichen Zählungen hineininterpretiert. Das bedeutet aber automatisch, dass die Darstellung diejenigen Phasen, in denen sich sehr viele Frösche innerhalb kürzester Zeit entwickeln, optisch überbetont. Genau in diesen Phasen schnellster Entwicklung stellt sich aber die Frage nach der Relevanz der auftretenden Unterschiede: Läuft eine Entwicklung sehr rasch ab, treten leicht rasch vorübergehende, rein vom Zahlenwert her statistisch signifikante Unterschiede auf, die dann aber genauso schnell wieder verschwinden. Genau solche Phasen werden optisch hervorgehoben, was das gewählte Verfahren also höchst fraglich erscheinen lässt.
Problematisch ist weiterhin, dass an jedem so gefundenen Referenzpunkt die prozentualen Unterschiede in den einzelnen Gruppen als Ergebnis gegeben werden – also nicht der Unterschied in der Anzahl der entwickelten Frösche. Das lässt die Unterschiede aber leicht größer erscheinen, als sie tatsächlich sind. Außerdem werden die Werte der Wassergruppe fest auf null normiert. Dadurch kann man in der Grafik dann überhaupt nicht mehr erkennen, ob sich die beiden Gruppen im Prinzip parallel entwickeln oder nicht.
In der Arbeit von Endler und Lingg aus [3] sehen wir also keineswegs die Rohdaten, sondern eine völlig neu aufbereitete Darstellung der Daten von 1991, die darauf optimiert ist, die Unterschiede zwischen den Gruppen zu betonen.
Jetzt werden auf froghom.net aber auch die Originaldaten aus Utrecht (und Graz) in Form von Excel-Tabellen geliefert. Was hindert uns also daran, die Daten einmal so aufzuzeichnen, wie sie pro Experiment wirklich gemessen wurden, nämlich die Anzahl der entwickelten Frösche pro Tag?
Und diese beiden wirklich die Rohdaten darstellenden Kurven zeigen eigentlich deutlich, wie parallel die Entwicklung in den Gruppen tatsächlich verlief. Ein deutlicher Unterschied ergab sich vor allem für die Zählung am dritten Tag. In Uid1 betrug der Unterschied bei dieser Zählung 7 Kaulquappen, bei Uid2 11 Tiere. Da pro Tag und Experiment rund 20 Tiere das 4-Beinstadium erreichten, ist der Unterschied am dritten Tag also in beiden Experimenten deutlich geringer als die Zahl der Tiere, die pro Tag das Ziel der Entwicklung erreichte. Und in beiden Experimenten ist es ein einmal eingefahrener Rückstand, keine allmähliche Auseinanderentwicklung.
Aus diesem recht punktuellen Unterschied macht Endler in [3] einen gewaltigen Unterschied (Darstellung der Unterschiede in den erreichten Prozentzahlen), der über 6 von 10 Referenzpunkte anhält (Verzerrung der Zeitachse). Warum sollte sich der Leser von derart zurechtgezauberten Darstellungen überzeugen lassen?
Entzaubern wir der Vollständigkeit halber noch die anderen 8 Experimente von 1990 aus Graz:
In Graz wurde 1990 also tatsächlich nur jeden zweiten Tag gezählt, wie viele Kaulquappen das Zielstadium erreicht hatten. Alle Werte zwischen diesen Zählungen sind Interpolationen.
Am deutlichsten sind die Unterschiede in Gid4 und Ggn2 ausgefallen.
Gid4 ist eines der Experimente mit einer sehr kleinen Anzahl von Versuchstieren. Die Schlussfolgerung, die Entwicklung der Thyroxintiere sei verlangsamt, können die Daten aber keineswegs stützen: Bei genauer Betrachtung sieht man, dass in dieser Gruppe lediglich die ersten Kaulquappen einen Tag später dran sind, die Unterschiede am Ende aber nahezu verschwunden sind: Die 24 Tiere dieser Gruppe haben also sogar in 3 Tagen das 4-Bein-Stadium erreicht, während in der Wassergruppe nach 4 Tagen 25 Tiere entwickelt waren. In der Thyroxingruppe setzte die Entwicklung also einen Tag später ein, verlief dann aber steiler.
Auch Ggn2 gehört mit nur 45 Tieren pro Gruppe eher zu den kleineren Experimenten und wurde nach 26 Tagen noch vor Erreichen des 90%-Punktes abgebrochen. (In [3] wiederholt Endler einfach den schönen Unterschied, den er bei RP70 gezählt hat, für die letzten beiden Referenzpunkte, obwohl nie gemessen wurde, ob die Thyroxin-Tiere in dieser Phase nicht vielleicht wieder aufgeholt hätten.) Auch hier zeigen die Daten jedoch kein echtes Auseinanderentwickeln der Gruppen: Bereits an Tag 8 hat die Wassergruppe einen Vorsprung von 8 Tieren eingefahren, der sich bis zum Abbruch des Experimentes am 26. Tag kaum noch vergrößert (auf 10 Tiere).
Kurz: Es fällt schwer, in diesen wirklichen Rohdaten eine wiederholt gemessene Verlangsamung der Entwicklung zu erkennen. Die meisten Kurven verlaufen sehr ähnlich. Mitunter macht eine Gruppe einmal einen größeren Sprung, den die andere kurz danach wieder aufholt. Es gibt sehr wohl auch Messpunkte, in denen mehr Thyroxin-Tiere das 4-Beinstadium erreicht haben.
Fazit
Die beschreibende Information der Vorgehensweise und Darstellung der Ergebnisse ist in Endlers Originalarbeit bei genauer Betrachtung doch recht dürftig. Man sieht nur gepoolte Daten, keinerlei Einzelergebnisse, keine Fehlerrechnung, keine Aussagen über die Streuung oder Relevanz der Daten. In jedem Falle sehen die Kurven der Thyroxin D30-Gruppen für die Entwicklung vom 2-beinigen zum 4-beinigen Stadium nicht nach der gefolgerten Verlangsamung eines Wachstums aus, da sich die Gruppenunterschiede nicht systematisch vergrößern.
Auch ein Blick in die mittlerweile verfügbaren Rohdaten bestätigt diesen Eindruck.
In späteren Zitaten der Ergebnisse suggeriert Endler durch anderes Zusammenfassen der Daten optisch geschickt größere Unterschiede: Die Zeitachse ist in Phasen schneller Entwicklung aufgebläht – also genau dann, wenn Zweifel an der Relevanz der Ergebnisse berechtigt sind. Die Ähnlichkeiten der Entwicklung sind durch die Normierung der Werte für die Wassergruppe auf null nicht mehr erkennbar. Warum sollte Endler das Bedürfnis haben, seine Ergebnisse optisch immer wieder neu aufzubereiten, wenn die Rohdaten selbst aussagekräftig wären?
Bleibt eigentlich nur noch eines zu klären: Tendenziell liegen die Messpunkte der Thyroxintiere in den Experimenten von 1990 tatsächlich eher unter denen der Kaulquappen der Wassertiere; es gab kein Experiment, in dem die Kurve der Thyroxingruppe deutlich über der der Wassergruppe lag. Wenn das ein Zufall war, dann hätte genau das in späteren Experimenten immer wieder einmal passieren müssen.
War das so? Weil der Artikel jetzt schon recht lang ist, wird die spannende Frage nach der Reproduzierbarkeit im zweiten Teil beleuchtet, der in Kürze erscheinen wird.
Referenzen:
[1] Endler PC, Pongratz W, Van Wijk R, Kastberger G, Haidvogl M: Effects of Highly Diluted Succussed Thyroxine on Metamorphosis of Highland Frogs, Berlin Journal for Research in Homeopathy (1991); 1(3): 151-160 (Link zum Volltext)
[2] Harrer B: Replication of an experiment on extremely diluted thyroxine and highland amphibians, Homeopathy (2013) 102: 25-30 (Link zum Abstract)
[3] Lingg G, Endler PC: Highland amphibians – Recalculation of data from 1990 to 2010 on the effects of extremely diluted thyroxine, Int J High Dilution Res (2011); 10 (37): 311-324 (Link zum Volltext) (Link zu den Rohdaten)
[4] Endler PC: Expedition Homöopathieforschung, 1. Auflage, Maudrich Verlag, Wien. (Link zu einem Textauszug der 2. Auflage)
[5] Link zu einer groben Darstellung der Gosner- Entwicklungsstadien
Pingback: Die Homöopathie-CD hat einen Sprung | gwup | die skeptiker
Pingback: Homöopathen-Lobby: Mit Kaulquappen und Quanten nach Multiplikatoren fischen @ gwup | die skeptiker
Danke für den Review des Quappologie- Papers.
Was der Reviewerin nicht aufgefallen ist: Kaulquappen sind Wirbeltiere und jede Studie an Wirbeltieren erfordert einen Antrag auf Genehmigung nach Tierschutzgesetz.
Davon steht nichts im Artikel.
Fehlt ein solcher Antrag bzw eine Genehmigung sind die Versuche als eindeutig unethisch zu qualifizieren.
Weiters stellt sich die Frage wie schauts da mit Naturschutzgesetzen aus?
Und in der wissenschaftlichen life science gibts genug Froschmodelle, womit genetisch recht einheitliche Kaulquappen verfügbar sind. Damit könnten die Standardabweichungen minimiet werden. Offenbar alles nicht geschehen.
Pingback: Kaulquappen und Klempner: Homöopathie zwischen Satire und Realsatire @ gwup | die skeptiker
Eine kurze Anmerkung noch zu Endlers Paper: Seine Methodik hat schon was von „Yps-Heft-Biologie“ (das waren bekanntlich die Kinder-Comics „mit Gimmik“ aus den 80’ern). Jeder Limnologe würde herzhaft über zwecks Temperaturstabilisierung hin- und hergeschobene fünf-Liter-Becken als Amphibiahabitate zur Gewinnung reproduzierbarer Daten lachen. Bereits jeder Hobby-Aquarianer weiß um die Problematik kleiner Becken. Sauerstoff- und CO-Sättigung, PH Werte, Temperatur, Beleuchtung usw. – je kleiner ein Becken, desto „kippeliger“ erweist es sich im Hinblick auf Störgrößen. Fraglich ist somit, ob nicht bereits der Stress der Tiere durch das Hin- und Herschieben der Becken, minimale (aber gegenüber Thyroxin D30 deutlich effektivere..) Temperaturdifferenzen der Becken, minimale (aber nicht minder signifikante) Unterschiede der Wasserqualität etc. pp. die (minimalen!) Unterschiede in der Entwicklung der Thyroxin D30 – Kaulquappen vollständig zu erklären vermögen.
Anders gesagt: Warum – zu Zeiten, wo Datenlogger (Temperatur, Licht, für die Entwicklung maßgebliche Größen der Wasserqualität) zur lückenlosen Datenerfassung preiswert verfügbar sind? Warum bloß eine Kontrolle alle 48 Stunden? Auch hier wäre durch Kennzeichnung der Tiere und durchgehende Videoaufzeichnung der Becken eine belastbarere Datenbasis zu erheben gewesen.
Warum nicht den Versuchsaufbau mit einer zunächst unter kontrollierten Bedingungen in einem gemeinsamen, aus Stabilitätsgründen („Störgrößen“, s. o.) hinreichend großen Becken gehaltener Kaulquappen starten? Das Becken wäre leicht technisch so zu gestalten, dass es mittels zweier identischer Filtersysteme als Lebensraum für die Kaulquappen „eingefahren“ und zur Untersuchung der der Wirkung des Thyroxin D30 in zwei voneinander isolierte Habitate abgeteilt wird?
Was Endler hier jedoch abgeliefert hat, entspricht nicht im Mindestem dem, was gemeinhin unter Reproduzierbarkeit eines Versuchsaufbaus verstanden wird. Zumindest die Maßnahmen zur Gewährleistung identischer Wasserwerte, eine lückenlose Temperaturkurve so wie Darlegung des exakten Ablaufs der „Beckenverschieberei“ wäre m.E. hierfür zwingend offen zu legen.
Alles in allem erinnert mich Endlers „Gewissenhaftigkeit“ an jenen Gymnasiasten, der in den 80’ern medienwirksam flunkerte, er habe einen Frosch geklont. Der zumindest war immerhin noch witzig und räumte auf kritisches Nachfragen damals bereitwillig seinen „Hoax“ ein.
Manchmal bin ich geneigt, die Anerkennung des orthodox-homöopathischen Heilpraktizismus als Religion zu fordern. Dann wüsste zumindest auch jeder medizinisch / naturwissenschaftlich unbedarfte Bürger, wo diese Sorte „[Un-] Heilsbringer“ ideologisch zu verorten ist. Das hätte auch gleich den Vorteil, dass sich die Anhänger dieser Glaubensrichtung turnusmäßig in feierlichem Zeremoniell ihre „Potenzen“ auf Oblaten träufeln und in den Mund schieben lassen könnten..
Ich bitte meinen Zynismus zu entschuldigen, aber wir sehen uns m.E. bereits im Gesundheitswesen der „klassischen“ Medizin mit ethischen Problemstellungen konfrontiert, welche zunehmend dringlich eines öffentlichen Diskurses bedürfen. Personelle und finanzielle Ressourcen für die Kritik an ebenso geschäftstüchtigen wie skrupellosen „[Wunder-] Heilern“ und ihren pseudowissenschaftlichen „Think Tanks“ zu verschleißen genötigt werden, ist ausgesprochen ärgerlich. Wenngleich auch – aus demselben Grund – leider notwendig.
Beste Grüße,
Werner Hupperich
Interessant hierbei ist, dass sich die Homöopathen hierbei selbst auf anderem Gebiet in ein Dilemma manövrieren: Sollte sich tatsächlich bei „Rezepturen“ wie Thyroxin D30 eine auf die Entwicklung von Fröschen (Metamorphose von Kaulquappen) signifikante Wirkung nachweisen lassen, wäre eine Untersuchung im Kontext potenziell ökotoxischer Effekte zwingend.
Will sagen: Eine Freisetzung entsprechender „Präparate“ in die natürlichen Lebensräume der Amphibien stellt eine anthropogene Determinante dar, welche die natürliche Entwicklung zu stören geeignet erscheint. Langzeitwirkungen auf die Biodiversität besagter Lebesräume wären apriori – ohne entsprechende Datenerhebungen – zumindest nicht auszuschließen und somit gemäß wissenschaftsethischer Grundsätze von einem „Worst-Case-Szenario“ auszugehen.
Ich formuliere noch einmal etwas anders: Verschaffte der Mangel an Wirksamkeitsnachweisen der Homöopathika ein gewisses Maß an Narrenfreiheit (förmlicher: „Unbedenklichkeit“), so bedingt jeder Wirksamkeitsnachweis einen verantwortungsvollen Umgang (hier: im Kontext möglicher negativer Auswirkungen auf Ökosysteme bei [akzidenteller] Freisetzung) entsprechender Stoffe. Je nach Schadenspotenzial wäre ggfs. de jure der Handel (analog der ChemVerbotsV) und der Umgang (analog GefStoffV) einzuschränken.
Eine (zugegeben: unterhaltsame..) Überlegung wäre darüber hinaus, dass sich gemäß homöopatischer Glaubenssätze die Wirkung durch Verdünnung (Potenzierung) steigert, jedoch im Freiland (durch Regen oder Eintrag der Grundstoffe in Gewässer) der Prozess einer „Potenzierung“ ein natürlicherweise erwartbares Ereignis darstellt.
Generell wäre – gesetzt den Fall, dass P.C. Endler seine These ernst genommen zu wissen wünscht – an ihn die Frage zu richten, wie er mögliche negative Auswirkungen von Thyroxin D30 auf natürlich vorkommende Populationen der Amphibia auszuschließen zu gewährleisten beabsichtigt.
Ich bitte angesichts der dünnen Datenbasis in Endlers Arbeit ob meiner Fragen um Verzeihung, aber die Waffe geladen, entsichert und den Lauf an’s eigene Knie gehalten hat sich Endler höchstselbst. Über die Konsequenzen seiner D30-Deuteleien für den Fall, dass sie ernst genommen werden, hätte er sich m.E. im Klaren sein müssen.
Gruß,
Werner Hupperich
Sehr viel Aufwand für einen Artikel ohne jede überraschende neue Erkenntnis. Ergebnisse homöopathischer Untersuchungen sind eigentlich immer gleich : Inkorrekt und absolut wissenschaftlich nicht nachvollziehbar.
Ein köstlicher Artikel. Es stellt sich die Frage, ob es sich bei den unendlichen Verdünnungen und der wissenschaftlichen Beweiskraft der diskutierten Untersuchungen wirklich lohnt, sich derart prägnant damit auseinanderzusetzen. Die Homöopathiejünger wird es nicht bekehren und die Gläubigen werden es nicht zur Kenntnis nehmen.
Ich gönne mir jetzt einen D30-Schnaps aus der Wasserleitung.
https://www.youtube.com/watch?v=njCFhmEoqzk