Die ermittelten Daten jedenfalls lassen eigentlich nur diesen Schluss zu, auch wenn die Autoren der neuen Analyse dies anders sehen. Vermutlich wird man dieser Arbeit in Zukunft recht häufig begegnen, dann aber als Beleg für die Wirksamkeit der Homöopathie. Daher hier eine ausführliche Auseinandersetzung mit diesem Papier.
Über diese Arbeit wurde vor einigen Tagen bereits auf dem Blog von Edzard Ernst gepostet und ausführlich diskutiert. (Link und Link). Einige meiner im Folgenden genannten Kritikpunkte gehen auch auf die in der Diskussion genannten Argumente zurück.
In Kürze
Im Dezember 2014 legte ein Team um den britischen Homöopathen Robert M. Mathie eine neue Übersichtsarbeit und Metaanalyse zur klassischen Homöopathie vor. Man will ein statistisch signifikantes positives Ergebnis zur Homöopathie ermittelt haben. Bei der Betrachtung der besten Studien zeigte sich sogar ein noch stärkerer Effekt. Es sei eben nicht so, wie wir Skeptiker immer behaupten, dass es keine guten Studien gäbe, die eine Wirksamkeit über Placebo zeigen würden.
Betrachtet man die Arbeit allerdings näher, fallen einige Ungereimtheiten auf:
-
Die Autoren sind ohne Zweifel Vertreter der Homöopathie und tun nichts, um zu verhindern, dass ihre Voreingenommenheit auf das Ergebnis durchschlägt.
-
Studieninhalte werden einfach umgedeutet und sehr eigenwillig bewertet, was dazu führt, dass kritische Studien nicht im vorderen Feld der hochwertigen Arbeiten zu liegen kommen.
-
Die angeblich besten Studien sind in der überwiegenden Mehrzahl nur Pilotstudien, die per se keinen zuverlässigen Nachweis darstellen können.
-
Zwei von den drei Studien, die als ‚zuverlässige Evidenz‘ bewertet wurden, enthalten nur statistisch nicht signifikante Ergebnisse – und sind zudem noch Pilotstudien ohne Nachweiskraft.
-
Das vermeintlich positive Ergebnis kommt durch das Zusammenwerfen von Studien zustande, die völlig verschiedene Beschwerden betreffen.
-
Bei alledem ist das Ergebnis eher kümmerlich und besagt eigentlich, dass die Situation recht erbärmlich sein muss, da selbst mit allen diesen Kunstgriffen keine überzeugendere Wirkung nachweisbar ist.
Die Arbeit scheint dafür gemacht, ein positives Presseecho zu erzeugen und dem Laien eine Wissenschaftlichkeit der Homöopathie vorzuspielen, die offenbar nur mit solchen zweifelhaften Mitteln darstellbar ist.
In Länge
Hintergrund
Die Studienlage zur Wirksamkeit der Homöopathie ist umfangreich und unübersichtlich. Die British Homeopathic Association und die ebenfalls britische Faculty of Homeopathy haben es sich zur Aufgabe gemacht, den Bestand zu sichten und neu zu bewerten. Dies erscheint durchaus sinnvoll, denn die letzte zusammenfassende Betrachtung der kontrollierten Vergleichsstudien aus dem Jahr 2005 [3] ist heftig umstritten [4, 5], kam sie doch zu einem für die Homöopathie negativen Ergebnis.
Das Gesamtprojekt wurde bereits Anfang 2012 gestartet und wurde in einem im Juni 2012 erstmalig zur Veröffentlichung eingereichten Aufsatz beschrieben [6]. Darin wurden die vorliegenden randomisierten Vergleichsstudien gesichtet und kategorisiert. Die 41 Studien, die in der jetzigen Arbeit untersucht wurden, wurden bereits zu diesem Zeitpunkt identifiziert.
In 2013 wurde dann das Protokoll eines durchzuführenden Reviews dieser Studien veröffentlicht. Es wurde also festgelegt, wie bei der Untersuchung vorgegangen werden soll [2]. Demnach sollte auch eine Metaanalyse durchgeführt werden, also eine quantifizierte Zusammenfassung der Ergebnisse mittels mathematischer Methoden.
Inhaltsangabe und Ergebnisse
Das Review mit Metaanalyse wurde von einem siebenköpfigen Forscherteam um R. Mathie durchgeführt [1]. Diese Autoren waren entweder bei Organisationen angestellt, die die Forschung zur Homöopathie und deren Verbreitung in der Bevölkerung fördern, oder wurden aus Mitteln finanziert, die von solchen Organisationen aufgebracht wurden.
Es wurden insgesamt 41 Studien betrachtet, die die klassische Homöopathie, also die homöopathische Behandlung mit individuell verordneten Einzelmitteln, zum Gegenstand hatten. Es wurden nur solche Studien betrachtet, die eine mit Placebo behandelte Vergleichsgruppe beinhalteten und die in Fachjournalen veröffentlicht worden waren, die ein Peer-Review System unterhielten. Von diesen 41 Studien wurden dann noch 10 ausgeschieden, so dass am Ende nur die 31 Studien in die Betrachtung eingeflossen sind, die dem Goldstandard der placebokontrollierten doppelt verblindeten Vergleichsstudie entsprechen. In einer der Arbeiten wird über zwei Untersuchungen berichtet, so dass die Autoren im weiteren Verlauf von 32 Studien sprechen.
Die Autoren des Reviews ermittelten zunächst das Hauptkriterium der jeweiligen Studie (‚main outcome measure‘), hielten sich dabei aber nicht unbedingt an die Definitionen der Studienautoren, sondern verwendeten ein von der Welt-Gesundheitsorganisation (WHO) herausgegebenes Klassifizierungsschema, aus dem eine Hierarchie für die Wichtigkeit von Ergebnissen abgeleitet wurde. Entsprechend den Festlegungen des Reviewteams wurde versucht, die für die Metaanalyse benötigten Daten aus der jeweiligen Studie zu extrahieren.
Als wesentlichen Schritt wurden die Studien hinsichtlich ihrer Qualität bewertet. Dabei verfuhr man nach den Kriterien der Cochrane Collaboration zur Ermittlung des Risikos des Auftretens eines Bias (‚risk of bias‘, RoB).
Anmerkung: Mir ist keine einfache passende deutsche Übersetzung eingefallen, die den englischen Begriff treffend wiedergibt. Im Englischen ist ‚bias‘ ein völlig neutraler Begriff, während die deutschen Begrifflichkeiten wie Fehlschluss, Irrtum, Fehler, Täuschung, Verzerrung, Befangenheit immer nur einen Teil der Bedeutung abdecken und gelegentlich eine gewisse Bewertung implizieren. Daher werde ich für diesen Beitrag den Begriff des Bias beibehalten. Wer einen besseren Vorschlag hat, kann sich gerne melden, ich ändere den Artikel dann gerne um, denn ‚der Bias‘ gefällt mir eigentlich auch nicht.
In die darauffolgende Metaanalyse, also der statistischen Auswertung der Gesamtheit der Studien, sollten prinzipiell alle 31 Studien eingeschlossen werden, vorausgesetzt, die Studien enthielten genügend Angaben, um für das vom Reviewteam festgelegte Hauptkriterium die benötigten Kennzahlen zu berechnen. Dies scheint bei 10 von den 32 Studien nicht der Fall gewesen zu sein, denn in der Auswertung finden sich nur noch 22 Studien.
Die statistische Auswertung beschränkt sich im Wesentlichen auf die Zusammenfassung der Ergebniskennzahlen in Gestalt des Quotenverhältnisses (‚odds ratio‘) für die Gesamtzahl der in der Metaanalyse betrachteten Studien sowie verschiedener Teilgruppen.
Keine der Studien konnte dahingehend bewertet werden, dass ihr nur ein niedriges Risiko für einen Bias anhaftet, bei 12 ergab sich ein mittleres, bei den restlichen 20 ein hohes Risiko. Dennoch wurden drei Studien zu ‚belastbaren Nachweisen‘ (‚reliable evidence‘) erklärt, wenn es sich nur um kleinere Unstimmigkeiten (‚minor uncertainties‘) handelte, auf denen die Bewertung beruhte. Die Zusammenfassung aller Studien in der Metaanalyse ergab ein statistisch signifikantes positives Ergebnis, für die drei Arbeiten mit ‚belastbaren Nachweisen‘ war das Ergebnis sogar noch etwas besser.
Soweit der Bericht über die vorgelegte Arbeit.
Kritikpunkte:
1. Kritikpunkt: Vorgehensweise des Reviewteams
Eine wesentliche Eingangsfrage zur Bewertung von Ergebnissen einer Studie wie auch für ein Review ist es, inwieweit die Autoren der Fragestellung unvoreingenommen gegenüberstanden und inwiefern dies die Ergebnisse beeinflusst haben könnte. Dabei wäre es schlicht naiv und etwas weltfremd, zu fordern, dass die Autoren ’neutral‘ sein müssten. Irgendjemand muss den Aufwand für die Studie bezahlen und dieser Irgendjemand tut das nur, weil er Interesse an den Ergebnissen hat. Die Frage ist nicht so sehr, ob bei dem Reviewteam eine Voreingenommenheit bestand, sondern eher, ob die Vorgehensweise darauf angelegt war, dass sich diese nicht ausgewirkt hätte.
Von den sieben Autoren sind drei bei Organisationen angestellt, deren Zweck die Förderung der Homöopathie ist, ein weiterer, JRT Davidson, schreibt mindestens seit 1994 über die Anwendung der Homöopathie in der Psychiatrie. Die übrigen drei Autoren sind Mitarbeiter der Universität Glasgow, die aus Mitteln der British Homeopathic Association finanziert wurden, welche wiederum Mittel der Grant Homeopathic Clinic in Manchester erhielt. Dies kann man den in der Studie enthaltenen Angaben zu Interessenkonflikten entnehmen, die die Autoren geradezu mustergültig beantwortet haben.
Ein Kernpunkt jeder systematischen Übersichtsarbeit ist die Bewertung der betrachteten Studien hinsichtlich ihrer Zuverlässigkeit, also der Belastbarkeit des Ergebnisses, was gemeinhin als ‚Studienqualität‘ bezeichnet wird. Das Reviewteam geht, wie weiter unten noch ausführlich betrachtet, nach den Verfahren der Cochrane Collaboration vor, also durchaus mit einem hochwertigen Werkzeug – genau genommen ist dies das Beste, das derzeit existiert. Dennoch gibt es, wie später noch gezeigt wird, bei der Anwendung einen mehr oder weniger großen Ermessensspielraum, der dazu führen kann, dass gewisse Präferenzen durchaus in die Bewertung einfließen könnten – wenn man sich überhaupt an irgendwelche akzeptierte Kriterien hält.
Das Vorgehen im Review hätte also darauf angelegt sein müssen, dass die unvermeidliche Voreingenommenheit zumindest eines Teils der Autoren nicht auf das Ergebnis durchschlägt. Dazu hätte die Bewertung entweder von Dritten durchgeführt werden müssen, die an der Studie nicht beteiligt waren, keine Interessen hinsichtlich der Homöopathie verfolgen, aber über das notwendige Fachwissen verfügen. Das hätten Mediziner mit einer Spezialisierung sein können, die fernab von der Homöopathie arbeiten – Chirurgen oder Orthopäden etwa – oder von angrenzenden Fachgebieten, z.B. Biologen. Oder man hätte die Bewertung grundsätzlich von einem Homöopathieanhänger und einem Kritiker ausführen lassen können, die sich dann auf dem Wege der Diskussion auf ein Ergebnis hätten einigen müssen. Oder, oder, oder.
Alleine, in der Arbeit finden sich keine Hinweise auf ein derartiges Vorgehen. Den Angaben zu den Beiträgen der einzelnen Autoren ist zu entnehmen, dass alle vier der Homöopathie nahestehenden Forscher bei der Risikobewertung der Studien beteiligt waren. Zwei der drei anderen Autoren, die bisher noch nicht in dieser Richtung in Erscheinung getreten waren, waren ausschließlich in der Aufbereitung der Daten und der Durchführung der statistischen Analysen beschäftigt, nur einer war auch an der Risikobewertung beteiligt – die Homöopathen hatten also ein sehr deutliches Übergewicht.
Die überwiegende Mehrzahl des Bewertungsteams hatte also vermutlich ein hohes Interesse an einem bestimmten Ausgang des Reviews. Wir dürfen auch sicher annehmen, dass die Forscher die wesentlichen Arbeiten auf ihrem ureigensten Fachgebiet kannten, und zwar schon zu einem Zeitpunkt, als die Vorgehensweise festgelegt wurde. Selbst wenn das nicht der Fall gewesen wäre, spätestens Anfang 2012 haben sich die Hauptautoren des Reviews intensiv mit den Arbeiten befasst. Bereits in der Mitte 2012 zur Veröffentlichung eingereichten Beschreibung des Gesamtprojekts wird dargestellt, dass die einzelnen Studien einer Analyse des Texts unterzogen wurden, die Studienlage den Autoren bei der Abfassung des Reviewprotokolls also spätestens seit dann bekannt war.
Dies alleine ist eigentlich noch kein allzu großes Problem, deutet aber daraufhin, dass es bei der Durchsicht dieser Arbeit sinnvoll sein kann, darauf zu achten, ob sich eine sehr wahrscheinlich gegebene voreingenommene Haltung der Autoren zu ihrem Studienobjekt ausgewirkt haben könnte. Dies beschränkt sich nicht nur auf die Bewertung der Studien hinsichtlich eines Bias, sondern auf alle Bereiche, in denen die Autoren Entscheidungs- und Gestaltungsspielraum hatten.
2. Kritikpunkt: Wahl des Hauptkriteriums
Stellen Sie sich einmal folgende Situation vor: Sie besuchen das Endspiel im Deutschen Fußballpokal, Bayern München spielt gegen Borussia Dortmund. Beide Mannschaften kämpfen nach allen Regeln der Kunst, das Spiel geht in die Verlängerung, in der Bayern schließlich zwei Tore schießt und mit 2 : 0 gewinnt. Am Ende des Spiels gibt der Stadionsprecher folgende Erklärung ab:
‚Wie allgemein bekannt enthalten alle deutschsprachigen Wörterbücher und Lexika den Eintrag zum Basketball vor dem Fußball. Auch in den international gebräuchlichen Nachschlagewerken ist dies seit Jahrzehnten der Fall. Ohne Zweifel hat sich diese Gliederung seit Jahrzehnten weltweit bestens bewährt. Daraus folgt unmittelbar, dass Basketball dem Fußball vorzuziehen ist. Wir gehen also davon aus, dass hier besser hätte Basketball gespielt werden sollen und haben demzufolge das Spiel nachträglich neu bewertet und dabei die Regeln des Basketball angewendet. Leider muss Bayern München deswegen disqualifiziert werden, weil diese Mannschaft den Ball zweimal mit dem Fuß ins Tor bewegt hat, was im Basketball nicht zulässig ist. Weil die Dortmunder zumindest diese Regelverstöße vermieden haben, ist Borussia Dortmund der Gewinner des Pokals. Wir gratulieren den Siegern.“
Ich erspare mir die Darstellung, wie dies auf die Fans wirken würde und wie das Stadion hinterher aussähe.
Idiotisch sagen Sie? Das kann man doch nicht machen!?!
Doch, man kann, denn ein ziemlich ähnliches Vorgehen findet sich in der vorliegenden Arbeit.
In jeder klinischen Studie sollte aufgeführt sein, was man eigentlich nachweisen will und woran man festmacht, ob dies auch erreicht wurde. Die Qualität einer Studie wird nicht zuletzt daran gemessen, wie es den jeweiligen Autoren gelungen ist, diese Daten zu erheben, auszuwerten und darüber zu berichten. Das ist das Gerippe, um das herum sich die ganze Studie aufbaut. Der gesamte veröffentlichte Bericht hat dies zum Gegenstand und legt dem Leser dar, wie zur Ermittlung der Daten für das Hauptkriterium vorgegangen wurde und welche Ergebnisse dabei erzielt wurden, mit allen notwendigen statistischen Angaben, um das Ergebnis bewerten zu können.
Jetzt gibt es durchaus das Problem, dass manche Autoren dieses Hauptkriterium (‚main outcome measure‘ oder ‚primary outcome‘) nicht explizit nennen, sondern dass man es aus dem Studientext ableiten muss. Manche Autoren haben auch ein Problem damit, sich auf ein einziges Hauptkriterium festzulegen, und geben mehrere an. In diesen Fällen muss das Reviewteam selbst die Lücke füllen oder sich für ein einziges der genannten Kriterien entscheiden, wobei das Reviewprotokoll Regeln dafür vorsehen muss. Das ist geübte Praxis in allen systematischen Übersichtsarbeiten.
Mathie et al. haben dies aber völlig anders gehandhabt. Sie schreiben, sie hätten eine Hierarchie eingeführt, die sich nach der WHO ICF Klassifikation richtet und hätten diese auf die Studien angewendet – und damit auch das von den Studienautoren festgelegte Hauptkriterium abgewandelt. Das ist so unglaublich, dass hier der Originaltext der Passage aus [2] angegeben werden soll:
‚We shall follow the WHO ICF system regardless of what measure may have been identified by the investigators as their ‚primary outcome‘. (Hervorhebung von mir).
Das heißt, dass Mathie et al. auch ein von den Studienautoren nur als sekundär angesehenes Ergebnis unversehens zum Hauptkriterium aufgewertet haben, und dass das von den Autoren definierte Hauptkriterium dann ignoriert wurde. Lagen jedoch die Daten für das neu definierte Hauptkriterium nicht in dem für die Metaanalyse erforderlichen Umfang vor, dann führte das zu einem Ausschluss der Arbeit aus der weiteren Betrachtung. Nach den festgelegten Regeln des Protokolls gab man den Studienautoren noch nicht einmal die Gelegenheit, eventuell ermittelte aber nicht berichtete Daten nachzuliefern.
Die Auswirkungen dieses Vorgehens hat Edzard Ernst in seinem oben verlinkten Blogbeitrag zu dieser Arbeit beschrieben: Eine ansonsten hochwertige Studie von White et al., die aber zu einem für die Homöopathie negativen Ergebnis kam, wurde nicht nach ihrem Hauptkriterium bewertet, sondern es wurde ein sekundäres Ergebnis dafür herangezogen. Dafür waren jedoch die Daten nicht vollständig angegeben, eben weil die Studienautoren dies auch nicht so vorgesehen hatten. Wegen der Unvollständigkeit der Daten wurde diese Studie dann aus der Betrachtung ausgeschlossen.
Voilà, ein Problem weniger. Es wäre auch zu blöd gewesen, wenn ausgerechnet eine Studie, die zu einem negativen Ergebnis kam, sich als die Beste mit dem geringsten Risiko eines Bias gezeigt hätte.
Es ist zwar nicht bekannt – im Review finden sich keine Angaben hierzu – in welchem Umfang eine solche Neudefinition stattgefunden hat und welchen Einfluss dies auf das Ergebnis hatte. Der eine von Edzard Ernst geschilderte Fall ist sicher, ein weitergehender Einfluss ist durchaus möglich. Ob es sich hierbei um die Auswirkung der Voreingenommenheit des Reviewteams handelt, ist natürlich schwer zu beurteilen. Aber, wie kommt man auf die Idee, ein solch ungewöhnliches Vorgehen für das Review festzulegen?
Nur als Ergänzung:
Die WHO ICF ist eine Klassifizierung der Begrifflichkeiten im Gesundheitswesen. das von der Welt-Gesundheitsorganisation vorgeschlagen wurde und in vielen Ländern verwendet wird (Link). Sie dient dazu, in dieser Hinsicht einem Lexikon nicht unähnlich, die verschiedenen Begriffe im Gesundheitswesen inhaltlich zu vereinheitlichen. Wichtig ist dies zum Beispiel, damit in verschiedenen Ländern erhobene Statistiken und Untersuchungen zur Gesundheitssituation vergleichbar werden. Auch als Grundlage für gesetzliche Vorgaben eignet sich dies – nur, dass in klinischen Studien die Ergebnisse in einer dort hineininterpretierten Hierarchie ermittelt werden müssen – das steht da nicht.
3. Kritikpunkt: Bewertung des Biasrisikos
Bei jedem Review und jeder Metaanalyse gibt es das Problem, dass eine Vielzahl von Studienergebnissen betrachtet werden, die sich auch untereinander widersprechen können. Welche ist dann glaubhaft, welche nicht? Man kommt also nicht umhin, die Studien zu bewerten. Dieser Schritt ist außerordentlich wichtig, denn das ganze Ergebnis einer Metaanalyse beruht darauf, welche Studien als aussagekräftig bewertet werden und welche nicht.
Mathie et al. verwenden hierzu ein Schema, das von der Cochrane Collaboration entwickelt wurde. Die Cochrane Collaboration ist eine Vereinigung, deren Zweck es ist, über die bestmögliche Evidenz bestmöglich zu informieren. Dazu wurden bereits in großer Zahl Metaanalysen durchgeführt und dabei eine standardisierte Vorgehensweise entwickelt. Es gibt hierüber ein umfangreiches Handbuch mit knapp 700 Seiten, das schlicht und einfach das Beste ist, was es auf diesem Gebiet gibt. Die Bewertung der in eine Metaanalyse einfließenden Studien hinsichtlich ihres Risikos eines Bias wird in Kapitel 8 beschrieben [7] und Mathie et al. verweisen ausdrücklich darauf, dass sie diese Vorgehensweise angewandt haben.
Nur leider wird die Qualität einer Arbeit, egal auf welchem Gebiet, nicht durch die Art des Werkzeugs bestimmt, das bei der Herstellung benutzt wurde, sondern viel mehr dadurch, wie dieses Werkzeug gehandhabt wurde. Dass man hier Zweifel haben kann, soll die folgende Betrachtung verdeutlichen. Dazu sollen exemplarisch die Bewertungen zweier Studien miteinander verglichen werden. Auf der einen Seite die Studie von Jacobs et al. aus dem Jahr 1994 über die homöopathische Behandlung von kindlichem Durchfall, die auch hier auf dem Blog schon besprochen wurde [8]. Man kam zu einem für die Homöopathie positiven Ergebnis und diese Studie erwies sich in diesem Review als die Beste. Auf der anderen Seite betrachten wir eine Arbeit von Walach et al. aus dem Jahr 1997 über die homöopathische Behandlung von chronischen Kopfschmerzen [9]. Diese gilt als eine der methodisch besten Arbeiten zur Wirksamkeit homöopathischer Mittel, kam aber zu einem negativen Ergebnis. Im Review wurde sie als recht schlecht bewertet und am Ende in der Metaanalyse nicht berücksichtigt.
Generell wird das Risiko eines Bias als ’niedrig‘, ‚mittel‘ (eigentlich ‚unklar‘) oder ‚hoch‘ bewertet. Dies erfolgt zunächst in sechs verschiedenen Kategorien (‚domains‘). Die schlechteste Einzelbewertung in einer Kategorie ist gleichzeitig die Gesamtbewertung der Studie. Mathie et al. haben eine dieser sechs Kategorien zusätzlich noch aufgeteilt und das Bewertungsschema etwas erweitert, aber dies ist zunächst weniger von Belang.
Die Arbeit von Walach wurde hinsichtlich des Risikos eines Bias in zwei Kategorien als ‚unklar‘ bewertet, in zwei weiteren als ‚hoch‘, in denen die Jacobs-Studie jeweils nur mit ‚geringem‘ Risiko behaftet sein soll. Diese vier Punkte wollen wir uns näher ansehen.
In der Kategorie I geht es um die Art und Weise, wie die Folge festgelegt wurde, in der die Patienten zur Placebo- oder Verumgruppe eingeteilt wurden. Hierbei soll es sich um eine Zufallsreihenfolge handeln, um die Eigenschaften der Vergleichsgruppen unabhängig von Entscheidungen des Studienpersonals möglichst zu vergleichmäßigen. Im Cochrane-Handbuch wird angegeben, dass die Verwendung einer Zufallsfolge hierfür ausreichend ist [7, S. 212], wofür das Verwenden einer Tabelle von Zufallszahlen oder das Würfeln als angemessen zu betrachten ist [S.198]. Walach beschreibt, dass ein Notar die Verteilung durch Würfeln bestimmte, Jacobs nennt eine Tabelle von Zufallszahlen. Walachs Vorgehen wurde als ‚unklar‘ bewertet, Jacobs‘ hingegen als mit einem ’niedrigen‘ Risiko behaftet. Zwei völlig gleichwertige Verfahren werden also unterschiedlich bewertet.
Kategorie IIIb: Verblindung bei der Auswertung. Dieses Kriterium hat das Reviewteam extra eingeführt und die im Handbuch vorgesehene gemeinsame Bewertung der Verblindung von Teilnehmern, dem Studienpersonal und der Datenauswertung auf zwei Punkte aufgeteilt, ohne allerdings dafür eine Begründung zu liefern. Im Handbuch wird ausgeführt [S. 199], dass die Verblindung von Probanden und Studienpersonal vollkommen ausreicht.
Walach berichtet ausführlich, dass der Notar die Liste der durch Würfeln ermittelten Gruppeneinteilung erst herausgab, als eine ausgedruckte Liste der in die Auswertung eingegebenen Daten bei ihm vorlag und nicht mehr manipuliert werden konnte. Der Rest der Auswertung bestand folglich nur noch aus der Anwendung von mathematischen Formeln. Jacobs beschränkt sich auf den Satz, dass die Gruppeneinteilung erst eröffnet wurde, nachdem alle statistischen Auswertungen durchgeführt waren. Walachs Arbeit wurde mit einem mittleren Risiko bewertet, die von Jacobs mit einem niedrigen. Ich weiß nicht, wie Mathie et al. sich das vorstellen können, aber ich habe Schwierigkeiten damit, zu verstehen, wie man eine vollständige statistische Auswertung machen kann, ohne die Gruppenzugehörigkeit zu kennen, wie Jacobs das darstellt. Bei einem genau beschriebenen völlig ausreichenden Verfahren hat die Walach-Arbeit also einen Punktabzug erhalten, Jacobs bei einer äußerst dubiosen oberflächlichen Angabe hingegen die volle Punktzahl.
Kategorie V: Selektive Veröffentlichung der Daten. Dies ist ein recht wichtiges Kriterium, denn wenn ein Autor einer Studie nur eine Auswahl seiner ermittelten Ergebnisse publiziert, kann es dadurch zu einer ganz beträchtlichen Verfälschung der Ergebnisse kommen. Etwa, wenn man nur die Daten nutzt, die die eigene Haltung untermauern und die anderen weglässt. Auch das Fehlen wichtiger Angaben kann zu einer Verfälschung führen.
Walach et al. hatten das Studienprotokoll bereits zu einem Zeitpunkt veröffentlicht (1991), als gerade die Teilnehmer rekrutiert wurden. Die als Hauptkriterien benannten Daten wurden für die Ausgangssituation berichtet und zeigten sich vergleichbar. Die Hauptkriterien wurden als mittlere Veränderungen gegen die Ausgangsdaten dargestellt, die Streubreiten wurden in Form der Vertrauensintervalle genannt. Auch über die erhobenen sekundären Ergebnisse wurde berichtet. Diese Arbeit wurde als mit einem hohen Risiko behaftet eingestuft.
Für die Studie von Jacobs et al. gibt es kein vorab veröffentlichtes Protokoll, allerdings wurde eine Pilotstudie durchgeführt. Diese wurde aber erst veröffentlicht (1993), als die Daten der Hauptstudie bereits ermittelt waren (1991). Als Hauptkriterium wurde die mittlere Dauer der Beschwerden ermittelt, wobei aber nicht die volle Freiheit von Symptomen als Endpunkt angenommen wurde. Dieses Kriterium wurde in Anlehnung an die zum Zeitpunkt der Messung noch nicht veröffentlichte Pilotstudie gewählt. Die in den Tabellen dargestellten Ergebnisse passen nicht mit der grafischen Darstellung zusammen. Diese Arbeit wurde mit nur einem niedrigen Biasrisiko bewertet.
Auch wenn man der Bewertung des Jacobs-Papers in diesem Punkt vielleicht sogar noch zustimmen könnte, warum das Walach-Paper so viel schlechter beurteilt wurde, ist nicht erkennbar. Genau genommen muss man darin höhere Standards als erfüllt ansehen.
Kategorie VI: Andere mögliche Risikoquellen. Für diese Kategorie nennt das Cochrane-Handbuch ein paar Beispiele, die je nach Studientyp wichtig werden können. Darin:
– Frühzeitiges Beenden der Studie. Die Jacobs-Studie endet bereits nach fünf Tagen, obwohl zu diesem Zeitpunkt noch nicht alle Patienten genesen waren. Das dürfte den als Hauptkriterium benannten Mittelwert der Dauer beeinflusst haben.
– Eingeschränkte Vergleichbarkeit der Gruppen. Dies könnte bei der Jacobs-Studie der Fall gewesen sein, denn die Kinder der Homöopathie-Gruppe waren älter und schwerer als die der Placebogruppe. Die Frage, ob dies einen Einfluss hätte haben können, wird nicht diskutiert.
Folglich kann man über die Einstufung der Jacobs-Arbeit als ‚geringes‘ Biasrisiko höchst geteilter Meinung sein, aber die Walach-Studie wurde mit einem ‚hohen‘ Biasrisiko bewertet – ohne dass Gründe dafür genannt wurden und auch ohne dass sie mir offensichtlich wären.
Es sei am Rande angemerkt, dass die Walach Studie nicht mit in die anschließende Metaanalyswe aufgenommen wurde – obwohl die Daten des Hauptkriteriums entsprechend berichtet wurden. Oder kann es sein, dass das Problem darin liegt, dass ’nur‘ die Medianwerte genannt wurden und die wesentlich weniger aussagekräftigen Durchschnittswerte nicht?
Quintessenz: Die Bewertung der Qualität der in die Betrachtung eingeflossenen Studien ist nicht nachvollziehbar. Es bleibt die Tatsache, dass eine Studie, die zu einem für die Homöopathie negativen Ergebnis kam, trotz höherer eingehaltener Standards erheblich schlechter bewertet wurde als eine andere, deren Resultat positiv war. Dies könnte durchaus eine Folge davon sein, dass es keine Vorkehrungen dafür gab, dass die Voreingenommenheit des Reviewteams nicht in die Bewertung einfließen konnte.
4. Kritikpunkt: Bewertung als ‚zuverlässiger Nachweis‘
Keine einzige der betrachteten Studien wurde mit ‚A‘ als zuverlässige Studie (‚reliable evidence‘) bewertet, die insgesamt mit nur einem geringen Risiko für einen Bias behaftet wäre. Zwölf Studien erhielten ein ‚B‘, die restlichen 20 nur eine ‚C‘-Bewertung.
Was macht man, wenn man ein solch enttäuschendes Ergebnis erzielt hat? Ganz einfach, man definiert neue Kriterien für ‚hervorragend‘. Im Gegensatz zu den Vorgaben des Cochrane-Handbuchs, auch im Gegensatz zum eigenen veröffentlichten Studienprotokoll, definiert das Reviewteam einfach, dass eine Studie auch dann noch als ‚zuverlässige Evidenz‘ gelten soll, wenn sie nur in einer Kategorie als ‚unklar‘ bewertet worden ist, sofern dies nicht bei einer der ersten drei Kategorien der Fall war. Dies betrifft das Aufstellen der Zufallsfolge zur Verteilung der Patienten auf die Gruppen, dass diese Abfolge auch nicht zu erraten war, und die Verblindung von Patienten, Betreuern und Datenauswertern. Wenn fehlende Daten nicht angemessen behandelt worden waren, Ergebnisse nur selektiv berichtet wurden oder nur andere Formen des Risikos gegeben waren – das tut der Eigenschaft als ‚zuverlässiger Nachweis‘ offenbar keinen Abbruch.
Pikant ist dabei die Tatsache, dass zwei der drei ‚guten‘ Studien nur sogenannte Pilotstudien sind, die bewusst mit eigentlich zu kleiner Teilnehmerzahl durchgeführt worden waren, um kostengünstig festzustellen, ob das Studiendesign überhaupt geeignet ist, die Fragestellung zu untersuchen und wie groß der zu erwartende Effekt sein könnte. Ganz unabhängig von einer Risikobewertung nach den Cochrane-Kriterien kann es sich bei solchen Studien nicht um zuverlässige Evidenz handeln, denn es sind eben wegen zu geringer Teilnehmerzahl keine vollwertigen placebokontrollierten Vergleichsstudien.
Mathie et al. haben folglich offenbar post hoc, also nachdem das Ergebnis der Risikoanalyse vorlag, ein Zusatzkriterium eingeführt, das in deutlichem Widerspruch zu den Gepflogenheiten der Cochrane-Collaboration steht. Die Eimordnung als ‚zuverlässige Evidenz‘ ist damit kein Ergebnis einer Untersuchung sondern eher eine Willensentscheidung des Teams. Eine unfassbare, mit keiner wissenschaftlichen Methodik zu vereinbarende Vorgehensweise.
Bei den drei zuverlässigen Studien handelt es sich um (1) die Studie von Jacobs zum kindlichen Durchfall, die schon hier auf dem Blog besprochen wurde, (2) die Studie ebenfalls von Jacobs zur Mittelohrentzündung [10] und (3) die Studie von Bell zur Fibromyalgie, ebenfalls schon hier betrachtet [11]. Beim Blick auf die im Review angegebenen Daten in fällt dann schon auf, dass nur eine der drei Studien für sich alleine gerade so eben eine statistische Signifikanz aufzuweisen hat, die anderen beiden jede für sich nicht. Dies ist daran erkennbar, dass der Vertrauensbereich auch Werte unter 1 umfasst, was bei der Durchfallstudie knapp nicht der Fall ist, bei den anderen schon.
Das sind also die Studien mit zuverlässiger Evidenz? Für sich betrachtet mit einiger Wahrscheinlichkeit Zufallsergebnisse? Das kann doch wohl nicht wahr sein!
Warum die Autoren das tun, und was das für Auswirkungen hat, werden wir weiter unten sehen.
5. Kritikpunkt: Zusammenfassung der Daten
Jetzt kommen wir zum Filetstück von Mathies Review, nämlich der Metaanalyse. Dort werden die Daten der übriggebliebenen Studien statistisch zusammengefasst und bewertet. Und siehe da, man findet, dass es bei dieser gemeinsamen Betrachtung einen statistisch signifikanten Effekt zugunsten der Homöopathie gibt – kein Wunder bei der sorgfältigen Auswahl.
Wie das?
Man hat zunächst aus allen verbliebenen Studien eine einheitliche Kennzahl errechnet, um das Ergebnis darzustellen. Man hat hierzu das Quotenverhältnis gewählt (‚odds ratio‘), ein zwar übliches Verfahren, das aber durchaus nicht unproblematisch ist.
Zum einen ist das Quotenverhältnis nicht eindeutig, da durchaus verschiedene Situationen zu der gleichen Kennzahl führen können. Dies hatte ich hier schon einmal ausführlicher behandelt. Bedeutsamer ist aber, dass die Kennzahl keine natürliche obere Grenze und damit auch ziemlich wenig Aussagekraft hat. Hätte man zum Beispiel eine Kennzahl, die zwischen -1 und + 1 liegen kann, dann wüsste man bei einer Angabe von 0,9, dass das schon ziemlich gut ist und nicht mehr viel besser geht. Beim Quotenverhältnis ist das nicht der Fall, denn dort können auch extrem hohe Werte auftreten, der theoretische Grenzwert ist Unendlich.
Man hat nun herausgefunden, dass das Quotenverhältnis für alle Studien zusammen bei 1,53 liegt. Betrachtet man nur die B-bewerteten Studien, liegt diese Zahl schon bei 1,63, bei den drei zuverlässigen Studien dann schon bei 1,98. Das sieht, wenn man keine Vergleichszahlen hat, erst einmal sehr imposant aus. Alle diese Zahlen sind natürlich statistisch signifikant, das heißt, wahrscheinlich nicht auf einen Zufall zurückzuführen.
Mission erfüllt, Wirksamkeit der Homöopathie nachgewiesen.
Bestimmt nicht, denn hier werden Äpfel, Birnen, Pflaumen, Melonen und was es noch so gibt, zusammengeworfen.
Erst einmal zur Bedeutung der Zahlen.
Ein Quotenverhältnis von rund 2 ist eigentlich kein so sonderlich guter Wert. Ein paar Zahlen:
Wenn von 100 Patienten in der Placebogruppe 10 hinterher keine Beschwerden mehr hatten (Quote 10 / 90 = 0,11), dann bedeutet ein Quotenverhältnis von 2, dass mit der Homöopathie 18 Patienten genesen waren, (18 / 82 = 0,22). Bei dieser Konstellation hätten also nur 8 von hundert Patienten von der Einnahme des Mittels profitiert, denn zehn wären ja wahrscheinlich, wie die Placebogruppe zeigt, auch ohne Mittel gesund geworden. Gehen wir von 20 Heilungen in der Placebogruppe aus, dann ergäbe sich ein Quotenverhältnis von 2, wenn 33 Patienten geheilt worden wären, also 13 von 100 Patienten von dem Mittel profitiert hätten.
Bei einem Quotenverhältnis von 1,53 wären es so 5 beziehungsweise 8 von jeweils 100 Patienten, die einen Nutzen gehabt hätten.
Folge: Das Ergebnis ist recht kümmerlich. Wenn die Homöopathie tatsächlich in dem ermittelten Umfang nützen würde, dann wären es auf jeden Fall nur ziemlich wenige Patienten, die das auch merken würden. Dazu muss man sehen, dass hier quasi die Königsdisziplin der Homöopathie betrachtet wurde, nämlich die auf Hahnemann zurückgehende klassische Homöopathie mit ausführlicher Anamnese und individueller Verordnung der Mittel. Hier müssten eigentlich die größten Effekte auftauchen, die man in der Homöopathie erreichen kann. Therapie mit Komplexmitteln oder Verordnung einheitlicher Mittel nach Befund gilt ja als mehr oder weniger fauler Kompromiss. (Es sei denn, die jeweilige Studie war erfolgreich, versteht sich.)
Betrachten wir im Folgenden der Einfachheit halber nur die Daten der drei ‚zuverlässigen‘ Studien. Dabei geht es um Durchfall, Fibromyalgie und Mittelohrentzündung, Beschwerden also, die für meinen wenig ausgeprägten medizinischen Sachverstand nichts miteinander zu tun haben. Was ist die Aussagekraft, wenn man diese in einen Topf wirft?
Es ist ein rein mathematischer Effekt, dass die statistische Signifikanz von der Anzahl der Teilnehmer abhängt. Wenn die Anzahl der betrachteten Probanden größer wird, dann bilden die Gruppen die Realität besser ab und auch kleinere Unterschiede werden signifikant, einfach weil man die Mittelwerte der Gruppen immer genauer kennt und die Streubreiten immer sicherer weiß. Wenn man also mehrere Studien mit kleinen Ergebnissen aufaddiert, steigt rechnerisch die Zahl der betrachteten Teilnehmer und das Ergebnis wird signifikant. Jedenfalls irgendwann, man muss nur genug Studien addieren. Das ist ein völlig automatischer Effekt, ähnlich dem, dass Zahlen immer größer werden, wenn man Anzahlen von Gegenständen addiert.
Nur, die Mathematik wehrt sich nicht, sie gibt keinen Hinweis darauf, ob die durchgeführte Operation etwas Sinnvolles ergibt oder nicht. Sie können ohne Weiteres 3 Goldfische, 5 Kinobesuche, die 221 km zwischen Stuttgart und München und 7 Flugzeuge addieren. Es kommt 236 heraus. Und 236 ist größer als 3 oder 5 oder 221 oder 7. Mehr sagt das nicht. Man kann auch den Durchschnitt bilden, das wären hier 59. Aber was bedeutet dieser Wert?
Genau: gar nichts.
So ist auch das Ergebnis der hier vorliegenden Metaanalyse zu sehen. Es bleiben 7 Flugzeuge und 3 Goldfische und die Entfernung ändert sich nicht, genau so wie die einzelnen Studienergebnisse wahrscheinliche Zufallsergebnisse bleiben. Wie das zu sehen ist, wenn ein Kind gleichzeitig an Durchfall, Mittelohrentzündung und Fibromyalgie leidet, weiß ich ehrlich gesagt nicht, aber dieser Fall scheint mir nicht so furchtbar häufig zu sein. Letztendlich vergewaltigen Mathie et al. das Instrument der Metaanalyse.
In einer Metaanalyse werden nämlich normalerweise verschiedene Untersuchungen zum gleichen Gegenstand zusammengefasst. Und auch das ist nach den Angaben im Cochrane-Handbuch nur dann sinnvoll, wenn die Ergebnisse nicht zu stark voneinander abweichen, anderenfalls muss erst geprüft werden, ob in einer der betrachteten Studien ein Fehler vorliegen könnte. Erst wenn das ausgeschlossen ist, dann kann man tatsächlich die Probanden aller betrachteten Studien zusammenfassen und quasi so tun, als wären sie alle in einer einzigen Studie zusammen gewesen. Aber auch nur dann.
Dass man so grundverschiedene Indikationen wie hier in eine gemeinsame Analyse zusammenfasst, ist absolut nicht vorgesehen. Es ist auch völlig sinnlos – und war übrigens auch ein Kritikpunkt, den man der in Homöopathiekreisen viel geschmähten Metaanalyse von Shang entgegengehalten hat. Hier, wo numerisch ein positives Ergebnis herauskommt, ist von einer solchen Kritik natürlich nicht mehr die Rede.
Für einen Patienten, der sich wegen Fibromyalgie einer homöopathischen Behandlung unterziehen will, ändert sich an der Sachlage überhaupt nichts, dass auch bei Mittelohrentzündungen keine signifikanten Ergebnisse erzielt worden sind. Die Chancen auf eine Heilung sind nicht besser und nicht schlechter bekannt als ohne diese anderen Studien zu anderen Indikationen. Nach wie vor kann es sich für den Fibromyalgie-Patienten um ein reines Zufallsergebnis handeln. Wären anstatt der einen Studie mit 60 Teilnehmern allerdings noch fünf weitere bekannt, mit ähnlichem Ergebnis und ebenfalls je 60 Teilnehmern, dann wüsste man besser Bescheid, weil die Datenbasis größer wäre. Es würde sich dann ergeben, dass nämlich das Studienergebnis doch kein reiner Zufall war, sondern die Chancen tatsächlich so stehen, wie dort ermittelt wurde.
Diese Betrachtung gilt für jede einzelne der studien, die in die Metaanalyse eingeflossen sind. Aus den zusammengeworfenen zumeist nicht signifikanten Ergebnisse herauszurechnen, dass die Homöopathie in Summe einen statistisch signifikanten positiven Effekt habe, ist Unfug.
Ein Ergebnis aller früheren Metaanalysen von Kleijnen bis Shang war, dass qualitativ hochwertige Studien nur kleinere – oder gar keine – Effekte gemessen haben als solche nach weniger hohen Standards. Hier hat man jedoch herausgefunden, dass der Effekt der ‚zuverlässigen‘ Studien größer sei, als wenn man auch die schlechteren Studien mit betrachtet. Eben ein Quotenverhältnis von 1,93 anstatt nur 1,53. Merken Sie jetzt, wie gut es war, dass die wirklich hochwertigen Studien, von White und Walach, die keine positiven Ergebnisse gebracht haben, aus der Analyse ausgeschlossen werden konnten? Sonst wäre nämlich genau diese für die Homöopathen so vorteilhafte und wichtige Aussage nicht möglich. Nach Lage der Dinge ist aber zu vermuten, dass dieses Resultat stark auf der Voreingenommenheit der Autoren beruht, denn anders ist die Aufwertung von B-Studien zur ‚zuverlässigen Evidenz‘ nicht erklärbar.
Quintessenz:
Schlicht und einfach: Das, was hier als Hauptergebnis der Studie ermittelt wird, ist Quark. Es ist natürlich durchaus möglich, dass die Ergebnisse bezüglich der Qualität der Studien und des Einflusses auf die Stärke des Effektes nichts mit der Voreingenommenheit der Autoren zu tun haben – mir würde es nur leichter fallen, dies auch zu glauben, wenn man das Studiendesign dahingehend gestaltet hätte, dass die Ansicht der Autoren das Ergebnis nicht hätten beeinflussen können.
Mehr ist dazu nicht zu sagen.
Zusammenfassung
Mathie et al. haben ein systematisches Review durchgeführt und dabei augenscheinlich wissenschaftlich zweifelhafte Methoden angewandt. Dabei kommt dennoch in der Königsdisziplin der Homöopathie ein recht kümmerliches Ergebnis heraus. Man muss schon einige Kunstgriffe anwenden, damit Studien, die eine Wirkung der Homöopathie über Placebo nahelegen, als von hoher Qualität erscheinen und die tatsächlich hochwertigen Studien nicht vorne liegen. Man hätte sonst das ungeschickte Ergebnis, dass die zuverlässigen Studien die Wirksamkeit der untersuchten Mittel gerade nicht belegen.
Die am besten bewerteten Studien sind in großem Umfang nur Pilotstudien, die unabhängig von ihrer Durchführungsqualität wegen zu kleiner Teilnehmerzahl keine zuverlässige Evidenz bieten können. Obendrein, wenn sie wie fast alle betrachteten Studien noch nicht einmal eine statistische Signifikanz ergeben hatten.
Dadurch gibt das Review eher den Kritikern der Homöopathie Recht als deren Verfechtern: Es gibt eben doch keine zuverlässige Studie, die eine über Placebo hinausgehende Wirkung eines Homöopathikums zweifelsfrei ergeben hätte. Da hilft, wie man hier eindringlich sieht, auch kein Griff in die Trickkiste.
Weitere interessante Links:
Auch andere Skeptiker haben sich schon mit diesem Review beschäftigt:
Excanwahn (Link)
Dienstarzt (Link)
Literatur
[1] Mathie RT, Lloyd SM, Legg LA, Clausen J, Moss S, Davidson JRT, Ford I: Randomised placebo-controlled trials of individualised homeopathic treatment: systematic review and meta-analysis, in: Systematic Reviews 2014, 3: 142, doi: 10.1186/2046-4053-3-142, Link zum Volltext
[2] Mathie RT, Legg LA, Clausen J, Davidson JRT, Lloyd SM, Ford I: Systematic review and meta-analysis of randomised, placebo-controlled trials of individualised homeopathic treatment: Study protocoll, 2013. Version 1.0; 25 January 2013. Link zum Volltext
[3] Shang A, Huwiler-Müntener K, Nartay L, Jüni P et al.: ‚Are the clinical effects of homoeopathy placebo effects? Comparative study of placebo-controlled trials of homoeopathy and allopathy‘, Lancet 2005; 366:726-32, Link zum Volltext
[4] Rutten ALB, Stolper CF: The 2005 meta-analysis of homeopathy: the importance of post-publication data‘, Homeopathy (2008) 97: 169-177, Link zum Volltext
[5] Hahn RG: ‚Homeopathy: Meta-Analyses of Pooled Clinical Data‘, Forsch. Komplementärmedizin 2013; 20: 376-381, DOI 10.1159/000355916, Link zum Volltext
[6] Mathie RT, Hacke D, Clausen J, Nicolai T, Riley DS, Fisher P: Rondomised controlled trials of homeopathy in humans: characterising the research journal literature for systematic review, in: Homeopathy (2013) 102, 3-24, Link zum Volltext:
[7] Higgins JPT, Altmann DC: Assessing risk of bias in included studies‘ enthalten in: Higgins JPT, Green S: Cochrane Handbook for Systematic reviews of Interventions, Cochrane Book Service, 2008 (Link zum Volltext)
[8] Jacobs J, Jimenez M, Gloyd SS, Gale JL, Crothers D: ‚Treatment of Acute Childhodd Diarrhea With Homeopathic Medicine: A Randomized Clinical Trial in Nicaragua‘, in: pediatrics (1994); 93: 719 – 725
[9] Walach H, Haeusler W, Lowes T, Mussbach D, Schamell U, Springer W, Stritzl G, Gaus W, Haag G: Classical homeopathic treatment of chronic headaches, in: Cephalalgia 1997; 17:119-126, Link zum Abstract
[10] Jacobs J, Springer DA, Crothers D: Homeopathic treatment of acute otitis media in children: a preliminary randomized placebo controlled trial, in: The pediatric Infectious Disease Journal 2001, 20(2), pp 177-183, Link zum Abstract
[11] Bell IR, Lewis DA, Brooks AJ, Schwartz GE, Lewis DE, Walsh BT, Baldwin CM: ‚Improved clinical status in fibromyalgia patients treated with individualized homeopathic remedies versus placebo‘ in: Rheumatology 2004; 43: 577-582 doi: 10.1093/rheumatology/keh111, Link zum Volltext
@ Henrik, @ borstel
Ich habe mir meinen Text im Artikel (Vorbehalt 1: Vorgehensweise des Reviewteams) nochmal angesehen. Ich glaube, ich verstehe jetzt, was Henrik meint. Ich hatte bemängelt, dass die Autoren dieses Reviews der Homöopathie gegenüber positiv eingestellt waren. Allerdings – und das kommt vielleicht nicht so klar raus, war die Alternative nicht, dieses Review Nicht durchzuführen, oder mit anderem Personal, sondern eher, in der Methodik dafür zu sorgen, dass dies möglichst wenig auf das Ergebnis durchschlägt.
Die Autoren haben zwei äußerst ungewöhnliche Vorgehensweisen an den Tag gelegt, nämlich dass Sie nicht die Hauptkriterien der Studienautoren zum Gegenstand des Reviews genommen haben und dass sie offenbar nachträglich auch Studien, die in bestimmten Punkten ein „unclear risk of bias“, dennoch als „zuverlässigen Beleg“ galten. Dies lässt einen starken Verdacht aufkommen, dass hier die subjektive Einstellung eine Rolle gespielt hat. Hinzu kommt die immer auch unvermeidbar subjektiv gefärbte Qualitätsbewertung der Einzelstudien.
Die Alternativen hätte aus meiner Sicht, wie gesagt, nicht darin bestanden, dieses Review nicht durchzuführen, sondern dies im Studiendesign zu berücksichtigen. Man hätte das Protokoll von einer unabhängigen Stelle (Cochrane) überprüfen lassen können und sich dann strikt daran halten. Man hätte die doch eher formale Qualitätsbewertung durch Wissenschaftlern von verwandten Fächern durchführen lassen können.
Wäre dies der Fall, dann könnte man dem Studienergebnis – selbst so kümmerlich, wie es nun einmal ist – eher vertrauen.
Aber grundsätzlich verstehe ich, was Henrik meint. Generell sind wir alle voreingenommen für unsere Behandlungsmethode, unser Protokoll usw. Ich habe das bei meiner (nicht sehr ruhmreichen medizinischen) Dissertation erlebt: Es kam nix dabei rum, aber mein Doktorvater wollte in der Diskussion der Arbeit unbedingt, daß trotzdem eine Art positives Fazit für die angewandte Methode gezogen wird…
Insbesondere bei interdisziplinären Leitlinien läßt sich das potentielle Problem durch Beteiligung unterschiedlicher Fachgesellschaften entschärfen, die ihre Experten entsenden. Ansonsten bleibt „nur“ das methodisch strenge Vorgehen (wie von Herrn Dr. Aust geschildert), und in den Journals muß ein gescheiter peer review erfolgen. Generell bleibt allerdings das Problem bestehen, wie denn nun angegebene Interessenkonflikte einzuordnen sind, d.h. was bedeutet es konkret, daß z.B. ein Autor bereits Pharmagelder erahlten hat (und andere vielleicht nicht)…
@ Henrik:
Genau dafür wurde doch die wissenschaftkliche Methodik entwickelt: Eben um persönliche Voriengenommenheiten, die unvermeidlich sind, möglichst nicht in das Ergebnis einfließen zu lassen. Die Verblindung zum Beispiel. Der Betreuer soll auch nicht unbewusst den Probanden steuern. Die Randomisierung: Aufteilung der Gruppen nach einem Zufallsprinzip, um möglichst gleiche Voraussetzungen zu schaffen. Hinreichende Gruppengröße, um das Risiko für Alpha- und Beta-Fehler gering zu halten. Datenerfassung mittels einem validierten Messverfahrens, um möglichst zuverlässige Daten zubekommen. Auswertung mit anerkannten statistischen Verfahren. Veröffentlichung in einem Journal, womit die Ergebnisse der Fachöffentlichkeit zur Diskussion gestellt werden. Unabhängige Replikation, um sicherzustellen, dass nicht doch irgendwelche unrwünschten Störgrößen eingeflossen sind.
Ja, habe ich gelesen. Danke für den Hinweis. Aber mir ist trotzdem nicht klar, was das von potentiellen Pharma-Studien unterscheidet. Niemand wirkt doch einfach so an einer Studie mit, an der er nicht selber Autor ist. Und wenn ich bzw. meine Studien-Kompetenz eingekauft werde, von einem Lehrstuhl für Homöopathie oder so, dann habe ich ja auch eine gewisse Voreingenommenheit.
Und wieso sollte ich als Chirurg, der wie Sie sagen, nichts mit Homöopathie zu tun hat (oder haben will), sonst an solchen Studien mitwirken?
Wenn ein Pharma-Unternehmen ein Paper publiziert bzw. beteiligt ist, wird man auch Voreingenommenheit annehmen müssen, oder nicht? Wieso wird dann auf dieser Grundlage trotzdem weiter Forschung betrieben? Die Ergebnisse ernst genommen?
Lesen Sie das Kapitel „1.Kritikpunkt: Vorgehensweise des Reviewteams“. Dort gehe ich ausführlich auf die Problematik ein.
Ich habe zum ersten Punkt eine Frage:
Ist es nicht üblich oder zumindest oft so, dass Wissenschaftler bzw. Beteiligte an Studien schon vorher auf dem jeweiligen Gebiet geforscht haben und dann ein Paper oder einen Review dazu veröffentlichen? Oder auch in AMG-Studien?
Wenn man jetzt eine große Studie zu ACE-Hemmern oder sowas durchführt und dann etwas publiziert und es sind Vertreter der Forschungseinrichtungen und vielleicht der Hersteller involviert, haben die nicht ein ähnliches Problem wie hier? Wieso sollen keine Pharma-Skeptiker (von mir aus auch Homöopathie-Anhänger) in der Auswertung und Bewertung beteiligt sein?
Pingback: Homöopathie: Behnkes kalter Morgenkaffee im Fakten-Check | gwup | die skeptiker
Pingback: Interview mit Natalie Grams: „Wir können Homöopathie getrost aus der Medizin entfernen und verlieren nichts“ | gwup | die skeptiker
Pingback: Homöopathie heute in der FAZ: Wie war das mit der wissenschaftlichen Redlichkeit? @ gwup | die skeptiker
Jederzeit 🙂
Und jetzt sehe ich’s natürlich auch …. meine Bemerkung über das Geheimhalten von Internetveröffentlichungen war nämlich nicht ironisch gemeint, sondern selbstironisch! Hoffe, niemand vergrätzt zu haben.
Huch, auf Peters Kommentar wollte ich schon lange eingehen – ist in den Weihnachtstagen aber wohl vergessen gegangen (schäm!). Danke 2xhinschauen für die Erinnerung.
Meine Gedanken zur Scientabilität habe ich übrigens vor einiger Zeit schon mal hier dargelegt:
http://www.beweisaufnahme-homoeopathie.de/?page_id=1513
Quintessenz:
Mit dem neuen Begriff der Scientabilität schafft man nach meiner Ansicht mehr Probleme als man damit löst. Wenn man die Forschung in der Homöopathie abschaffen will, dann soll man es auch so benennen und nicht einen Kunstbegriff schaffen, der so aussieht als wäre er generell gültig – der sich dann aber als nicht klar definiert erweist, und völlig offen ist, wie man das feststellt, was scientabel ist und was nicht. Von einer Validierung will ich erst garnicht reden, also Sensitivität und Spezifizität des Bewertungsergebnisses.
Wie hält man eine Veröffentlichung im Internet (fast) geheim? Indem man sie als Kommentare unter alte Blogposts schreibt 🙂
@Peter, gute Frage. Nur dass in der Wissenschaft niemand etwas „bestimmt“, außer natürlich die Projektgenehmigungsbürokratien…
Die Theorie der Evidenzbasierten Medizin hebt eben gerade nicht auf die Kenntnis des Wirkmechanismus ab, sondern nur auf die Wirkung an sich: Postuliere sie nicht, sondern beweise sie! Wie’s funktioniert, finden wir dann schon noch heraus, wenn es denn tatsächlich funktioniert. Aber wenn es funktioniert, auch ohne Theorie, wollen wir es anwenden!
Das Konzept der Szientabilität stützt sich nach meinem Verständnis auf den Begriff des „gesicherten Wissens“, d.h. eines sowohl theoretisch wie experimentell abgesicherten objektiven Wissensstandes. Das ist nicht dasselbe wie „sicheres“ Wissen.
Nehmen wir die Allgemeine Relativitätstheorie: Die ist ein experimentell vielfach abgesichertes Theoriegebäude, das die Basis milliardenteurer erfolgreicher Foschung ist und trotz seiner vielfach so empfundenen Unverständlichkeit Eingang in funktionierende Alltagsprodukte gefunden hat. Dennoch wissen wir, dass sie unvollständig ist, aber als solche und für sich ist sie „gesichertes Wissen“.
Dass homöopathische Arzneien wirkungslos sind, ist inzwischen ebenfalls „gesichertes Wissen“: Weder gibt es eine mit gesichertem wissenschaftlichem Wissen vereinbare Theorie der Wirkung – das alleine könnte ja in der Tat egal sein – aber es gibt auch, trotz hunderter Studien, keinen belastbarten experimentellen Wirkungsnachweis über Plazebo. Mal ein bisschen besser, mal „inconclusive“, mal ein bisschen schlechter. Auf Dauer nur weißes Rauschen. Es gibt keinen auch nur irgendwie begründbaren „weiteren Forschungsbedarf“.
Also, aufhören damit! Nicht auf mein Steuergeld!!
Aber natürlich hast Du recht, das Szientabilitätsargument gehört in verantwortungsvolle Hände.
Ich bin mir nicht sicher, wie Norbert dazu steht, aber es gibt so manchen Skeptiker, der/die fordert, dass eine Studie einer „Scientabilitäts-Prüfung“ standhalten müsse, bevor man sie durchführt (und entsprechend Gelder dafür rauswirft). Das ist ein interessanter Ansatz.
Kritiker dieser Scientabilitäts-Prüfung haben daran jedoch (genau wie ich) gewisse Zweifel: Wer bestimmt denn, was Scientabel ist? Wie stellen wir sicher, dass wir mit dieser Prüfung nur die „richtigen“ Studien rausfiltern?
Tja, ist so eine Sache… 🙂
Irgendeinmal muss Schluss sein mit Studien zur Homöopathie. Denn, dass Homöopathie nur eine Placebowirkung hat, ist längst erwiesen. Doch die Homöopathen bombardieren uns mit hunderten von Studien, die bei genauer Betrachtung sich als wertlos erweisen: Schwindelstudien (Benveniste), schlecht gemachte Studien, lediglich Beurteilung durch Homöopathen, geringe Fallzahl und keine Überprüfung durch unabhängige Experten. Doch genau genommen braucht man keine Studien, um zu zeigen, dass Homöopathie reiner Humbug ist. Hier genügt die Widerlegung der Homöopathie durch logisches Denken und Hinweise auf die Schwachstellen (inneren Widersprüche) der homöopathischen Dogmen. Wäre nämlich das Hauptdogma der Homöopathie richtig, wonach hohe Potenzen stärker wirksam sind und mehr Nebenwirkungen auslösen als Niederpotenzen, dann müssten all die hunderten Verunreinigungen in einem hochpotenzierten Homöopathikum (sie stammen aus der „Ursubstanz“ selbst, dem Lösungsmittel wie Wasser oder Alkohol etc) gefährliche Wirkungen und Nebenwirkungen entfalten, die kein Homöopath vorhersagen kann. Doch genau das passiert ja nicht, wie wir wissen. Allein diese Überlegung führt ja die Homöopathie ad Absurdum.
Just to show the other readers the quality of your comments.
Maybe you should reread my last response to you, especially the part about the spam.
You are welcome to post comments on this blog when your contribution concerns the topic of the thread.
Until then, however…
Spam? my commnet adressed with peer review journals references is spam?
Wow, delete posts when show the hero Ernst lies! This is a tipically conduct of pseudosekpticism: the censorship.
Clearly Dr. Norbert Aust is flawed posts, in this aspect, im impressed with the in the comments.
Ernst says:
`Norbert Aust has uncovered similar irregularities with other trials and I take the liberty of quoting his comments posted previously again here´
You:
“ I am not such a specialist in statistics, but I am under the impression…“
Wtf? GWUP is corrupt.
Note to zetetic1500:
I fail to see the significance of your recent posts, that you posted in a near to spam-like quantity.
If you wish to discuss the issues connected with the Traustein homeopathic academy, please post your comments in the appropriate thread.
I am not willing to discuss your GWUP related views here or your opinion of Edzard Ernst. So your recent 5 posts got deleted.
Very simple: I joined the German Sceptics Society (GWUP) in November 2013 only after my paper was accepted for publication but prior to the publication of my comment to Mathie’s reply.
At the time when I submitted my paper I did not think, that it would have any reflection on my book, written in German and addressed to the general public. On the contrary. I thought mentioning it might be considered undue advertisement for it, which at that time was discussed in Germany. Later, doing more reviews in academic literature, I found that some authors mention their books, some do not. That is why I did declare it under possible conflicts of interest in my comment.
One point:
1) In your paper published in FACT (Are the criteria currently used to rate the quality of clinical studies sufficient to warrant valid results?), declares:
`Funding The author and this work was not funded by any outside individual, group or organisation. Conflict of interest None declared.´
In the response to Mathie in the same Journal:
`Conflict of interest The author has published a book on the scientific foundations of homeopathy and is a member of the German Sceptics Society.´
I don´t understand. Ernst says in the same journal:
„Conflicts of interests can be financial or non-financial… Non-financial conflicts of interest can be personal, political, academic, ideological or religious by nature. 1 In my own experience, the personal and ideological aspects can be particularly powerful in CAM.“
But, exists the conflicts of interests in pseudoskepticism? The response is yes (ideological, military and economical):
http://theethicalskeptic.com/
@Norbert Aust
Ihre obige Aussage „Ein Ergebnis aller früheren Metaanalysen von Kleijnen bis Shang war, dass qualitativ hochwertige Studien nur kleinere – oder gar keine – Effekte gemessen haben als solche nach weniger hohen Standards.“ ist in dieser undifferenzierten Form nicht richtig. Sie suggeriert nämlich eine überall zu findende lineare Beziehung zwischen Studienqualität und Effektgröße nach dem Muster „Je besser die Studie, desto kleiner der Effekt der Homöopathie.“
In Bezug auf die Arbeit von Linde et al. (1997) stellen Linde et al. (1999) fest, dass diese Hypothese gerade nicht zutrifft: Die 10 qualitativ besten Studien, die den maximalen Jadad-Score von 5 erreichen, haben zwar ein für die Homöopathie schlechteres Ergebnis als diejenigen mit nur 1 oder 2 Punkten, allerdings ein günstigeres als diejenigen mit 3 oder 4 Punkten.
Ernst und Pittler (2000) lassen sich freilich hierdurch in ihrer Annnahme der linearen Beziehung zwischen Studienqualität und Ergebnis für die Homöopathie nicht beirren:
„The fact, however, that the average result of the 10 trials scoring 5 points on the Jadad score contradicts this notion, is consistent with the hypothesis that some […] highly convinced homeopaths have published results that look convincing but are, in fact, not credible.“
Jedoch rügt bereits Hahn (2013) das Festhalten an diesem Irrtum:
„The new argument was that the Jadad score and odds ratio in favor of homeopathy seemed to follow a straight line (in fact, it is asymptotic at both ends). Hence, Ernst and Pittler […] claimed that the highest Jadad scores should theoretically show zero effect. This reasoning argued that the assumed data are more correct than the real data.“
Das obige Zitat von Ernst und Pittler (2000) ist ein argumentum ad hominem, das völlig aus dem Rahmen des wissenschaftlichen Diskurses fällt und keines weiteren Kommentars bedarf. Ich würde mir aber an dieser Stelle mehr Gründlichkeit wünschen.
Linde, K., Clausius, N., Ramirez, G., Melchart, D., Eitel, F., Hedges, L.V. & Jonas, W.B. (1997): Are the Clinical Effects of Homoeopathy Placebo Effects? A Meta-Analysis of Placebo-Controlled Trials. In: The Lancet, 350 (9081), 834–843.
Linde, K., Scholz, M., Ramirez, G., Clausius, N., Melchart, D. & Jonas, W.B. (1999): Impact of Study Quality on Outcome in Placebo-Controlled Trials of Homeopathy. In: Journal of Clinical Epidemiology, 52, 631-636.
Ernst, E. & Pittler, M.H. (2000): Re-Analysis of Previous Meta-Analysis of Clinical Trials of Homeopathy. In: Journal of Clinical Epidemiology, 53 (11), 1188.
Hahn, R. G. (2013): Homeopathy: Meta-Analyses of Pooled Clinical Data. In: Forschende Komplementärmedizin, 20 (5), 376-381.
Pingback: Homöopathie-Vortrag von Edzard Ernst jetzt als Video @ gwup | die skeptiker
Pingback: Neue Metaanalyse: Homöopathie wirkt und rosa Einhörner existieren! | Ratgeber-News-Blog
Pingback: „Homöopathie ent-täuscht?“ mit Dr. Norbert Aust in Würzburg und in Nürnberg @ gwup | die skeptiker
Genau solche pseudo-objektiven Statements stoßen mir etwas unangenehm auf, denn unterschwellig entsteht dabei ein auf ‚wissenschaftlichen Ergebnissen‘ gegründeter Eindruck, der bei Weitem nicht gerechtfertigt ist.
‚… eine Behandlung nach Methode der klassischen Homöopathie …‘ – na, wer sagts denn. Hier sind wir schon allgemein bei der klassischen Homöopathie in ihrer Gesamtheit, nicht nur bei den paar wenigen Krankheitsbildern, die in der Metaanalyse betrachtet wurden.
‚… liefert keine sicheren Hinweise …‘ – aber es gibt wohl offenbar doch Hinweise, auch wenn die nicht ganz so sicher sind. Was ist schon sicher, heutzutage?
‚… basierend auf nur drei zuverlässigen Studien …‘ – also gibt es doch zuverlässige Studien und es ist nicht so, wie die Skeptiker immer sagen.
Vielen herzlichen Dank für diese sehr ausführliche Kritik! Es ist schon erstaunlich, was man alles erreichen kann, wenn man nur ein wenig mit der Bewertung der Studien herumspielt. Mit diesem Wissen im Hinterkopf sollte man grundsätzlich sehr skeptisch an jegliche Metaanalyse gehen, so scheint mir.
So, nun kaue ich einen Kaugummi, schaue 3mal aus dem Fenster und drehe mich zweimal im Kreis und sage dann meinem Chef, ich hätte 6 Stunden gearbeitet. So geht das doch mit dem Addieren, oder? 😉
Einmal mehr Dank für Ihre Arbeit, gut zu wissen, dass es diesen Blog gibt.
Interessant finde ich dieses Zitat aus den Seiten Carsten Stifung:
„..Die Meta-Analyse liefert also keine sicheren Hinweise dafür, dass eine Behandlung nach Methode der klassischen Homöopathie bei einer bestimmten Indikation bessere Resultate liefert als Placebo. Sie deutet lediglich (basierend auf nur drei zuverlässigen Studien) an, dass die individuelle homöopathische Therapie möglicherweise ungleich Placebo sein könnte….“
Quelle:
Edit 15.08.2017: Link inzwischen erloschen.
Pingback: Homöopathie: Metaanalyse belegt eine „Wirksamkeit“ – mit den üblichen Kunstgriffen @ gwup | die skeptiker