Randomisieren
Zum Wert der oft geforderten besonderen Form bei wissenschaftlichen Studien folgende Übersetzung:

Ein Vergleich von Beobachtungsstudien und randomisierten kontrollierten Untersuchungen
Kjell Benson, B.A. und J. Hartz, M.D., Ph.D.
The New England Journal of Medicine, Vol. 342, 25, Jun 22, 2000, 1878- 1886.

Aus dem Department of Family Medicine, University of Iowa College of Medicine, Iowa City. Bitte richten Sie Anfragen nach Sonderdrucken an Dr. Hartz, Department of Family Medicine, University of Iowa College of Medicine, 01292-D PFP, Iowa City, LA 52242-1097, oder an arthur- hartz@uiowa.edu.

Abstract:
    Hintergrund Seit vielen Jahren wird behauptet, daß Beobachtungsstudien stärkere Behandlungseffekte aufzeigen als randomisierte kontrollierte Studien. Wir verglichen die Ergebnisse von Beobachtungsstudien mit solchen aus randomisierten kontrollierten Studien.

    Methode
    Wir durchsuchten den Abridged Index Medicus und Cochrane Datenbanken nach Beobachtungsstudien aus der Zeit zwischen 1985 und 1998, die zwei oder mehr Behandlungsmethoden oder Maßnahmen für eine Bedingung untersuchten. Anschließend durchsuchten wir die Medline- und Cochrane-Datenbanken nach allen randomisierten kontrollierten Studien und Beobachtungsstudien die dieselben Behandlungsmethoden für diese Bedingung verglichen. Für jede Behandlung wurden die Effektstärken in den verschiedenen Beobachtungsstudien kombiniert in der Mantel-Haenszel- oder gewichteten Varianzanalyse und dann mit den kombinierten Effektstärken in den randomisierten kontrollierten Studien, die dieselbe Behandlung untersuchten.
    Ergebnisse
    Es fanden sich 136 Berichte über 19 verschiedene Behandlungsmethoden, wie z.B. Kalzium-Channel-Blocker-Therapie bei koronarer Herzkrankheit, Blindarmentfernung und Maßnahmen bei Unfruchtbarkeit. In den meisten Fällen waren die Schätzungen der Behandlungseffekte in Beobachtungsstudien denen der randomisierten kontrollierten Studie ähnlich. Nur in 2 der 19 Analysen der Behandlungseffekte lag die kombinierte Effektstärke der Beobachtungsstudien außerhalb des 95-Prozent-Konfidenzintervalls für die kombinierte Effektstärke der randomisierten kontrollierten Studien. Schlußfolgerungen Wir fanden kaum Anhaltspunkte dafür, daß Schätzungen der Behandlungseffekte in Beobachtungsstudien seit 1984 konsistent größer oder qualitativ verschieden sind von solchen, die in randomisierten kontrollierten Studien erhalten wurden. (N Engl J Med 2000; 342; 1878-86)
    Copyright 2000, Massachusetts Medical Society
Beobachtungsstudien haben mehrere Vorteile gegenüber randomisierten kontrollierten Studien, darunter geringere Kosten, größere Aktualität und eine größere Bandbreite von Patienten (1). Bedenken hinsichtlich einer inhärenten Verzerrung haben jedoch ihre Verwendung für Behandlungsvergleiche eingeschränkt (2,3). Beobachtungsstudien werden vorrangig zur Identifikation von Risikofaktoren und prognostischen Indikatoren sowie in Situationen, in denen randomisierte kontrollierte Studien unmöglich oder unethisch wären, eingesetzt (4). Die empirische Beurteilung von Beobachtungsstudien basiert weitgehend auf einer Anzahl einflußreicher Vergleichsstudien aus den Siebziger- und Achziger Jahren (5-9). Diese Studien legten nahe, daß Beobachtungsstudien im Vergleich zu randomisierten kontrollierten Studien positive Behandlungseffekte überschätzen. In einer größeren Studie zeigten Chalmers et al. (6), daß 56 Prozent der nichtrandomisierten Studien günstige Treatmenteffekte berichteten gegenüber 30 Prozent der randomisierten kontrollierten Blindstudien. Drei weitere Studien berichten ähnliche Ergebnisse (7-9). Nach Ansicht vieler Experten bedeuten diese Ergebnisse, daß Beobachtungsstudien nicht für die Festlegung von „evidence-based medical care“ verwendet werden sollten: „Wenn Sie sehen, daß eine Studie nicht randomisiert ist, schlagen wir vor, daß sie nicht weiterlesen und zum nächsten Artikel übergehen.“ (10) Auswertungen von Beobachtungsstudien umfaßten hauptsächlich Studien aus den Sechziger und Siebziger Jahren. Wir werteten Beobachtungsstudien aus dem Zeitraum zwischen 1985 und 1998 aus, Studien, die methodologisch den früheren überlegen sein dürften. Mögliche methodologische Verbesserungen umfassen eine differenziertere Auswahl der Datensets und bessere statistische Methoden. Neuere Studien könnten eine systematische Verzerrung ausschließen.
    Methode
    Suche nach Beobachtungsstudien
    Beobachtungsstudien wurden gefunden durch systematische Durchsuchung der Medline und Cochran Datenbanken nach Berichten über Studien aus den Jahren 1985 bis 1998. Obwohl Medline indiziert ist für hochspezialisierte Suchen nach randomisierten kontrollierten Studien, ist „Beobachtungsstudie“ kein indizierbarer Begriff in Medline und es existiert kein Suchbegriff für Beobachtungsstudien (Wright N, National Library of Medicine: persönliche Mitteilung). Daher benutzten wir eine Text-Wort-Strategie, um nach „Beobachtung“, „Kohorte“, „retrospektiv“, „Querschnitt“ und „nicht- randomisiert“ zu suchen . Wir schränkten die Suche auf Zeitschriften im Abridged Index Medicus ein, der die 120 meistgelesenen, angesehensten klinischen Zeitschriften indiziert. Um die Suche auf Studien zu begrenzen, die Behandlungsmethoden vergleichen, fügten wir den Medline-Schlüsselbegriff „Vergleich“ hinzu, definiert als ein Vergleich zweier oder mehrerer beliebiger Begriffe aus jeder Kategorie jeder Rubrik medizinischer Fachbegriffe.
    Diese Strategie ergab 3868 Artikel. Wir sahen die Abstracts dieser Artikel durch und wählten nur solche aus, die vier Kriterien erfüllten. Als erstes sollte die Studie nicht-experimentell sein, d.h. daß die Behandlungsmethoden sollten nicht nach Gesichtspunkten des Untersuchungszwecks angewandt worden sein. Zweitens beurteilten die Studien den Unterschied zwischen zwei Behandlungsmethoden oder zwischen der Anwendung oder Nicht-Anwendung einer Behandlungsmethode. Drittens sollte die Behandlungsmethode von Ärzten angewandt worden sein. Studien zur Ernährung, Fitness, Änderung der Lebensgewohnheiten oder nicht-verschreibungspflichtiger Medikamente wurden nicht einbezogen, da der Typ der Verzerrung in solchen Studien sich vom Biastyp der Studien unterscheidet, in denen die Behandlungsmethode von einem Arzt angewandt wurde. Viertens mußte die Studie eine Kontrollgruppe einbeziehen.

    Suche nach ähnlichen Studien
    Wenn ein Artikel gefunden wurde, der allen vier Kriterien entsprach, durchsuchten wir die gesamte Medline-Datenbank nach allen entsprechenden randomisierten kontrollierten und weiteren Beobachtungsstudien ­ d.h. solchen, die dieselben zwei Behandlungsarten (oder eine Behandlungsart mit der Nichtbehandlung) verglichen, dieselben Ergebnismaße und dieselben Einschlußkriterien für die Patienten verwendeten. Wir bezogen einige wenige Studien ein, die nicht dieselben Einschlußkriterien oder Follow-up-Zeitpunkte wie die Beobachtungsstudien hatten. Diese Studien sind in dem Abschnitt Ergebnisse gekennzeichnet.
    Die Cochrane Datenbank wurde nach derselben Strategie wie für Medline durchsucht. diese Datenbank ist eine fortlaufend aktualisierte Serie von Literaturdurchsichten der Mitgliedern der Cochrane Collaboration, einer internationalen Organisation, die Forschungsinformation über Effekte von Gesundheitsvorsorgemaßnahmen (Health Care) sammelt (11). Das Durchsuchen der Cochrane Datenbank ergab drei weitere Behandlungsmethoden, für die sowohl Beobachtungsstudien als auch randomisierte kontrollierte Studien vorlagen.
    Weitere Artikel wurden gefunden, indem die Literaturverzeichnisse der erhaltenen Artikel gesichtet wurden, und indem nach pseudo- randomisierten Studien in der Rubrik des Medizinfachbegriffs „kontrolliere klinische Studie“ gesucht wurde. Pseudo-randomisierte Studien sind solche, in denen die Behandlungsmethoden in einer nicht-randomisierten Weise zugeteilt werden, etwa, indem dieselbe Behandlung jedem anderen in Frage kommenden Patienten gegeben wurde (12). Die Ergebnisse der pseudo- randomisierten Studien werden getrennt von den Ergebnissen sowohl der Beobachtungs- als auch der randomisierten Kontrollstudien berichtet.
    Es waren keine idealen Kriterien verfügbar, um die Sensitivität unserer Suchstrategie auszuwerten. Jedoch schloß vor kurzem die United Kingdom Health Technology Assessment Group eine systematische Durchsicht von 22 Behandlungen ab, die Gegenstand sowohl randomisierter Kontrollstudien als auch von Beobachtungsstudien waren. Zur Abschätzung der Sensitivität unserer Suchstrategie verglichen wir unsere Ergebnisse mit denen dieser Durchsicht.

    Statistische Analyse Wir verglichen die Größe der Behandlungseffekte der Hauptergebnisse der Beobachtungs- und der randomisierten Kontrollstudien. Wir verwendeten die Software Cochrane Collaboration RevMan und MetaView (Version 3.1), um die Effektstärken einer Behandlung in einander entsprechender Studien zu kombinieren, die dasselbe Design hatten. Für dichotome Daten verwendeten wir die Mantel-Haenszel- Methode zur Schätzung des Gesamt-Odds-Ratios. Für kontinuierliche Ergebnisvariablen verwendeten wir ein fixed-effects gewichtetes Varianzanalysemodell, wobei der Kehrwert der Varianz der Effektstärke als Gewichtungsfaktor verwendet wurde. Die Verwendung eines fixed- effect-Modells verdeutlicht Unterschiede zwischen den Ergebnissen von Beobachtungs- und randomisierten Kontrollstudien, wenn die tatsächlichen Behandlungseffekte sich in den Grundgesamtheiten der Studien unterscheiden. Fünf Studien unserer Analyse gaben kein Konfidenzintervall für die Effektstärke an. Für drei dieser Studien schätzten wir das Konfidenzintervall aus der Effektstärke und dem P-Wert. Wir gingen wie folgt vor: Wir formten die Effektstärke in eine statistische Prüfgröße um, die annähernd Normalverteilung aufweist (z.B. den Logarithmen des Odds Ratio); wir transformierten den P-Wert in eine normalverteilte Prüfgröße. Dann verwendeten wir die umgeformten Effektstärke und den umgeformten P-Wert zur Berechnung des Standardfehlers der transformierten Effektstärke; daraus errechneten wir anschließend das 95-Prozent-Konfidenzintervall der transformierten Effektstärke, aus diesem schließlich das 95-Prozent-Konfidenzintervall der ursprünglichen Effektstärke. Obwohl diese Konfidenzintervalle möglicherweise nicht identisch sind mit solchen, die auf andere Weise errechnet werden könnten, sollten sie eine qualitativer Hinweis auf den Genauigkeitsgrad sein, mit dem die Effektstärke geschätzt wurde.

    Ergebnisse
    Wir fanden 19 Behandlungsvergleiche, die Gegenstand zumindest einer Beobachtungsstudie und mindestens einer randomisierten Kontrollstudie waren. Es gab 53 Beobachtungs- und 83 randomisierte Kontrollstudien. Zwei weitere Studien dieser Behandlungsmethoden waren pseudo- randomisiert.
    Unsere Durchsuchung identifizierte13 der 22 Behandlungsvergleiche, die von der United Kingdom Health Technology Assessment Group gefunden worden waren. Unter den übrigen neun Behandlungsvergleichen waren vier nicht Gegenstand einer im Abridged Index Medicus aufgelisteten Beobachtungsstudie, zwei waren nicht zugleich Gegenstand einer randomisierten Kontroll- und einer Beobachtungsstudie, eine war nicht Gegenstand einer Untersuchung nach 1984, eine bezog sich nicht auf eine medizinische Behandlung und eine war nicht Gegenstand einer Studie indiziert unter der „Vergleich“-Rubrik der Medizinischen Fachbegriffe.
    In der Auswahl korrespondierender Studien konnte es Unterschiede in der Anwendung einiger der Behandlungsmethoden geben (z.B. Auswertungen von geriatrischen Beurteilungseinheiten) oder im Hinblick auf Unterschiede in der Erhebung der Ergebnisse (z.B. Auftreten von Infekten, wiederkehrende Dysphagie oder Retinopathie). Sowohl in Follow-up-Zeitpunkten als auch in den Einschlußkriterien stimmten 15 der 19 Therapievergleiche überein. Die Ergebnisse für Behandlungen mit weniger als fünf Beobachtungs- oder weniger als fünf randomisierten Kontrollstudien werden in Abbildung 1 und 2 zusammengefaßt. Ergebnisse für Behandlungen mit mehr Studien sind in den folgenden Abbildungen dargestellt.
    Abbildung 1 (Legende zur Abbildung am Schluß dieser Übersetzung) faßt die Ergebnisse der Beobachtungsstudien und der entsprechenden randomisierten Kontrollstudien für sieben kardiologische Behandlungen zusammen. Die Unterschiede im Design zwischen den beiden Studientypen bestanden in folgendem: die Dosis Nifedipin in der Beobachtungsstudie war 30 bis 60mg verglichen mit 30 bis 50 mg in der randomisierten Kontrollstudie. Die Einschlußkriterien und Follow-up- Zeitpunkte variierten für das Nifedipin zwischen den randomisierten Kontrollstudien für. Für die Beobachtungsstudie zur aortokoronaren Bypass-Operationen (coronary-artery bypass grafting, CABG) mit perkutaner transluminaler Koronarangioplastie (percutaneous transluminal coronary angioplasty, PCTA) wurde geringes Risiko definiert nach einer gesetzlich geschützte Medisgroup-Scale (41). Die Beobachtungsergebnisse fielen in die Konfidenzintervalle der randomisierten Kontrollstudien in jedem Bereich außer für den Vergleich von CABG mit PTCA bei Patienten mit gerinem Risiko. Alle anderen Odds Ratios waren in den zwei Studiendesigns ähnlich außer der Vergleich von CABG und PTCA bei Diabetikern. Die Konfidenzintervalle der Beobachtungsstudien waren geringfügig enger als diejenigen der randomisierten Kontrollstudien.
    Abbildung 2 stellt die Ergebnisse der Beobachtungs- und der randomisierten Kontrollstudien von 11 nicht-kardiologischen Behandlungen dar. Für die Insulinstudien bestand eine Variation der Einschlußkriterien und die Follow-up-Zeitpunkte variierten zwischen 3 und 7,5 Jahren. Die Ergebnisse aller Beobachtungsstudien fielen in die Konfidenzintervalle der randomisierten Vergleichsstudien außer für den Vergleich zwischen pneumatischer Retinoplexie mit scleral buckling. Die Ergebnisse der beiden Arten von Studien unterschieden sich auch qualitativ in drei anderen Behandlungen, obwohl diese Differenzen wegen der weiten Konfidenzintervalle schwierig zu interpretieren. In einer pseudo-randomisierten Studie, die wasserlösliche mit fettlöslichen Kontrastmedien zum Durchspülen der Eileiter verglich, war der Odds Ratio für Schwangerschaft 2,00 verglichen mit 1,92 sowohl in den randomisierten Kontrollstudien als auch den Beobachtungsstudien (40). In einer preudo-randomisierten Studie, die geriatrische Beurteilungseinheiten und medizinische Betreuung verglich, lag der Odds Ratio für Tod bei 0,51 verglichen mit 0,69 für die einzige Beobachtungsstudie und 0,65 für die randomisierte Kontrollstudie. (42)
    Abbildung 3 zeigt die Ergebnisse der Studien des Effekts von lediglich einer Behandlung, Hormonsubstitutiontherapie, auf die Knochendichte der Lendenwirbel nach einem oder zwei Jahren Behandlung. Die Einschlußkriterien für beide Studienarten waren identisch bis auf eine randomisierte Kontrollstudie, die ausschließlich Frauen mit Osteoporose einschloß. Die randomisierte Kontrollstudie dieser Behandlung, besonders die späteren Untersuchungen wiesen größere Stichproben und engere Konfidenzintervalle auf. Die kombinierten Ergebnisse der Beobachtungsstudien lagen gerade unterhalb der unteren Schranke des Konfidenzintervalls der kombinierten randomisierten Kontrolluntersuchungen, obwohl die Ergebnisse qualitativ sehr ähnlich waren.
    Abbildung 4 zeigt die Ergebnisse von Studien zum Einsatz von KalziumChannel-Blockern bei Patienten, die eine Nierentransplantation erhielten. Es gab einige Unterschiede in den Follow-up-Zeitpunkten dieser Studien: Die Follow-up-Zeit in der Studie von Morales betrug nur 30 Tage und die Follow-up-Zeit in der Studie von Wahlberg und Ladefoged 3 Monate (3). Alle anderen Follow-up-Zeitpunkte lagen zwischen sechs Monaten und zwei Jahren. Es gab ebenfalls Unterschiede in der eingesetzten immunsuppressiven Medikation. Die einzelnen Studien zeigten keine signifikanten Effekte der Kalzium-Channel- Blocker, obwohl dies in der Meta-Anallyse der Fall war. Die Gesamtergebnisse waren fast identisch für beide Studiendesigns.
    Abbildung 5 zeigt die Ergebnisse von Studien, die Laparoskopie mit offener Blinddarmentfernung verglichen. Diese Analyse bezog 24 Studien ein, die größte Anzahl von Einzelstudien für jeden Vergleich. Wenige Einzelstudien wiesen einen signifikanten Nutzen der Appendektomie mit Laparoskop auf. Jedoch zeigte die Meta-Analyse einen Nutzen auf, der in derselben Größenordnung wie in den Beobachtungs- und den randomisierten Kontrollstudien lag. Im Allgemeinen wurden für jedes einzelne Behandlungsverfahren die Beobachtungsstudien durchgeführt, bevor die Ergebnisse der randomisierten Kontrollstudie vorlagen. Jedoch wurden in einigen Fällen die Beobachtungsstudien nach den randomisierten Kontrollstudien durchgeführt. Gründe für die nachträgliche Durchführung von Beobachtungsstudien lagen im Mangel an langfristiger Datensicherheit (14, 46), fortlaufender Datensammlung von Beobachtungsdaten bei Patienten, die es ablehnten, in eine randomisierte Kontrollstudie einbezogen zu werden (17, 38, 39) und Auswertung der Verallgemeinerbarkeit der Ergebnisse der randomisierten Vergleichsstudie auf eine breitere Grundgesamtheit.

    In der vorliegenden Studie verglichen wir die Ergebnisse von Beobachtungs- und randomisierten Vergleichsstudien. Wir fanden 136 Artikel auf 19 Behandlungsgebieten. Alle außer 6 dieser Artikel wurden veröffentlicht zwischen 1985 und 1998. Die Schätzungen der Effektstärke der Behandlung in der Beobachtungs- und in den randomisierten Kontrollstudien waren in den meisten Bereichen vergleichbar und nur für 2 der 19 Behandlungen lag die Effektstärke in der kombinierten Beobachtungsstudien außerhalb des 95-Prozent- Konfidenzintervalls für die kombinierten Effektstärken der randomisierten Kontrollstudien Für die meisten Behandlungsformen jedoch lagen nicht genügend Daten vor, um die Möglichkeit klinisch relevanter Unterschiede zwischen den Ergebnissen der beiden Studienarten auszuschließen .
    Die kleine Anzahl geeigneter Artikel kann z.T. auf die Einschränkungen der computergestützten Durchsuchung nach Berichten über Beobachtungsstudien und z.T. auf die geringe Anzahl von Behandlungen zurückzuführen sein, die sowohl durch randomisierte kontrollierte Studien als auch durch Beobachtungsstudien ausgewertet wurden. Unsere Ergebnisse sind möglicherweise nicht auf andere Behandlungsformen übertragbar. Weil jedoch die ausgewerteten Behandlungsarten sehr verschieden waren, ist es wahrscheinlich, daß randomisierte kontrollierte Studien und Beobachtungsstudien (zumindest jene, die seit 1985 in Zeitschriften dargestellt wurden, die im Abridged Index Medicus aufgelistet sind) oft ähnliche Ergebnisse hervorbringen.
    Es bestanden Diskrepanzen zwischen den Konfidenzintervallen der Beobachtungs- und der randomisierten kontrollierten Studien, die CABG mit PTCA verglichen bei Patienten mit geringem Risiko. Die Mortalitätsraten waren ähnlich für die beiden Behandlungsformen in der randomisierten kontrollierten Studie, aber in der Beobachtungsstudie waren die Mortalitätsraten für die Patienten, die sich CABG unterzogen, höher, besonders während der ersten 60 Tage nach der Operation. (73) In der randomisierten kontrollierten Studie hatten die Patienten mit geringem Risiko, die sich einer CABG unterzogen, eine sehr niedrige Mortalität. Diese Mortalitätsrate ist möglicherweise nicht repräsentativ für die Mortalitätsrate für CABG in den meisten Gemeindekrankenhäusern. (74)
    Die größte statistisch Diskrepanz zwischen den Ergebnissen der zwei Arten von Studien bestand für die Studien, die pneumatische Retinopexie mit Buckelchirurgie verglichen in der Behandlung der Netzhautablösung. Die Beobachtungsstudien und die randomisierte kontrollierte Studie ergaben beide, daß die Behandlungsmethoden mit vergleichbaren Heilungsraten nach der Reoperation und ähnlichen Raten postoperativer proliferativer Vitreoretinopathie zusammenhingen. (24- 26) Die randomisierte kontrollierte Studie jedoch, aber nicht die Beobachtungsstudie, fanden, daß beide Behandlungsmethoden zu ähnlichen Heilungsraten nach der ersten Operation führten, und daß pneumatische Retinopathie ein besseres visuelles Ergebnis erbrachte als Buckelchirurgie. Die Ergebnisse für Patienten, die sich einer Buckelchirurgie unterzogen, waren für beide Studienarten ähnlich. Eine mögliche Erklärung für diese Ergebnisse ist, daß die Patienten, die sich einer Retinopexie unterzogen hatten, in der Beobachtungsstudie ein höheres Risiko hatten, als jene, die sich einem skleralen buckling unterzogen. Eine wahrscheinlichere Erklärung ist jedoch, daß das Behandlungsresultat in der Retinopexiestudie der randomisierten kontrollierten Studie ungewöhnlich gut war.
    Wir wählten Artikel nicht aus, um die Heterogenität der Ergebnisse zu reduzieren oder eine hohe Qualität sicherzustellen (außer daß Artikel aus den Zeitschriften, die im Abridged Index Medicus aufgeführt sind, in jeden Behandlungsvergleich einbezogen wurden). Die Auswahl der Selektionskriterien war subjektiv und könnte sich auf die Ergebnisse ausgewirkt haben. (75) Auf der anderen Seite könnten unsere Ergebnisse beeinflußt sein durch den Einschluß fehlerbehafteter Studien. Unser Ergebnis, daß Beobachtungsstudien und randomisierte kontrollierte Studien gewöhnlich ähnliche Ergebnisse hervorbringen, weicht von den Schlußfolgerungen früherer Autoren ab. Eine Studie aus 1977 wertete die Anhaltspunkte für die Wirksamkeit von Antikoagulantien in der Behandlung des akuten Myokardinfarkts aus, indem acht Beobachtungsstudien und sechs randomisierte kontrollierte Studien verglichen wurden. (5) Die Differenzen in den Mortalitätsraten zwischen Kontroll- und Behandlungsgruppe waren in den Beobachtungsstudien größer als in den randomisierten kontrollierten Studien. Die einbezogenen Beobachtungsstudien stammten von vor 1975 und die Autoren verwendeten nicht die derzeit gebräuchlichen Metaanalysetechniken für das Poolen der Daten. Die Ergebnisse des Vergleichs könnten abweichend gewesen sein, wenn die heutigen Methoden verwendet worden wären, um die Ergebnisse mehrerer Studien zu kombinieren.
    Einige derselben Autoren sichteten später 160 Studien, die sechs kardiologische Behandlungformen auswerteten. Sie fanden, daß die berichteten Ergebnisse für die Behandlungsgruppe bei 60 Prozent der randomisierten kontrollierten Studien und 93 Prozent der Beobachtungsstudien besser war als für die unbehandelte Gruppe. Wie bereits erwähnt, waren jedoch die meisten der Untersuchungen zu Betablockern randomisierte kontrollierte Studien, die Koronarversorgungsstationen (coronary care units) auswerteten, Beobachtungsstudien waren. (76) Die größeren Behandlungseffekte in den Beobachtungsstudien ließen sich erklären durch die größere Wirksamkeit der Behandlung in Koronarversorgungsstationen als die der Betablockertherapie.
    Drei weitere Studien, die allgemein zitiert werden um die Unangemessenheit von Beobachtungsdaten zu belegen (7-9) sowie eine, die keine Verzerrung in Beobachtungsdaten ergab (77), verglichen ebenso Beobachtungsstudien mit randomisierten kontrollierten Studien, die verschiedene Behandlungsmethoden untersuchten. Verglichen mit diesen früheren Studien hat unser Vorgehen den Vorteil, daß die Vergleiche in Bezug auf die Behandlungsmethode stratifiziert wurden. Darüberhinaus waren die Studien, die wir sichteten, neuer und haben möglicherweise bessere Methoden angewandt als jene in den früheren Durchsichten.
    Eine kürzlich durchgeführte Forschungsarbeit zum Vergleich von Beobachtungsstudien und randomisierten kontrollierten Studien wurde von der United Kingdom Health Technology Assessment Group (1,3) durchgeführt. Sie fand acht Behandlungsmethoden, die von uns nicht ausgewertet wurden, die Gegenstand von randomisierten kontrollierten Studien und einer Beobachtungsstudie mit Kontrollgruppe waren. In sieben von diesen bestanden keine Unterschiede zwischen den Ergebnissen der randomisierten kontrollierten Studie und denen der Beobachtungsstudien und in der verbleibenden war der Effekt größer in der Beobachtungsstudie. Im letzten Behandlungsvergleich (Kostenersparnis im Zusammenhang mit Hospizversorgung) (73) differierte die Zeitdauer im Hospiz zwischen beiden Studienarten. Die Studie der United Kingdom Health Technology Assessment Group zog die Schlußfolgerung, daß es keine systematischen Verzerrungen in Beobachtungsstudien gab.
    Obwohl die Beobachtungsstudien im allgemeinen gültige Resultate haben können, gibt es bekannte Beschränkungen. Besonders, wie von Green und Byar (79) gefunden wurde, können Beobachtungsstudien nicht verwendet werden, um Behandlungsmethoden auszuwerten, die Ärzte für die am schlimmsten betroffenen Patienten routinemäßig auswählen. Auf der Grundlage unserer Erkenntnisse kommt dieser Mißbrauch von Beobachtungsstudien in der neueren im Abridged Index Medicus aufgelisteten Literatur nicht häufig vor.
    Die fundamentale Kritik an Beobachtungsstudien ist, daß unerkannte konfundierende Faktoren die Ergebnisse verzerren könnten. Nach der konventionellen Weisheit ist diese Verzerrung hinreichend und nicht vorhersagbar, sodaß Beobachtungsstudien nicht reliabel sind und nicht finanziell unterstützt werden sollten. Unsere Ergebnisse legen nahe, daß Beobachtungsstudien normalerweise valide Informationen liefern. Sie könnten eingesetzt werden, um die vielen kürzlich entwickelten klinisch reichhaltigen Datenbanken auszuwerten. Allein mit einer größeren Bereitschaft, diese Datenbanken zu analysieren, ist es möglich, ein realistisches Verständnis davon zu erhalten, wie Beobachtungsstudien am besten eingesetzt werden können.
    Teilweise unterstützt durch die Health Services and Resources Administration (PD15 und 5D32PE10195-02) und dem National Heart, Blood and Lung Institute (2T35HL07485-21)
    Wir danken Dedra Diehl, M.L.S. für Hilfe bei der Bibliotheksarbeit.

    Legende zu den Abbildungen:
  • Zu Abbildung 1:
    Ergebnisse der Beobachtungsstudien und der kontrollierten kardiologischen Studien. Die Abbildung basiert auf Daten aus acht Artikeln (13-20). Einige Artikel enthalten Daten von mehr als einer Studie. OR bezeichnet den Odds Ratio, CI Konfidenzintervall, CAD koronare Herzkrankheit (coronary heart disease), CABG (coronary artery bypass graft surgery) Bypass-Operation der Koronararterien, PTCA (percutaneaous transluminal coronary angioplasty (perkutane transluminale Koronarangioplastie), CASS (coronary artery surgery study) Koronararterien-Opertionsstudie, und Duke die Duke University Cardiovascular Disease Databank. Sternchen kennkeichnene Studien, die anstelle der Odds Ratios relative Risiken berichteten, Spaten kennzeichnen Studien, die weder Konfidenzintervalle noch einen P-Wert für die Odds Ratios angeben.
  • Zu Abbildung 2:
    Ergebnisse von Beobachtungsstudien und randomisierten kontrollierten Studien von nichtkardiologischen Behandlungen. Diese Abbildung basiert auf Daten aus 20 Artikeln. (21-40). Einige Artikel enthalten Daten aus mehr als einer Studie. OR bezeichnet Odds Ratio, CI Konfidenzintervall. Das Sternchen kennzeichnet eine Studie, die anstelle der Odds Ratios relative Risiken berichtete.
  • Zu Abbildung 3:
    Prozentuale Veränderung der Lumbalknochendichte bei Frauen in der Postmenopause nach einem oder zwei Jahren Hormonsubstitutionstherapie verglichen mit Kontrollen. Die Abbildung basiert auf Daten aus 15 Artikeln (43-57). CI bedeutet Konfidenzintervall
  • Zu Abbildung 4:
    Odds Ratio für das Überleben des Eingriffs der Nierentransplantation bei Patienten, die eine Behandlung mit Kalziumchannelblockern erhielten im Vergleich zu Kontrollen.
    Die Abbildung basiert auf Daten aus sechs Artikeln (58-63). Die neun randomisierten kontrollierten Studienwurden analysiert von Ladefoged and Andersen (63) OR bedeutet Odds Ratio, CI Konfidenzintervall.
Schlußfolgerungen:
Wir fanden kaum Anhaltspunkte dafür, daß Schätzungen der Behandlungseffekte in Beobachtungsstudien seit 1984 konsistent größer oder qualitativ verschieden sind von solchen, die in randomisierten kontrollierten Studien erhalten wurden.

zurück  zum Seitenanfang
Naturheilkunde Tagesklinik AG - Deutschhausstr. 28 - 35037 Marburg -
Telefon: 0 64 21 - 69 00 74 - Fax: 0 64 21 - 69 00 72
nhk-ag@gmx.de -  Datenschutzerklärung  -  Impressum