Obwohl Pilotstudien ein entscheidender Schritt im Prozess der Entwicklung und Erprobung von Interventionen sind, gibt es einige Missverständnisse über ihren tatsächlichen Nutzen und Missbrauch. Das NCCIH hat ein Framework for Developing and Testing Mind and Body Interventions entwickelt, das kurze Informationen zu Pilotstudien enthält. Hier bieten wir zusätzliche Hinweise speziell zu den Vor- und Nachteilen von Pilotstudien.
Eine Pilotstudie ist definiert als „Ein Test in kleinem Maßstab der Methoden und Verfahren, die in größerem Maßstab angewendet werden sollen“ (Porta, Dictionary of Epidemiology, 5. Auflage, 2008). Ziel der Pilotstudie ist es nicht, Hypothesen über die Auswirkungen einer Intervention zu testen, sondern vielmehr die Durchführbarkeit/Akzeptanz eines Ansatzes zu bewerten, der in einer Studie in größerem Maßstab verwendet werden soll. Bei einer Pilotstudie geht es also nicht um die Beantwortung der Frage „Wirkt diese Maßnahme?“. Stattdessen sammelt man Informationen, die bei der Beantwortung der Frage „Kann ich das tun?“
- Verwendung von Pilotstudien
- Missbräuche von Pilotstudien
- Warum können Pilotstudien nicht zur Bewertung der Sicherheit und Verträglichkeit verwendet werden?
- Warum können Pilotstudien keinen „vorläufigen Test“ der Forschungshypothese liefern?
- Warum können Pilotstudien keine Effektgrößen für die Leistungsberechnungen einer größeren Studie schätzen?
Verwendung von Pilotstudien
Es gibt viele Aspekte der Durchführbarkeit und Akzeptanz, die untersucht werden können, um die Frage „Kann ich das tun?“ zu beantworten. Hier sind einige Beispiele:
Durchführbarkeitsfragen | Durchführbarkeitsmaßnahmen |
Kann ich meine Zielpopulation rekrutieren? | Anzahl der gescreenten Teilnehmer pro Monat; Anzahl der eingeschriebenen Teilnehmer pro Monat; durchschnittliche Zeitspanne vom Screening bis zur Einschreibung; durchschnittliche Zeitspanne bis zur Einschreibung einer ausreichenden Anzahl von Teilnehmern zur Bildung von Klassen (gruppenbasierte Interventionen) |
Kann ich meine Zielpopulation randomisieren? | Anteil der in Frage kommenden Teilnehmer, die sich einschreiben; Anteil der eingeschriebenen Teilnehmer, die an mindestens einer Sitzung teilnehmen |
Kann ich Teilnehmer in der Studie halten? | Behandlungsspezifische Haltequoten für Studienmaßnahmen; Gründe für Studienabbrüche |
Werden die Teilnehmer das tun, was von ihnen verlangt wird? | Behandlungsspezifische Haltequoten für das Studienprotokoll (Teilnahme an persönlichen Sitzungen, Hausaufgaben, Sitzungen zu Hause usw.)); behandlungsspezifische Kompetenzmessungen |
Kann die Behandlung(en) gemäß Protokoll durchgeführt werden? | Behandlungsspezifische Treuequoten |
Sind die Bewertungen zu aufwändig? | Anteil der geplanten Bewertungen, die abgeschlossen werden; Dauer der Bewertungsbesuche; Gründe für Abbrüche |
Sind die Behandlungsbedingungen für die Teilnehmer akzeptabel? | Akzeptanzbewertungen; qualitative Bewertungen; Gründe für Abbrüche; behandlungsspezifische Präferenzbewertungen (vor und nach der Intervention) |
Sind die Behandlungsbedingungen glaubwürdig? | Behandlungsspezifische Nutzenerwartungsbewertungen |
Möglicherweise fallen Ihnen weitere Fragen zur Durchführbarkeit ein, die für Ihre spezifische Intervention, Population oder Konzeption relevant sind. Beim Entwurf einer Pilotstudie ist es wichtig, klare quantitative Maßstäbe für die Durchführbarkeit festzulegen, anhand derer Sie die erfolgreiche oder nicht erfolgreiche Durchführbarkeit bewerten (z. B. könnte ein Maßstab für die Bewertung der Adhärenzraten darin bestehen, dass mindestens 70 Prozent der Teilnehmer in jedem Arm an mindestens 8 von 12 geplanten Gruppensitzungen teilnehmen). Diese Benchmarks sollten für die spezifischen Behandlungsbedingungen und die untersuchte Population relevant sein und werden daher von Studie zu Studie variieren. Auch wenn ein randomisiertes Design für Pilotstudien nicht immer erforderlich ist, kann eine Vergleichsgruppe eine realistischere Untersuchung der Rekrutierungsraten, der Randomisierungsverfahren, der Durchführung der Interventionen, der Verfahren zur Aufrechterhaltung verblindeter Bewertungen und der Möglichkeit zur Bewertung unterschiedlicher Abbrecherquoten ermöglichen. Die Maßnahmen zur Durchführbarkeit unterscheiden sich wahrscheinlich zwischen „Open-Label“-Studien, bei denen die Teilnehmer wissen, wofür sie sich entscheiden, und randomisierten Studien, bei denen sie einer Gruppe zugewiesen werden.
Neben der Bereitstellung wichtiger Durchführbarkeitsdaten, wie oben beschrieben, bieten Pilotstudien den Studienteams auch die Möglichkeit, gute klinische Praktiken zu entwickeln, um die Strenge und Reproduzierbarkeit ihrer Forschung zu verbessern. Dazu gehört die Entwicklung von Dokumentations- und Einwilligungsverfahren, Datenerfassungsinstrumenten, Meldeverfahren und Überwachungsverfahren.
Das Ziel von Pilotstudien ist nicht die Prüfung von Hypothesen; daher sollten keine inferentiellen Statistiken vorgeschlagen werden. Daher ist es nicht notwendig, Power-Analysen für den vorgeschlagenen Stichprobenumfang Ihrer Pilotstudie vorzulegen. Stattdessen sollte die vorgeschlagene Stichprobengröße für die Pilotstudie auf praktischen Erwägungen beruhen, einschließlich der Teilnehmerzahl, Budgetbeschränkungen und der Anzahl der Teilnehmer, die für eine vernünftige Bewertung der Durchführbarkeitsziele erforderlich sind.
Dieses Testen der Methoden und Verfahren, die in einer Studie in größerem Maßstab verwendet werden sollen, ist die entscheidende Vorarbeit, die wir mit PAR-14-182 unterstützen möchten, um den Weg für die Wirksamkeitsstudie in größerem Maßstab zu ebnen. Als Teil dieses Prozesses können die Forscher auch Zeit damit verbringen, ihre Intervention durch iterative Entwicklung zu verfeinern und dann die Durchführbarkeit ihres endgültigen Ansatzes zu testen.
Missbräuche von Pilotstudien
Anstatt sich auf die Durchführbarkeit und Akzeptanz zu konzentrieren, konzentrieren sich die vorgeschlagenen Pilotstudien allzu oft auf ungeeignete Ergebnisse, wie z. B. die Bestimmung der „vorläufigen Wirksamkeit“. Zu den häufigsten Missbräuchen von Pilotstudien gehören:
- Versuch, die Sicherheit/Verträglichkeit einer Behandlung zu bewerten,
- Versuch, einen vorläufigen Test der Forschungshypothese zu liefern, und
- Schätzung von Effektgrößen für Leistungsberechnungen der größeren Studie.
Warum können Pilotstudien nicht zur Bewertung der Sicherheit und Verträglichkeit verwendet werden?
Investigatoren schlagen oft vor, die „vorläufige Sicherheit“ einer Intervention im Rahmen einer Pilotstudie zu untersuchen; aufgrund der kleinen Stichprobengrößen, die typischerweise mit Pilotstudien verbunden sind, können sie jedoch keine nützlichen Informationen über die Sicherheit liefern, außer in extremen Fällen, in denen ein Todesfall auftritt oder wiederholte schwerwiegende unerwünschte Ereignisse auftreten. Bei den meisten von den NCCIH-Prüfern vorgeschlagenen Maßnahmen sind mutmaßliche Sicherheitsbedenken eher minimal/selten und werden daher wahrscheinlich nicht in einer kleinen Pilotstudie aufgedeckt. Werden Sicherheitsbedenken festgestellt, sollten gruppenspezifische Raten mit 95 Prozent Konfidenzintervallen für unerwünschte Ereignisse gemeldet werden. Wenn jedoch in der Pilotstudie keine Sicherheitsbedenken nachgewiesen werden, können die Forscher nicht zu dem Schluss kommen, dass die Intervention sicher ist.
Warum können Pilotstudien keinen „vorläufigen Test“ der Forschungshypothese liefern?
Wir sehen routinemäßig spezifische Ziele für Machbarkeits-Pilotstudien, die vorschlagen, die „vorläufige Wirksamkeit“ von Intervention A für Zustand X zu bewerten. Erstens gibt es zum Zeitpunkt der Durchführung einer Pilotstudie nur einen begrenzten Kenntnisstand über die besten Methoden zur Umsetzung der Intervention in der untersuchten Patientenpopulation. Daher sind Schlussfolgerungen darüber, ob die Intervention „funktioniert“, verfrüht, da man noch nicht weiß, ob man sie richtig umgesetzt hat. Zweitens sind Pilotstudien aufgrund der kleineren Stichprobengröße nicht geeignet, Fragen zur Wirksamkeit zu beantworten. Daher ist jede geschätzte Effektgröße uninterpretierbar – man weiß nicht, ob der „vorläufige Test“ ein richtiges, ein falsch positives oder ein falsch negatives Ergebnis geliefert hat (siehe Abbildung 1).
Warum können Pilotstudien keine Effektgrößen für die Leistungsberechnungen einer größeren Studie schätzen?
Da jede aus einer Pilotstudie geschätzte Effektgröße instabil ist, bietet sie keine nützliche Schätzung für Leistungsberechnungen. Wenn die in der Pilotstudie geschätzte Effektgröße wirklich zu groß war (d. h. ein falsch positives Ergebnis oder ein Fehler vom Typ I), würden die Leistungsberechnungen für die nachfolgende Studie eine geringere Teilnehmerzahl ergeben, als tatsächlich erforderlich wäre, um einen klinisch bedeutsamen Effekt nachzuweisen, was letztlich zu einer negativen Studie führen würde. Wenn andererseits die in der Pilotstudie geschätzte Effektgröße wirklich zu gering war (d. h. ein falsches negatives Ergebnis oder ein Fehler vom Typ II), wird die nachfolgende Studie möglicherweise gar nicht durchgeführt, da angenommen wird, dass die Intervention nicht funktioniert. Wenn die nachfolgende Studie geplant wurde, würden die Leistungsberechnungen eine viel größere Anzahl von Teilnehmern ergeben, als tatsächlich erforderlich wäre, um einen Effekt nachzuweisen, was die Chancen auf eine Finanzierung verringern könnte (zu teuer), oder, falls sie finanziert würde, eine unnötige Anzahl von Teilnehmern den Interventionsarmen aussetzen würde (siehe Abbildung 1).