Hoewel pilot studies een kritische stap zijn in het proces van interventie ontwikkeling en testen, bestaan er verschillende misvattingen over hun werkelijke gebruik en misbruik. NCCIH heeft een raamwerk ontwikkeld voor het ontwikkelen en testen van Geest en Lichaam Interventies dat beknopte informatie bevat over pilotstudies. Hier bieden we aanvullende begeleiding, specifiek over de do’s en don’ts van pilotwerk.
Een pilotstudie wordt gedefinieerd als “Een kleinschalige test van de methoden en procedures die op grotere schaal zullen worden gebruikt” (Porta, Dictionary of Epidemiology, 5e editie, 2008). Het doel van een pilootstudie is niet om hypothesen over de effecten van een interventie te testen, maar eerder om de haalbaarheid/aanvaardbaarheid te beoordelen van een aanpak die in een studie op grotere schaal zal worden gebruikt. In een pilotstudie beantwoordt u dus niet de vraag “Werkt deze interventie?”. In plaats daarvan verzamelt u informatie om u te helpen bij het beantwoorden van de vraag “Kan ik dit doen?”
- Toepassingen van pilotstudies
- Misbruik van pilotstudies
- Waarom kunnen pilotstudies niet worden gebruikt om de veiligheid en verdraagbaarheid te beoordelen?
- Waarom kunnen pilotstudies geen “voorlopige test” van de onderzoekshypothese opleveren?
- Waarom kunnen pilotstudies geen effectgroottes schatten voor vermogensberekeningen van de studie op grotere schaal?
Toepassingen van pilotstudies
Er zijn veel aspecten van haalbaarheid en aanvaardbaarheid die moeten worden onderzocht om de vraag “Kan ik dit doen?” te beantwoorden. Hier volgen enkele voorbeelden:
Haalbaarheidsvragen | Haalbaarheidsmaatregelen |
Kan ik mijn doelpopulatie rekruteren? | Aantal gescreend per maand; aantal ingeschrevenen per maand; gemiddelde tijd tussen screening en inschrijving; gemiddelde tijd om voldoende deelnemers in te schrijven om klassen te vormen (groepsgebaseerde interventies) |
Kan ik mijn doelpopulatie willekeurig indelen? | Deel van de in aanmerking komende deelnemers dat zich inschrijft; deel van de ingeschrevenen dat ten minste één sessie bijwoont |
Kan ik deelnemers aan de studie houden? | Behandelingsspecifieke retentiepercentages voor studiemaatregelen; redenen voor uitvallers |
Doen deelnemers wat hen gevraagd wordt te doen? | Behandelingsspecifieke adherentiepercentages aan het studieprotocol (bijwonen van sessies in persoon, huiswerk, thuissessies, enz.); behandelingsspecifieke competentiemetingen |
Kan (kunnen) de behandeling(en) volgens het protocol worden uitgevoerd? | Behandelingsspecifieke getrouwheidspercentages |
Zijn de beoordelingen te belastend? | Deel van de geplande beoordelingen dat wordt voltooid; duur van de beoordelingsbezoeken; redenen voor uitval |
Zijn de behandelingsvoorwaarden aanvaardbaar voor de deelnemers? | Acceptabiliteitsbeoordelingen; kwalitatieve beoordelingen; redenen voor uitval; behandelingsspecifieke voorkeursbeoordelingen (pre- en postinterventie) |
Zijn de behandelingsvoorwaarden geloofwaardig? | Behandelingsspecifieke verwachtingen van voordeelbeoordelingen |
U kunt misschien nog andere haalbaarheidsvragen bedenken die relevant zijn voor uw specifieke interventie, populatie of opzet. Bij het opzetten van een pilotstudie is het belangrijk om duidelijke kwantitatieve ijkpunten vast te stellen voor haalbaarheidsmaatregelen aan de hand waarvan u de al dan niet geslaagde haalbaarheid beoordeelt (een ijkpunt voor het beoordelen van de therapietrouw zou bijvoorbeeld kunnen zijn dat ten minste 70 procent van de deelnemers in elke arm ten minste 8 van de 12 geplande groepssessies bijwoont). Deze benchmarks moeten relevant zijn voor de specifieke behandelingsomstandigheden en de onderzochte populatie, en zullen dus van studie tot studie verschillen. Hoewel het gebruik van een gerandomiseerde opzet niet altijd noodzakelijk is voor proefstudies, kan het hebben van een vergelijkingsgroep een realistischer onderzoek opleveren van rekruteringspercentages, randomisatieprocedures, implementatie van interventies, procedures voor het handhaven van geblindeerde beoordelingen, en de mogelijkheid om te beoordelen op differentiële uitvalpercentages. Haalbaarheidsmaatregelen zullen waarschijnlijk variëren tussen “open-label” ontwerpen, waarbij deelnemers weten waar ze zich voor inschrijven, versus een gerandomiseerd ontwerp waarbij ze aan een groep worden toegewezen.
Naast het verstrekken van belangrijke haalbaarheidsgegevens zoals hierboven beschreven, bieden pilotstudies ook een kans voor studieteams om goede klinische praktijken te ontwikkelen om de nauwkeurigheid en reproduceerbaarheid van hun onderzoek te verbeteren. Dit omvat de ontwikkeling van documentatie en geïnformeerde toestemmingsprocedures, hulpmiddelen voor het verzamelen van gegevens, reglementaire rapportageprocedures en monitoringprocedures.
Het doel van proefstudies is niet om hypothesen te testen; daarom moeten geen inferentiële statistieken worden voorgesteld. Daarom is het niet nodig om poweranalyses te verstrekken voor de voorgestelde steekproefgrootte van uw pilotstudie. In plaats daarvan moet de voorgestelde steekproefgrootte van de pilotstudie worden gebaseerd op praktische overwegingen, waaronder deelnemersstroom, budgettaire beperkingen en het aantal deelnemers dat nodig is om de haalbaarheidsdoelen redelijkerwijs te evalueren.
Dit testen van de methoden en procedures die in een grootschaliger onderzoek moeten worden gebruikt, is het kritieke grondwerk dat we in PAR-14-182 willen ondersteunen, om de weg te effenen voor het grootschaliger werkzaamheidsonderzoek. Als onderdeel van dit proces kunnen onderzoekers ook tijd besteden aan het verfijnen van hun interventie door middel van iteratieve ontwikkeling en vervolgens de haalbaarheid van hun uiteindelijke aanpak testen.
Misbruik van pilotstudies
In plaats van zich te richten op haalbaarheid en aanvaardbaarheid, richten voorgestelde pilotstudies zich maar al te vaak op ongepaste resultaten, zoals het bepalen van “voorlopige werkzaamheid”. De meest voorkomende misbruiken van pilotstudies zijn:
- Proberen de veiligheid/verdraagbaarheid van een behandeling te beoordelen,
- Proberen een voorlopige test van de onderzoekshypothese te geven, en
- Effectgroottes schatten voor powerberekeningen van de studie op grotere schaal.
Waarom kunnen pilotstudies niet worden gebruikt om de veiligheid en verdraagbaarheid te beoordelen?
Onderzoekers stellen vaak voor om de “voorlopige veiligheid” van een interventie te onderzoeken in het kader van een proefstudie; maar als gevolg van de kleine steekproeven die gewoonlijk bij proefstudies worden gebruikt, kunnen deze geen bruikbare informatie over de veiligheid opleveren, behalve in extreme gevallen waarin een sterfgeval optreedt of zich herhaaldelijk ernstige ongewenste voorvallen voordoen. Voor de meeste interventies die door NCCIH-onderzoekers worden voorgesteld, zijn vermoedens van veiligheidsproblemen vrij minimaal/zeldzaam en het is dus onwaarschijnlijk dat zij in een kleine proefstudie worden opgemerkt. Als er veiligheidsproblemen worden ontdekt, moeten de groepspecifieke percentages met 95 % betrouwbaarheidsintervallen voor ongewenste voorvallen worden gerapporteerd. Als er echter geen veiligheidsproblemen worden aangetoond in de pilotstudie, kunnen onderzoekers niet concluderen dat de interventie veilig is.
Waarom kunnen pilotstudies geen “voorlopige test” van de onderzoekshypothese opleveren?
Wij zien routinematig specifieke doelen voor haalbaarheidspilotstudies die voorstellen om “voorlopige werkzaamheid” van interventie A te evalueren voor aandoening X. Er zijn echter twee hoofdredenen waarom pilotstudies niet voor dit doel kunnen worden gebruikt. Ten eerste, op het moment dat een pilotstudie wordt uitgevoerd, is de kennis over de beste methoden om de interventie toe te passen bij de onderzochte patiëntenpopulatie beperkt. Conclusies over de vraag of de interventie “werkt” zijn dus voorbarig, omdat men nog niet weet of men de interventie op de juiste manier heeft toegepast. Ten tweede, vanwege de kleinere steekproefgroottes die in pilotstudies worden gebruikt, zijn deze niet geschikt om vragen over de werkzaamheid te beantwoorden. Daarom is elke geschatte effectgrootte niet te interpreteren – u weet niet of de “voorlopige test” een waar resultaat, een vals-positief resultaat of een vals-negatief resultaat heeft opgeleverd (zie figuur 1).
Waarom kunnen pilotstudies geen effectgroottes schatten voor vermogensberekeningen van de studie op grotere schaal?
Omdat elke geschatte effectgrootte van een pilotstudie instabiel is, biedt deze geen nuttige schatting voor vermogensberekeningen. Als de geschatte effectgrootte van het proefonderzoek werkelijk te groot was (d.w.z. een vals-positief resultaat, of Type I-fout), zouden vermogensberekeningen voor het volgende onderzoek een kleiner aantal deelnemers aangeven dan feitelijk nodig is om een klinisch betekenisvol effect op te sporen, wat uiteindelijk zou resulteren in een negatief onderzoek. Anderzijds, als de geschatte effectgrootte van het proefonderzoek echt te klein was (d.w.z. een vals-negatief resultaat, of type II-fout), zou het vervolgonderzoek misschien niet eens worden voortgezet vanwege de aanname dat de interventie niet werkt. Als de vervolgstudie wel zou worden opgezet, zouden de power-berekeningen een veel groter aantal deelnemers aangeven dan feitelijk nodig is om een effect op te sporen, waardoor de kans op financiering zou kunnen afnemen (te duur), of als financiering zou worden toegekend, zou een onnodig aantal deelnemers aan de interventie-armen worden blootgesteld (zie figuur 1).