Jak nenarazit na úskalí interpretace klinických studií
Koncept medicíny založené na důkazech se opírá o výběr intervencí na základě klinických studií, které jsou vyhodnocovány statistickými metodami. Jejich interpretace ale někdy může být zavádějící. Každý čtenář by tak měl mít přehled v základech statistické problematiky, což mu umožní provést vlastní kritickou analýzu nabízených závěrů. „Častou chybou je sklon k přímému srovnání prostých číselných výsledků sledovaných parametrů, ačkoli se populace jednotlivých studií různí. V kardiologii může být příkladem výběr vhodného antikoagulancia na základě tří velkých randomizovaných studií ARISTOTLE, RE‑LY a ROCKET. Zatímco v prvních dvou jmenovaných byl medián skóre CHA₂DS₂‑VASc 2,1, studie ROCKET s rivaroxabanem se zúčastnili rizikovější nemocní s mediánem CHA₂DS₂‑VASc 3,5. Takový rozdíl samozřejmě ovlivní výsledky,“ komentoval na letošním XXX. sjezdu ČKS RNDr. Michal Svoboda z Institutu biostatistiky a analýz, s. r. o., v Brně. Tuto část programu podpořila společnost Bayer.
RNDr. Svoboda se podrobněji věnoval srovnatelnosti v rámci jedné studie i napříč různými publikacemi. „Srovnatelnost úzce souvisí se zkreslením. Zkreslení nastává, pokud mají na výsledky studie vliv jiné faktory než ty, které jsou cílem studie. Nejsou‑li vybrané populace srovnatelné, může nastat zkreslení a výsledky přestávají být validní, vždy totiž platí, že korektní výsledky při srovnávacích analýzách lze získat pouze při srovnávání srovnatelného. Příkladem je, pokud je jedna ze srovnávaných populací ve smyslu celkové mortality výrazně starší než druhá, nebo již výše uvedené rozdílné rizikové skóre. V kontrolovaných klinických studiích je srovnatelnost zajištěna randomizací, která ale musí být správně nastavena a měla by ideálně být stratifikována na předpokládané významné faktory, které by mohly výsledky zkreslit (např. věk, pohlaví). U studií bez randomizace lze použít statistické metody typu adjustace nebo párování, například na základě propensity skóre,“ řekl a pokračoval: „Obecným nešvarem interpretace klinických studií je zaměření se pouze na výsledky. Neméně důležité je ale podívat se také na základní přehledovou tabulku vstupních charakteristik jednotlivých skupin, ve které jsou vypsány nejrůznější proměnné a jejich hodnoty. Jedná se o parametry kategoriální, které rozdělují nemocné do skupin, například pohlaví na muže a ženy. Zastoupení jednotlivých skupin v procentech (které už reflektuje případnou rozdílnou velikost ramen) by u srovnávaných populací mělo být obdobné, pokud mají být ramena v daném parametru srovnatelná. Dále se jedná o parametry kvantitativní, například věk. Tyto parametry jsou většinou vyjádřeny průměrem, resp. mediánem v dané skupině, doplněným směrodatnou odchylkou (SD), resp. rozsahem nebo interkvartilovým rozpětím (IQR), které popisují míru variability.“
Dalším základním principem biostatistiky je reprezentativnost, která určuje, zda lze vztáhnout výsledky studie na vybranou celkovou populaci – například obecné pacienty. Každá studie je provedena na vzorku, který je z populace vybrán, s tím, že pro zachování reprezentativnosti musí být adekvátní už vzorkování. Na vzorek jsou následně aplikovány statistické metody a výsledky jsou zobecněny. Platí přitom ale, že výsledky klinických studií nelze vztahovat na jinou populaci než tu, která odpovídá souboru skutečně hodnocených pacientů. Je‑li tedy například nějaký lék shledán účinným ve vzorku osob nad 40 let, nelze jeho účinnost předpokládat u osob mladších, na druhou stranu, pokud se ukáže v selektované skupině jako neúčinný, pak to nutně neznamená, že je neúčinný i u mladších nemocných. „Kromě toho, pokud došlo během vzorkování k výběru v nějakém parametru nereprezentativnímu pro celkovou populaci, lze výsledek vztáhnout jen na tu její část, která odpovídá vlastnostem vzorku. V praktické rovině se je třeba při interpretaci studie z hlediska reprezentativnosti zaměřit na inkluzní a exkluzní kritéria a základní přehledovou tabulku vstupních vlastností skutečně zapojených nemocných,“ komentoval RNDr. Svoboda.
RNDr. Svoboda se následně zaměřil na rozdíly mezi vyjádřením kvantitativních parametrů v populaci pomocí aritmetického průměru a mediánu. Průměr představuje těžiště dat, při kterém je součet rozdílů podprůměrných hodnot od průměru stejný jako součet nadprůměrných hodnot od průměru. „Hodnotu průměru tak ovlivňuje absolutní výše všech datových hodnot v souboru. Je‑li přitom menšina z nich extrémně odlehlá od těch ostatních, může hodnotu průměru poměrně značně vychýlit. Naopak medián se stanovuje tak, že se hodnoty seřadí podle velikosti a medián je v případě lichého počtu hodnot ta prostřední z nich, v případě sudého aritmetický průměr dvou středních hodnot. Medián proto není výrazně ovlivněn odlehlými extrémními hodnotami a polovina hodnot je vyšší než hodnota mediánu a polovina nižší. V souboru se symetricky rozloženými daty je průměr a medián identický a do rozpětí průměr +/– 3 SD spadá 99,5 procenta naměřených hodnot. Jednoduchým orientačním testem pro určení, zda je rozložení normální, a tedy symetrické, je odečíst a přičíst k průměru trojnásobek SD. Pokud dostaneme přibližně minimální a maximální naměřenou hodnotu, pak se skutečně o normální rozložení jedná,“ sdělil a dodal: „S mediánem úzce souvisí pojem kvantil. Kvantily populaci rozdělují na dvě skupiny – například sedmdesátiprocentní kvantil na vrchních 30 procent a spodních 70 procent. Medián je proto shodný s padesátiprocentním kvantilem. Percentil je potom principiálně totéž, jen se lingvisticky nepojí s procenty, hovoříme o sedmdesátém percentilu. V klinických studiích se ještě velmi často setkáváme s pojmem interkvartilové rozpětí (IQR) mezi dvacetipětiprocentním a sedmdesátipětiprocentním kvantilem. IQR je často uveden v základních přehledových tabulkách za mediánem a dále specifikuje variabilitu kvantitativní proměnné, například věku.“
Téměř každý ví, že statisticky signifikantní výsledek je takový, který je označen p‑hodnotou pod arbitrárně zvolených 0,05, respektive tvrdších 0,001. Větší problémy ale dělá správná interpretace intervalu spolehlivosti (CI) a toho, jaký má k p‑hodnotě vztah. „CI ukazuje, jak přesný je výpočet průměru, mediánu a podobných parametrů. Například 95% CI znamená, že existuje 95% pravděpodobnost, že skutečná hodnota měřené proměnné v populaci spadá do hodnot vymezených CI. Čím užší je CI, tím více je omezeno, jak moc se průměr nebo medián může s touto pravděpodobností odchýlit od reality. CI se zužuje se stoupající velikostí vzorku a naopak klesající variabilitou dat, dále ho ovlivňuje požadovaná spolehlivost – 95% CI bude užší než 99% CI, ale nebudeme si tak jisti, že skutečná hodnota v populaci se opravdu ve vymezeném intervalu nachází. V extrémním případě, pokud by vzorek obsáhl celou populaci, pak by byl CI nejužší a odpovídal by naměřené hodnotě,“ řekl a dále vysvětloval: „Cílem klinické studie je určit, zda může být nulová hypotéza (H0 – intervence nemá účinek) zamítnuta, respektive alternativní hypotéza (nonH0 – intervence má účinek) potvrzena. Pokud intervence ve skutečnosti nemá účinek, ale H0 se přesto zamítne, vzniká chyba 1. druhu alfa, tedy falešně pozitivní výsledek. Naopak pokud intervence ve skutečnosti účinek má, ale H0 se nezamítne, vzniká chyba 2. druhu beta a výsledek falešně negativní. Stanovení požadované hladiny významnosti testu, tedy akceptovatelné míry pravděpodobnosti, že naměřený výsledek bude falešně pozitivní, je součástí designu studie. Nejčastěji předdefinovaná alfa odpovídá pěti procentům. P‑hodnota potom je významnost testu skutečně dosažená. Pokud je p nižší než alfa, pak lze H0 zamítnout a říci se stanovenou mírou pravděpodobnosti, že intervence funguje, a analogicky je‑li alfa stejná nebo větší než p, pak nulovou hypotézu nezamítáme. Zároveň v případě podílů platí, že statisticky signifikantní výsledek je takový, ve kterém CI neobsahuje hodnotu 1. To by totiž znamenalo, že ve skutečné populaci také může být s danou pravděpodobností HR = 1 a mezi oběma intervencemi není žádný rozdíl. HR potom označuje, kolikrát je vyšší nebo nižší riziko sledovaného parametru při srovnání obou intervencí – například HR = 0,5 znamená, že při užití intervence A mají pacienti 50% relativní redukci rizika oproti užití intervence B.“
Častou chybou je podle RNDr. Svobody srovnání účinnosti intervencí na základě pouhých p‑hodnot ze dvou studií, kdy pro intervenci A vyšlo například p = 0,001, pro intervenci B vyšlo p = 0,03. „V takovém případě nelze říct, že je intervence A účinnější než intervence B, a to ani v případě, že by nominální hodnota sledovaného parametru vyšla stejně. Na paměti je třeba mít, že dosaženou p‑hodnotu silně ovlivňuje velikost vzorku. Může se tak stát, že i minimální a z klinického hlediska profitu pro pacienty zanedbatelný rozdíl mezi dvěma intervencemi naměřený ve velké studii může vyjít statisticky významný, a naopak poměrně velký rozdíl, který intuitivně klinik vnímá jako podstatný, ale naměřený na malém vzorku, vyjde statisticky nevýznamně. Statistická a praktická významnost se tak nemusí vždy překrývat a často tomu tak ani není, byť se to tak v prostředí medicíny založené na důkazech většinou bere. P‑hodnota by se proto měla brát s rezervou, a to i z toho důvodu, že s ní jde velikostí vzorku manipulovat. Na druhou stranu před provedením studie by se vždy měla udělat analýza na požadovanou velikost vzorku tak, aby mělo význam studii provádět.“
Klíčem k interpretaci výsledků je podle RNDr. Svobody vědět, ke které studijní populaci se výsledky vztahují. V naprosté většině studií jsou výsledky uváděny pro ITT (intention‑to‑treat) populaci, tedy zhodnocena jsou data od všech randomizovaných pacientů. Mezi randomizací a poskytnutím intervence, například podáním první dávky léčiva, ale může dojít k vyřazení části subjektů. Proto se výsledky ITT a takzvané safety populace, která alespoň jednu dávku obdržela, mohou lišit, při vyšším drop‑out i poměrně významně. Poslední častěji zmiňovanou populací je per protocol, tedy populace, která studijní protokol dokončila celý. „Příkladem studie, jejíž interpretace je rozdílná na základě hodnocené populace, je opět ROCKET. V té vyšel rivaroxaban oproti warfarinu z hlediska primárního sledovaného parametru statisticky signifikantně s p < 0,001 non‑inferiorní jak v safety a per protocol populaci, tak v populaci ITT. Superiorita v populaci ITT, ve které ovšem někteří pacienti vůbec žádný lék nedostali, ale těsně prokázána nebyla s hazard ratio (HR) 0,88 a 95% CI 0,75–1,01. Naopak při analýze safety populace
Součástí většiny velkých randomizovaných studií je analýza podskupin. Mezi odbornou veřejností potom často přetrvává tendence extrapolovat výsledky této analýzy na populace v reálné klinické praxi – například pokud intervence vyjde účinnější u žen než u mužů a u mladších než u starších pacientů, tak zhodnotí, že danou intervenci je nejvýhodnější použít u mladších žen. „To je ale zavádějící a analýza podskupin by měla být použita jen ke zhodnocení konzistence výsledků. Většina analýz podskupin má totiž tendenci zveličovat skutečnost a opatrnost je namístě zejména tehdy, pokud je účinek v nějaké podskupině významný, ale celkově vyjde nevýznamně. V analýze podskupin je totiž mnohem větší prostor pro zkreslení. Randomizací se sice docílí toho, že je ve srovnávaných skupinách stejný poměr mužů a žen a stejný věkový průměr, už ale nelze říci, že jsou všechny ženy ve všech větvích zároveň vyrovnaně staré. Může se tak stát, že v jedné větvi jsou například ženy výrazně mladší než ve větvi druhé a lepších výsledků dosahují pro svůj věk, ne proto, že by byla intervence účinnější. Anebo jiný příklad – pohlaví a věk vstoupily do randomizace, ale nevstoupila tam přítomnost diabetu. Na celém souboru je tedy randomizací zaručena srovnatelnost ramen ve věku a pohlaví (protože věk a pohlaví byly v randomizaci), ale v podskupině diabetiků už tato srovnatelnost zajištěna není a jedno rameno může být starší než druhé. Zároveň se při analýze podskupin provádí mnohonásobné testování – s každou testovanou hypotézou dochází k riziku, že vznikne chyba prvního druhu. Je‑li parametr jeden, je pravděpodobnost, že se chyba nestane, například předdefinovaných 95 procent. Při třech parametrech to ale je už 0,95 × 0,95 × 0,95, tedy 0,857. V takovém případě významně narůstá pravděpodobnost, že minimálně jeden z těch výsledků, co lze v tabulce analýzy podskupin vidět, je falešně pozitivní – v tomto případě z pěti procent na 14,3 procenta,“ sdělil a dodal: „V případě, že se v jedné podskupině jeví intervence jako účinnější, pak je namístě tento výsledek brát jako exploratorní, a pokud je žádoucí tento trend potvrdit, pak je třeba provést další klinickou studii s příslušnými inkluzními a exkluzními kritérii. Kredibilitu analýzy podskupin lze zvýšit provedením některých statistických metod pro korekci mnohonásobného testování, jako je hierarchické testování nebo Bonferroniho korekce.“