Achillova pata projektu COLOSS v ČR

(monitoring zimních ztrát včelstev)

Historie: zkrachovalý průzkum s účastí 2,4 milionů respondentů
Jak se taková chyba mohla stát...?
Co je to reprezentativní vzorek? -----> Způsoby sestavení reprezentativního vzorku
Anketa s efektem sněhové koule
COLOSS o problému ví, ale Češi nedbají -----> Výběr respondentů projektu COLOSS ve Skotsku
Zlínský kraj – zimní ztráty dvakrát jinak
Kritická místa tuzemského COLOSSu -----> Možná řešení problému českého COLOSSu

V České republice probíhá druhý ročník monitoringu zimních ztrát včelstev v rámci mezinárodního projektu COLOSS. Informace od včelařů jsou získávány formou dotazníku, z kterého sofistikovanými statistickými metodami organizátoři projektu vyvozují závěry a porovnávají je v celoevropském měřítku. Tyto výsledky jsou publikovány také v ČR a někdy je používá státní správa při hodnocení metodiky tlumení varroázy. Slabinou celého projektu je ale výběr respondentů – vyvozené závěry nejsou reprezentativní ač se tak tváří a snadno mohou být mylné.

Historie: zkrachovalý průzkum s účastí 2,4 milionů respondentů

The Literary Digest
(ukázka obálky z roku 1921, zdroj: Wikipedia)

V historii dotazníkových průzkumů existuje příklad velmi podobné paralely. Pojďme se na něj nejprve podívat – následné srovnání možných důsledků bude mnohem názornější:

Ctihodný časopis The Literary Digest s více než jedním milionem čtenářů a téměř padesátiletou historií zanikl v roce 1938. Hlavní příčinou byl chybný výsledek předvolebního průzkumu z roku 1936, který vedl ke ztrátě důvěry a odlivu čtenářů. Přístupy ke sběru dat The Literary Digest a projektu COLOSS jsou přitom velmi podobné, využívají co nejsnazší cestu k respondentům namísto reprezentativního výběru.
Ač předchozí předvolební průzkumy amerických prezidentských voleb The Literary Digest odhadl správně, v roce 1936 dopadl doslova katastrofálně – chybné výsledky vedly ke ztrátě důvěryhodnosti a posléze i konci časopisu. V osmém roce hospodářské krize kandidoval republikán Alf Landon proti stávajícímu prezidentovi, demokratovi Franklinu Rooseveltovi. The Literary Digest rozeslal deset milionů anketních lístků, vyplněných se vrátilo 2,4 milionu (jde o jeden z nejrozsáhlejších předvolebních průzkumů v dějinách vůbec). Jednoznačnost výsledků těchto voleb dosáhla v mnoha ohledech na přední příčky v celé historii Spojených států. Roosevelt díky většinovému volebnímu systému vyhrál v 46 státech z 48; volilo jej 61 % voličů. Ale The Literary Digest přitom předpovídal výhru republikána Landona o 14 % nad jeho demokratickým soupeřem... Spletl se tedy o neuvěřitelných 38 %!

Jak se taková chyba mohla stát...?

pojem	definice	příklad
základní soubor	všichni dotčení dostupní jedinci	všichni včelaři v ČR
výběrový soubor	skupina skutečně zkoumaných jedinců	účastníci projektu COLOSS
Zobecnit výsledky šetření provedeného na výběrovém souboru lze na základní soubor pouze tehdy, byl-li zkoumaný vzorek jedinců vybrán reprezentativním způsobem.
Reprezentativní výběrový soubor odpovídá základnímu souboru ve všech podstatných skutečnostech.

Ihned po volbách se začalo pátrat po příčinách odlišnosti průzkumu a výsledků. Tato činnost pokračovala i v následujících desetiletích a díky celé kauze nebylo dodnes zapomenuto jméno časopisu neboť slouží jako učebnicový příklad špatně provedeného průzkumu. Hlavní příčiny byly dvě:

Chybné sestavení výběrového souboru dotazovaných (váha této příčiny je taková, že je často uváděna jako jediná). The Literary Digest svoje dotazníky zaslal na adresy svých předplatitelů, majitelů automobilů a telefonů (dostupné databáze). V době probíhající hospodářské krize se ale nepochybně jednalo o bohatší část americké populace. Chudí se v těchto seznamech prostě nevyskytovali – automobil či předplatné si nemohli dovolit... Jejich volební preference byly však zcela jistě odlišné od bohatých Američanů (Roosevelt ve svém předchozím prezidentském období prosazoval m.j. sociální reformy pro zmírnění dopadu hospodářské krize – u chudší části voličů tím nepochybně získal sympatie).
Míra odezvy anketního průzkumu. Tedy ochota odeslat odpověď. Uvádí se, že byla vyšší u lépe vzdělaných a bohatších občanů, kteří byli Landonovi voliči. Tohoto problému si všimli i v samotném The Literary Digest: „Bydlí republikáni blíže poštovních schránek než demokraté?“, ptali se sami sebe.

Co je to reprezentativní vzorek?

V předvolebním průzkumu je technicky nerealizovatelné zeptat se na názor všech voličů a získat tak data od celého základního souboru. Musíme si vystačit jen s výběrovým vzorkem. A zde je kámen úrazu. Nebude-li náš vzorek dotazovaných odpovídat reprezentativně celému základnímu souboru zkoumané populace, neměli bychom na ni zobecňovat výsledky šetření. V tomto ohledu je celkem jedno, zda je nereprezentativnost výběrového souboru způsobena jeho špatným sestavením či neochotou části respondentů účastnit se šetření. Vraťme se ke včelám: Lze se například domnívat, že včelaři s vyššími úhyny budou mít nižší ochotu odpovídat. Stejně jako ti, kteří třeba používali neschválená léčiva či na ošetřování zcela „zapomněli“.
A jak vypadá takový reprezentativní vzorek? Odpovídá základnímu souboru ve všech důležitých vlastnostech. Je to jeho věrná zmenšenina – abychom získané výsledky mohli následně „zvětšit“ na základní soubor. Při běžných statistických šetřeních se používají dva způsoby sestavené reprezentativního vzorku: kvótní a náhodný. Důležitý je fakt, že k sestavení vzorku dojde před samotným dotazováním – tím se odlišuje od ankety nebo metody „sněhové koule“.

Ukázka reprezentativního vzorku včelařů podle počtu chovaných včelstev.
Zároveň je potřeba obdobně sledovat i další kritéria - např. region včelaření, délku praxe, organizovanost aj.

Anketa s efektem sněhové koule

Způsoby sestavení reprezentativního vzorku

Kvótní
Podle struktury všech včelařů (základní soubor) sestavíme shodně skupinu dotazovaných včelařů (výběrový soubor). Možná kritéria: věk, délka praxe, okres umístění včelstev, typ úlů, počet včelstev, chované plemeno, organizovanost aj.
Náhodný
Každý včelař má stejnou pravděpodobnost, že bude dotazován. Určí se potřebný počet respondentů a ti se vyberou losováním či podle číselného klíče (každý n-tý) ze seznamu všech včelařů v ČR. Lze např. i stratifikovaně – náhodný výběr z podskupin (podle počtu včelstev, okresu apod.).

Náhodný výběr umožňuje lepší mezinárodní srovnání a také eliminuje možné chyby kvótního sestavování.

A zde jsme u jádra problému projektu COLOSS – metoda sběru dat z něj dělá pouhou anketu (samovýběr – včelaři se k účasti v projektu vybírají sami), doplněnou případně o metodu sněhové koule (včelař s přístupem k internetu donese dotazník svým kolegům apod. – „nabaluje“ je na sebe). Respondenti nejsou vybírání reprezentativním způsobem.
Nedostatečně kvalitní sběr dat už nejde následnými operacemi nijak vylepšit. Ba naopak – nebude-li tento fakt dostatečně jasně přiznáván při publikování výsledků, může vést k diskreditaci autorů, celého projektu nebo jejich „dvorního“ periodika. Jako tomu bylo v případě The Literary Digest. V případě tohoto nepovedeného předvolební průzkumu měli jeho autoři jednu obrovskou výhodu: po sečtení skutečných volebních výsledků okamžitě dostali neoddiskutovatelnou zpětnou vazbu – od správného výsledku se lišili o 38 %. To bohužel u projektu COLOSSu není možné bez srovnání s jiným monitoringem zimních ztrát. O případné chybě by se tak nedozvěděli nejen čtenáři publikovaných výsledků, ale ani autoři sami... Publicita, kterou projekt dostává, z něj bohužel dělá něco, čím není.

COLOSS o problému ví, ale Češi nedbají

Výběr respondentů projektu COLOSS ve Skotsku

Skotská včelařská asociace (SBA) poskytla organizátorům anonymizovaný seznam svých členů – s čísly místo jména a zkráceným poštovním kódem. Podle poštovního kódu bylo území Skotska rozčleněno do menších geografických celků. Statistický software vybral z tohoto seznamu respondenty (resp. jejich čísla) s ohledem na rovnoměrné pokrytí celého Skotska. Těm následně SBA rozeslala dotazníky poštou – po přiřazení číselného kódu respondenta k faktickým jménům a adresám. Ty byly ale pro organizátora projektu neznámé – byla tak zajištěna jak ochrana anonymity respondentů, tak reprezentativnost jejich výběru.

Na internetových stránkách COLOSSu lze najít manuál Standardní metody dotazování pro odhad ztrát včelstev a vysvětlení rizikových faktorů [dotazování] u včely medonosné. Tento dokument o 35 stranách velmi podrobně popisuje problematiku – a to včetně sestavování výběrového souboru a spojených rizik. Jsou v něm obsaženy i modelové případy z již uskutečněných studií a jejich vývoj v průběhu let. Mezi způsoby sestavení výběrového souboru popisuje na posledním místě i metodu nazvanou „pohodlí“ – a uvádí také její nevýhody: „Extrémně nespolehlivá a neumožňující posoudit přesnost výsledků.“ Anketa či metoda sněhové koule je právě z pohledu organizace dotazování nepochybně velmi pohodlnou metodou v porovnání s těmi sofistikovanějšími... Co vede k provádění nekvalitního sběru dat v ČR můžeme jenom spekulovat. Ale v každém případě by bylo korektní výsledky obyčejné ankety nevydávat za výsledky "národního" monitoringu zimních ztrát včelstev V nejhorším možném případě by se těmito nereprezentativními výsledky mohla začít řídit státní správa při tvorbě předpisů pro včelaře – náznaky již zazněly.

Zlínský kraj – zimní ztráty dvakrát jinak

Mapa moru včelího plodu v ČR k 15. 9. 2014. Zlínský kraj je na spojnici Brna a slovenského Martina. Žluté plochy představují ochranná pásma, červené "špendlíky" ohniska.
(zdroj: mapový server Státní veterinární správy ČR)

Podívejme se nyní na jeden kraj zblízka. V roce 2014 (1. ročník českého COLOSSu) vyšel Zlínský kraj s nejnižšími úhyny – cca 2,5 % (přesné číslo není dostupné – jde o odhad hodnoty z publikované grafu). Zároveň to ale byl kraj s nejnižší relativní účastí včelařů v COLOSSu – pouze 0,6 % (průměr ČR byl 1,2 %).
V roce 2015 se podle kartogramu publikovaných předběžných výsledků Zlínský kraj pohyboval v rozmezí 12,1 – 16 % ztrát podle COLOSSu. Souběžně prováděný monitoring zimních ztrát Českým svazem včelařů však vykázal výsledek 42 % zimních ztrát. ČSV ve svém průzkumu zahrnul celkem 42.788 zazimovávaných včelstev, počet včelstev zahrnutých v COLOSSu 2015 není v současnosti znám (o rok dříve to bylo 442, celková účast včelařů se přitom meziročně přibližně zdvojnásobila). Diametrální rozdíl (cca 28 %) mezi výsledky dvou studií je zarážející. Lze se domnívat, že na vině je právě výběr respondentů. Průzkum ČSV se podle počtu včelařů ve Zlínském kraji blíží cenzu, tedy hodnocení celého základního souboru. Respondenti účastnící se projektu COLOSS byli oproti tomu pravděpodobně těmi „šťastnějšími“ včelaři v daném roce. S ohledem na nákazovou situaci v kraji z pohledu moru včelího plodu lze předpokládat, že včelaři se zdravotními problémy svých včel neměli žádnou chuť se projektu COLOSS účastnit. Nebo se k nim jen dotazník nedostal. Anebo – slovy The Literary Digest – „bydleli dále od poštovních schránek“... Bez ohledu na příčinu lze o správnosti výsledků COLOSSu vážně pochybovat – nejen z pohledu pravidel statistiky při výběru reprezentativního vzorku, ale i s ohledem na výsledky.

Kritická místa tuzemského COLOSSu

Možná řešení problému českého COLOSSu:

Spolupráce se správcem databáze chovatelů včel (ČMSCH, a.s.; ČSV, z.s. - pouze jeho členové) např. podle skotského modelu.
Zacílení na menší, v čase však stálou skupinu včelařů (komerční včelaři; menší územní jednotka ochotná spolupracovat; jeden včelařský spolek; neformální uskupení či včelařská komunita; účelově vytvořená skupina včelařů; ...)
Snížit rozsah projektu - např. pouze kauzalita zimních ztrát, nikoliv jejich statistika jako taková.
Neprezentovat výsledky jako reprezentativní průzkum či "národní" výsledky.
Projekt ukončit - než zavádějící výsledky tak raději žádné.

Dotazník je šířen zejména prostřednictvím internetu a časopisu Moderní včelař, zaměřeného na progresivnější část včelařů. Ke značné části včelařů se tak vůbec nedostane – tento komerční časopis neodebírají a k internetu nemají přístup či vztah.
Celý projekt je úzce napojen na dva včelařské spolky (PSNV, MSVV). Přičemž dominantní český včelařský spolek (ČSV) není pravděpodobně ochotný na projektu spolupracovat. Oproti tomu členové PSNV jsou interním věstníkem opakovaně k zapojení do projektu vyzýváni.
Zastoupení včelařů z jednotlivých regionů není rovnoměrné – rozdíly jsou více než dvojnásobné na úrovni krajů; na úrovni okresů jsou pak i takové, kde se neúčastnil nikdo (maximum účastníků z jednoho okresu není známo).
Výsledky šetření se sběrem dat formou nereprezentativní ankety jsou publikovány jako výběrový průzkum.

Čistě hypoteticky: vykazoval-li by projekt COLOSS v ČR několik let jen výsledky nadprůměrných včelařů a prezentoval je jako průměrné a zároveň by se tak ČR umisťovala na prvních místech s nejnižšími ztrátami, mohli by úředníci státní správy dospět např. k názoru: že nákazová situace v ČR je dobrá; že zvolená strategie tlumení kleštíkovitosti je bezproblémově účinná apod. Podobná argumentace - na základě výsledků prvního ročníku - již zazněla...

27. 9. 2015

Zpět na seznam článků.