Ako správne vypočítať veľkosť vzorky? Téma seminára: Výber vzoriek v sociologickom výskume Kľúčové pojmy Závislé a nezávislé vzorky

Vzorkovanie v 1C 8.2 a 8.3 je špecializovaný spôsob triedenia cez záznamy tabuliek infobáz. Pozrime sa bližšie na to, čo je to sampling a ako ho používať.

Čo je vzorka v 1C?

Ukážka- spôsob triedenia informácií v 1C, ktorý spočíva v postupnom umiestnení kurzora na ďalší záznam. Výber v 1C možno získať z výsledku dotazu a zo správcu objektov, napríklad dokumentov alebo adresárov.

Príklad získania a iterácie zo správcu objektov:

Výber = Adresáre. banky. Vyber() ; Zatiaľ čo výber. Next() Cycle EndCycle ;

Príklad získania výberu z dopytu:

Získajte 267 1C video lekcií zadarmo:

Žiadosť = Nová požiadavka( "Vyberte odkaz, kód, názov z adresára. Banky"); Ukážka = žiadosť. Execute() . Vyber() ; Zatiaľ čo výber. Next() Slučka //vykonajte zaujímavé akcie s adresárom "Banks". EndCycle ;

Oba vyššie uvedené príklady získajú rovnaké množiny údajov na opakovanie.

Metódy odberu vzoriek 1C 8.3

Výber má veľké množstvo metód, zvážte ich podrobnejšie:

  • Vybrať ()- metóda, ktorou sa priamo získava vzorka. Z výberu môžete získať ďalší, podriadený, výber, ak je zadaný typ obchvatu "podľa zoskupenia".
  • vlastník() je obrátená metóda Select(). Umožňuje vám získať výber „nadradených“ dotazov.
  • Ďalšie()- metóda, ktorá presúva kurzor na ďalší záznam. Vráti True, ak záznam existuje, False, ak neexistujú žiadne ďalšie záznamy.
  • Nájdi ďaľší()- veľmi užitočná metóda, pomocou ktorej môžete iterovať iba potrebné polia podľa hodnoty výberu (výber - štruktúra poľa).
  • NextByFieldValue()- umožňuje získať ďalší záznam s hodnotou odlišnou od aktuálnej pozície. Napríklad je potrebné triediť všetky záznamy s jedinečnou hodnotou poľa "Účet": Selection.NextBy FieldValue ("Účet").
  • Reset()- umožňuje resetovať aktuálnu polohu kurzora a nastaviť ho do pôvodnej polohy.
  • množstvo ()- vráti počet záznamov vo výbere.
  • Získať ()- pomocou metódy môžete nastaviť kurzor na požadovaný záznam podľa hodnoty indexu.
  • Úroveň() -úrovni v hierarchii aktuálneho záznamu (čísla).
  • RecordType()— zobrazí typ záznamu — DetailRecord, GroupTotal, HierarchyTotal alebo GrandTotal
  • zoskupenie()- vráti názov aktuálneho zoskupenia, ak záznam nie je zoskupením - prázdny reťazec.

Ak sa začínate učiť programovanie 1C, odporúčame náš bezplatný kurz (nezabudnite

vzdelávacie ciele

  1. Je jasné rozlišovať medzi pojmami cenzus (kvalifikácia) a odber vzoriek.
  2. Poznať podstatu a postupnosť šiestich etáp realizovaných výskumníkmi na získanie vzorky populácie.
  3. Definujte pojem „rámec odberu vzoriek“.
  4. Vysvetlite rozdiel medzi pravdepodobnostným a deterministickým výberom.
  5. Rozlišujte medzi vzorkovaním s pevnou veľkosťou a viacstupňovým (konzekutívnym) vzorkovaním.
  6. Vysvetlite, čo je to zámerné vzorkovanie, a popíšte jeho silné a slabé stránky.
  7. Definujte pojem kvótny odber vzoriek.
  8. Vysvetlite, čo je parameter vo výberovom konaní.
  9. Vysvetlite, čo je odvodená množina.
  10. Vysvetlite, prečo je pojem distribúcia vzoriek najdôležitejší konceptštatistiky.

Výskumník teda presne definoval problém a zabezpečil vhodný návrh výskumu a nástroje na zber údajov na jeho riešenie. Ďalším krokom v procese výskumu by mal byť výber tých prvkov, ktoré sa majú preskúmať. Je možné preskúmať každý prvok danej populácie vykonaním úplného sčítania tejto populácie. Kompletný prieskum obyvateľstva sa nazýva sčítanie (kvalifikácia). Je tu ešte jedna možnosť. Určitá časť populácie, vzorka prvkov veľkej skupiny, je podrobená štatistickému skúmaniu a podľa údajov získaných o tejto podskupine sa vyvodzujú určité závery týkajúce sa celej skupiny. Možnosť rozšírenia výsledkov získaných z údajov vzorky na veľkú skupinu závisí od metódy, ktorou bola vzorka odobratá. Veľká časť tejto kapitoly bude venovaná tomu, ako by mala byť vzorka nakreslená a prečo.

Sčítanie ľudu (kvalifikácia)
Kompletné sčítanie obyvateľstva (obyvateľov).
Ukážka
Súbor prvkov podmnožiny väčšej skupiny objektov.

Pojem „populácia“ alebo „zbierka“ sa môže vzťahovať nielen na ľudí, ale aj na firmy pôsobiace vo výrobnom priemysle, na maloobchodníkov alebo veľkoobchodníkov alebo dokonca na úplne neživé predmety, ako sú časti vyrobené podnikom; tento pojem je definovaný ako celý súbor prvkov, ktoré spĺňajú určité dané podmienky. Tieto podmienky jednoznačne definujú tak prvky, ktoré patria do cieľovej skupiny, ako aj prvky, ktoré by mali byť vylúčené z úvahy.

Štúdia, ktorej cieľom je určiť demografický profil konzumentov mrazenej pizze, by mala začať identifikáciou toho, kto by mal byť a kto by nemal byť takto klasifikovaný. Patria do tejto kategórie ľudia, ktorí takúto pizzu aspoň raz ochutnali? Jednotlivci, ktorí si kúpia aspoň jednu pizzu za mesiac? V týždni? Jednotlivci, ktorí zjedia viac ako určité minimálne množstvo pizze za mesiac? Výskumník musí byť veľmi presný pri určovaní cieľovej skupiny. Je tiež potrebné dbať na to, aby sa vzorka odoberala z cieľovej populácie a nie z „nejakej“ populácie, čo je prípad, keď je výberový rámec neadekvátny alebo neúplný. Ten je zoznamom prvkov, z ktorých sa vytvorí skutočná vzorka.

Výskumník môže uprednostniť výberový prístup pred prieskumom celej populácie z niekoľkých dôvodov. po prvé, úplné vyšetrenie aj relatívne malé kamenivo vyžaduje veľmi veľké materiálové a časové náklady. Často v čase, keď je sčítanie ukončené a údaje sú spracované, sú už informácie neaktuálne. V niektorých prípadoch je kvalifikácia jednoducho nemožná. Povedzme, že výskumníci sa pustili do kontroly súladu skutočnej životnosti elektrických žiaroviek s vypočítanou životnosťou, na ktorú ich potrebujú nechať svietiť, kým sa nepokazia. Ak takto preskúmate celú zásobu svietidiel, získajú sa spoľahlivé údaje, ale nebude s čím obchodovať.

Nakoniec, k veľkému údivu začiatočníkov, výskumník môže uprednostniť odber vzoriek pred sčítaním, pričom sa bude snažiť o presnosť výsledkov. Sčítania si vyžadujú veľký počet zamestnancov, čo zvyšuje pravdepodobnosť zaujatosti (nevýberových) chýb. Táto okolnosť je jedným z dôvodov, prečo americký Census Bureau využíva výberové prieskumy na testovanie správnosti rôznych typov sčítania. Čítate správne: na testovanie presnosti kvalifikačných údajov je možné vykonať vzorové prieskumy.

Vzorové kroky návrhu

Na obr. Obrázok 15.1 zobrazuje šesťstupňovú sekvenciu, ktorú môže výskumník dodržiavať pri navrhovaní vzorky. V prvom rade je potrebné určiť cieľovú populáciu alebo súbor prvkov, o ktorých chce výskumník niečo vedieť.

Napríklad pri skúmaní preferencií detí sa výskumníci musia rozhodnúť, či cieľovú populáciu budú tvoriť iba deti, iba rodičia alebo obaja.

Agregát (populácia)
Súbor prvkov, ktoré spĺňajú určité dané podmienky.
Vzorkovací rám (základňa)
Zoznam prvkov, z ktorých sa uskutoční výber; môže pozostávať z územných jednotiek, organizácií, osôb a iných prvkov.

Istá firma testovala svoje elektrické „preteky“ len na deťoch. Deti boli úplne očarené. Rodičia na novinku reagovali rôzne. Mamám sa nepáčilo, že jazda nenaučila deti, aby boli priateľské k autu, a oteckom sa nepáčilo, že výrobok bol vyrobený ako hračka.
Opačná situácia je tiež možná. Firma uviedla na trh nový potravinársky výrobok a spustila celoštátnu reklamnú kampaň zameranú na predčasne vyspelé dieťa, pričom účinnosť reklám testovala len na nadšených mamičkách. Deťom sa toto „zrýchľovanie“ a s ním aj samotný propagovaný produkt naopak zdalo hnusné. Produkt skončil 1.

Výskumník sa musí rozhodnúť, kto alebo z čoho bude príslušná populácia pozostávať: jednotlivci, rodiny, firmy, iné organizácie, transakcie kreditnými kartami atď. Pri takýchto rozhodnutiach je potrebné určiť prvky, ktoré by mali byť z populácie vylúčené. Mali by sa uviesť časové aj geografické referencie prvkov, ktoré môžu v niektorých prípadoch podliehať dodatočným podmienkam alebo obmedzeniam. Napríklad, ak hovoríme o jednotlivcoch, želanú populáciu môžu tvoriť len osoby staršie ako 18 rokov, alebo len ženy, alebo len osoby s minimálne stredoškolským vzdelaním.

Úlohou určenia geografických hraníc pre cieľovú populáciu v medzinárodnom marketingovom výskume môže byť špeciálny problém, pretože to zvyšuje nehomogenitu posudzovaného systému. Napríklad relatívny pomer mestských a vidieckych oblastí sa môže v jednotlivých krajinách výrazne líšiť. Územný aspekt má vážny vplyv na zloženie obyvateľstva a v rámci tej istej krajiny. Napríklad na severe Čile žije kompaktne prevažne indické obyvateľstvo, zatiaľ čo v južných oblastiach krajiny žijú najmä potomkovia Európanov.

Pokrytie (incident)
Percento členov populácie alebo skupiny, ktorí spĺňajú podmienky na zaradenie do vzorky.

Vo všeobecnosti platí, že čím jednoduchšie je cieľová populácia definovaná, tým vyššie je jej pokrytie (incidencia) a tým je postup odberu vzoriek jednoduchší a lacnejší. Pokrytie (incident) zodpovedá podielu prvkov populácie alebo skupiny vyjadrenej v percentách, ktoré spĺňajú podmienky na zaradenie do vzorky. Pokrytie priamo ovplyvňuje čas a materiálové náklady potrebné pre prieskum. Ak je pokrytie veľké (t. j. väčšina prvkov populácie spĺňa jedno alebo viacero jednoduchých kritérií používaných na identifikáciu potenciálnych respondentov), ​​náklady na čas a materiál potrebné na zber údajov sa minimalizujú. Naopak, s nárastom počtu kritérií, ktoré musia potenciálni respondenti spĺňať, rastú materiálne aj časové náklady.

Na obr. 15.2 ukazuje podiel dospelej populácie venujúcej sa určitým športom. Údaje na obrázku naznačujú, že je oveľa náročnejšie a nákladnejšie vyšetriť ľudí, ktorí sa venujú jazde na motorke (len 3,6 % z celkového počtu dospelých), ako ľudí, ktorí pravidelne rekreačne chodia na prechádzky (27,4 % z celkového počtu dospelí). Hlavná vec je, že výskumník presne určí, ktoré prvky by mali byť zahrnuté do skúmanej populácie a ktoré prvky by z nej mali byť vylúčené. Jasné vyjadrenie účelu štúdie výrazne uľahčuje riešenie tohto problému. Druhým krokom v procese vzorkovania je určenie vzorkovacieho rámca, ktorý, ako už viete, je zoznam prvkov, z ktorých sa vzorka bude čerpať. Nech sú cieľovou populáciou určitej štúdie všetky rodiny žijúce v oblasti Dallasu. Na prvý pohľad môže byť telefónny zoznam Dallas dobrým a ľahko dostupným rámcom vzorkovania. Pri bližšom skúmaní je však zrejmé, že zoznam rodín obsiahnutý v adresári nie je úplne správny, pretože sú v ňom vynechané čísla niektorých rodín (samozrejme, nezahŕňa rodiny, ktoré nemajú telefóny), pričom niektoré rodiny majú niekoľko telefónnych čísel. V zozname sa nenachádzajú ani osoby, ktoré nedávno zmenili svoje bydlisko, a teda aj telefónne číslo.

Skúsení výskumníci dospeli k záveru, že presná zhoda medzi vzorkovacím rámcom a cieľovou populáciou záujmu je veľmi zriedkavá. Jeden z najviac tvorivé etapy Práca na návrhu vzorkovania je určenie vhodného rámca vzorkovania v prípadoch, keď je ťažké zostaviť zoznam členov populácie. To si môže vyžadovať vzorkovanie z pracovných blokov a prefixov, keď sa napríklad používa náhodné vytáčanie kvôli nedostatkom v telefónnych zoznamoch. Výrazný nárast pracovných jednotiek za posledných 10 rokov však túto úlohu sťažil. Podobné situácie môžu nastať aj pri selektívnom pozorovaní územných zón alebo organizácií s následným podvzorkovaním, kedy sú cieľovou populáciou povedzme jednotlivci, ktorých presný aktuálny zoznam však neexistuje.

Zdroj: na základe údajov obsiahnutých v SSI- LITe TM: L ow Incidence T cielene S ampling" (Fairfield, Conn.: Survey Sampling, Inc., 1994).

Tretí krok v postupe vzorkovania úzko súvisí s určením rámca vzorkovania. Výber metódy alebo postupu odberu vzoriek závisí vo veľkej miere od rámca odberu vzoriek prijatého výskumníkom. Vyžadujú sa rôzne typy vzoriek rôzne druhy vzorkovací rámec. Táto a nasledujúca kapitola poskytnú prehľad hlavných typov vzoriek používaných v marketingovom výskume. Pri ich popise by mala byť zrejmá súvislosť medzi vzorkovacím rámom a spôsobom jeho vzniku.

Štvrtým krokom v postupe odberu vzoriek je určenie veľkosti vzorky. Tento problém je diskutovaný v kap. 17. V piatej fáze musí výskumník skutočne vybrať prvky, ktoré budú predmetom prieskumu. Metóda použitá na tento účel je určená zvoleným typom vzorky; pri diskusii o metódach vzorkovania si povieme aj o výbere jeho prvkov. A nakoniec, výskumník musí skutočne preskúmať identifikovaných respondentov. V tejto fáze je vysoká pravdepodobnosť spáchania množstva chýb.
Tieto problémy a niektoré metódy ich riešenia sú popísané v kap. 18.

Typy plánov odberu vzoriek (vzorkovanie)

Všetky metódy vzorkovania možno rozdeliť do dvoch kategórií: pozorovanie pravdepodobnostných vzoriek a pozorovanie deterministických vzoriek. V pravdepodobnostnej vzorke môže byť každý člen populácie zahrnutý s určitou špecifikovanou nenulovou pravdepodobnosťou. Pravdepodobnosť zahrnutia určitých členov populácie do vzorky môže byť rôzna, ale pravdepodobnosť zahrnutia každého prvku do vzorky je známa. Táto pravdepodobnosť je určená špeciálnym mechanickým postupom používaným na výber členov vzorky.

Pre deterministické vzorky je odhad pravdepodobnosti zahrnutia akéhokoľvek prvku do vzorky nemožný. Reprezentatívnosť takejto vzorky nemožno zaručiť. Napríklad, Allstate Corporation vyvíjala systém na spracovanie údajov o škodách 14 miliónov domácností (svojich klientov). Spoločnosť plánuje použiť tieto údaje na určenie vzorcov dopytu po svojich službách, ako je napríklad pravdepodobnosť, že domácnosť, ktorá vlastní Mercedes Benz, bude vlastniť aj dovolenkový dom (čo bude vyžadovať poistenie). Hoci je databáza veľmi rozsiahla, spoločnosť nemá prostriedky na odhad pravdepodobnosti, že si nejaký konkrétny zákazník uplatní nárok. Spoločnosť si tak nemôže byť istá, že údaje o zákazníkoch, ktoré si uplatňujú nárok, reprezentujú všetkých zákazníkov spoločnosti; a ešte v menšej miere – vo vzťahu k potenciálnym zákazníkom.

Všetky deterministické vzorky sú založené na osobnej pozícii, úsudku alebo preferenciách výskumníka, a nie na mechanickom výberovom postupe členov vzorky. Takéto preferencie môžu niekedy poskytnúť dobré odhady charakteristík populácie, ale neexistuje spôsob, ako objektívne určiť vhodnosť vzorky pre danú úlohu. Posúdenie presnosti výsledkov vzorky je možné vykonať len vtedy, ak bola známa pravdepodobnosť výberu určitých prvkov. Z tohto dôvodu sa práca s výberom pravdepodobnosti vo všeobecnosti považuje za lepšiu metódu na odhad veľkosti výberovej chyby. Vzorky môžu byť tiež rozdelené na vzorky pevnej veľkosti a sekvenčné vzorky. Pri práci so vzorkami s pevnou veľkosťou sa veľkosť vzorky určí pred začiatkom prieskumu a rozboru výsledkov predchádza zber všetkých potrebných údajov. Nás budú zaujímať hlavne vzorky pevnej veľkosti, keďže tento typ sa bežne používa v marketingových prieskumoch.

Vzorkovanie pravdepodobnosti
Vzorka, do ktorej možno zahrnúť každý prvok populácie s určitou známou nenulovou pravdepodobnosťou.
Deterministický odber vzoriek
odber vzoriek založený na určitých preferenciách alebo úsudkoch, ktoré určujú výber určitých prvkov; zároveň sa stáva nemožným odhadnúť pravdepodobnosť zahrnutia ľubovoľného prvku populácie do vzorky.

Netreba však zabúdať, že existujú aj sekvenčné vzorky, ktoré možno použiť s každým zo základných vzorkovacích návrhov, o ktorých sa hovorí nižšie.

V sekvenčnej vzorke nie je počet vybraných prvkov vopred známy, určuje sa na základe série sekvenčných rozhodnutí. Ak prieskum na malej vzorke nevedie k spoľahlivému výsledku, rozsah skúmaných prvkov sa rozširuje. Ak potom výsledok zostane nepresvedčivý, veľkosť vzorky sa opäť zväčší. V každej fáze sa rozhoduje, či získaný výsledok považovať za dostatočne presvedčivý, alebo či pokračovať v zbere údajov. Práca so sekvenčným vzorkovaním umožňuje posúdiť trend (trend zmeny) údajov pri ich zbere, čo znižuje náklady spojené s dodatočnými pozorovaniami v prípadoch, keď ich účelnosť vyjde navnivoč.

Pravdepodobné aj deterministické plány odberu vzoriek spadajú do niekoľkých typov. Napríklad deterministické vzorky môžu byť nereprezentatívne (vhodné), zámerné alebo kvótne; pravdepodobnostné vzorky sa delia na jednoduché náhodné, stratifikované alebo skupinové (zhluky), možno ich zase rozdeliť na podtypy. Na obr. Obrázok 15.3 zobrazuje typy vzoriek, o ktorých sa bude diskutovať v tejto a nasledujúcej kapitole.

Pevná vzorka (pevná vzorka)
Vzorka, ktorej veľkosť je určená a priori; požadované informácie sú určené vybranými prvkami.
Sekvenčné vzorkovanie
Vzorka vytvorená na základe série postupných rozhodnutí. Ak je po zvážení malej vzorky výsledok nepresvedčivý, berie sa do úvahy väčšia vzorka; ak tento krok nevedie k výsledku, veľkosť vzorky sa opäť zväčší atď. V každej fáze sa teda rozhodne, či získaný výsledok možno považovať za dostatočne presvedčivý.

Malo by sa pamätať na to, že hlavné typy vzoriek je možné kombinovať, aby vytvorili viac komplikované plány selektívne pozorovanie. Ak si osvojíte ich základné počiatočné typy, ľahšie si poradíte so zložitejšími kombináciami.

Deterministické výbery

Ako už bolo spomenuté, pri výbere prvkov deterministickej vzorky zohrávajú rozhodujúcu úlohu súkromné ​​odhady alebo rozhodnutia. Niekedy tieto hodnotenia pochádzajú od výskumníka, zatiaľ čo v iných prípadoch je výber prvkov populácie zverený terénnym pracovníkom. Pretože prvky nie sú vyberané mechanicky, je nemožné určiť pravdepodobnosť zahrnutia ľubovoľného prvku do vzorky, a teda aj výberovú chybu. Neznalosť chyby v dôsledku zvoleného postupu odberu vzoriek bráni výskumníkom posúdiť presnosť ich odhadov.

Nereprezentatívne (pohodlné) vzorky

Nereprezentatívne (pohodlné) vzorky niekedy označovaný ako náhodný, keďže výber prvkov vzorky sa vykonáva „náhodným“ spôsobom – vyberajú sa tie prvky, ktoré sú alebo sa javia ako najdostupnejšie počas obdobia výberu.

Náš každodenný život je plný príkladov takýchto výberov. Rozprávame sa s priateľmi a na základe ich reakcií a postojov vyvodzujeme závery o politických záľubách prevládajúcich v spoločnosti; miestna rozhlasová stanica vyzýva ľudí, aby vyjadrili svoj názor na nejakú kontroverznú otázku, ich názor je interpretovaný ako prevládajúci; vyzývame na spoluprácu dobrovoľníkov a spoluprácu s tými, ktorí nám dobrovoľne pomáhajú. Problém s praktickými vzorkami je zrejmý – nemôžeme si byť istí, že vzorky tohto druhu skutočne predstavujú cieľovú populáciu. Stále môžeme pochybovať o tom, že názory našich priateľov správne odrážajú politické názory prevládajúce v spoločnosti, ale často chceme veriť, že takto vybrané väčšie vzorky sú reprezentatívne. Ukážme mylnosť takéhoto predpokladu na príklade.
Pred niekoľkými rokmi jedna z miestnych televízií v meste, kde žije autor tejto knihy, uskutočnila denný prieskum verejnej mienky na témy, ktoré zaujímajú miestnu komunitu. Prieskumy s názvom „The Madison Pulse“ sa uskutočnili nasledovne. Každý večer počas správ o šiestej kládla stanica divákom otázku týkajúcu sa konkrétneho kontroverzného problému, na ktorý bolo potrebné odpovedať kladne alebo záporne.

V prípade kladnej odpovede bolo potrebné zavolať na jedno, v prípade zápornej odpovede na iné telefónne číslo. Počet hlasov „za“ a „proti“ sa spočítaval automaticky. Spravodajská relácia o desiatej hodine priniesla výsledky telefonického prieskumu. Každý večer zavolalo do štúdia 500 až 1000 ľudí, aby vyjadrili svoj postoj k tej či onej otázke; televízny komentátor interpretoval výsledky prieskumu ako prevládajúci názor v spoločnosti.

Nereprezentatívna (pohodlná) vzorka
Niekedy sa nazýva náhodný, pretože výber prvkov vzorky sa vykonáva „náhodným“ spôsobom – vyberajú sa prvky, ktoré sú alebo sa javia ako najdostupnejšie počas obdobia výberu.

V jednej zo šesťhodinových epizód bola divákom položená nasledujúca otázka: "Nemyslíte si, že by sa vek pitia alkoholu v Madisone mal znížiť na 18?" Doterajšia právna kvalifikácia zodpovedala 21 rokom. Publikum na túto otázku reagovalo mimoriadnou aktivitou – do štúdia v ten večer zavolalo takmer 4 000 ľudí, z toho 78 % bolo za zníženie vekovej hranice. Zdá sa jasné, že vzorka 4 000 „by mala byť reprezentatívna“ pre komunitu 180 000. Nič také. Ako ste možno uhádli, určité vekové skupiny sa viac zaujímali o známy výsledok ako iné. Preto neprekvapilo, že v diskusii o tejto problematike o niekoľko týždňov neskôr sa ukázalo, že v čase vyhradenom na prieskum študenti konali v zhode. Do televízie volali postupne, každý niekoľkokrát. Veľkosť vzorky ani percento zástancov liberalizácie zákona teda neprekvapilo. Vzorka nebola reprezentatívna.

Jednoduché zvýšenie veľkosti vzorky ju nerobí reprezentatívnou. Reprezentatívnosť vzorky nie je zabezpečená veľkosťou, ale správnym postupom výberu prvkov. Keď sú účastníci prieskumu vybraní dobrovoľne alebo sú vybrané položky vzorky na základe ich dostupnosti, plán výberu vzorky nezaručuje reprezentatívnosť vzorky. Empirické dôkazy naznačujú, že vzorky vybrané pre pohodlie sú zriedkavo reprezentatívne (bez ohľadu na ich veľkosť). Telefonické prieskumy, ktoré berú do úvahy 800 – 900 hlasov, sú najbežnejšou formou veľkých, ale nereprezentatívnych vzoriek.

Zámerný odber vzoriek
Deterministické (cielené) vzorkovanie, ktorého prvky sa vyberajú ručne; vyberú sa tie prvky, ktoré podľa názoru výskumníka spĺňajú ciele prieskumu.
Zámerný výber v závislosti od schopnosti výskumníka nastaviť počiatočný súbor respondentov s požadovanými charakteristikami; potom sú títo respondenti využívaní ako informátori, ktorí určujú ďalší výber jednotlivcov.

Bohužiaľ, veľa ľudí zaobchádza s výsledkami takýchto prieskumov s dôverou. Jedným z najtypickejších príkladov využitia nereprezentatívnych vzoriek v medzinárodnom marketingovom výskume je prieskum určitých krajín na základe vzorky pozostávajúcej z cudzincov v súčasnosti žijúcich na území krajiny, ktorá prieskum iniciovala (napríklad Škandinávci žijúci v Spojené štáty Americké). Aj keď takéto vzorky môžu vniesť určité svetlo do určitých aspektov uvažovanej populácie, treba mať na pamäti, že títo jednotlivci zvyčajne predstavujú „amerikanizovanú“ elitu, ktorej spojenie s vlastnou krajinou môže byť skôr svojvoľné. Použitie nereprezentatívnych vzoriek sa neodporúča pre deskriptívne alebo kauzálne prieskumy. Sú prípustné len pri prieskumnom výskume zameranom na testovanie určitých nápadov alebo nápadov, ale aj v tomto prípade je vhodnejšie použiť zámerné vzorky.

Zámerné výbery

Zámerné vzorky sa niekedy označujú ako nesústredený; ich prvky, ktoré podľa názoru výskumníka spĺňajú ciele štúdie, sa vyberajú ručne. Procter & Gamble použila túto metódu pri zobrazovaní reklám ľuďom vo veku 13 až 17 rokov, ktorí žijú v blízkosti svojho sídla v Cincinnati. Divízia potravín a nápojov spoločnosti najala túto skupinu tínedžerov, aby slúžili ako akási vzorka spotrebiteľov. Pracovali 10 hodín týždenne výmenou za 1 000 dolárov a išli na koncert, pozerali televízne reklamy, navštevovali supermarkety s manažérmi spoločností, aby si prezreli produkty, testovali nové produkty a diskutovali o nákupnom správaní. Výberom zástupcov do vzorky prostredníctvom procesu „náboru“, a nie náhodným výberom, by sa spoločnosť mohla zamerať na vlastnosti, ktoré považovala za užitočné, ako je schopnosť tínedžerov jasne sa vyjadrovať, s rizikom, že ich názory nemusia byť reprezentatívne pre ich vek. skupina.

Ako už bolo spomenuté, punc zámerné vzorkovanie je smerový výber jeho prvkov. V niektorých prípadoch sa vzorky nevyberajú preto, že sú reprezentatívne, ale preto, že môžu poskytnúť výskumníkom informácie, ktoré ich zaujímajú. Keď sa súd riadi výpoveďou znalca, v určitom zmysle sa uchyľuje k zámernému výberu. Podobná pozícia môže prevládať aj pri vývoji výskumných projektov. Pri počiatočnom štúdiu problematiky sa výskumník zaujíma predovšetkým o určenie perspektívy štúdie, ktorá určuje výber prvkov vzorky.

Vzorkovanie snehovej gule je typ zámerného vzorkovania, ktorý sa používa pri práci so špecifickými typmi populácií. Táto vzorka závisí od schopnosti výskumníka špecifikovať počiatočný súbor respondentov s požadovanými charakteristikami. Títo respondenti sa potom použijú ako informátori na určenie ďalšieho výberu jednotlivcov.

Predstavte si napríklad, že firma chce vyhodnotiť potrebu produktu, ktorý by umožnil nepočujúcim komunikovať cez telefón. Výskumníci môžu začať tento problém rozvíjať identifikáciou kľúčových postáv v komunite nepočujúcich; ten mohol menovať ďalších členov skupiny, ktorí by súhlasili s účasťou v prieskume. S touto taktikou vzorka rastie ako snehová guľa.

Kým výskumník je skoré štádia pri riešení problémov, keď sa zistia perspektívy a možné obmedzenia plánovaného prieskumu, môže byť použitie zámernej vzorky veľmi efektívne. V žiadnom prípade by sme však nemali zabúdať na slabé stránky tohto typu vzorky, pretože ju môže výskumník použiť aj v deskriptívnych alebo kauzálnych štúdiách, ktoré nebudú pomaly ovplyvňovať kvalitu ich výsledkov. Klasickým príkladom tohto zabudnutia je index spotrebiteľských cien („CPI“). Ako zdôrazňuje Südman ( Sudman): „CPI sa určuje len pre 56 miest a metropolitných oblastí, ktorých výber ovplyvňuje aj politický faktor. V skutočnosti môžu tieto mestá reprezentovať iba seba, zatiaľ čo index sa nazýva index spotrebiteľských cien pre občanov, ktorí dostávajú hodinové mzdy *, A zamestnancov a väčšine ľudí sa javí ako index odrážajúci cenovú hladinu v ktorejkoľvek oblasti Spojených štátov. Výber maloobchodných predajní je tiež nenáhodný, v dôsledku čoho odhad možnej výberovej chyby sa stáva nemožným» (naša kurzíva) 2 .

* Teda robotníci. - Poznámka. za.

Vzorky kvóty

Tretí typ deterministického vzorkovania − kvótne vzorky; jeho známa reprezentatívnosť sa dosiahne tak, že sa doň zahrnie rovnaký podiel prvkov, ktoré majú určité charakteristiky ako v skúmanej populácii (pozri „Výskumné okno 15.1“). Ako príklad zvážte pokus o vytvorenie reprezentatívnej vzorky študentov žijúcich na akademickej pôde. Ak sa v určitej vzorke 500 jedincov nenachádza ani jeden starší študent, budeme mať právo pochybovať o jej reprezentatívnosti a opodstatnenosti aplikácie výsledkov získaných na tejto vzorke na skúmanú populáciu. Pri práci s proporcionálnym výberom môže výskumník zabezpečiť, aby podiel vysokoškolákov vo vzorke zodpovedal ich podielu na celkovom počte študentov.

Predpokladajme, že výskumník vykonáva výberové štúdium vysokoškolákov, pričom ho zaujíma, aby vzorka odrážala nielen ich príslušnosť k jednému alebo druhému pohlaviu, ale aj ich rozdelenie podľa kurzov. Nech je celkový počet študentov 10 000: 3 200 prvákov, 2 600 druhákov, 2 200 študentov tretieho ročníka a 2 000 študentov štvrtého ročníka; z toho 7000 chlapcov a 3000 dievčat. Na vzorku 1 000 ľudí si pomerný plán odberu vyžaduje 320 prvákov, 260 druhákov, 220 tretiakov a 200 absolventov, 700 chlapcov a 300 dievčat. Výskumník môže tento plán realizovať tak, že každému anketárovi dá určitú kvótu, ktorá určí, ktorých študentov by mal kontaktovať.

Vzorkovanie kvóty deterministická vzorka vybraná tak, že podiel prvkov vzorky s určitými charakteristikami približne zodpovedá podielu rovnakých prvkov v skúmanej populácii; každému terénnemu pracovníkovi je pridelená kvóta, ktorá určuje charakteristiky populácie, s ktorou sa musí skontaktovať.

Osoba, ktorá vedie pohovor, môže dostať 20 pohovorov, aby sa spýtala:

            • šesť žiakov prvého ročníka - päť chlapcov a jedno dievča;
            • šiesti druháci - štyria chlapci a dve dievčatá;
            • štyria žiaci tretieho ročníka – traja chlapci a jedno dievča;
            • štyria žiaci štvrtého ročníka – dvaja chlapci a dve dievčatá.

Všimnite si, že výber konkrétnych prvkov vzorky nie je určený výskumným plánom, ale výberom anketára, ktorý je vyzvaný splniť len podmienky, ktoré boli stanovené kvótou: rozhovor piatich prvákov, jedného prváka atď.

Všimnite si tiež, že táto kvóta presne odzrkadľuje rodovú distribúciu študentskej populácie, ale do istej miery skresľuje rozdelenie študentov v rámci kurzov; 70 % (14 z 20) rozhovorov je s chlapcami, ale len 30 % (6 z 20) s prvákmi, pričom tvoria 32 % z celkového počtu žiakov. Kvóta pridelená každému jednotlivému anketárovi nemusí a zvyčajne ani neodráža distribúciu kontrolných charakteristík v populácii – iba konečná vzorka by mala byť proporcionálna.

Malo by sa pamätať na to, že proporcionálny výber závisí viac od osobných, subjektívnych postojov alebo úsudkov ako od objektívneho postupu výberu vzorky. Navyše, na rozdiel od zámerného výberu vzoriek, osobný úsudok tu nepatrí autorovi projektu, ale anketárovi. Vzniká otázka, či proporcionálne vzorky možno považovať za reprezentatívne, aj keď reprodukujú pomer zložiek vlastných v populácii, ktoré majú určité kontrolné charakteristiky. V tejto súvislosti je potrebné uviesť tri poznámky.

Po prvé, vzorka sa môže nápadne líšiť od populácie v niektorých ďalších dôležitých charakteristikách, ktoré môžu mať vážny vplyv na výsledok. Ak sa napríklad štúdia venuje problému rasových predsudkov medzi študentmi, nemusí byť ľahostajné, odkiaľ respondenti pochádzajú: z mesta alebo z vidieka. Keďže kvóta pre charakteristiku „z mesta/vidieka“ nebola určená, presné znázornenie tejto charakteristiky sa stáva nepravdepodobným. Samozrejme, existuje aj taká alternatíva: definovať kvóty pre všetky potenciálne významné charakteristiky. Zvýšenie počtu riadiacich charakteristík však vedie ku komplikácii špecifikácie. To následne komplikuje – ba niekedy aj znemožňuje – výber prvkov vzorky a v každom prípade vedie k jeho zdražovaniu. Ak je napríklad príslušnosť k mestu resp vidiecke obyvateľstvo a socioekonomický status sú tiež relevantné pre štúdiu, anketár možno bude musieť hľadať študenta prvého ročníka, ktorý je mestský a má vyššiu alebo strednú triedu. Súhlasím, že nájsť len mužského prváka je oveľa jednoduchšie.

Po druhé, je veľmi ťažké uistiť sa, že táto vzorka je skutočne reprezentatívna. Samozrejme, môžete skontrolovať vzorku, či je rozdelenie charakteristík, ktoré nie sú zahrnuté v kontrole, ich rozloženie v populácii. Takýto test však môže viesť iba k negatívnym záverom. Je možné odhaliť iba divergenciu distribúcií. Ak sa distribúcie vzorky a populácie pre každú z týchto charakteristík navzájom opakujú, existuje možnosť, že vzorka sa líši od populácie v niektorom inom, nie explicitne špecifikovanom znaku.

A nakoniec do tretice. Anketári, ktorí sú ponechaní sami na seba, sú náchylní na určité akcie. Aj oni sa často uchyľujú k výsluchu svojich kamarátov. Keďže sa často ukáže, že sú ako samotní anketári, existuje nebezpečenstvo omylu. Dôkazy z Anglicka naznačujú, že vzorky kvót majú tendenciu:

  1. zveličovanie úlohy najdostupnejších prvkov;
  2. znižovanie úlohy malých rodín;
  3. zveličovanie úlohy rodín s deťmi;
  4. bagatelizovanie úlohy priemyselných robotníkov;
  5. bagatelizovanie úlohy ľudí s najvyššími a najnižšími príjmami;
  6. znižovanie úlohy nedostatočne vzdelaných občanov;
  7. bagatelizovanie úlohy osôb zastávajúcich nízke sociálne postavenie.
Anketári, ktorí vyberajú vopred určené kvóty zastavovaním náhodných okoloidúcich, sa pravdepodobne zamerajú na oblasti s veľkým počtom potenciálnych respondentov, ako napr. nákupné centrá, železničné stanice a letiská, vstupy do veľkých supermarketov a podobne. Táto prax vedie k nadmernému zastúpeniu tých skupín ľudí, ktoré takéto miesta navštevujú najčastejšie. Keď sú potrebné domáce návštevy, anketári sa často riadia pohodlnosťou.
Napríklad môžu robiť prieskumy len počas dňa, čo vedie k podceňovaniu názoru pracovníkov. Okrem iného nevstupujú do schátraných budov a spravidla nevystupujú do vyšších poschodí budov, ktoré nemajú výťahy.

V závislosti od špecifík skúmaného problému môžu tieto tendencie viesť k rôznym druhom chýb, ale ich oprava vo fáze analýzy údajov sa zdá byť veľmi, veľmi náročná. Na druhej strane pri objektívnom výbere prvkov vzorky majú výskumníci k dispozícii určité nástroje, ktoré umožňujú zjednodušiť postup hodnotenia reprezentatívnosti danej vzorky. Pri analýze problému reprezentatívnosti takýchto vzoriek sa výskumník nezaoberá ani tak zložením vzorky, ako skôr postupom výberu jej prvkov.

Prieskumné okno: Brilantné! Ale kto to bude čítať?

Každý rok inzerenti minú milióny dolárov na reklamy, ktoré sa objavujú na stránkach nespočetných publikácií od reklamného veku až po Yankee. Určité posúdenie textu a obrazu možno urobiť pred jeho zverejnením, ako sa hovorí, doma, v reklamnej agentúre; v skutočnosti sa testuje a posudzuje až po zverejnení inzerátu, obklopený desiatkami rovnako starostlivo vytvorených reklám, ktoré sa uchádzajú o pozornosť čitateľa.

Spoločnosť Roper Starch Worldwide hodnotí čitateľnosť inzerátov umiestnených v spotrebiteľských, obchodných, obchodných a odborných časopisoch a novinách. Výsledky výskumu sú oboznámené s inzerentmi a agentúrami – samozrejme, za príslušný poplatok. Pretože inzerenti každý deň vynakladajú veľké úsilie, aby dostali svoje reklamy k spotrebiteľovi, spoločnosti škrob rozhodla vytvoriť vzorku, ktorá by predplatiteľom poskytla včasné a presné informácie o účinnosti reklamy. Každý rok spoločnosť škrob robil rozhovory s viac ako 50 000 ľuďmi, pričom zvažoval asi 20 000 inzerátov. Ročne sa preštudovalo okolo 500 jednotlivých publikácií.

Škrob použil proporcionálny výber, pričom minimálne 100 čitateľov jedného pohlavia a 100 čitateľov druhého pohlavia. Starch dospel k záveru, že pri tejto veľkosti vzorky sa hlavné odchýlky v úrovni čitateľnosti ustálili. S čitateľmi staršími ako 18 rokov sa robili rozhovory osobne a zvažovali sa všetky publikácie, okrem tých, ktoré sú určené pre špeciálne skupiny obyvateľstva (povedzme, s dievčatami v príslušnom veku sa robili rozhovory na hodnotenie publikácií z časopisu Seventeen).

Pri vykonávaní prieskumov sa brala do úvahy distribučná oblasť konkrétnej publikácie. Povedzme, že štúdia časopisu Los Angeles sa zamerala na čitateľov žijúcich v južnej Kalifornii. „Čas“ sa študoval na celoštátnej úrovni. Anketa bola venovaná jednotlivým číslam časopisu a súčasne prebiehala v 20-30 mestách.

Každý anketár dostal malú kvótu rozhovorov, čo slúžilo na minimalizáciu rozptylu výsledkov prieskumu. Dotazníky boli distribuované medzi ľudí rôznych profesií a veku s rôznymi príjmami. Každá takáto štúdia umožnila prezentovať pozície pomerne širokej čitateľskej verejnosti. Pri zvažovaní množstva odborných, obchodných a priemyselných publikácií sa brali do úvahy aj špecifiká ich predplatného a distribúcie. Zoznamy predplatiteľov venované publikáciám s pomerne úzkym nákladom umožnili vybrať prijateľných respondentov.

V každom prieskume anketári požiadali respondentov, aby si prezreli publikáciu, a pýtali sa, či si všimli nejakú reklamu. Ak bola odpoveď áno, registrátor položil sériu otázok na posúdenie miery prijatia inzerátu.

Toto hodnotenie môže byť trojaké:

  • Venujte pozornosť: tí, ktorí už venovali pozornosť samotnej skutočnosti vzhľadu takéhoto oznámenia.
  • Oboznámení: tí, ktorí si pamätali akúkoľvek časť inzerátu, v ktorej išlo o inzerovaného ochranná známka alebo o inzerentovi.
  • Čítajte: ľudia, ktorí si prečítajú aspoň polovicu inzerátu.

Po preskúmaní všetkých inzerátov anketári zaznamenali hlavné klasifikačné údaje: pohlavie, vek, povolanie, Rodinný stav, národnosť, príjem, veľkosť a zloženie rodiny, čo umožnilo krížové porovnanie miery čitateľského záujmu.

Pri správnom používaní firemné údaje škrob umožňujú inzerentom a agentúram identifikovať neúspešné aj úspešné typy reklamných schém, ktoré priťahujú a udržujú pozornosť čitateľa. Informácie tohto druhu sú mimoriadne cenné pre inzerentov, ktorých zaujíma predovšetkým efektivita ich reklamnej kampane.

Zdroj: Roper Starch Worldwide, Mamaronek, NY 10543.

Vzorky pravdepodobnosti

Výskumník môže určiť pravdepodobnosť zahrnutia akéhokoľvek prvku populácie do pravdepodobnostnej vzorky, pretože výber jeho prvkov sa vykonáva na základe nejakého objektívneho procesu a nezávisí od rozmarov a záľub výskumníka alebo terénneho pracovníka. Keďže postup výberu prvkov je objektívny, výskumník môže vyhodnotiť spoľahlivosť získaných výsledkov, čo v prípade deterministických vzoriek nebolo možné, bez ohľadu na to, aký starostlivý bol výber prvkov deterministických vzoriek.

Netreba si myslieť, že pravdepodobnostné vzorky sú vždy reprezentatívnejšie ako deterministické. V skutočnosti môže byť deterministická vzorka tiež reprezentatívnejšia. Výhodou pravdepodobnostných vzoriek je, že umožňujú odhad potenciálnej chyby výberu. Ak výskumník pracuje s deterministickou vzorkou, nemá objektívnu metódu na posúdenie jej primeranosti k cieľom štúdie.

Jednoduchý náhodný výber

Väčšina ľudí sa tak či onak stretne s jednoduchými náhodnými vzorkami, buď ako súčasť kurzu štatistiky v inštitúte, alebo čítaním o výsledkoch relevantných štúdií v novinách alebo časopisoch. V jednoduchej náhodnej vzorke má každý prvok zahrnutý vo vzorke rovnakú danú pravdepodobnosť, že bude medzi skúmanými prvkami a vzorkou sa potenciálne môže stať akákoľvek kombinácia prvkov v pôvodnej populácii. Napríklad, ak chceme nakresliť jednoduchú náhodnú vzorku všetkých študentov zapísaných na konkrétnu vysokú školu, stačí si vytvoriť zoznam všetkých študentov, priradiť číslo ku každému menu v ňom a pomocou počítača náhodne vybrať danú školu. počet prvkov.

Populácia

Populácia
Súbor prvkov, ktoré spĺňajú určité špecifikované podmienky; nazývaná aj študijná (cieľová) populácia.
Parameter
Určitá charakteristika alebo ukazovateľ všeobecnej alebo študovanej populácie.

Všeobecný alebo študovaný súbor je kolekcia, z ktorej sa robí výber. Túto populáciu (populáciu) možno opísať množstvom špecifických parametrov, ktoré sú charakteristikami všeobecnej populácie, pričom každý z nich je určitým kvantitatívnym ukazovateľom, ktorý odlišuje jednu populáciu od druhej.

Predstavte si, že skúmaná populácia je celá dospelá populácia Cincinnati. Na opis tejto populácie možno použiť množstvo parametrov: priemerný vek, podiel populácie s vyššie vzdelanie, úroveň príjmu atď. Upozorňujeme, že všetky tieto ukazovatele majú určitú pevnú hodnotu. Samozrejme, vieme ich vypočítať vykonaním kompletného sčítania skúmaného obyvateľstva. Väčšinou sa však nespoliehame na kvalifikáciu, ale na vzorke vyberieme a na základe hodnôt získaných pri selektívnom pozorovaní určíme požadované parametre populácie.

To, čo bolo povedané, ilustrujeme v tabuľke. 15.1 príklad hypotetickej populácie 20 ľudí. Takáto práca s malou hypotetickou populáciou má množstvo výhod. Po prvé, malá veľkosť vzorky uľahčuje výpočet parametrov populácie, ktoré možno použiť na jej opis. Po druhé, tento objem vám umožňuje pochopiť, čo sa môže stať, keď sa prijme konkrétny plán odberu vzoriek. Obe tieto vlastnosti uľahčujú porovnanie výsledkov vzorky s „pravdivými“ a v tomto prípade známa hodnota množiny, čo sa nedá povedať o typickej situácii, kedy skutočná hodnota množiny nie je známa. Porovnanie hodnotenia so „skutočnou“ hodnotou v tomto prípade nadobúda osobitnú jasnosť.

Predpokladajme, že chceme z dvoch náhodne vybraných položiek odhadnúť priemerný príjem jednotlivcov v pôvodnej populácii. Jeho parametrom bude priemerný príjem. Aby sme odhadli túto priemernú hodnotu, ktorú označujeme ako μ, musíme súčet všetkých hodnôt vydeliť ich počtom:

Priemerná populácia μ = Súčet prvkov populácie / Počet prvkov.

V našom prípade výpočty dávajú:

Odvodená populácia

Odvodená populácia pozostáva zo všetkých možných vzoriek, ktoré je možné vybrať z bežnej populácie podľa daného plánu odberu vzoriek (plán odberu vzoriek). Štatistiky je charakteristika alebo indikátor vzorky. Štatistická hodnota vzorky sa používa na odhad konkrétneho parametra populácie. Rôzne vzorky poskytujú rôzne štatistiky alebo odhady pre rovnaký parameter populácie.

Odvodená populácia
Súbor všetkých možných rozlíšiteľných vzoriek, ktoré možno vybrať zo všeobecnej populácie podľa daného plánu odberu vzoriek. Štatistika Charakteristika alebo miera vzorky.

Zvážte odvodenú množinu všetkých možných vzoriek, ktoré možno vybrať z našej hypotetickej populácie 20 jedincov pomocou plánu odberu vzoriek, ktorý predpokladá, že veľkosť vzorky je n=2 možno získať náhodným neopakujúcim sa výberom.

Predpokladajme na chvíľu, že údaje pre každú jednotku obyvateľstva - v našom prípade meno a príjem jednotlivca - sú napísané na kruhoch, potom sa spustia do džbánu a zmiešajú. Výskumník vyberie jeden kruh z džbánu, odpíše z neho informácie a odloží ho. To isté urobí s druhým hrnčekom vybratým z džbánu. Potom výskumník vráti oba hrnčeky do džbánu, premieša jeho obsah a zopakuje rovnakú postupnosť akcií. V tabuľke. 15.2 ukazuje možné výsledky uvedeného postupu. Pre 20 kruhov je možných 190 takýchto párových kombinácií.

Pre každú kombináciu si môžete vypočítať priemerný príjem. Povedzme na odber vzoriek AB (k= 1)

k-e Priemer vzorky = súčet vzoriek / počet vzoriek =

Na obr. 15.4 ukazuje odhad priemerného príjmu pre celú populáciu a množstvo chýb pre každý odhad pre vzorky k = 25 62 108 147 A 189 .

Skôr než pristúpime k zváženiu vzťahu medzi priemerným príjmom vzorky (štatistika) a priemerným príjmom populácie (parameter, ktorý je potrebné odhadnúť), povedzme si pár slov o odvodenej populácii. Po prvé, v praxi nezostavujeme agregáty tohto druhu. Vyžiadalo by si to príliš veľa času a úsilia. Odborník je obmedzený na zostavenie iba jednej vzorky požadovanej veľkosti. Výskumník používa koncepcie odvodenej populácie a s tým spojenej koncepcie rozdelenia vzoriek pri formulovaní konečných záverov.

Ako bude uvedené nižšie. Po druhé, malo by sa pamätať na to, že odvodená populácia je definovaná ako súhrn všetkých možných rôznych vzoriek, ktoré možno vybrať zo všeobecnej populácie podľa daného plánu odberu vzoriek. Keď sa zmení ktorákoľvek časť plánu odberu vzoriek, zmení sa aj odvodená populácia. Takže ak pri výbere kruhov výskumník vráti prvý z odstránených diskov do džbánu pred odstránením druhého, odvodená sada bude zahŕňať.

vzorky AA, BB a pod. Ak je počet neopakovaných vzoriek 3 namiesto 2, budú vzorky typu ABC a bude ich 1140, nie 190, ako tomu bolo v predchádzajúcom prípade. Keď sa jednoduchý náhodný výber zmení na akúkoľvek inú metódu určovania prvkov vzorky, zmení sa aj odvodená populácia.

Malo by sa tiež pamätať na to, že výber vzorky danej veľkosti zo všeobecnej populácie je ekvivalentný výberu jedného prvku (1 zo 190) z odvodenej populácie. Táto skutočnosť nám umožňuje vyvodiť mnohé štatistické závery.

Vzorový priemer a všeobecný priemer

Môžeme porovnať priemer vzorky so skutočným priemerom populácie? V každom prípade vychádzame z toho, že sú navzájom prepojené. Veríme však, že dôjde aj k chybe. Dá sa napríklad predpokladať, že informácie získané od používateľov internetu sa budú výrazne líšiť od výsledkov prieskumu medzi „bežnou“ populáciou. V iných prípadoch môžeme predpokladať pomerne presnú zhodu, inak by sme nemohli použiť hodnotu vzorky na odhad hodnoty tej všeobecnej. Ale aká veľká môže byť chyba, ktorú pri tom robíme?

Spočítajme všetky vzorové priemery obsiahnuté v tabuľke. 15.2 a výsledný súčet vydelíme počtom vzoriek, t.j. spriemerujme priemery.
Dostaneme nasledujúci výsledok:

Zhoduje sa s priemernou hodnotou bežnej populácie. Hovoria, že v tomto prípade máme čo do činenia nestranná štatistika.

Štatistika sa nazýva nestranná, ak sa jej priemer zo všetkých možných vzoriek rovná odhadovanému parametru populácie. Všimnite si, že tu nehovoríme o konkrétnej hodnote.Čiastočný odhad môže byť veľmi vzdialený od skutočnej hodnoty – vezmite si napríklad vzorky AB alebo ST. V niektorých prípadoch nemusí byť skutočná hodnota populácie dosiahnuteľná pri zvažovaní akejkoľvek možnej vzorky, aj keď sú štatistiky nezaujaté. V našom prípade to tak nie je: množstvo možných vzoriek – napríklad AT – dáva vzorový priemer rovný skutočnému priemeru populácie.

Má zmysel zvážiť distribúciu týchto vzorových odhadov, a najmä vzťah medzi týmto rozptylom odhadov a odchýlkami v úrovni príjmov v populácii. Ako miera variácie sa používa rozptyl všeobecnej populácie. Na určenie rozptylu všeobecnej populácie musíme vypočítať odchýlku každej hodnoty od priemeru, pripočítať druhé mocniny všetkých odchýlok a výsledný súčet vydeliť počtom členov. Označme a^ rozptyl bežnej populácie. potom:

Rozptyl populácie σ 2 = súčet druhých mocnín rozdielov každého prvku
počet obyvateľov a priemer počtu obyvateľov / Počet prvkov obyvateľstva =

Disperzia stredná hodnotaúroveň príjmu možno definovať rovnakým spôsobom. To znamená, že ho môžeme nájsť tak, že určíme odchýlky každého priemeru od ich celkového priemeru, sčítame druhé mocniny odchýlok a výsledný súčet vydelíme počtom členov.

Rozptyl priemernej úrovne príjmu môžeme definovať aj iným spôsobom, pomocou rozptylu úrovní príjmov vo všeobecnej populácii, keďže medzi týmito dvoma veličinami existuje priamy vzťah. Presnejšie povedané, v prípadoch, keď vzorka predstavuje iba malú časť populácie, rozptyl priemeru vzorky sa rovná rozptylu populácie vydelenej veľkosťou vzorky:

kde σ x 2 je rozptyl priemernej výberovej hodnoty úrovne príjmu, σ 2 je rozptyl úrovne príjmu vo všeobecnej populácii, n- veľkosť vzorky.

Teraz porovnajme distribúciu výsledkov s distribúciou kvantitatívneho znaku v bežnej populácii. Obrázok 15.5 ukazuje, že distribúcia populačnej črty zobrazenej v rámčeku A je multivertexová (každá z 20 hodnôt sa objaví iba raz) a je symetrická so skutočným priemerom populácie 9400.

Distribúcia vzoriek
Rozdelenie hodnôt určitej štatistiky vypočítané pre všetky možné rozlíšiteľné vzorky, ktoré možno extrahovať z populácie v rámci daného plánu odberu vzoriek.

Rozdelenie známok uvedené v poli B je založené na údajoch v tabuľke. 15.3, ktorý bol zostavený priradením hodnôt z tabuľky. 15.2 jednej alebo druhej skupine v závislosti od ich veľkosti s následným výpočtom ich počtu v skupine. Pole B je tradičný histogram, uvažovaný na samom začiatku štúdia kurzu štatistiky, ktorý predstavuje distribúcia vzoriekštatistiky. Poznamenávame, že koncept distribúcie vzoriek je najdôležitejším konceptom štatistiky, je základným kameňom konštrukcie štatistických záverov. Podľa známeho rozloženia vzorky študovaných štatistík môžeme usudzovať na zodpovedajúci parameter všeobecnej populácie. Ak je na druhej strane známe len to, že odhad vzorky sa mení od vzorky k vzorke, ale povaha tejto zmeny nie je známa, je nemožné určiť výberovú chybu spojenú s týmto odhadom. Keďže výberové rozdelenie odhadu popisuje, ako sa mení od vzorky k vzorke, poskytuje základ na určenie platnosti vzorového odhadu. Z tohto dôvodu je návrh vzorkovania pravdepodobnosti taký dôležitý pre štatistické odvodenie.

Vzhľadom na známe pravdepodobnosti zahrnutia každého člena populácie do vzorky môžu anketári nájsť vzorové rozdelenie rôznych štatistík. Práve na tieto distribúcie sa výskumníci spoliehajú – či už ide o priemer vzorky, podiel vzorky, rozptyl vzorky alebo inú štatistiku – keď rozširujú výsledok pozorovania vzorky na všeobecnú populáciu. Všimnite si tiež, že pre vzorky veľkosti 2 je distribúcia priemeru vzorky unimodálna a symetrická vzhľadom na skutočný priemer.

Takže sme ukázali, že:

  1. Priemer všetkých možných priemerov vzorky sa rovná všeobecnému priemeru.
  2. Rozptyl priemeru vzorky nejakým spôsobom súvisí so všeobecným rozptylom.
  3. Distribúcia priemerov vzorky je unimodálna, zatiaľ čo distribúcia hodnôt kvantitatívneho atribútu vo všeobecnej populácii je multimodálna.

Centrálna limitná veta

Veta hovorí, že pre jednoduché náhodné vzorky veľkosti n, izolovaný od všeobecnej populácie so všeobecným priemerom μ a rozptylom σ 2 , vo všeobecnosti n distribúcia priemeru vzorky x sa blíži k normálu so stredom rovným μ a rozptylom σ 2 . Presnosť tejto aproximácie sa zvyšuje so zvyšujúcou sa hodnotou n.

Centrálna limitná veta. Unimodálne rozdelenie odhadov možno považovať za prejav centrálnej limitnej vety, ktorá hovorí, že pre jednoduché náhodné vzorky obj. n, vybrané zo všeobecnej populácie so skutočným priemerom μ a rozptylom σ 2, pre veľké n distribúcia priemeru vzorky sa blíži k normálu so stredom rovným skutočnému priemeru a rozptylom rovným pomeru rozptylu populácie k veľkosti vzorky, t.j.:

Táto aproximácia sa stáva čoraz presnejšou n. Zapamätaj si to. Bez ohľadu na typ populácie bude distribúcia priemerov vzoriek normálne pre vzorky dostatočne veľkej veľkosti. Čo znamená dostatočne veľký objem? Ak je distribúcia hodnôt kvantitatívneho atribútu bežnej populácie normálna, potom distribúcia priemeru vzorky pre vzorky s objemom n=1. Ak je distribúcia premennej (kvantitatívny atribút) v populácii symetrická, ale nie normálna, vzorky veľmi malej veľkosti poskytnú normálne rozdelenie priemerov vzorky. Ak má distribúcia kvantitatívneho atribútu všeobecnej populácie výraznú asymetriu, sú potrebné väčšie vzorky. A predsa, distribúciu priemeru vzorky možno považovať za normálne len vtedy, ak máme do činenia so vzorkou dostatočnej veľkosti.

Aby bolo možné vyvodiť závery pomocou normálnej krivky, nie je vôbec potrebné vychádzať z podmienky normality rozloženia hodnôt kvantitatívneho atribútu všeobecnej populácie. Skôr sa spoliehame na centrálnu limitnú vetu a v závislosti od rozloženia populácie určíme takú veľkosť vzorky, ktorá by nám umožnila pracovať s normálnou krivkou. Normálne rozdelenie štatistík našťastie poskytujú vzorky relatívne malej veľkosti – obr. 15.6 túto okolnosť jasne preukazuje. Odhady intervalu spoľahlivosti. Môže nám vyššie uvedené pomôcť urobiť určité závery o všeobecnom priemere? V praxi totiž vyberáme len jednu, a nie všetky možné vzorky danej veľkosti a na základe získaných údajov vyvodzujeme určité závery ohľadom cieľovej skupiny.

Ako sa to stane? Ako viete, pri normálnom rozdelení má určité percento všetkých pozorovaní určitú smerodajnú odchýlku; povedzme, že 95 % pozorovaní sa zmestí do ±1,96 štandardných odchýlok od priemeru. Výnimkou v tomto zmysle nie je ani normálne rozdelenie výberových prostriedkov, na ktoré možno aplikovať centrálnu limitnú vetu. Priemer takéhoto rozdelenia vzorky sa rovná všeobecnému priemeru μ a jeho štandardná odchýlka sa nazýva štandardná chyba priemeru:

Ukazuje sa, že:

  • 68,26 % priemeru vzorky sa odchyľuje od všeobecného priemeru nie viac ako ± σ x ;
  • 95,45 % priemeru vzorky sa odchyľuje od všeobecného priemeru nie viac ako ±σ x;
  • 99,73 % priemeru vzorky sa odchyľuje od všeobecného priemeru nie viac ako ± σ x ,

tj určitý podiel vzorky znamená v závislosti od zvolenej hodnoty z budú uzavreté v intervale určenom hodnotou z. Tento výraz možno prepísať ako nerovnosť:

Všeobecný priemer - z < Среднее по выборке < Генеральное среднее + z(Štandardná chyba priemeru)

výberový priemer sa teda s určitou pravdepodobnosťou nachádza v intervale, ktorého hranice sú súčtom a rozdielom strednej hodnoty rozdelenia a určitého počtu smerodajných odchýlok. Túto nerovnosť je možné previesť do tvaru:

Vzorový priemer - z(Štandardná chyba priemeru)< Генеральное среднее < Среднее по выборке + z(Štandardná chyba priemeru)

Pri dodržaní pomeru 15,1 napr. v 95 % prípadov ( z= 1,96), potom je v 95 % prípadov dodržaný aj pomer 15,2. V prípadoch, keď je záver založený na priemernej hodnote jednej vzorky, použijeme výraz 15.2.

Je dôležité mať na pamäti, že výraz 15.2 neznamená, že interval zodpovedajúci danej vzorke musí nevyhnutne zahŕňať všeobecný priemer. Interval súvisí skôr s výberovým konaním. Interval vytvorený okolo tohto priemeru môže alebo nemusí zahŕňať skutočný priemer populácie. Naša dôvera v správnosť urobených záverov je založená na skutočnosti, že 95 % všetkých intervalov zostrojených podľa zvoleného plánu odberu vzoriek bude obsahovať skutočný priemer. Veríme, že naša vzorka patrí do týchto 95 %.

Na ilustráciu tohto dôležitého bodu si na chvíľu predstavte, že distribúcia vzorky znamená vzorky veľkosti n= 2 v našom hypotetickom príklade je normálne. Tabuľka 15.4 graficky znázorňuje výsledok pre prvých 10 z možných 190 vzoriek, ktoré je možné vybrať podľa daného návrhu. Upozorňujeme, že iba 7 z 10 intervalov obsahuje všeobecný alebo skutočný priemer. Dôvera v správnosť záveru nie je daná nejakým súkromným hodnotením, ale práve postup odhady. Tento postup je taký, že pre 100 vzoriek, pre ktoré sa vypočíta priemer vzorky a interval spoľahlivosti, bude v 95 prípadoch tento interval zahŕňať skutočnú všeobecnú hodnotu. Presnosť tejto vzorky je určená postupom, ktorým bola vzorka vytvorená. Reprezentatívny dizajn vzoriek nezaručuje reprezentatívnosť všetkých vzoriek. Postupy štatistickej inferencie sú založené na reprezentatívnosti plánu odberu vzoriek, a preto je tento postup pre pravdepodobnostné vzorky taký kritický.

Pravdepodobné vzorkovanie nám umožňuje vyhodnotiť presnosť výsledkov ako blízkosť vytvorených odhadov k skutočnej hodnote. Čím väčšia je štandardná chyba štatistiky, tým vyšší je stupeň rozptylu odhadov a tým nižšia je presnosť postupu.

Niekoho môže zmiasť skutočnosť, že úroveň spoľahlivosti súvisí s postupom, a nie s konkrétnou hodnotou vzorky, treba však pamätať na to, že hodnotu úrovne spoľahlivosti odhadu všeobecnej hodnoty možno upraviť pomocou výskumník. Ak nechcete riskovať a bojíte sa, že by ste mohli naraziť na jeden z piatich vzorových intervalov, ktoré nezahŕňajú priemer populácie, môžete si vybrať 99 % interval spoľahlivosti, v ktorom iba jeden zo sto vzorových intervalov nezahŕňa priemer populácie. Ďalej, ak môžete zväčšiť veľkosť vzorky, zvýšite stupeň spoľahlivosti výsledku a poskytnete požadovanú presnosť odhadu hodnoty populácie. Bližšie si o tom povieme v kap. 17.

Postup, ktorý popisujeme, má ešte jednu zložku, ktorá môže vyvolať určité rozpaky. Pri odhadovaní intervalu spoľahlivosti sa používajú tri veličiny: x , z a σx. Výberový priemer x sa vypočíta z údajov vzorky, z sa vyberá na základe požadovanej úrovne spoľahlivosti. Ale čo stredná kvadratická chyba priemeru σ x ? Rovná sa:

a preto, aby sme ju určili, musíme sa opýtať na smerodajnú odchýlku kvantitatívneho atribútu všeobecnej populácie, t.j. 5. Čo robiť v prípadoch, keď smerodajná odchýlka s neznámy? Tento problém nevzniká z dvoch dôvodov. Po prvé, zvyčajne pre väčšinu kvantitatívnych charakteristík používaných v marketingovom výskume sa variácie menia oveľa pomalšie ako úroveň väčšiny premenných, ktoré marketingového pracovníka zaujímajú. V súlade s tým, ak sa štúdia opakuje, môžeme vo výpočtoch použiť predchádzajúcu, predtým získanú hodnotu s. Po druhé, po výbere vzorky a získaní údajov môžeme odhadnúť rozptyl populácie určením rozptylu vzorky. Nezaujatý rozptyl vzorky je definovaný ako:

Ukážkový rozptyl ŝ 2 = Súčet štvorcových odchýlok od priemeru vzorky / (počet položiek vo vzorke -1). Aby sme určili výberový rozptyl, musíme najprv nájsť výberový priemer. Potom sa zistia rozdiely medzi každou z hodnôt vzorky a priemerom vzorky; tieto rozdiely sa umocnia na druhú, spočítajú sa a vydelia číslom, ktoré sa rovná počtu pozorovaní vzorky mínus jedna. Výberový rozptyl poskytuje nielen odhad celkového rozptylu, ale môže sa použiť aj na odhad štandardnej chyby priemeru. Keď je známy všeobecný rozptyl σ 2, je známa aj stredná kvadratická chyba σ x, pretože:

Keď nie je známy všeobecný rozptyl, štandardnú chybu priemeru možno len odhadnúť. Tento odhad je uvedený ŝ x , čo sa rovná štandardnej odchýlke vzorky vydelenej druhou odmocninou veľkosti vzorky, t.j. Odhad sa stanovuje rovnakým spôsobom, ako bol stanovený odhad skutočnej hodnoty, ale namiesto všeobecnej smerodajnej odchýlky je do výpočtového vzorca dosadená smerodajná odchýlka vzorky. Povedzme teda pre vzorku AB s priemerom vzorky 5800:

V súlade s tým ŝ = 283 a

a 95% medzera je teraz

čo je menej ako predchádzajúca hodnota.

V tabuľke. 15.5 sú zhrnuté výpočtové vzorce pre rôzne priemery a rozptyly, o ktorých sa hovorilo v tejto kapitole. Vytvorenie jednoduchej náhodnej vzorky. V našom príklade sa výber prvkov vzorky uskutočnil pomocou džbánu, ktorý obsahoval všetky prvky pôvodnej populácie. To nám umožnilo vizualizovať koncepty odvodenej populácie a distribúcie vzoriek. Neodporúčame používať takúto metódu v praxi, pretože to zvyšuje pravdepodobnosť chyby. Hrnčeky sa môžu líšiť veľkosťou aj textúrou, čo môže v určitých prípadoch viesť k uprednostňovaniu jedného pred druhým. Ako príklad omylu tohto druhu môže poslúžiť výber účastníkov vietnamskej kampane uskutočnený prostredníctvom lotérie.

Výber prebiehal vyťahovaním kotúčov s dátumami narodenia z veľkého bubna. Televízia tento postup vysielala po celej krajine. Žiaľ, disky sa do bubna vkladali systematicky, pričom najskôr prichádzali januárové dátumy a posledné decembrové. Hoci bol bubon vystavený intenzívnemu roztočeniu, decembrové dátumy padali oveľa častejšie ako januárové. Následne bol tento postup revidovaný tak, aby sa výrazne znížila pravdepodobnosť takýchto systematických chýb. Uprednostňovaná metóda na generovanie jednoduchej náhodnej vzorky je založená na použití tabuľky náhodných čísel.

Použitie takejto tabuľky zahŕňa nasledujúcu postupnosť krokov. Po prvé, prvkom populácie musia byť priradené po sebe idúce čísla od 1 do N; v našej hypotetickej populácii k živlu Ačíslo 1 bude priradené prvku B- číslo 2 atď. Po druhé, počet číslic v tabuľke náhodných čísel musí byť rovnaký ako počet číslic N. Pre N= použije sa 20 dvojciferných čísel; Pre N medzi 100 a 999 - trojciferné čísla atď. Po tretie, počiatočná pozícia musí byť určená náhodne. Môžeme otvoriť zodpovedajúcu tabuľku náhodných čísel a zavrieť oči, ako sa hovorí, do nej strčiť prst. Keďže čísla v tabuľke náhodných čísel sú v náhodnom poradí, na počiatočnej pozícii v skutočnosti nezáleží.

A nakoniec sa môžeme pohybovať ľubovoľným smerom - hore, dole alebo naprieč, pričom vyberieme tie prvky, ktorých čísla budú zodpovedať náhodným číslam z tabuľky. Na ilustráciu toho, čo bolo povedané, zvážte skrátenú tabuľku náhodných čísel (tabuľka 15.6). Pretože N= 20, mali by sme pracovať iba s dvojcifernými číslami. V tomto zmysle Tab. 15.6 nám úplne vyhovuje. Predpokladajme, že sme sa vopred rozhodli posunúť stĺpec nadol, počiatočná pozícia je na priesečníku jedenásteho riadku a štvrtého stĺpca, kde sa nachádza číslo 77. Toto číslo je príliš veľké, a preto by sa malo zahodiť. Ďalšie dve čísla budú tiež vyradené, zatiaľ čo štvrtá hodnota 02 sa použije, pretože 2 je číslo prvku IN.

Nasledujúcich päť čísel bude tiež vyradených ako príliš veľkých, zatiaľ čo číslo 05 bude označovať prvok E. Takže prvky IN A E sa stane našou dvojprvkovou vzorkou, podľa ktorej budeme posudzovať výšku príjmov tejto populácie. Možná je aj alternatívna stratégia, pri ktorej sa ako základ výberu použije počítačový program generujúci náhodné čísla. Objavil sa v V poslednej dobe publikácie naznačujú, že čísla generované takýmito programami nie sú úplne náhodné, čo sa môže určitým spôsobom prejaviť pri budovaní zložitých matematických modelov, ale dajú sa použiť pre väčšinu aplikovaných marketingových výskumov. Znova si všimnite, že jednoduchá náhodná vzorka vyžaduje zostavenie sekvenčne očíslovaného zoznamu prvkov všeobecnej populácie.

Inými slovami, každý člen pôvodnej populácie musí byť identifikovaný. Pre niektoré populácie to nie je ťažké urobiť, napríklad v štúdii 500 najväčších amerických korporácií, ktorých zoznam je uvedený v časopise Fortune. Tento zoznam už bol zostavený, takže vytvorenie jednoduchej náhodnej vzorky v tomto prípade nebude ťažké. Pre ostatné počiatočné populácie (napríklad pre všetky rodiny žijúce v konkrétnom meste) je zostavenie všeobecného zoznamu mimoriadne zložité, čo núti výskumníkov uchýliť sa k iným schémam výberového prieskumu.

Zhrnutie

Cieľ vzdelávania 1
Jasne rozlišujte medzi pojmami cenzus (kvalifikácia) a odber vzoriek

Vyvoláva sa kompletné sčítanie obyvateľstva (obyvateľstva). kvalifikovaní. Ukážka súbor, vytvorený z vybraných prvkov.

Vzdelávací cieľ 2
Poznať podstatu a postupnosť šiestich etáp realizovaných výskumníkmi na získanie vzorky populácie

Proces odberu vzoriek je rozdelený do šiestich krokov:

  1. pridelenie populácie;
  2. určenie rámca odberu vzoriek;
  3. výber výberového konania;
  4. stanovenie veľkosti vzorky;
  5. výber prvkov vzorky;
  6. preskúmanie vybraných prvkov.

Vzdelávací cieľ 3
Definujte pojem „rámec odberu vzoriek“

Rámec vzorkovania je zoznam položiek, z ktorých sa vzorka odoberie.

Cieľ vzdelávania 4
Vysvetlite rozdiel medzi pravdepodobnostným a deterministickým výberom

V pravdepodobnostnej vzorke môže byť každý člen populácie zaradený s určitým daná nenulová pravdepodobnosť. Pravdepodobnosti zaradenia určitých členov populácie do vzorky sa môžu navzájom líšiť, ale pravdepodobnosť zaradenia každého prvku do vzorky je známa. Pre deterministické vzorky je odhad pravdepodobnosti zahrnutia akéhokoľvek prvku do vzorky nemožný. Reprezentatívnosť takejto vzorky nemožno zaručiť. Všetky deterministické výbery sú založené skôr na osobnej pozícii, úsudku alebo preferencii. Takéto preferencie môžu niekedy poskytnúť dobré odhady charakteristík populácie, ale neexistuje spôsob, ako objektívne určiť vhodnosť vzorky pre danú úlohu.

Vzdelávací cieľ 5
Rozlišujte medzi vzorkovaním s pevnou veľkosťou a viacstupňovým (po sebe idúcim) vzorkovaním

Pri práci so vzorkami pevnej veľkosti sa veľkosť vzorky určí pred začiatkom prieskumu a analýze výsledkov predchádza zber všetkých požadovaných údajov. V sekvenčnej vzorke nie je počet vybraných prvkov vopred známy, určuje sa na základe série sekvenčných rozhodnutí.

Vzdelávací cieľ 6
Vysvetlite, čo je to zámerné vzorkovanie, a popíšte jeho silné a slabé stránky

Položky zámerného odberu vzoriek sa ručne vyberú a predložia výskumníkovi podľa potreby na účely prieskumu. Predpokladá sa, že vybrané prvky môžu poskytnúť úplný obraz o skúmanej populácii. Pokiaľ je výskumník v počiatočných štádiách riešenia problému, keď sa zisťujú vyhliadky a možné obmedzenia plánovaného prieskumu, môže byť použitie zámerného výberu vzoriek veľmi efektívne. V žiadnom prípade by sme však nemali zabúdať na slabé stránky tohto typu vzorky, pretože ju môže výskumník použiť aj v deskriptívnych alebo kauzálnych štúdiách, ktoré nebudú pomaly ovplyvňovať kvalitu ich výsledkov.

Vzdelávací cieľ 7
Definujte pojem kvótny odber vzoriek

Proporcionálny odber vzoriek sa vyberá tak, aby podiel prvkov vzorky s určitými charakteristikami približne zodpovedal podielu rovnakých prvkov v skúmanej populácii; na tento účel je každému počítadlu pridelená kvóta, ktorá určuje charakteristiky populácie, s ktorou sa musí kontaktovať.

Cieľ vzdelávania 8
Vysvetlite, čo je parameter vo výberovom konaní

Parameter - určitá charakteristika alebo ukazovateľ všeobecnej alebo študovanej populácie; určitý kvantitatívny ukazovateľ, ktorý odlišuje jeden súbor od druhého.

Cieľ vzdelávania 9
Vysvetlite, čo je odvodená množina

Odvodená populácia pozostáva zo všetkých možných vzoriek, ktoré je možné vybrať zo všeobecnej populácie podľa daného plánu odberu vzoriek.

Vzdelávací cieľ 10
Vysvetlite, prečo je pojem distribúcia vzoriek najdôležitejším pojmom štatistiky.

Koncept distribúcie vzoriek je základným kameňom štatistickej inferencie. Podľa známeho rozloženia vzorky študovaných štatistík môžeme usudzovať na zodpovedajúci parameter všeobecnej populácie. Ak je na druhej strane známe len to, že odhad vzorky sa mení od vzorky k vzorke, ale povaha tejto zmeny nie je známa, je nemožné určiť výberovú chybu spojenú s týmto odhadom. Keďže výberové rozdelenie odhadu popisuje, ako sa mení od vzorky k vzorke, poskytuje základ na určenie platnosti vzorového odhadu.

Vzorka – súbor prípadov (predmetov, predmetov, udalostí, vzoriek), s použitím určitého postupu, vybraných z bežnej populácie na účasť v štúdii.

Veľkosť vzorky

Veľkosť vzorky – počet prípadov zahrnutých do vzorky. Zo štatistických dôvodov sa odporúča, aby počet prípadov bol aspoň 30-35.

Závislé a nezávislé vzorky

Pri porovnávaní dvoch (alebo viacerých) vzoriek je dôležitým parametrom ich závislosť. Ak je možné stanoviť homomorfný pár (to znamená, keď jeden prípad zo vzorky X zodpovedá jednému a iba jeden prípad zo vzorky Y a naopak) pre každý prípad v dvoch vzorkách (a tento základ vzťahu je dôležitý pre znak merané na vzorkách), takéto vzorky sa nazývajú závislé. Príklady závislých výberov:

  1. párik dvojčiat
  2. dve merania akejkoľvek funkcie pred a po experimentálnej expozícii,
  3. manželia a manželky
  4. a tak ďalej.

Ak medzi vzorkami takýto vzťah neexistuje, potom sa tieto vzorky považujú za nezávislé, napríklad:

  1. muži a ženy,
  2. psychológovia a matematici.
  3. V súlade s tým majú závislé vzorky vždy rovnakú veľkosť, zatiaľ čo veľkosť nezávislých vzoriek sa môže líšiť.

Vzorky sa porovnávajú pomocou rôznych štatistických kritérií:

  • Študentov t-test
  • Wilcoxonov T-test
  • Mann-Whitney U test
  • Kritérium znakov
  • atď.

Reprezentatívnosť

Vzorku možno považovať za reprezentatívnu alebo nereprezentatívnu.

Príklad nereprezentatívnej vzorky

V Spojených štátoch je jedným z najznámejších historických príkladov nereprezentatívneho vzorkovania prípad, ktorý sa stal počas prezidentských volieb v roku 1936. Litreary Digest, ktorý úspešne predpovedal udalosti niekoľkých predchádzajúcich volieb, nesprávne odhadol svoje predpovede, keď svojim predplatiteľom, ľuďom vybraným z telefónnych zoznamov po celej krajine a ľuďom z registračných zoznamov áut rozoslal desať miliónov skúšobných hlasovacích lístkov. V 25 % vrátených hlasovacích lístkov (takmer 2,5 milióna) boli hlasy rozdelené takto:

57 % preferovalo republikánskeho kandidáta Alfa Landona

40 % si zvolilo vtedajšieho demokratického prezidenta Franklina Roosevelta

Ako je známe, Roosevelt vyhral skutočné voľby s viac ako 60% hlasov. Chybou Litreary Digest bolo toto: v snahe zvýšiť reprezentatívnosť vzorky – pretože vedeli, že väčšina ich predplatiteľov sa považuje za republikánov – rozšírili vzorku o ľudí vybraných z telefónnych zoznamov a registračných zoznamov. Nebrali však do úvahy realitu svojej doby a v skutočnosti naverbovali ešte viac republikánov: počas Veľkej hospodárskej krízy si to mohla dovoliť väčšinou stredná a vyššia trieda (teda väčšina republikánov, nie demokrati). vlastné telefóny a autá.

Typy plánov na zostavenie skupín zo vzoriek

Existuje niekoľko hlavných typov plánu budovania skupiny:

  • Štúdium s experimentálnymi a kontrolnými skupinami, ktoré sú umiestnené v rôznych podmienkach.
  • Štúdia s experimentálnymi a kontrolnými skupinami pomocou stratégie párového výberu
  • Štúdia s použitím iba jednej skupiny - experimentálnej.
  • Štúdia využívajúca zmiešaný (faktoriálny) plán – všetky skupiny sú umiestnené v rôznych podmienkach.

Stratégie budovania skupiny

Výber skupín pre ich účasť na psychologickom experimente sa uskutočňuje pomocou rôznych stratégií, ktoré sú potrebné na zabezpečenie čo najväčšieho rešpektovania vnútornej a vonkajšej platnosti.

  • Randomizácia (náhodný výber)
  • Zapojenie skutočných skupín

Randomizácia

Randomizácia, alebo náhodný výber, sa používa na vytváranie jednoduchých náhodných vzoriek. Použitie takejto vzorky je založené na predpoklade, že každý člen populácie bude rovnako pravdepodobne zahrnutý do vzorky. Napríklad, ak chcete urobiť náhodnú vzorku 100 študentov, môžete do klobúka vložiť papiere s menami všetkých vysokoškolských študentov a potom z neho vybrať 100 kusov papiera - bude to náhodný výber (Goodwin J., s. 147).

Párový výber

Párový výber- stratégia konštrukcie výberových skupín, pri ktorej sú skupiny subjektov tvorené subjektmi, ktoré sú ekvivalentné z hľadiska vedľajších parametrov, ktoré sú významné pre experiment. Táto stratégia je účinná pri experimentoch s použitím experimentálnych a kontrolných skupín najlepšia možnosť- príťažlivosť

V štatistike existujú dve hlavné metódy výskumu – kontinuálne a selektívne. Pri vykonávaní výberovej štúdie je povinné dodržiavať tieto požiadavky: reprezentatívnosť výberovej populácie a dostatočný počet pozorovacích jednotiek. Pri výbere jednotiek pozorovania je to možné Offsetové chyby, teda také udalosti, ktorých výskyt nemožno presne predpovedať. Tieto chyby sú objektívne a prirodzené. Pri určovaní stupňa presnosti štúdie odberu vzoriek sa odhaduje množstvo chýb, ktoré sa môžu vyskytnúť v procese odberu vzoriek - Náhodná chyba reprezentatívnosti (M) — Je skutočný rozdiel medzi priemernými alebo relatívnymi hodnotami získanými zo štúdie vzorky a podobnými hodnotami, ktoré by sa získali zo štúdie na všeobecnej populácii.

Posúdenie spoľahlivosti výsledkov štúdie zahŕňa určenie:

1. chyby reprezentatívnosti

2. hranice spoľahlivosti priemerných (alebo relatívnych) hodnôt vo všeobecnej populácii

3. spoľahlivosť rozdielu priemerných (alebo relatívnych) hodnôt (podľa kritéria t)

Výpočet chyby reprezentatívnosti(mm) aritmetický priemer (M):

kde σ je štandardná odchýlka; n je veľkosť vzorky (>30).

Výpočet chyby reprezentatívnosti (mР) relatívnej hodnoty (Р):

kde P je zodpovedajúca relatívna hodnota (vypočítaná napríklad v %);

Q = 100 - P % je prevrátená hodnota P; n – veľkosť vzorky (n>30)

V klinickej a experimentálnej práci je často potrebné použiť malá vzorka, Keď je počet pozorovaní menší alebo rovný 30. Keď je vzorka malá, na výpočet chýb reprezentatívnosti sa použijú stredné aj relatívne hodnoty , Počet pozorovaní klesá o jedno, t.j.

; .

Veľkosť chyby reprezentatívnosti závisí od veľkosti vzorky: ďalšie číslo postrehy, námety menej chýb. Na posúdenie spoľahlivosti výberového ukazovateľa bol prijatý nasledujúci prístup: ukazovateľ (alebo priemerná hodnota) by mal byť 3-krát vyšší ako jeho chyba, v takom prípade sa považuje za spoľahlivý.

Poznanie veľkosti chyby nestačí na to, aby sme si mohli byť istí výsledkami výberovej štúdie, pretože konkrétna výberová chyba môže byť výrazne väčšia (alebo menšia) ako hodnota strednej chyby reprezentatívnosti. Na určenie presnosti, s akou chce výskumník získať výsledok, štatistika používa taký koncept, ako je pravdepodobnosť bezchybnej predpovede, ktorá je charakteristická pre spoľahlivosť výsledkov selektívnych biomedicínskych štatistických štúdií. Zvyčajne sa pri vykonávaní biomedicínskych štatistických štúdií používa pravdepodobnosť bezchybnej predpovede 95 % alebo 99 %. V najkritickejších prípadoch, keď je potrebné vyvodiť mimoriadne dôležité závery z teoretického alebo praktického hľadiska, sa používa pravdepodobnosť bezchybnej predpovede 99,7 %.

Určitá hodnota zodpovedá určitému stupňu pravdepodobnosti bezchybnej predpovede Hraničná chyba náhodnej vzorky (Δ - delta), ktorý je určený vzorcom:

Δ=t * m, kde t je koeficient spoľahlivosti, ktorý pri veľkej vzorke a pravdepodobnosti bezchybnej predpovede 95 % je 2,6; s pravdepodobnosťou bezchybnej predpovede 99 % - 3,0; s pravdepodobnosťou bezchybnej predpovede 99,7 % - 3,3 a pri malej vzorke je určená špeciálnou tabuľkou Studentových t hodnôt.

Pomocou hraničnej vzorkovacej chyby (Δ) je možné určiť Hranice dôvery, v ktorom je s určitou pravdepodobnosťou bezchybnej predpovede reálna hodnota štatistickej veličiny , Charakterizujúce celú populáciu (priemernú alebo relatívnu).

Na určenie hraníc spoľahlivosti sa používajú nasledujúce vzorce:

1) pre priemerné hodnoty:

Kde Mgen - hranice spoľahlivosti priemernej hodnoty vo všeobecnej populácii;

Vzorka - priemerná hodnota , Získané počas štúdie na vzorke populácie; t je koeficient spoľahlivosti, ktorého hodnota je určená stupňom pravdepodobnosti bezchybnej prognózy, s ktorou chce výskumník získať výsledok; mM je chyba reprezentatívnosti priemeru.

2) pre relatívne hodnoty:

Kde Rgen - hranice spoľahlivosti relatívnej hodnoty vo všeobecnej populácii; Rsb je relatívna hodnota získaná počas štúdie na vzorke populácie; t je faktor spoľahlivosti; mP je chyba reprezentatívnosti relatívnej hodnoty.

Hranice spoľahlivosti ukazujú, do akej miery môže veľkosť výberového ukazovateľa kolísať v závislosti od príčin náhodného charakteru.

S malým počtom pozorovaní (n<30), для вычисления довери­тельных границ значение коэффициента t находят по специальной таблице Стьюдента. Значения t расположены в таблице на пересечении с избранной вероятностью безошибочного прогноза и строки, Označenie počtu dostupných stupňov voľnosti (n) , Čo sa rovná n-1.

Populácia- súbor jednotiek, ktoré majú hromadný charakter, typickosť, kvalitatívnu jednotnosť a prítomnosť variácie.

Štatistický súbor pozostáva z vecne existujúcich objektov (Zamestnanci, podniky, krajiny, regióny), je objektom.

Populačná jednotka- každá konkrétna jednotka štatistickej populácie.

Tá istá štatistická populácia môže byť homogénna v jednom znaku a heterogénna v druhom.

Kvalitatívna uniformita- podobnosť všetkých jednotiek populácie pre akúkoľvek vlastnosť a nepodobnosť pre všetky ostatné.

V štatistickej populácii majú rozdiely medzi jednou a druhou jednotkou populácie častejšie kvantitatívny charakter. Kvantitatívne zmeny v hodnotách atribútu rôznych jednotiek populácie sa nazývajú variácie.

Variácia funkcií- kvantitatívna zmena znaku (pre kvantitatívny znak) pri prechode z jednej jednotky populácie do druhej.

znamenie- ide o vlastnosť, charakteristickú vlastnosť alebo inú vlastnosť jednotiek, predmetov a javov, ktorú možno pozorovať alebo merať. Znaky sa delia na kvantitatívne a kvalitatívne. Rôznorodosť a variabilita hodnoty znaku v jednotlivých jednotkách populácie je tzv variácia.

Atributívne (kvalitatívne) znaky nie sú kvantifikovateľné (zloženie populácie podľa pohlavia). Kvantitatívne charakteristiky majú číselné vyjadrenie (zloženie obyvateľstva podľa veku).

Index- ide o zovšeobecňujúcu kvantitatívne kvalitatívnu charakteristiku akejkoľvek vlastnosti jednotiek alebo agregátov ako celku v konkrétnych časových a miestnych podmienkach.

Scorecard je súbor ukazovateľov, ktoré komplexne odrážajú skúmaný jav.

Zvážte napríklad plat:
  • Znamenie - mzdy
  • Štatistická populácia - všetci zamestnanci
  • Jednotkou populácie je každý robotník
  • Kvalitatívna homogenita - časovo rozlíšená mzda
  • Variácia funkcie - séria čísel

Všeobecná populácia a vzorka z nej

Základom je súbor údajov získaných ako výsledok merania jedného alebo viacerých znakov. Skutočne pozorovaný súbor objektov, štatisticky reprezentovaný sériou pozorovaní náhodnej premennej , je vzorkovanie a hypoteticky existujúce (premyslené) - všeobecná populácia. Všeobecná populácia môže byť konečná (počet pozorovaní N = konšt) alebo nekonečný ( N = ∞) a vzorka zo všeobecnej populácie je vždy výsledkom obmedzeného počtu pozorovaní. Počet pozorovaní, ktoré tvoria vzorku, sa nazývajú veľkosť vzorky. Ak je veľkosť vzorky dostatočne veľká n→∞) vzorka sa berie do úvahy veľký, inak sa nazýva vzorka obmedzený objem. Vzorka sa zvažuje malý, ak pri meraní jednorozmernej náhodnej veličiny veľkosť vzorky nepresiahne 30 ( n<= 30 ), a pri súčasnom meraní viacerých ( k) rysy vo vzťahu viacrozmerného priestoru n Komu k nepresahuje 10 (n/k< 10) . Vzorové formuláre variačná séria ak sú jej členmi štatistiky objednávok t.j. vzorové hodnoty náhodnej premennej X sú zoradené vzostupne (zoradené), volajú sa hodnoty atribútu možnosti.

Príklad. Takmer rovnaký náhodne vybraný súbor objektov - komerčné banky jedného administratívneho obvodu Moskvy, možno považovať za vzorku bežnej populácie všetkých komerčných bánk v tomto okrese a za vzorku všeobecnej populácie všetkých komerčných bánk v Moskve. , ako aj vzorka komerčných bánk v krajine a pod.

Základné metódy odberu vzoriek

Spoľahlivosť štatistických záverov a zmysluplná interpretácia výsledkov závisí od reprezentatívnosť vzorky, t.j. úplnosť a primeranosť prezentácie vlastností bežnej populácie, vo vzťahu ku ktorej možno túto vzorku považovať za reprezentatívnu. Štúdium štatistických vlastností populácie možno organizovať dvoma spôsobmi: pomocou nepretržitý A diskontinuálne. Nepretržité pozorovanie zahŕňa vyšetrenie všetkých Jednotkyštudoval agregátov, A nekontinuálne (selektívne) pozorovanie- len jeho časti.

Existuje päť hlavných spôsobov, ako organizovať odber vzoriek:

1. jednoduchý náhodný výber, v ktorom sú objekty náhodne vybrané zo všeobecnej populácie objektov (napríklad pomocou tabuľky alebo generátora náhodných čísel) a každá z možných vzoriek má rovnakú pravdepodobnosť. Takéto vzorky sú tzv vlastne náhodné;

2. jednoduchý výber prostredníctvom bežného postupu sa vykonáva pomocou mechanického komponentu (napríklad dátumy, dni v týždni, čísla bytov, písmená abecedy a pod.) a takto získané vzorky sú tzv. mechanický;

3. stratifikované selekcia spočíva v tom, že všeobecná populácia objemu je rozdelená na podmnožiny alebo vrstvy (vrstvy) objemu tak, že . Vrstvy sú homogénne objekty z hľadiska štatistických charakteristík (napríklad obyvateľstvo je rozdelené do vrstiev podľa vekovej skupiny alebo sociálnej vrstvy; podniky podľa odvetvia). V tomto prípade sú vzorky tzv stratifikované(inak, stratifikovaný, typický, zónový);

4. metódy sériový výber sa používa na formovanie sériový alebo vnorené vzorky. Sú vhodné, ak je potrebné preskúmať „blok“ alebo sériu predmetov naraz (napríklad zásielku tovaru, výrobky určitej série alebo obyvateľstvo v územno-správnom členení krajiny). Výber sérií môže byť vykonaný náhodným alebo mechanickým spôsobom. Súčasne sa vykonáva priebežné zisťovanie určitej šarže tovaru, prípadne celého územného celku (bytový dom alebo štvrť);

5. kombinované(stupňovitý) výber môže kombinovať niekoľko metód výberu naraz (napríklad stratifikovaný a náhodný alebo náhodný a mechanický); takáto vzorka sa nazýva kombinované.

Typy výberu

Autor: myseľ existuje individuálny, skupinový a kombinovaný výber. O individuálny výber vo výberovom súbore sú vybrané jednotlivé jednotky bežnej populácie, s skupinový výber sú kvalitatívne homogénne skupiny (rady) jednotiek, a kombinovaný výber zahŕňa kombináciu prvého a druhého typu.

Autor: metóda výber rozlišovať opakované a neopakujúce sa vzorka.

Neopakovateľné nazývaný výber, pri ktorom sa jednotka, ktorá spadla do vzorky, nevracia do pôvodnej populácie a nezúčastňuje sa ďalšieho výberu; kým počet jednotiek bežnej populácie N počas výberového procesu. O opakované výber chytený vo vzorke sa jednotka po registrácii vráti bežnej populácii a zachová si tak rovnakú príležitosť, ako aj ostatné jednotky, na použitie v ďalšom výberovom konaní; kým počet jednotiek bežnej populácie N zostáva nezmenená (metóda sa v sociálno-ekonomických štúdiách používa len zriedka). Avšak s veľkým N (N → ∞) vzorce pre neopakovane výber sa blíži k tým pre opakované výber a druhé sa používajú takmer častejšie ( N = konšt).

Hlavné charakteristiky parametrov všeobecnej a výberovej populácie

Základom štatistických záverov štúdie je rozdelenie náhodnej premennej, pričom pozorované hodnoty (x 1, x 2, ..., x n) sa nazývajú realizácie náhodnej premennej X(n je veľkosť vzorky). Distribúcia náhodnej premennej vo všeobecnej populácii je teoretická, ideálna a jej analógový vzor je empirický distribúcia. Niektoré teoretické rozdelenia sú uvedené analyticky, t.j. ich možnosti určiť hodnotu distribučnej funkcie v každom bode v priestore možných hodnôt náhodnej premennej. Pre vzorku je preto ťažké a niekedy nemožné určiť distribučnú funkciu možnosti sú odhadnuté z empirických údajov a potom sú dosadené do analytického výrazu popisujúceho teoretické rozdelenie. V tomto prípade je predpoklad (resp hypotéza) o type rozdelenia môžu byť štatisticky správne aj chybné. Ale v každom prípade empirická distribúcia rekonštruovaná zo vzorky len zhruba charakterizuje to pravé. Najdôležitejšie distribučné parametre sú očakávaná hodnota a rozptyl.

Distribúcie sú zo svojej podstaty nepretržitý A diskrétne. Najznámejšie spojité rozdelenie je normálne. Selektívne analógy parametrov a pre ne sú: stredná hodnota a empirický rozptyl. Medzi diskrétne v sociálno-ekonomických štúdiách, najčastejšie používané alternatívny (dichotomický) distribúcia. Parameter očakávania tohto rozdelenia vyjadruje relatívnu hodnotu (resp zdieľam) jednotky populácie, ktoré majú skúmanú charakteristiku (označuje sa písmenom ); časť populácie, ktorá túto vlastnosť nemá, sa označuje písmenom q (q = 1 – p). Rozptyl alternatívneho rozdelenia má tiež empirický analóg.

V závislosti od typu rozdelenia a od spôsobu výberu populačných jednotiek sa charakteristiky distribučných parametrov vypočítavajú rôzne. Hlavné pre teoretické a empirické rozdelenia sú uvedené v tabuľke. 1.

Vzorový podiel k n je pomer počtu jednotiek výberovej populácie k počtu jednotiek všeobecnej populácie:

kn = n/N.

Vzorový podiel w je pomer jednotiek, ktoré majú skúmanú vlastnosť X na veľkosť vzorky n:

w = n n / n.

Príklad. V dávke tovaru obsahujúcej 1000 jednotiek s 5% vzorkou frakcia vzorky k n v absolútnej hodnote je 50 jednotiek. (n = N*0,05); ak sa v tejto vzorke nájdu 2 chybné výrobky, potom frakcia vzorky w bude 0,04 (w = 2/50 = 0,04 alebo 4 %).

Keďže vzorová populácia je odlišná od bežnej populácie, existujú vzorkovacie chyby.

Tabuľka 1. Hlavné parametre všeobecnej a výberovej populácie

Chyby pri odbere vzoriek

Pri akýchkoľvek (pevných a selektívnych) sa môžu vyskytnúť chyby dvoch typov: registrácia a reprezentatívnosť. Chyby registrácia môže mať náhodný A systematický charakter. Náhodný chyby sú tvorené mnohými rôznymi nekontrolovateľnými príčinami, sú svojou povahou neúmyselné a zvyčajne sa navzájom vyrovnávajú (napríklad zmeny údajov prístrojov v dôsledku kolísania teploty v miestnosti).

Systematický chyby sú neobjektívne, pretože porušujú pravidlá výberu objektov vo vzorke (napríklad odchýlky v meraniach pri zmene nastavení meracieho zariadenia).

Príklad. Na posúdenie sociálneho postavenia obyvateľstva v meste sa plánuje vyšetrenie 25 % rodín. Ak by sa však pri výbere každého štvrtého bytu vychádzalo z jeho čísla, hrozí nebezpečenstvo výberu všetkých bytov len jedného typu (napr. jednoizbové), čo spôsobí systematickú chybu a skreslí výsledky; uprednostňuje sa výber čísla bytu žrebom, pretože chyba bude náhodná.

Chyby v reprezentatívnosti Sú vlastné iba selektívnemu pozorovaniu, nemožno sa im vyhnúť a vznikajú v dôsledku skutočnosti, že vzorka úplne nereprodukuje všeobecnú. Hodnoty ukazovateľov získané zo vzorky sa líšia od ukazovateľov rovnakých hodnôt vo všeobecnej populácii (alebo získaných počas nepretržitého pozorovania).

Chyba pri odbere vzoriek je rozdiel medzi hodnotou parametra v bežnej populácii a jeho vzorovou hodnotou. Pre priemernú hodnotu kvantitatívneho atribútu sa rovná: , a pre podiel (alternatívny atribút) - .

Výberové chyby sú vlastné iba pozorovaniam vzoriek. Čím väčšie sú tieto chyby, tým viac sa empirické rozdelenie líši od teoretického. Parametre empirického rozdelenia a sú náhodné premenné, preto sú výberové chyby tiež náhodnými premennými, môžu nadobúdať rôzne hodnoty pre rôzne vzorky, a preto je zvykom počítať priemerná chyba.

Priemerná vzorkovacia chyba je hodnota vyjadrujúca smerodajnú odchýlku výberového priemeru od matematického očakávania. Táto hodnota, podliehajúca princípu náhodného výberu, závisí predovšetkým od veľkosti vzorky a od stupňa variácie vlastnosti: čím väčšia a menšia variácia vlastnosti (teda hodnota ), tým menšia je hodnota priemerná vzorkovacia chyba. Pomer medzi rozptylmi všeobecnej a výberovej populácie je vyjadrený vzorcom:

tie. pre dostatočne veľké, môžeme predpokladať, že . Priemerná výberová chyba ukazuje možné odchýlky parametra výberovej populácie od parametra bežnej populácie. V tabuľke. 2 sú znázornené výrazy na výpočet priemernej výberovej chyby pre rôzne metódy organizácie pozorovania.

Tabuľka 2. Stredná chyba (m) vzorky a jej podiel pre rôzne typy vzoriek

Kde je priemer rozptylov vnútroskupinovej vzorky pre spojitý znak;

Priemer vnútroskupinových rozptylov podielu;

— počet vybraných sérií, — celkový počet sérií;

,

kde je priemer tého radu;

- všeobecný priemer za celú vzorku pre spojitý prvok;

,

kde je podiel znaku v tej sérii;

— celkový podiel znaku na celej vzorke.

Veľkosť priemernej chyby však možno posúdiť len s určitou pravdepodobnosťou Р (Р ≤ 1). Ljapunov A.M. dokázali, že rozdelenie výberových priemerov, a teda ich odchýlky od všeobecného priemeru, s dostatočne veľkým počtom, sa približne riadia zákonom normálneho rozdelenia za predpokladu, že všeobecná populácia má konečný priemer a obmedzený rozptyl.

Matematicky je toto vyjadrenie priemeru vyjadrené ako:

a pre zlomok bude mať výraz (1) tvar:

Kde - Existuje hraničná výberová chyba, čo je násobok priemernej výberovej chyby , a multiplicitný faktor je Studentovo kritérium ("faktor spoľahlivosti"), navrhnuté W.S. Gosset (pseudonym "Študent"); hodnoty pre rôzne veľkosti vzoriek sú uložené v špeciálnej tabuľke.

Hodnoty funkcie Ф(t) pre niektoré hodnoty t sú:

Preto výraz (3) možno čítať takto: s pravdepodobnosťou P = 0,683 (68,3 %) možno tvrdiť, že rozdiel medzi vzorkou a všeobecným priemerom nepresiahne jednu hodnotu strednej chyby m(t=1), s pravdepodobnosťou P = 0,954 (95,4 %)— že nepresahuje hodnotu dvoch stredných chýb m (t = 2), s pravdepodobnosťou P = 0,997 (99,7 %)- nepresiahne tri hodnoty m (t = 3). Určuje teda pravdepodobnosť, že tento rozdiel prekročí trojnásobok hodnoty strednej chyby chybovosť a nie je viac ako 0,3% .

V tabuľke. 3 sú znázornené vzorce na výpočet hraničnej výberovej chyby.

Tabuľka 3. Hraničná výberová chyba (D) pre priemer a podiel (p) pre rôzne typy pozorovania vzorky

Rozšírenie výsledkov vzorky na populáciu

Konečným cieľom pozorovania vzorky je charakterizovať všeobecnú populáciu. Pri malých veľkostiach vzoriek sa empirické odhady parametrov ( a ) môžu výrazne líšiť od ich skutočných hodnôt ( a ). Preto je potrebné stanoviť hranice, v ktorých ležia skutočné hodnoty ( a ) pre vzorové hodnoty parametrov ( a ).

Interval spoľahlivosti niektorého parametra θ bežnej populácie sa nazýva náhodný rozsah hodnôt tohto parametra, ktorý s pravdepodobnosťou blízkou 1 ( spoľahlivosť) obsahuje skutočnú hodnotu tohto parametra.

marginálna chyba vzorky Δ umožňuje určiť limitné hodnoty charakteristík bežnej populácie a ich intervaly spoľahlivosti, ktoré sa rovnajú:

Spodná čiara interval spoľahlivosti získané odčítaním marginálna chyba z priemeru vzorky (podiel) a najvyššieho pridaním.

Interval spoľahlivosti pre priemer sa používa hraničná výberová chyba a pre danú úroveň spoľahlivosti sa určuje podľa vzorca:

To znamená, že s danou pravdepodobnosťou R, ktorá sa nazýva úroveň spoľahlivosti a je jednoznačne určená hodnotou t, možno tvrdiť, že skutočná hodnota priemeru leží v rozmedzí od , pričom skutočná hodnota podielu je v rozmedzí od

Pri výpočte intervalu spoľahlivosti pre tri štandardné úrovne spoľahlivosti P = 95 %, P = 99 % a P = 99,9 % hodnotu vyberá . Aplikácie v závislosti od počtu stupňov voľnosti. Ak je veľkosť vzorky dostatočne veľká, potom hodnoty zodpovedajúce týmto pravdepodobnostiam t sú si rovné: 1,96, 2,58 A 3,29 . Hraničná výberová chyba nám teda umožňuje určiť hraničné hodnoty charakteristík všeobecnej populácie a ich intervaly spoľahlivosti:

Distribúcia výsledkov selektívneho pozorovania na všeobecnú populáciu v socioekonomických štúdiách má svoje vlastné charakteristiky, pretože si vyžaduje úplnosť reprezentatívnosti všetkých jej typov a skupín. Základom pre možnosť takéhoto rozdelenia je výpočet relatívna chyba:

Kde Δ % - relatívna hraničná výberová chyba; , .

Existujú dve hlavné metódy rozšírenia pozorovania vzorky na populáciu: priamy prepočet a metóda koeficientov.

Esencia priama konverzia je vynásobiť priemer vzorky!!\overline(x) veľkosťou populácie .

Príklad. Priemerný počet batoliat v meste nech sa odhadne metódou odberu vzoriek na osobu. Ak je v meste 1000 mladých rodín, tak potrebný počet miest v obecných jasliach získame vynásobením tohto priemeru veľkosťou bežnej populácie N = 1000, t.j. bude 1200 miest.

Metóda koeficientov je vhodné použiť v prípade, keď sa vykonáva selektívne pozorovanie, aby sa objasnili údaje kontinuálneho pozorovania.

Pritom sa používa vzorec:

kde všetky premenné sú veľkosť populácie:

Požadovaná veľkosť vzorky

Tabuľka 4. Požadovaná veľkosť vzorky (n) pre rôzne typy organizácie odberu vzoriek

Pri plánovaní výberového prieskumu s vopred stanovenou hodnotou prípustnej výberovej chyby je potrebné správne odhadnúť požadovanú veľkosť vzorky. Toto množstvo možno určiť na základe prípustnej chyby počas selektívneho pozorovania na základe danej pravdepodobnosti, ktorá zaručuje prijateľnú úroveň chyby (berúc do úvahy spôsob organizácie pozorovania). Vzorce na určenie požadovanej veľkosti vzorky n možno jednoducho získať priamo zo vzorcov pre hraničnú výberovú chybu. Takže z výrazu pre okrajovú chybu:

veľkosť vzorky je určená priamo n:

Tento vzorec ukazuje, že s klesajúcou marginálnou chybou výberu Δ výrazne zvyšuje požadovanú veľkosť vzorky, ktorá je úmerná rozptylu a druhej mocnine Studentovho t-testu.

Pre konkrétny spôsob organizácie pozorovania sa požadovaná veľkosť vzorky vypočíta podľa vzorcov uvedených v tabuľke. 9.4.

Praktické príklady výpočtov

Príklad 1. Výpočet strednej hodnoty a intervalu spoľahlivosti pre spojitú kvantitatívnu charakteristiku.

Na posúdenie rýchlosti vyrovnania s veriteľmi v banke bola vykonaná náhodná vzorka 10 platobných dokladov. Ich hodnoty sa ukázali byť rovnaké (v dňoch): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Vyžaduje sa s pravdepodobnosťou P = 0,954 určiť hraničnú chybu Δ priemer vzorky a medze spoľahlivosti priemerného času výpočtu.

Riešenie. Priemerná hodnota sa vypočíta podľa vzorca z tabuľky. 9.1 pre populáciu vzorky

Disperzia sa vypočíta podľa vzorca z tabuľky. 9.1.

Priemerná kvadratická chyba dňa.

Chyba priemeru sa vypočíta podľa vzorca:

tie. stredná hodnota je x ± m = 12,0 ± 2,3 dňa.

Spoľahlivosť priemeru bola

Limitná chyba sa vypočíta podľa vzorca z tabuľky. 9.3 na opätovnú selekciu, keďže veľkosť populácie nie je známa, a pre P = 0,954úroveň sebavedomia.

Stredná hodnota je teda `x ± D = `x ± 2m = 12,0 ± 4,6, t.j. jeho skutočná hodnota leží v rozmedzí od 7,4 do 16,6 dňa.

Použitie študentskej tabuľky. Aplikácia nám umožňuje dospieť k záveru, že pre n = 10 - 1 = 9 stupňov voľnosti je získaná hodnota spoľahlivá s hladinou významnosti a £ 0,001, t.j. výsledná stredná hodnota sa výrazne líši od 0.

Príklad 2. Odhad pravdepodobnosti (všeobecný podiel) r.

Mechanickou metódou odberu vzoriek zisťovania sociálneho postavenia 1000 rodín sa zistilo, že podiel rodín s nízkymi príjmami bol w = 0,3 (30 %)(vzorka bola 2% , t.j. n/N = 0,02). Vyžaduje sa s úrovňou spoľahlivosti p = 0,997 definovať ukazovateľ R nízkopríjmové rodiny v celom regióne.

Riešenie. Podľa prezentovaných funkčných hodnôt Ф(t) nájsť pre danú úroveň spoľahlivosti P = 0,997 význam t = 3(pozri vzorec 3). Chyba okrajového podielu w určiť podľa vzorca z tabuľky. 9.3 pre neopakujúce sa vzorkovanie (mechanické vzorkovanie je vždy neopakujúce sa):

Obmedzenie relatívnej vzorkovacej chyby v % bude:

Pravdepodobnosť (všeobecný podiel) nízkopríjmových rodín v kraji bude p=w±Δw a medze spoľahlivosti p sa vypočítajú na základe dvojitej nerovnosti:

w — Δw ≤ p ≤ w — Δw, t.j. skutočná hodnota p leží v rámci:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

S pravdepodobnosťou 0,997 teda možno tvrdiť, že podiel nízkopríjmových rodín medzi všetkými rodinami v kraji sa pohybuje od 28,6 % do 31,4 %.

Príklad 3 Výpočet strednej hodnoty a intervalu spoľahlivosti pre diskrétny prvok špecifikovaný radom intervalov.

V tabuľke. 5. Stanovuje sa distribúcia žiadostí na výrobu zákaziek podľa načasovania ich realizácie podnikom.

Tabuľka 5. Rozdelenie pozorovaní podľa času výskytu

Riešenie. Priemerný čas dokončenia objednávky sa vypočíta podľa vzorca:

Priemerný čas bude:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 mesiaca

Rovnakú odpoveď dostaneme, ak použijeme údaje o p i z predposledného stĺpca tabuľky. 9.5 pomocou vzorca:

Všimnite si, že stred intervalu pre poslednú gradáciu sa zistí umelým doplnením o šírku intervalu predchádzajúcej gradácie rovnajúcu sa 60 - 36 = 24 mesiacov.

Disperzia sa vypočíta podľa vzorca

Kde x i- stred intervalového radu.

Preto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) a štandardná chyba je .

Chyba priemeru sa vypočíta podľa vzorca na mesiace, t.j. priemer je!!\overline(x) ± m = 23,1 ± 13,4.

Limitná chyba sa vypočíta podľa vzorca z tabuľky. 9,3 pre opätovný výber, pretože veľkosť populácie nie je známa, pre úroveň spoľahlivosti 0,954:

Priemer je teda:

tie. jeho skutočná hodnota leží v rozmedzí od 0 do 50 mesiacov.

Príklad 4 Na zistenie rýchlosti vyrovnania s veriteľmi N = 500 podnikov korporácie v komerčnej banke je potrebné vykonať výberovú štúdiu metódou náhodného neopakovateľného výberu. Určte požadovanú veľkosť vzorky n tak, aby s pravdepodobnosťou P = 0,954 chyba priemeru vzorky nepresiahla 3 dni, ak pokusné odhady ukázali, že smerodajná odchýlka s bola 10 dní.

Riešenie. Na určenie počtu potrebných štúdií n použijeme vzorec pre neopakovateľný výber z tabuľky. 9.4:

V ňom je hodnota t určená z pre hladinu spoľahlivosti P = 0,954. Rovná sa 2. Stredná kvadratická hodnota s = 10, veľkosť populácie N = 500 a hraničná chyba priemeru Δ x = 3. Nahradením týchto hodnôt do vzorca dostaneme:

tie. na odhad požadovaného parametra - rýchlosti vyrovnania s veriteľmi stačí urobiť vzorku 41 podnikov.