Paano makalkula nang tama ang laki ng sample? Paksa ng seminar: sampling sa sosyolohikal na pananaliksik Mga pangunahing konsepto Mga depende at independiyenteng sample

Ang pagsa-sample sa 1C 8.2 at 8.3 ay isang espesyal na paraan ng paghahanap sa pamamagitan ng mga talaan ng mga talahanayan ng infobase. Tingnan natin kung ano ang sampling at kung paano ito gamitin.

Ano ang sampling sa 1C?

Sample- isang paraan ng pag-uuri sa impormasyon sa 1C, na binubuo ng sunud-sunod na paglalagay ng cursor sa susunod na tala. Ang isang seleksyon sa 1C ay maaaring makuha mula sa resulta ng query at mula sa object manager, halimbawa, mga dokumento o mga direktoryo.

Isang halimbawa ng pagkuha at pag-ulit mula sa isang object manager:

Pinili = Mga Direktoryo. Mga bangko. Piliin ();

Bye Selection. Susunod() Loop EndLoop ;

Isang halimbawa ng pagkuha ng sample mula sa isang kahilingan:

Kumuha ng 267 video lesson sa 1C nang libre: Kahilingan = Bagong Kahilingan("Piliin ang Link, Code, Pangalan Mula sa Directory.Banks" ); Kunin = Query. Run() . Piliin (); Bye Selection. Susunod() Loop

//isagawa ang mga aksyon ng interes sa direktoryo ng "Mga Bangko".

EndCycle ;

Ang parehong mga halimbawang nakalista sa itaas ay tumatanggap ng parehong mga set ng data upang ulitin.

  • Mga Paraan ng Sampling 1C 8.3 Ang sampling ay may malaking bilang ng mga pamamaraan, isaalang-alang natin ang mga ito nang mas detalyado:
  • Pumili ()- isang paraan kung saan direktang nakukuha ang isang sample. Mula sa sample, maaari kang makakuha ng isa pang subordinate, sample kung ang uri ng traversal "sa pamamagitan ng pagpapangkat" ay tinukoy.
  • May-ari()— ang paraan ay baligtad sa Select(). Binibigyang-daan kang makuha ang sample ng "magulang" ng isang kahilingan.
  • Susunod()— isang paraan na naglilipat ng cursor sa susunod na tala. Kung mayroong tala, nagbabalik ng Tama kung walang mga tala, nagbabalik ng Mali.
  • FindNext()- isang napaka-kapaki-pakinabang na paraan kung saan maaari mong pag-uri-uriin lamang ang mga kinakailangang field ayon sa halaga ng pagpili (pagpili - istraktura ng field).
  • NextByFieldValue()— nagbibigay-daan sa iyong makuha ang susunod na talaan na may halagang iba sa kasalukuyang posisyon. Halimbawa, kailangan mong ulitin ang lahat ng talaan na may natatanging halaga para sa field na “Account”: Select.NextByFieldValue (“Account”).
  • I-reset()— nagbibigay-daan sa iyong i-reset ang kasalukuyang lokasyon ng cursor at itakda ito sa orihinal nitong posisyon.
  • Dami()— ibinabalik ang bilang ng mga tala sa pagpili.
  • Kunin ()— gamit ang paraan na maaari mong itakda ang cursor sa nais na tala sa pamamagitan ng index na halaga.
  • Antas() - antas sa hierarchy ng kasalukuyang talaan (numero).
  • RecordType()— ibinabalik ang pangalan ng kasalukuyang pagpapangkat kung ang tala ay hindi isang pagpapangkat, ito ay nagbabalik ng walang laman na string.

Kung nagsisimula kang matuto ng 1C programming, inirerekomenda namin ang aming libreng kurso (huwag kalimutan

Mga layunin sa pag-aaral

  1. Malinaw na matukoy ang pagkakaiba sa pagitan ng mga konsepto ng census (kwalipikasyon) at sampling.
  2. Alamin ang kakanyahan at pagkakasunud-sunod ng anim na yugto na ipinatupad ng mga mananaliksik upang makakuha ng sample na populasyon.
  3. Tukuyin ang konsepto ng "sampling frame".
  4. Ipaliwanag ang pagkakaiba sa pagitan ng probability at deterministic sampling.
  5. Tukuyin ang pagkakaiba sa pagitan ng fixed-size sampling at multi-stage (sequential) sampling.
  6. Ipaliwanag kung ano ang purposive sampling at ilarawan ang parehong mga kalakasan at kahinaan nito.
  7. Tukuyin ang konsepto ng quota sampling.
  8. Ipaliwanag kung ano ang isang parameter sa isang sampling procedure.
  9. Ipaliwanag kung ano ang derived set.
  10. Ipaliwanag kung bakit ang konsepto ng sampling distribution ay ang pinakamahalagang konsepto mga istatistika.

Kaya, tiyak na tinukoy ng mananaliksik ang problema at nakakuha ng disenyo ng pananaliksik at mga tool sa pangongolekta ng data na angkop para sa paglutas nito. Ang susunod na yugto ng proseso ng pananaliksik ay dapat na ang pagpili ng mga elementong iyon na susuriin. Posibleng suriin ang bawat elemento ng isang naibigay na populasyon sa pamamagitan ng pagkuha ng kumpletong census ng populasyon na iyon. Ang isang kumpletong survey ng populasyon ay tinatawag na census. May isa pang posibilidad. Ang isang tiyak na bahagi ng populasyon, isang sample ng mga elemento ng isang malaking grupo, ay sumasailalim sa isang istatistikal na survey, at batay sa data na nakuha mula sa subset na ito, ang ilang mga konklusyon ay iginuhit tungkol sa buong pangkat. Ang pagiging pangkalahatan ng mga resulta na nakuha mula sa sample na data sa isang mas malaking grupo ay depende sa paraan kung saan ang sample ay nakolekta. Karamihan sa kabanatang ito ay ilalaan sa kung paano dapat piliin ang sample at kung bakit ito dapat maging ganoon.

Census (kwalipikasyon)
Kumpletuhin ang census ng populasyon.
Sample
Isang koleksyon ng mga elemento ng isang subset ng mas malaking pangkat ng mga bagay.

Ang konsepto ng "populasyon" o "koleksyon" ay maaaring tumukoy hindi lamang sa mga tao, kundi pati na rin sa mga kumpanyang nagpapatakbo sa industriya ng pagmamanupaktura, sa tingian o pakyawan na mga organisasyon, o maging sa ganap na walang buhay na mga bagay, tulad ng mga bahaging ginawa sa isang negosyo; ang konseptong ito ay tinukoy bilang ang buong hanay ng mga elemento na tumutugon sa ilang partikular na kundisyon. Malinaw na tinutukoy ng mga kundisyong ito ang mga elementong kabilang sa target na pangkat at ang mga elementong dapat hindi isama sa pagsasaalang-alang.

Ang pagsasaliksik upang matukoy ang demograpikong profile ng mga consumer ng frozen na pizza ay dapat magsimula sa pamamagitan ng pagtukoy kung sino ang dapat at hindi dapat iuri bilang ganoon. Kasama ba sa kategoryang ito ang mga taong nakasubok ng pizza na ito kahit isang beses? Mga indibidwal na bumibili ng hindi bababa sa isang pizza bawat buwan? Sa Linggo? Mga taong kumakain ng higit sa isang partikular na minimum na halaga ng pizza sa isang buwan? Ang mananaliksik ay dapat na maging tumpak sa pagtukoy ng target na grupo. Kinakailangan din upang matiyak na ang sample ay nakuha mula sa target na populasyon at hindi mula sa "ilang" populasyon, na kung saan ay ang kaso kapag ang sampling frame ay hindi naaangkop o hindi kumpleto. Ang huli ay isang listahan ng mga elemento kung saan mabubuo ang aktwal na sample.

Maaaring mas gusto ng isang mananaliksik ang isang sample na pamamaraan kaysa sa isang survey ng buong populasyon para sa ilang mga kadahilanan. Una, buong pagsusuri Ang pagsasama-sama ng kahit na medyo maliit na sukat ay nangangailangan ng napakalaking materyal at mga gastos sa oras. Kadalasan, sa oras na ang census ay nakumpleto at ang data ay naproseso, ang impormasyon ay luma na. Sa ilang mga kaso, ang kwalipikasyon ay imposible lamang. Sabihin nating ang mga mananaliksik ay nagtakda upang suriin kung ang aktwal na buhay ng serbisyo ng mga electric incandescent lamp ay tumutugma sa kinakalkula, kung saan kailangan nilang panatilihin ang mga ito hanggang sa mabigo ang mga ito. Kung susuriin natin ang buong stock ng mga lamp sa ganitong paraan, makukuha ang maaasahang data, ngunit walang maiiwan upang ikalakal.

Sa wakas, sa sorpresa ng mga baguhan, maaaring mas gusto ng isang mananaliksik ang sampling kaysa censorship upang matiyak ang katumpakan ng mga resulta. Ang pagsasagawa ng mga census ay nangangailangan ng paglahok ng isang malaking kawani ng kawani, na nagpapataas ng posibilidad ng mga sistematikong (hindi-sampling) na mga pagkakamali. Ang katotohanang ito ay isa sa mga dahilan kung bakit gumagamit ang US Census Bureau ng mga sample na survey upang suriin ang katumpakan ng iba't ibang uri ng mga census. Tama ang narinig mo: maaaring magsagawa ng mga sample na survey upang i-verify ang katumpakan ng data ng kwalipikasyon.

Mga Halimbawang Hakbang sa Disenyo

Sa Fig. Ang Figure 15.1 ay nagpapakita ng anim na hakbang na pagkakasunud-sunod na maaaring sundin ng isang mananaliksik kapag pumipili ng sample. Una sa lahat, kailangang matukoy ang target na populasyon o hanay ng mga elemento kung saan may gustong malaman ang mananaliksik.

Halimbawa, kapag pinag-aaralan ang mga kagustuhan ng mga bata, kailangang magpasya ang mga mananaliksik kung ang populasyon na pinag-aaralan ay bubuo ng mga bata lamang, mga magulang lamang, o pareho.

Pinagsama-sama (populasyon)
Isang hanay ng mga elemento na nakakatugon sa ilang partikular na kundisyon.
Sampling frame
Listahan ng mga elemento kung saan gagawin ang sample; maaaring binubuo ng mga yunit ng teritoryo, organisasyon, indibidwal at iba pang elemento.

Sinubukan ng isang partikular na kumpanya ang mga "karera" ng kuryente nito sa mga bata lamang. Pinasaya nila ang mga bata. Iba ang reaksyon ng mga magulang sa bagong produkto. Hindi nagustuhan ng mga nanay ang katotohanan na ang atraksyon ay hindi nagtuturo sa mga bata na mag-alaga ng mga kotse, at hindi nagustuhan ng mga ama ang katotohanan na ang produkto ay ginawang parang laruan.
Posible rin ang kabaligtaran na sitwasyon. Ang isang partikular na kumpanya ay nagsimulang gumawa ng isang bagong produkto ng pagkain at naglunsad ng isang kampanya sa advertising sa buong bansa kung saan ang pangunahing tungkulin ay itinalaga sa isang maagang nauukol na bata Sinubok lamang ng kumpanya ang pagiging epektibo ng mga patalastas sa mga ina na natuwa sa tuwa. Natagpuan ng mga bata ang "accelerator" na ito, at kasama nito ang ina-advertise na produkto mismo, kasuklam-suklam. Ang produkto ay tapos na 1.

Ang mananaliksik ay dapat magpasya kung sino o kung ano ang kaugnay na populasyon ay bubuo ng: mga indibidwal, pamilya, kumpanya, iba pang mga organisasyon, mga transaksyon sa credit card, atbp. Kapag gumagawa ng mga naturang desisyon, kinakailangan upang matukoy ang mga elemento na dapat na hindi kasama sa mga populasyon. Ang parehong temporal at heograpikal na sanggunian ng mga elemento ay dapat isagawa, na sa ilang mga kaso ay maaaring sumailalim sa mga karagdagang kundisyon o mga paghihigpit. Halimbawa, kung pinag-uusapan natin ang tungkol sa mga indibidwal, ang populasyon ng interes ay maaaring binubuo lamang ng mga taong higit sa 18 taong gulang, o ng mga babae lamang, o ng mga taong may hindi bababa sa edukasyon sa mataas na paaralan.

Ang gawain ng pagtukoy ng mga heograpikal na hangganan para sa target na populasyon sa internasyonal na pananaliksik sa marketing ay maaaring espesyal na problema, dahil pinapataas nito ang heterogeneity ng system na isinasaalang-alang. Halimbawa, ang relatibong ratio ng mga urban at rural na lugar ay maaaring mag-iba nang malaki sa bawat bansa. Ang aspetong teritoryo ay may malubhang epekto sa komposisyon ng populasyon sa loob ng isang bansa. Halimbawa, sa hilaga ng Chile, ang populasyong nakararami sa mga Indian ay naninirahan nang maayos, habang sa katimugang mga rehiyon ng bansa, karamihan sa mga inapo ng mga Europeo ay naninirahan.

Saklaw (insidence)
Ipinahayag bilang isang porsyento, ang proporsyon ng mga elemento ng isang populasyon o pangkat na nakakatugon sa mga kundisyon para sa pagsasama sa sample.

Sa pangkalahatan, mas simpleng tinukoy ang target na populasyon, mas mataas ang saklaw nito (incidence) at mas madali at mas mura ang pamamaraan ng sampling. Saklaw (insidence) tumutugma sa porsyento ng mga elemento ng isang populasyon o pangkat na nakakatugon sa mga kondisyon para sa pagsasama sa sample. Ang saklaw ay direktang nakakaapekto sa oras at mga gastos sa materyal kailangan para sa pagsusuri. Kung ang saklaw ay malaki (iyon ay, isang malaking proporsyon ng mga elemento ng populasyon ang nakakatugon sa isa o higit pang simpleng pamantayan na ginamit upang tukuyin ang mga potensyal na sumasagot), ang oras at materyal na gastos na kinakailangan para sa pangongolekta ng data ay mababawasan. Sa kabaligtaran, habang ang bilang ng mga pamantayan na dapat matugunan ng mga potensyal na tumugon ay tumataas, parehong tumataas ang mga gastos sa materyal at oras.

Sa Fig. Ipinapakita ng Figure 15.2 ang proporsyon ng populasyon ng nasa hustong gulang na kasangkot sa ilang mga sports. Ang data sa figure ay nagpapahiwatig na ang pagsusuri sa mga taong sangkot sa pagmomotorsiklo (3.6% lamang ng kabuuang bilang ng mga nasa hustong gulang) ay mas mahirap at magastos kaysa sa pagsusuri sa mga taong regular na naglalakad sa libangan (27.4% ng kabuuang bilang ng mga nasa hustong gulang). Ang pangunahing bagay ay upang maging tumpak ang mananaliksik sa pagtukoy kung aling mga elemento ang dapat isama sa populasyon na pinag-aaralan at kung aling mga elemento ang dapat na hindi kasama dito. Ang isang malinaw na pahayag ng layunin ng pananaliksik ay lubos na nagpapadali sa solusyon ng problemang ito. Ang pangalawang hakbang sa proseso ng pagpili ng sample ay upang matukoy ang sample frame, na, tulad ng alam mo na, ay ang listahan ng mga elemento kung saan kukunin ang sample. Hayaang ang target na populasyon ng isang pag-aaral ay lahat ng mga pamilyang naninirahan sa lugar ng Dallas. Sa unang tingin, ang isang mahusay at madaling ma-access na sampling frame ay ang direktoryo ng telepono ng Dallas. Gayunpaman, sa mas malapit na pagsusuri, nagiging malinaw na ang listahan ng mga pamilya na nakapaloob sa direktoryo ay hindi ganap na tama, dahil ang mga numero ng ilang mga pamilya ay tinanggal mula dito (siyempre, hindi kasama ang mga pamilyang walang telepono), habang ang ilang pamilya ay may ilang numero ng telepono. Ang mga taong kamakailan ay nagbago ng kanilang lugar ng paninirahan at, nang naaayon, ang kanilang numero ng telepono ay hindi rin kasama sa direktoryo.

Nalaman ng mga karanasang mananaliksik na bihirang may eksaktong tugma sa pagitan ng sampling frame at ng target na populasyon ng interes. Isa sa pinaka malikhaing yugto Ang trabaho ng sampling na disenyo ay upang matukoy ang isang naaangkop na sampling frame kapag ang listahan ng mga elemento ng populasyon ay mahirap. Maaaring mangailangan ito ng sampling mula sa mga bloke ng trabaho at prefix kapag, halimbawa, ang random na pagdayal ay ginagamit dahil sa mga pagkukulang sa mga direktoryo ng telepono. Gayunpaman, ang makabuluhang pagtaas sa mga yunit ng trabaho sa nakalipas na 10 taon ay nagpahirap sa gawaing ito. Ang mga katulad na sitwasyon ay maaaring lumitaw sa panahon ng pumipili na pagmamasid sa mga teritoryal na sona o mga organisasyon na may kasunod na pagkuha ng mga subsample, kapag, sabihin nating, ang target na populasyon ay mga indibidwal, ngunit walang eksaktong kasalukuyang listahan ng mga ito.

Pinagmulan: Batay sa data na nilalaman sa SSI LITe TM: L ow Pangyayari T argeted S ampling" (Fairfield, Conn.: Survey Sampling, Inc., 1994).

Ang ikatlong yugto ng pamamaraan ng sampling ay malapit na nauugnay sa pagpapasiya ng sampling frame. Ang pagpili ng paraan o pamamaraan ng sampling ay higit na nakasalalay sa sampling frame na pinagtibay ng mananaliksik. Iba't ibang uri ng sample ang nangangailangan iba't ibang uri mga sampling frame. Ang kabanatang ito at ang susunod ay magbibigay ng pangkalahatang-ideya ng mga pangunahing uri ng mga sample na ginamit sa pananaliksik sa marketing. Kapag inilalarawan ang mga ito, ang koneksyon sa pagitan ng sampling frame at ang paraan ng pagbuo nito ay dapat na maging malinaw.

Ang ikaapat na hakbang sa pamamaraan ng sampling ay upang matukoy ang laki ng sample. Ang problemang ito ay tinalakay sa Chap. 17. Sa ikalimang yugto, kailangan talagang piliin ng mananaliksik ang mga elementong susuriin. Ang paraan na ginamit para sa layuning ito ay tinutukoy ng napiling uri ng sample; Kapag tinatalakay ang mga pamamaraan ng sampling, pag-uusapan din natin ang pagpili ng mga elemento nito. Panghuli, kailangan talagang sarbey ng mananaliksik ang mga napiling respondente. Sa yugtong ito, may mataas na posibilidad na makagawa ng maraming pagkakamali.
Ang mga problemang ito at ilang pamamaraan para sa paglutas ng mga ito ay tinalakay sa Kabanata. 18.

Mga uri ng sampling (sampling) na mga plano

Ang lahat ng paraan ng pagkontrol ng sampling ay maaaring nahahati sa dalawang kategorya: obserbasyon ng mga probabilidad na sample at obserbasyon ng mga deterministikong sample. Ang bawat miyembro ng populasyon ay maaaring isama sa isang probability sample na may partikular na tinukoy na non-zero na probabilidad. Maaaring mag-iba ang posibilidad na maisama ang ilang partikular na miyembro ng populasyon sa sample, ngunit alam ang posibilidad na maisama ang bawat elemento dito. Ang posibilidad na ito ay tinutukoy ng partikular na mekanikal na pamamaraan na ginamit upang piliin ang mga elemento ng sample.

Para sa mga deterministikong sample, ang pagtatasa sa posibilidad ng pagsasama ng anumang elemento sa sample ay nagiging imposible. Hindi matitiyak ang pagiging kinatawan ng naturang sample. Halimbawa, Allstate Corporation bumuo ng isang sistema upang iproseso ang data ng mga claim sa insurance para sa 14 na milyong sambahayan (mga kliyente nito). Plano ng kumpanya na gamitin ang data na ito upang matukoy ang mga pattern na hinihiling para sa mga serbisyo nito—halimbawa, ang posibilidad na ang isang sambahayan na nagmamay-ari ng Mercedes Benz ay magkakaroon din ng bahay bakasyunan (na mangangailangan ng insurance). Kahit na ang database ay napakalaki, ang kumpanya ay walang paraan ng pagtatasa ng posibilidad na ang anumang partikular na customer ay maghahabol. Samakatuwid, hindi makatitiyak ang kumpanya na ang data sa mga customer na naghahabol ay kinatawan ng lahat ng mga customer ng kumpanya; at sa isang mas maliit na lawak - may kaugnayan sa mga potensyal na kliyente.

Ang lahat ng mga deterministikong sample ay batay sa indibidwal na posisyon, paghatol o kagustuhan ng mananaliksik sa halip na sa isang mekanikal na pamamaraan para sa pagpili ng mga sample na elemento. Ang ganitong mga kagustuhan kung minsan ay maaaring magbigay ng mahusay na mga pagtatantya ng mga katangian ng populasyon, ngunit walang paraan upang matukoy kung ang isang sample ay angkop para sa gawaing nasa kamay. Ang pagtatasa ng katumpakan ng mga resulta ng sampling ay maaari lamang gawin kung ang mga probabilidad ng pagpili ng ilang mga elemento ay alam. Para sa kadahilanang ito, ang probability sampling ay karaniwang itinuturing na isang superior na paraan para sa pagtantya ng magnitude ng sampling error. Ang mga sample ay maaari ding hatiin sa mga fixed-size na sample at sequential sample. Kapag nagtatrabaho sa mga nakapirming laki ng mga sample, ang laki ng sample ay tinutukoy bago magsimula ang survey, at ang pagsusuri ng mga resulta ay nauuna sa pagkolekta ng lahat ng kinakailangang data. Magiging interesado kami sa mga sample na may nakapirming laki, dahil ito ang uri na karaniwang ginagamit sa pananaliksik sa marketing.

Probability sampling
Isang sample kung saan ang bawat elemento ng populasyon ay maaaring isama sa ilang kilalang non-zero na posibilidad.
Deterministic sampling
Pagsa-sample batay sa ilang pribadong kagustuhan o paghatol na tumutukoy sa pagpili ng ilang partikular na elemento; sa kasong ito, ang pagtatasa sa posibilidad ng pagsasama ng isang arbitraryong elemento ng populasyon sa sample ay nagiging imposible.

Gayunpaman, hindi dapat kalimutan na mayroon ding mga sequential sample na maaaring gamitin sa bawat isa sa mga pangunahing disenyo ng sampling na tinalakay sa ibaba.

Sa sequential sampling, ang bilang ng mga napiling elemento ay hindi alam nang maaga; ito ay tinutukoy batay sa isang serye ng mga sequential na desisyon. Kung ang isang survey ng isang maliit na sample ay hindi humantong sa isang maaasahang resulta, ang hanay ng mga elemento na sinuri ay pinalawak. Kung ang resulta ay nananatiling hindi tiyak, ang laki ng sample ay tataas muli. Sa bawat yugto, ang isang desisyon ay ginawa tungkol sa kung ang resulta na nakuha ay itinuturing na sapat na kapani-paniwala o kung ipagpapatuloy ang pagkolekta ng data. Ang pagtatrabaho sa sequential sampling ay ginagawang posible upang masuri ang takbo ng data habang ito ay kinokolekta, na nagbibigay-daan sa iyong bawasan ang mga gastos na nauugnay sa mga karagdagang obserbasyon sa mga kaso kung saan ang kanilang pagiging posible ay nauubos.

Ang parehong probabilistic at deterministic sampling na disenyo ay may ilang uri. Halimbawa, ang mga deterministikong sample ay maaaring hindi kinatawan (maginhawa), sinadya o quota na mga sample ng probabilidad ay nahahati sa simpleng random, stratified o grupo (cluster), sila naman, ay maaaring hatiin sa mga subtype. Sa Fig. Ipinapakita ng Figure 15.3 ang mga uri ng sample na tatalakayin dito at sa susunod na kabanata.

Fixed volume sampling (fixed sampling)
Isang sample na ang laki ay tinutukoy ng isang priori; ang kinakailangang impormasyon ay tinutukoy mula sa mga napiling elemento.
Sequential sampling
Isang sample na nabuo batay sa isang serye ng mga sunud-sunod na desisyon. Kung, pagkatapos isaalang-alang ang isang maliit na sample, ang resulta ay lumilitaw na hindi tiyak, ang isang mas malaking sample ay isinasaalang-alang; kung ang hakbang na ito ay hindi humahantong sa isang resulta, ang laki ng sample ay tataas muli, atbp. Kaya, sa bawat yugto ang isang desisyon ay ginawa kung ang resulta na nakuha ay maaaring ituring na sapat na kapani-paniwala.

Dapat tandaan na ang mga pangunahing uri ng mga sample ay maaaring pagsamahin upang bumuo ng higit pa kumplikadong mga plano piling pagmamasid. Kung nauunawaan mo ang kanilang mga pangunahing paunang uri, magiging mas madali para sa iyo na maunawaan ang mga mas kumplikadong kumbinasyon.

Mga deterministikong sample

Gaya ng nabanggit na, kapag pumipili ng mga elemento ng isang tiyak na sample, ang mga pribadong pagtatasa o desisyon ay gumaganap ng isang mapagpasyang papel. Minsan ang mga pagtatantya na ito ay nagmumula sa mananaliksik, ngunit sa ibang mga kaso ang pagpili ng mga elemento ng populasyon ay naiwan sa mga manggagawa sa bukid. Dahil ang mga elemento ay hindi pinili nang mekanikal, ang pagtukoy sa posibilidad ng pagsasama ng isang arbitrary na elemento sa sample at, nang naaayon, ang sampling error ay nagiging imposible. Ang kamangmangan sa error dahil sa napiling pamamaraan ng sampling ay humahadlang sa mga mananaliksik na masuri ang katumpakan ng kanilang mga pagtatantya.

Mga sample na hindi kinatawan (convenience).

Mga sample na hindi kinatawan (convenience). minsan ay tinatawag na random dahil ang pagpili ng mga sample na elemento ay isinasagawa sa isang "random" na paraan - ang mga elementong iyon na o tila pinaka-available sa panahon ng sampling ay pinili.

Ang ating pang-araw-araw na buhay ay puno ng mga halimbawa ng gayong mga seleksyon. Nakikipag-usap kami sa mga kaibigan at, batay sa kanilang mga reaksyon at posisyon, gumagawa kami ng mga konklusyon hinggil sa mga pagkiling sa pulitika na namamayani sa lipunan; ang isang lokal na istasyon ng radyo ay nananawagan sa mga tao na ipahayag ang kanilang mga pananaw sa isang kontrobersyal na isyu, at ang mga pananaw na kanilang ipinahayag ay binibigyang-kahulugan bilang namamayani; Hinihikayat namin ang mga boluntaryo na makipagtulungan at makipagtulungan sa mga boluntaryong tumulong sa amin. Ang problema sa mga sample ng kaginhawahan ay kitang-kita—hindi namin matiyak na ang mga sample ng ganitong uri ay aktwal na kumakatawan sa target na populasyon. Maaari pa rin tayong mag-alinlangan na ang mga opinyon ng ating mga kaibigan ay tumpak na sumasalamin sa mga pampulitikang pananaw na namamayani sa lipunan, ngunit kadalasan ay talagang gusto nating maniwala na ang mas malalaking sample, na pinili sa parehong paraan, ay kinatawan. Ipakita natin ang kamalian ng gayong palagay na may isang halimbawa.
Ilang taon na ang nakalilipas, isa sa mga lokal na istasyon ng telebisyon sa lungsod kung saan nakatira ang may-akda ng aklat na ito ay nagsagawa ng pang-araw-araw na poll sa opinyon ng publiko sa mga paksang interesado sa lokal na komunidad. Ang mga botohan, na tinatawag na "Pulse of Madison," ay isinagawa bilang mga sumusunod. Tuwing gabi sa alas-sais na balita, nagtatanong ang istasyon sa mga manonood tungkol sa isang partikular na kontrobersyal na isyu, kung saan kailangan nilang magbigay ng positibo o negatibong sagot.

Sa kaso ng isang positibong sagot, kailangan mong tumawag sa isa, sa kaso ng isang negatibong sagot, kailangan mong tumawag sa isa pang numero ng telepono. Ang bilang ng mga boto "para sa" at "laban" ay awtomatikong nakalkula. Ang broadcast ng balita sa alas-diyes ay nag-ulat ng mga resulta ng survey sa telepono. Tuwing gabi mula 500 hanggang 1000 tao ang tumawag sa studio, na gustong ipahayag ang kanilang posisyon sa isang isyu o iba pa; binigyang-kahulugan ng isang komentarista sa telebisyon ang mga resulta ng botohan bilang pangunahing opinyon ng publiko.

Sampol na hindi kinatawan (convenience).
Minsan ay tinatawag na random dahil ang pagpili ng mga sample na elemento ay isinasagawa sa isang "random" na paraan-ang mga elementong iyon na o mukhang pinaka-available sa panahon ng sampling ay pinili.

Sa isa sa anim na oras na episode, tinanong ang mga manonood ng sumusunod na tanong: "Sa palagay mo ba ay dapat ibaba ang edad ng pag-inom sa Madison sa 18?" Ang kasalukuyang legal na edad ay 21 taong gulang. Ang mga manonood ay tumugon sa tanong na ito na may pambihirang aktibidad - nang gabing iyon ay halos 4,000 katao ang tumawag sa studio, kung saan 78% ay pabor na ibaba ang limitasyon sa edad. Tila halata na ang isang sample ng 4,000 katao ay "dapat maging kinatawan" ng isang komunidad na may 180,000 na walang ganoon. Tulad ng malamang na nahulaan mo na, ang isang partikular na pangkat ng edad ng populasyon ay mas interesado sa alam na resulta ng boto kaysa sa iba. Alinsunod dito, hindi kataka-taka na nang pag-usapan ang isyung ito makalipas ang ilang linggo, lumabas na ang mga mag-aaral ay kumilos sa konsiyerto sa oras na inilaan para sa survey. Salitan silang tumawag sa telebisyon, bawat isa ay ilang beses. Kaya, ang laki ng sample o ang porsyento ng mga tagasuporta ng liberalisasyon ng batas ay hindi nakakagulat. Ang sample ay hindi kinatawan.

Ang pagdaragdag lamang ng laki ng sample ay hindi ginagawang kinatawan ito. Ang pagiging kinatawan ng sample ay tinitiyak hindi sa laki, ngunit sa tamang pamamaraan para sa pagpili ng mga elemento. Kapag ang mga kalahok sa survey ay boluntaryong natukoy o ang mga sample na elemento ay pinili batay sa kanilang kakayahang magamit, hindi ginagarantiyahan ng sampling plan ang pagiging kinatawan ng sample. Iminumungkahi ng empirical na ebidensya na ang mga sample na pinili para sa mga dahilan ng kaginhawaan ay bihirang kumakatawan (anuman ang laki ng sample). Ang mga botohan sa telepono, na nagsusuri ng 800-900 na boto, ay ang pinakakaraniwang anyo ng malalaki ngunit hindi kinatawan ng mga sample.

May layuning sampling
Deterministic (purposeful) sampling, ang mga elemento kung saan ay pinili nang manu-mano; eksakto ang mga elementong iyon ay pinili na, sa opinyon ng mananaliksik, ay nakakatugon sa mga layunin ng sarbey.
Purposeful sampling, depende sa kakayahan ng mananaliksik na tukuyin ang isang paunang hanay ng mga respondente na may mga gustong katangian; ang mga respondent na ito ay ginamit bilang mga impormante upang matukoy ang karagdagang pagpili ng mga indibidwal.

Sa kasamaang palad, maraming tao ang kumukuha ng mga resulta ng naturang mga survey nang may kumpiyansa. Ang isa sa mga pinakakaraniwang halimbawa ng paggamit ng mga sample na hindi kinatawan sa internasyonal na pananaliksik sa marketing ay isang survey ng ilang mga bansa batay sa isang sample na binubuo ng mga dayuhan na kasalukuyang nakatira sa teritoryo ng bansa na nagpasimula ng survey (halimbawa, mga Scandinavian na naninirahan sa ang USA). Bagama't ang mga naturang sample ay maaaring magbigay ng kaunting liwanag sa ilang aspeto ng populasyon na pinag-uusapan, dapat tandaan na ang mga indibidwal na ito ay karaniwang kumakatawan sa isang "Americanized" elite na ang koneksyon sa kanilang sariling bansa ay maaaring may kundisyon. Hindi inirerekomenda na gumamit ng mga sample na hindi kinatawan kapag nagsasagawa ng mga deskriptibo o sanhi ng mga survey. Ang mga ito ay pinahihintulutan lamang sa mga pag-aaral sa paggalugad na naglalayong bumuo ng mga partikular na ideya o konsepto, ngunit kahit na sa kasong ito, mas mainam na gumamit ng sinasadyang mga sample.

May layuning sampling

Kung minsan ay tinatawag ang purposeful sampling hindi nakatutok; ang kanilang mga elemento, na sa palagay ng mananaliksik ay nakakatugon sa mga layunin ng pag-aaral, ay pinili nang manu-mano. Procter & Gamble ginamit ang pamamaraang ito kapag nagpapakita ng mga patalastas sa 13- hanggang 17 taong gulang na nakatira malapit sa punong-tanggapan nito sa Cincinnati. Kinuha ng dibisyon ng pagkain at inumin ng kumpanya ang grupong ito ng mga tinedyer upang kumilos bilang isang uri ng sample ng consumer. Nagtatrabaho ng 10 oras sa isang linggo kapalit ng $1,000 at pagpunta sa isang konsyerto, nanood sila ng mga patalastas sa telebisyon, bumisita sa mga supermarket kasama ang mga tagapamahala ng kumpanya upang tingnan ang mga display ng produkto, subukan ang mga bagong produkto, at tinalakay ang gawi sa pagbili. Sa pamamagitan ng pagpili ng mga sample na kinatawan sa pamamagitan ng proseso ng "recruitment" sa halip na random, maaaring tumuon ang kumpanya sa mga katangiang itinuturing nitong kapaki-pakinabang, tulad ng kakayahan ng isang teenager na malinaw na ipahayag ang kanilang sarili, sa panganib na ang kanilang mga pananaw ay maaaring hindi kumakatawan sa kanilang pangkat ng edad.

Gaya ng nasabi na, natatanging katangian Ang sinasadyang sample ay ang direktang pagpili ng mga elemento nito. Sa ilang mga kaso, ang mga sample na elemento ay pinili hindi dahil ang mga ito ay kinatawan, ngunit dahil sila ay maaaring magbigay ng impormasyon ng interes sa mga mananaliksik. Kapag ang hukuman ay umaasa sa ekspertong patotoo, ito ay, sa isang kahulugan, ay gumagamit ng sinasadyang sampling. Ang isang katulad na posisyon ay maaaring mangibabaw kapag bumubuo ng mga proyekto sa pananaliksik. Sa panahon ng paunang pag-aaral ng isyu, ang mananaliksik ay pangunahing interesado sa pagtukoy ng mga prospect para sa pag-aaral, na tumutukoy sa pagpili ng mga sample na elemento.

Pagsa-sample ng snowball ay isang uri ng purposive sampling na ginagamit kapag nagtatrabaho sa mga espesyal na uri ng populasyon. Ang sample na ito ay nakasalalay sa kakayahan ng mananaliksik na tukuyin ang isang paunang hanay ng mga respondente na may mga gustong katangian. Ang mga respondent na ito ay ginamit bilang mga impormante upang matukoy ang karagdagang pagpili ng mga indibidwal.

Isipin, halimbawa, na gustong suriin ng isang kumpanya ang pangangailangan para sa isang partikular na produkto na magpapahintulot sa mga bingi na makipag-usap sa pamamagitan ng telepono. Ang mga mananaliksik ay maaaring magsimulang bumuo ng problemang ito sa pamamagitan ng pagtukoy sa mga pangunahing tauhan sa komunidad ng mga bingi; maaaring pangalanan ng huli ang iba pang miyembro ng grupong ito na sasang-ayon na makilahok sa survey. Sa ganitong mga taktika, lumalaki ang sample na parang snowball.

Habang ang mananaliksik ay nasa mga paunang yugto Kapag na-explore na ang problema at natukoy na ang mga prospect at posibleng limitasyon ng nakaplanong survey, maaaring maging napaka-epektibo ang paggamit ng purposive sampling. Ngunit sa anumang kaso ay hindi natin dapat kalimutan ang tungkol sa mga kahinaan ng isang sample ng ganitong uri, dahil maaari rin itong gamitin ng mananaliksik sa mga deskriptibo o sanhi ng pag-aaral, na agad na makakaapekto sa kalidad ng kanilang mga resulta. Ang isang klasikong halimbawa ng naturang pagkalimot ay ang Consumer Price Index (“CPI”). Tulad ng itinuturo ni Südman ( Sudman): “Ang CPI ay tinutukoy lamang para sa 56 na lungsod at metropolitan na lugar, ang pagpili nito ay naiimpluwensyahan din ng politikal na salik. Sa katunayan, ang mga lungsod na ito ay maaari lamang kumatawan sa kanilang sarili, habang ang index ay tinatawag price index para sa mga consumer goods para sa mga residente ng lungsod na tumatanggap ng oras-oras na sahod sahod *, At mga empleyado at lumilitaw sa karamihan ng mga tao bilang isang index na sumasalamin sa antas ng presyo sa anumang rehiyon ng United States. Ang pagpili ng mga retail outlet mismo ay ginawa din sa isang hindi random na paraan, bilang isang resulta nito nagiging imposible ang pagtatantya ng posibleng sampling error" (idinagdag ang diin) 2.

* Ibig sabihin, mga manggagawa. — Tandaan. lane

Mga sample ng quota

Ang ikatlong uri ng deterministic sampling ay mga sample ng quota; ang kilalang pagiging kinatawan nito ay nakakamit sa pamamagitan ng pagsasama sa loob nito ng parehong proporsyon ng mga elemento na may ilang partikular na katangian tulad ng sa populasyon na pinag-aaralan (tingnan ang "Palugit ng Pananaliksik 15.1"). Bilang halimbawa, maaari mong isaalang-alang na subukang lumikha ng isang kinatawan na sample ng mga mag-aaral na nakatira sa campus. Kung sa isang partikular na sample na binubuo ng 500 indibidwal ay walang isang senior student, magkakaroon tayo ng karapatang pagdudahan ang pagiging kinatawan nito at ang pagiging lehitimo ng paglalapat ng mga resultang nakuha mula sa sample na ito sa populasyon na sinusuri. Kapag nagtatrabaho sa isang proporsyonal na sample, matitiyak ng mananaliksik na ang proporsyon ng mga senior na estudyante sa sample ay tumutugma sa kanilang proporsyon sa kabuuang bilang ng mga mag-aaral.

Ipagpalagay na ang isang mananaliksik ay nagsasagawa ng isang sample na pag-aaral ng mga mag-aaral sa unibersidad, at siya ay interesado sa pagtiyak na ang sample ay sumasalamin hindi lamang sa kanilang kasarian, kundi pati na rin sa kanilang pamamahagi sa mga kurso. Hayaang ang kabuuang bilang ng mga mag-aaral ay 10,000: 3200 ang mga mag-aaral sa unang taon, 2600 ang mga mag-aaral sa ikalawang taon, 2200 ang mga mag-aaral sa ikatlong taon at 2000 ang mga mag-aaral sa ikaapat na taon; kung saan 7,000 ay lalaki at 3,000 babae. Para sa laki ng sample na 1,000, ang proporsyonal na sampling plan ay nangangailangan ng 320 freshmen, 260 sophomores, 220 third-years, at 200 graduates, 700 lalaki at 300 babae. Maaaring ipatupad ng mananaliksik ang planong ito sa pamamagitan ng pagtatalaga sa bawat tagapanayam ng isang tiyak na quota na tutukuyin kung sinong mga mag-aaral ang dapat nilang kontakin.

quota sampling Isang deterministikong sample na pinili upang ang proporsyon ng mga elemento sa sample na may ilang partikular na katangian ay tumutugma sa humigit-kumulang sa proporsyon ng parehong mga elemento sa populasyon na pinag-aaralan; Ang bawat field worker ay binibigyan ng quota na tumutukoy sa mga katangian ng populasyon kung saan siya dapat makipag-ugnayan.

Ang isang tagapanayam na magsasagawa ng 20 panayam ay maaaring turuan na magtanong:

            • anim na freshmen - limang lalaki at isang babae;
            • anim na sophomores - apat na lalaki at dalawang babae;
            • apat na mag-aaral sa ikatlong taon - tatlong lalaki at isang babae;
            • apat na mag-aaral sa ikaapat na taon - dalawang lalaki at dalawang babae.

Tandaan na ang pagpili ng mga partikular na sample na elemento ay tinutukoy hindi ng plano ng pananaliksik, ngunit sa pamamagitan ng pagpili ng tagapanayam, na idinisenyo upang sumunod lamang sa mga kundisyong iyon na itinakda ng quota: pakikipanayam ang limang freshmen, isang freshman, atbp.

Tandaan din na ang quota na ito ay tumpak na sumasalamin sa distribusyon ng kasarian ng populasyon ng mag-aaral, ngunit medyo binabaluktot ang pamamahagi ng mga mag-aaral sa mga kurso; 70% (14 sa 20) ng mga panayam ay sa mga lalaki, ngunit 30% lamang (6 sa 20) ang nasa freshmen, habang sila ay bumubuo ng 32% ng kabuuang bilang ng mga mag-aaral. Ang quota na inilaan sa bawat indibidwal na tagapanayam ay maaaring hindi, at kadalasang hindi, ay nagpapakita ng distribusyon ng mga katangian ng kontrol sa populasyon—tanging ang resultang sample ang dapat magkaroon ng naaangkop na proporsyonalidad.

Dapat alalahanin na ang mga proporsyonal na sample ay nakadepende sa personal, subjective na mga saloobin o paghuhusga sa halip na sa isang layunin na pamamaraan para sa pagpili ng mga sample na elemento. Bukod dito, hindi tulad ng sinasadyang sampling, ang personal na paghuhusga dito ay hindi pag-aari ng developer ng proyekto, ngunit sa tagapanayam. Ang tanong ay lumitaw kung ang mga proporsyonal na sample ay maaaring ituring na kinatawan, kahit na ang mga ito ay nagpaparami ng likas na ratio ng mga bahagi ng populasyon na may ilang mga katangian ng kontrol. Kaugnay nito, tatlong pangungusap ang kailangang gawin.

Una, maaaring malaki ang pagkakaiba ng sample mula sa populasyon sa ilang iba pang mahahalagang katangian, na maaaring magkaroon ng malubhang epekto sa resulta. Halimbawa, kung ang pag-aaral ay nakatuon sa problema ng racial prejudice na umiiral sa mga mag-aaral, isang mahalagang pangyayari ang maaaring lumabas na kung saan nanggaling ang mga respondente: mula sa lungsod o mula sa kanayunan. Dahil ang isang quota para sa katangiang "mula sa isang urban/rural na background" ay hindi tinukoy, ang isang tumpak na representasyon ng katangiang ito ay magiging malabong. Siyempre, may alternatibo: tukuyin ang mga quota para sa lahat ng potensyal na nauugnay na katangian. Gayunpaman, ang pagtaas sa bilang ng mga katangian ng kontrol ay humahantong sa isang mas kumplikadong detalye. Ito naman ay nagpapahirap—at kung minsan ay imposible pa—na pumili ng mga sample na elemento at, sa anumang kaso, humahantong sa pagtaas ng gastos nito. Kung, halimbawa, kabilang sa isang lungsod o populasyon sa kanayunan at ang socioeconomic status ay magkakaroon din ng kaugnayan sa pag-aaral, ang tagapanayam ay maaaring maghanap ng isang freshman na urban at upper- o middle-class. Sumasang-ayon ka na ang paghahanap ng isang lalaking freshman ay mas madali.

Pangalawa, napakahirap tiyakin na ang isang ibinigay na sample ay tunay na kinatawan. Siyempre, posibleng suriin ang sample upang matiyak na ang pamamahagi ng mga katangian na hindi kasama sa kontrol ay tumutugma sa kanilang pamamahagi sa populasyon. Gayunpaman, ang gayong pagsusuri ay maaari lamang humantong sa mga negatibong konklusyon. Ang tanging bagay na maaaring makilala ay ang pagkakaiba-iba ng mga distribusyon. Kung ang mga distribusyon ng sample at ang populasyon para sa bawat isa sa mga katangiang ito ay umuulit sa isa't isa, may posibilidad na ang sample ay naiiba sa populasyon sa ibang paraan, hindi tahasang tinukoy.

At sa wakas, pangatlo. Ang mga interbyu, kapag iniwan sa kanilang sariling mga aparato, ay may posibilidad na gumawa ng ilang mga aksyon. Madalas din nilang i-interview ang kanilang mga kaibigan. Dahil madalas silang maging katulad ng mismong mga tagapanayam, may panganib na magkamali. Iminumungkahi ng ebidensya mula sa England na ang mga sample ng quota ay may posibilidad na:

  1. pagmamalabis sa papel ng mga pinaka-naa-access na elemento;
  2. minamaliit ang tungkulin ng maliliit na pamilya;
  3. pagmamalabis sa tungkulin ng mga pamilyang may mga anak;
  4. binabawasan ang papel ng mga manggagawang sangkot sa industriyal na produksyon;
  5. binabawasan ang papel ng mga may pinakamataas at pinakamababang kita;
  6. minamaliit ang tungkulin ng mga mamamayang mahina ang pinag-aralan;
  7. minamaliit ang papel ng mga taong may mababang posisyon sa lipunan.
Ang mga tagapanayam na pumipili ng mga quota sa pamamagitan ng paghinto sa mga random na dumadaan ay malamang na ituon ang kanilang pansin sa mga lugar na may malaking bilang ng mga potensyal na tumugon, tulad ng pamilihan, mga istasyon ng tren at paliparan, mga pasukan sa malalaking supermarket at mga katulad nito. Ang kasanayang ito ay humahantong sa labis na representasyon ng mga pangkat ng mga tao na madalas na bumibisita sa mga lugar na ito. Kapag kailangan ang mga pagbisita sa bahay, ang mga tagapanayam ay kadalasang nauudyok ng kaginhawahan.
Halimbawa, maaari silang magsagawa ng mga survey sa araw lamang, na humahantong sa pagmamaliit ng mga opinyon ng mga manggagawa. Sa iba pang mga bagay, hindi sila pumapasok sa mga sira-sirang gusali at, bilang panuntunan, hindi umakyat sa itaas na palapag ng mga gusali na walang mga elevator.

Depende sa mga detalye ng problemang pinag-aaralan, ang mga uso na ito ay maaaring humantong sa iba't ibang uri ng mga pagkakamali, ngunit ang pagwawasto sa mga ito sa yugto ng pagsusuri ng data ay tila napakahirap. Sa kabilang banda, na may layuning pagpili ng mga sample na elemento, ang mga mananaliksik ay may ilang mga tool na ginagawang posible upang pasimplehin ang pamamaraan para sa pagtatasa ng pagiging kinatawan ng isang ibinigay na sample. Kapag pinag-aaralan ang problema ng pagiging kinatawan ng mga naturang sample, hindi isinasaalang-alang ng mananaliksik ang komposisyon ng sample bilang pamamaraan para sa pagpili ng mga elemento nito.

Pananaliksik Window: Brilliant! Ngunit sino ang magbabasa nito?

Taun-taon, gumagastos ang mga advertiser ng milyun-milyong dolyar sa mga advertisement na tumatakbo sa hindi mabilang na mga publikasyon, mula sa Advertising Age hanggang Yankee. Ang isang tiyak na pagtatasa ng teksto at imahe ay maaaring isagawa bago ang paglalathala nito, tulad ng sinasabi nila, sa bahay, sa isang ahensya ng advertising; ang tunay na pagpapatunay at pagsusuri nito ay nangyayari lamang pagkatapos ng paglalathala ng patalastas, na napapaligiran ng dose-dosenang mga patalastas na maingat na inihanda na nagpapaligsahan para sa atensyon ng mambabasa.

kumpanya Roper Starch sa buong mundo ay nakikibahagi sa pagtatasa ng pagiging madaling mabasa ng mga advertisement na inilagay sa consumer, negosyo, kalakalan at propesyonal na mga magasin at pahayagan. Ang mga resulta ng pananaliksik ay dinadala sa atensyon ng mga advertiser at ahensya - siyempre, para sa isang naaangkop na bayad. Dahil ang mga advertiser ay nagsusumikap araw-araw upang subukang maihatid ang kanilang mga ad sa mga mamimili, ang kumpanya almirol nagpasya na mag-compile ng sample na magbibigay sa mga subscriber ng napapanahon at tumpak na impormasyon tungkol sa pagiging epektibo ng advertising. Taun-taon ang kumpanya almirol nag-survey sa higit sa 50,000 katao, tumitingin sa humigit-kumulang 20,000 advertisement. Mga 500 indibidwal na publikasyon ang pinag-aralan taun-taon.

Gumamit ang starch ng proportional sampling, na may pinakamababang laki ng sample na 100 mambabasa ng isang kasarian at 100 mambabasa ng kabilang kasarian. Napagpasyahan ng Starch na sa laki ng sample na ito, ang mga pangunahing pagkakaiba-iba sa mga antas ng pagiging madaling mabasa ay nagpapatatag. Ang mga mambabasa na higit sa 18 taong gulang ay personal na sinuri, at kasama rito ang lahat ng publikasyon maliban sa mga inilaan para sa mga espesyal na grupo ng populasyon (halimbawa, ang mga batang babae sa parehong edad ay sinuri upang suriin ang mga publikasyon ng Seventeen magazine).

Kapag nagsasagawa ng mga survey, ang zone ng pamamahagi ng isang partikular na publikasyon ay isinasaalang-alang. Sabihin nating isang pag-aaral sa magasin sa Los Angeles ang tumingin sa mga mambabasa na naninirahan sa timog California. Ang oras ay pinag-aralan sa buong bansa. Ang survey ay nakatuon sa mga indibidwal na isyu ng magazine at isinagawa sa 20-30 lungsod nang sabay-sabay.

Ang bawat tagapanayam ay itinalaga ng isang maliit na quota ng mga panayam, na nagsilbi sa layunin ng pagliit ng bias sa survey. Ang mga talatanungan ay ipinamahagi sa mga taong may iba't ibang propesyon at edad na may iba't ibang kita. Ang bawat naturang pag-aaral ay nagbigay ng pagkakataong magpakita ng mga posisyon sa medyo malawak na mambabasa. Kapag isinasaalang-alang ang isang bilang ng mga publikasyong propesyonal, negosyo at industriya, ang mga detalye ng kanilang subscription at pamamahagi ay isinasaalang-alang din. Ang mga listahan ng subscription na nakatuon sa mga publikasyong may medyo makitid na pamamahagi ay naging posible upang pumili ng mga katanggap-tanggap na respondent.

Sa bawat survey, hiniling ng mga tagapanayam ang mga sumasagot na tingnan ang publikasyon at tinanong kung may napansin silang anumang mga patalastas. Kung ang sagot ay sumasang-ayon, ang registrar ay nagtanong ng isang buong serye ng mga tanong upang masuri ang antas ng pang-unawa ng ad.

Ang pagtatasa na ito ay maaaring tatlong beses:

  • Bigyang-pansin: ang mga nagbigay ng pansin sa mismong katotohanan ng paglitaw ng naturang anunsyo.
  • Nakilala: ang mga nakaalala sa anumang bahagi ng patalastas, na tumatalakay sa inaanunsyo trademark o tungkol sa advertiser.
  • Basahin: mga taong nagbasa ng hindi bababa sa kalahati ng patalastas.

Pagkatapos suriin ang lahat ng mga patalastas, naitala ng mga tagapanayam ang pangunahing impormasyon sa pag-uuri: kasarian, edad, trabaho, Katayuan ng pamilya, nasyonalidad, kita, laki at komposisyon ng pamilya, na nagbigay-daan para sa cross-tabulation ng antas ng interes ng mambabasa.

Kapag ginamit nang maayos, ang data ng kumpanya almirol payagan ang mga advertiser at ahensya na tukuyin ang parehong hindi matagumpay at matagumpay na mga uri ng mga scheme ng advertising na umaakit at humahawak sa atensyon ng mambabasa. Ang impormasyon ng ganitong uri ay lubhang mahalaga para sa mga advertiser na pangunahing interesado sa pagiging epektibo ng kanilang kampanya sa advertising.

Pinagmulan: Roper Starch Worldwide, Mamaronek, NY 10543.

Mga sample ng probabilidad

Ang isang mananaliksik ay maaaring matukoy ang posibilidad ng pagsasama ng anumang elemento ng isang populasyon sa isang probability sample dahil ang pagpili ng mga elemento nito ay isinasagawa batay sa ilang layunin na proseso at hindi nakasalalay sa mga kapritso at kagustuhan ng mananaliksik o field worker. Dahil layunin ang pamamaraan para sa pagpili ng mga elemento, maaaring masuri ng mananaliksik ang pagiging maaasahan ng mga resultang nakuha, na imposible sa kaso ng mga deterministikong sample, gaano man kaingat ang pagpili ng mga elemento ng huli.

Hindi dapat isipin ng isang tao na ang mga probabilistikong sample ay palaging mas kinatawan kaysa sa mga deterministiko. Sa katunayan, ang isang deterministikong sample ay maaaring mas kinatawan. Ang bentahe ng mga sample ng probabilidad ay pinapayagan nila ang isa na matantya ang posibleng error sa sampling. Kung ang isang mananaliksik ay gumagawa ng isang deterministikong sample, wala siyang layunin na pamamaraan para sa pagtatasa ng kasapatan nito sa mga layunin ng pag-aaral.

Simpleng random sampling

Karamihan sa mga tao ay nakatagpo ng simpleng random sampling sa isang paraan o iba pa, alinman bilang bahagi ng kursong istatistika sa kolehiyo o sa pamamagitan ng pagbabasa tungkol sa mga resulta ng mga nauugnay na pag-aaral sa mga pahayagan o magasin. Sa simpleng random sampling, ang bawat elementong kasama sa sample ay may parehong tinukoy na posibilidad na maisama sa sample, at anumang kumbinasyon ng mga elemento sa orihinal na populasyon ay maaaring maging isang sample. Halimbawa, kung gusto naming gumuhit ng isang simpleng random na sample ng lahat ng mga mag-aaral na naka-enroll sa isang partikular na kolehiyo, kailangan lang naming gumawa ng isang listahan ng lahat ng mga mag-aaral, magtalaga ng isang numero sa bawat pangalan dito, at gumamit ng isang computer upang random na pumili ng isang ibinigay na bilang ng mga item.

Populasyon

Populasyon
Isang hanay ng mga elemento na nakakatugon sa ilang partikular na kundisyon; tinatawag ding pag-aaral (target) na populasyon.
Parameter
Isang tiyak na katangian o tagapagpahiwatig ng isang pangkalahatan o populasyon ng pag-aaral.

Ang pangkalahatan, o pinag-aralan, populasyon ay ang populasyon kung saan ginawa ang pagpili. Ang hanay na ito (populasyon) ay maaaring ilarawan sa pamamagitan ng isang bilang ng mga partikular na parameter, na mga katangian ng pangkalahatang populasyon, na ang bawat isa ay kumakatawan sa isang tiyak na tagapagpahiwatig ng dami na nagpapakilala sa isang populasyon mula sa isa pa.

Isipin na ang populasyon na pinag-aaralan ay ang buong populasyon ng nasa hustong gulang ng Cincinnati. Ang ilang mga parameter ay maaaring gamitin upang ilarawan ang populasyong ito: average na edad, proporsyon ng populasyon na may mataas na edukasyon, antas ng kita, atbp. Pakitandaan na ang lahat ng mga tagapagpahiwatig na ito ay may tiyak na nakapirming halaga. Siyempre, maaari nating kalkulahin ang mga ito sa pamamagitan ng pagsasagawa ng kumpletong census ng populasyon na pinag-aaralan. Karaniwan, hindi kami umaasa sa mga kwalipikasyon, ngunit sa sample na aming pinipili at ginagamit ang mga halaga na nakuha sa panahon ng sample na pagmamasid upang matukoy ang mga kinakailangang parameter ng populasyon.

Ilarawan natin kung ano ang sinabi sa Talahanayan 1. Ang 15.1 ay isang halimbawa ng hypothetical na populasyon na binubuo ng 20 tao. Ang pagtatrabaho sa isang maliit na hypothetical na populasyon tulad nito ay may ilang mga pakinabang. Una, ginagawang posible ng maliit na sukat ng sample na madaling kalkulahin ang mga parameter ng populasyon na maaaring magamit upang ilarawan ito. Pangalawa, ang saklaw na ito ay nagbibigay ng insight sa kung ano ang maaaring mangyari kung ang isang partikular na sampling plan ay pinagtibay. Ang parehong mga tampok na ito ay ginagawang madali upang ihambing ang mga sample na resulta sa "totoo", at sa kasong ito kilalang halaga pinagsama-samang, na hindi ang kaso sa tipikal na sitwasyon kung saan hindi alam ang aktwal na halaga ng pinagsama-samang. Ang paghahambing ng pagtatantya sa "tunay" na halaga ay nagiging lalong malinaw sa kasong ito.

Ipagpalagay na gusto nating tantyahin, batay sa dalawang random na napiling elemento, ang average na kita ng mga indibidwal sa orihinal na populasyon. Ang average na kita ang magiging parameter nito. Upang matantya ang average na halaga na ito, na tinutukoy natin bilang μ, dapat nating hatiin ang kabuuan ng lahat ng mga halaga sa kanilang numero:

Average ng populasyon μ = Kabuuan ng mga elemento ng populasyon / Bilang ng mga elemento.

Sa aming kaso, ang mga kalkulasyon ay nagbibigay ng:

Hinango set

Hinango set ay binubuo ng lahat ng posibleng sample na maaaring mapili mula sa pangkalahatang populasyon ayon sa isang ibinigay na sampling plan (sampling plan). Mga istatistika ay isang katangian, o tagapagpahiwatig, ng isang sample. Ang halaga ng isang sample na istatistika ay ginagamit upang tantyahin ang isang partikular na parameter ng populasyon. Ang iba't ibang sample ay gumagawa ng iba't ibang istatistika o pagtatantya ng parehong parameter ng populasyon.

Hinango set
Ang kabuuan ng lahat ng posibleng matukoy na sample na maaaring mapili mula sa populasyon ayon sa isang ibinigay na sampling plan. Statistics Isang katangian o indicator ng isang sample.

Isaalang-alang ang nagmula na populasyon ng lahat ng posibleng mga sample na maaaring mapili mula sa aming hypothetical na populasyon ng 20 indibidwal sa ilalim ng isang sampling plan na nagpapalagay ng sample na laki ng n=2 maaaring makuha sa pamamagitan ng random na hindi paulit-ulit na pagpili.

Ipagpalagay natin sa sandaling ito na ang data para sa bawat yunit ng populasyon - sa ating kaso ang pangalan at kita ng indibidwal - ay naitala sa mga tarong, pagkatapos ay ibinaba ang mga ito sa isang pitsel at pinaghalo. Tinatanggal ng mananaliksik ang isang bilog mula sa pitsel, isusulat ang impormasyon mula dito at itabi ito. Ganoon din ang ginagawa niya sa pangalawang bilog na inalis sa pitsel. Pagkatapos ay ibinalik ng mananaliksik ang parehong mga mug sa pitsel, pinaghalo ang mga nilalaman nito at inuulit ang parehong pagkakasunud-sunod ng mga aksyon. Sa mesa Ipinapakita ng Figure 15.2 ang mga posibleng resulta ng pamamaraang ito. Para sa 20 lupon, posible ang 190 tulad ng ipinares na kumbinasyon.

Para sa bawat kumbinasyon, maaaring kalkulahin ang average na kita. Sabihin nating para sa isang sample AB (k= 1)

k-e sample mean = Kabuuan ng mga sample na elemento / Bilang ng sample na elemento =

Sa Fig. Ipinapakita ng 15.4 ang pagtatantya ng average na kita para sa buong populasyon at ang laki ng error para sa bawat pagtatantya para sa mga sample k = 25, 62,108,147 At 189 .

Bago natin simulang isaalang-alang ang ugnayan sa pagitan ng sample na average na kita (statistika) at ang average na kita ng populasyon (isang parameter na nangangailangan ng pagtatantya), sabihin natin ang ilang salita tungkol sa nagmula na populasyon. Una, sa pagsasagawa, hindi kami gumagawa ng mga pinagsama-samang ganitong uri. Mangangailangan ito ng masyadong maraming oras at pagsisikap. Ang practitioner ay limitado sa pag-compile lamang ng isang sample ng kinakailangang laki. Ginagamit ng mananaliksik konsepto nagmula na populasyon at ang nauugnay na konsepto ng sampling distribution kapag bumubuo ng mga huling konklusyon.

Paano ipapakita sa ibaba. Pangalawa, dapat tandaan na ang isang nagmula na populasyon ay tinukoy bilang ang kabuuan ng lahat ng posibleng iba't ibang mga sample na maaaring mapili mula sa populasyon ayon sa isang ibinigay na sampling plan. Kapag nagbago ang alinmang bahagi ng sampling plan, nagbabago rin ang nagmula na populasyon. Kaya, kung, kapag pumipili ng mga lupon, ibinalik ng mananaliksik ang una sa mga tinanggal na disk sa pitsel bago alisin ang pangalawa, ang nagmula na hanay ay isasama.

mga sample na AA, BB, atbp. Kung ang dami ng mga hindi paulit-ulit na sample ay katumbas ng 3, at hindi 2, lilitaw ang mga sample ng uri ng ABC, at magkakaroon ng 1140 sa kanila, at hindi 190, gaya ng nangyari sa nakaraang kaso. Kapag nagbabago mula sa simpleng random sampling sa anumang iba pang paraan ng pagpili ng mga elemento ng sample, nagbabago rin ang nagmula na populasyon.

Dapat ding tandaan na ang pagpili ng sample ng isang ibinigay na laki mula sa isang pangkalahatang populasyon ay katumbas ng pagpili ng isang elemento (1 sa 190) mula sa isang nagmula na populasyon. Ang katotohanang ito ay nagpapahintulot sa amin na gumuhit ng maraming istatistikal na konklusyon.

Sample mean at population mean

May karapatan ba tayong itumbas ang sample mean sa totoong populasyon? Sa anumang kaso, ipinapalagay namin na magkakaugnay ang mga ito. Gayunpaman, naniniwala din kami na magkakaroon ng pagkakamali. Halimbawa, maaaring ipagpalagay na ang impormasyong nakuha mula sa mga gumagamit ng Internet ay malaki ang pagkakaiba sa mga resulta ng isang survey ng "regular" na populasyon. Sa ibang mga kaso, maaari naming ipagpalagay ang isang medyo malapit na tugma, kung hindi, hindi namin magagamit ang sample na halaga upang tantyahin ang pangkalahatang halaga. Ngunit gaano kalaki ang pagkakamaling magagawa natin dito?

Pagsamahin natin ang lahat ng sample na paraan na nasa talahanayan. 15.2, at hatiin ang nagresultang halaga sa bilang ng mga sample, ibig sabihin, i-average natin ang mga average.
Makukuha natin ang sumusunod na resulta:

Kasabay nito ang ibig sabihin ng populasyon. Sinasabi nila na sa kasong ito ay kinakaharap natin walang pinapanigan na mga istatistika.

Ang isang istatistika ay sinasabing walang kinikilingan kung ang ibig sabihin nito sa lahat ng posibleng mga sample ay katumbas ng tinantyang parameter ng populasyon. Mangyaring tandaan na hindi namin pinag-uusapan ang ilang partikular na kahulugan dito. Ang bahagyang pagtatantya ay maaaring medyo malayo sa totoong halaga - kunin, halimbawa, ang mga sample ng AB o ST. Sa ilang mga kaso, ang tunay na halaga ng populasyon ay maaaring hindi maabot sa pamamagitan ng pagsasaalang-alang sa anumang posibleng sample, kahit na ang mga istatistika ay walang kinikilingan. Sa aming kaso hindi ito ang kaso: ang isang buong hanay ng mga posibleng sample - halimbawa AT - ay nagbibigay ng sample na mean na katumbas ng tunay na ibig sabihin ng populasyon.

Makatuwirang isaalang-alang ang pamamahagi ng mga sample na pagtatantya na ito, at lalo na ang kaugnayan sa pagitan ng pagkalat na ito ng mga pagtatantya at ang pagkakaiba-iba sa mga antas ng kita sa populasyon. Ang pagkakaiba-iba ng populasyon ay ginagamit bilang isang sukatan ng pagkakaiba-iba. Upang matukoy ang pagkakaiba-iba ng populasyon, dapat nating kalkulahin ang paglihis ng bawat halaga mula sa mean, idagdag ang mga parisukat ng lahat ng mga paglihis at hatiin ang nagresultang kabuuan sa bilang ng mga termino. Tukuyin natin ang pagkakalat ng populasyon sa pamamagitan ng a^. Pagkatapos:

Variance ng populasyon σ 2 = Kabuuan ng mga squared differences ng bawat elemento
populasyon at average ng populasyon / Bilang ng mga elemento ng populasyon =

Pagpapakalat average na halaga ang antas ng kita ay maaaring matukoy sa parehong paraan. Iyon ay, mahahanap natin ito sa pamamagitan ng pagtukoy ng mga paglihis ng bawat average mula sa kanilang pangkalahatang average, pagsasama-sama ng mga parisukat ng mga paglihis at paghahati ng nagresultang kabuuan sa bilang ng mga termino.

Matutukoy natin ang dispersion ng average na antas ng kita sa ibang paraan, gamit ang dispersion ng mga antas ng kita sa populasyon, dahil may direktang ugnayan sa pagitan ng dalawang halagang ito. Upang maging tumpak, sa mga kaso kung saan ang sample ay kumakatawan lamang sa isang maliit na bahagi ng populasyon, ang pagkakaiba-iba ng sample mean ay katumbas ng pagkakaiba-iba ng populasyon na hinati sa laki ng sample:

kung saan ang σ x 2 ay ang dispersion ng average na sample na halaga ng antas ng kita, ang σ 2 ay ang dispersion ng antas ng kita sa pangkalahatang populasyon, n— laki ng sample.

Ngayon ihambing natin ang pamamahagi ng mga resulta sa pamamahagi ng isang quantitative na katangian sa pangkalahatang populasyon. Ipinapakita ng Figure 15.5 na ang distribusyon ng populasyon ng isang quantitative trait, na ipinapakita sa panel A, ay multipeaked (bawat isa sa 20 values ​​ay isang beses lang lumalabas) at simetriko tungkol sa totoong populasyon na mean na 9400.

Pamamahagi ng sample
Ang pamamahagi ng mga halaga ng isang tinukoy na istatistika na kinakalkula para sa lahat ng posibleng matukoy na mga sample na maaaring mapili mula sa populasyon sa ilalim ng isang ibinigay na sampling plan.

Ang distribusyon ng mga marka na ipinapakita sa kahon B ay batay sa datos sa Talahanayan 1. 15.3, na, naman, ay pinagsama-sama sa pamamagitan ng pagtatalaga ng mga halaga mula sa talahanayan. 15.2 sa isa o ibang grupo depende sa kanilang laki, na sinusundan ng pagbibilang ng kanilang bilang sa grupo. Ang Field B ay isang tradisyonal na histogram, na isinasaalang-alang sa pinakasimula ng kursong istatistika, na kumakatawan sampling distribution mga istatistika. Pansinin natin ang sumusunod sa pagpasa: ang konsepto ng sampling distribution ay ang pinakamahalagang konsepto sa statistics; ito ang pundasyon ng pagbuo ng statistical inferences. Batay sa kilalang distribusyon ng sampling ng mga istatistikang pinag-aaralan, makakagawa tayo ng konklusyon tungkol sa kaukulang parameter ng populasyon. Kung alam lamang na ang sample na pagtatantya ay nag-iiba mula sa sample hanggang sa sample, ngunit ang kalikasan ng pagbabagong ito ay hindi alam, magiging imposibleng matukoy ang sampling error na nauugnay sa pagtatantya na ito. Dahil inilalarawan ng distribusyon ng sampling ng isang pagtatantya ang pagkakaiba-iba nito mula sa sample hanggang sa sample, nagbibigay ito ng batayan para sa pagtukoy ng bisa ng sample na pagtatantya. Ito ay para sa kadahilanang ito na ang disenyo ng probability sampling ay napakahalaga para sa statistical inference.

Mula sa mga kilalang probabilidad ng pagsasama sa sample ng bawat elemento sa populasyon, mahahanap ng mga tagapanayam ang sampling distribution ng iba't ibang istatistika. Umaasa ang mga mananaliksik sa mga distribusyon na ito—kung ito man ay ang sample mean, sample na proporsyon, sample na pagkakaiba, o ilang iba pang istatistika—kapag pinalawak ang resulta ng isang sample na obserbasyon sa populasyon. Tandaan din na para sa mga sample ng laki 2, ang distribusyon ng sample na paraan ay single-peaked at simetriko tungkol sa tunay na mean.

Kaya ipinakita namin na:

  1. Ang ibig sabihin ng lahat ng posibleng paraan ng sample ay katumbas ng pangkalahatang mean.
  2. Ang pagpapakalat ng sample na paraan ay sa isang tiyak na paraan na nauugnay sa pangkalahatang pagpapakalat.
  3. Ang pamamahagi ng sample na paraan ay single-peaked, habang ang distribusyon ng mga halaga ng isang quantitative na katangian sa pangkalahatang populasyon ay multi-peaked.

Central limit theorem

Isang teorama na nagsasaad na para sa mga simpleng random na sample ng volume n, na nakahiwalay sa pangkalahatang populasyon na may pangkalahatang mean μ at variance σ 2, para sa malaki n ang distribusyon ng sample mean x ay lumalapit sa normal na may sentrong katumbas ng μ at variance σ 2 . Ang katumpakan ng pagtatantya na ito ay tumataas sa pagtaas n.

Central limit theorem. Ang single-peak na pamamahagi ng mga pagtatantya ay maaaring ituring bilang isang manipestasyon ng gitnang teorama ng limitasyon, na nagsasaad na para sa mga simpleng random na sample ng volume n, na nakahiwalay sa pangkalahatang populasyon na may totoong mean μ at variance σ 2, para sa malaki n ang distribusyon ng sample ay lumalapit sa normal na may sentrong katumbas ng tunay na mean at isang variance na katumbas ng ratio ng pagkakaiba-iba ng populasyon sa laki ng sample, ibig sabihin::

Ang pagtatantya na ito ay nagiging mas at mas tumpak habang tayo ay lumalaki n. Alalahanin mo ito. Anuman ang uri ng populasyon, ang distribusyon ng sample na paraan ay magiging normal para sa mga sample na may sapat na laki. Ano ang dapat na maunawaan ng isang sapat na malaking volume? Kung ang pamamahagi ng mga halaga ng isang quantitative na katangian ng pangkalahatang populasyon ay normal, kung gayon ang pamamahagi ng sample ay nangangahulugan para sa mga sample ng laki n=1. Kung ang distribusyon ng variable (quantitative characteristic) sa populasyon ay simetriko ngunit hindi normal, ang napakaliit na sample ay magbubunga ng normal na distribution ng sample na paraan. Kung ang pamamahagi ng isang quantitative na katangian ng pangkalahatang populasyon ay may binibigkas na kawalaan ng simetrya, mayroong pangangailangan para sa mas malalaking sample. Gayunpaman, ang pamamahagi ng sample na average ay maaaring tanggapin bilang normal lamang sa mga kaso kung saan tayo ay nakikitungo sa isang sample na may sapat na laki.

Upang makagawa ng mga konklusyon gamit ang isang normal na curve, hindi kinakailangan na magpatuloy mula sa kondisyon ng normal na pamamahagi ng mga halaga ng isang quantitative na katangian ng pangkalahatang populasyon. Sa halip, umaasa kami sa gitnang teorama ng limitasyon at, depende sa distribusyon ng populasyon, matukoy ang laki ng sample na magpapahintulot sa amin na magtrabaho sa isang normal na curve. Sa kabutihang palad, ang normal na pamamahagi ng mga istatistika ay tinitiyak ng medyo maliit na mga sample - Fig. Malinaw na ipinapakita ng 15.6 ang sitwasyong ito. Mga pagtatantya sa pagitan ng kumpiyansa. Matutulungan ba tayo ng nasa itaas sa paggawa ng ilang konklusyon tungkol sa pangkalahatang kahulugan? Sa katunayan, sa pagsasagawa, pumili lamang kami ng isa, at hindi lahat ng posibleng mga sample ng isang naibigay na laki, at batay sa data na nakuha ay gumuhit kami ng ilang mga konklusyon tungkol sa target na grupo.

Paano ito nangyayari? Tulad ng nalalaman, na may normal na distribusyon, ang isang tiyak na porsyento ng lahat ng mga obserbasyon ay may isang tiyak na standard deviation; Sabihin nating 95% ng mga obserbasyon ay magkasya sa loob ng ±1.96 karaniwang paglihis ng mean. Ang normal na distribusyon ng sample na paraan, kung saan maaaring ilapat ang central limit theorem, ay walang pagbubukod sa ganitong kahulugan. Ang ibig sabihin ng naturang sample distribution ay katumbas ng general mean μ, at ang standard deviation nito ay tinatawag na standard error ng mean:

Lumalabas na:

  • 68.26% ng sample ay nangangahulugang lumihis mula sa pangkalahatang mean nang hindi hihigit sa ± σ x;
  • 95.45% ng sample ay nangangahulugang lumihis mula sa pangkalahatang mean nang hindi hihigit sa ±σ x;
  • 99.73% ng sample ay nangangahulugang lumihis mula sa pangkalahatang mean nang hindi hihigit sa ± σ x,

i.e. isang tiyak na proporsyon ng sample na ibig sabihin depende sa napiling halaga z ay makikita sa pagitan na tinutukoy ng halaga z. Ang expression na ito ay maaaring muling isulat bilang isang hindi pagkakapantay-pantay:

Pangkalahatang average - z < Среднее по выборке < Генеральное среднее + z(Root Mean Square Error ng Mean)

Kaya, ang sample mean na may tiyak na posibilidad ay nasa pagitan, ang mga hangganan nito ay ang kabuuan at pagkakaiba ng mean value ng distribution at isang tiyak na bilang ng mga standard deviations. Ang hindi pagkakapantay-pantay na ito ay maaaring mabago sa:

Sample average - z(Root Mean Square Error ng Mean)< Генеральное среднее < Среднее по выборке + z(Root Mean Square Error ng Mean)

Kung ang ratio na 15.1 ay sinusunod, halimbawa, sa 95% ng mga kaso ( z= 1.96), pagkatapos ay sa 95% ng mga kaso ang ratio na 15.2 ay sinusunod. Sa mga kaso kung saan ang konklusyon ay batay sa iisang sample mean, ginagamit namin ang expression 15.2.

Mahalagang tandaan ang ekspresyong iyon 15.2 ay hindi nangangahulugan na ang agwat na naaayon sa isang ibinigay na sample ay kinakailangang kasama ang pangkalahatang mean. Ang pagitan ay may higit na kinalaman sa pamamaraan ng pagpili. Ang agwat na binuo sa paligid ng isang naibigay na mean ay maaaring o hindi kasama ang tunay na ibig sabihin ng populasyon. Ang aming pagtitiwala sa kawastuhan ng mga ginawang konklusyon ay batay sa katotohanan na 95% ng lahat ng mga agwat na ginawa ayon sa napiling sampling plan ay maglalaman ng totoong mean. Naniniwala kami na ang aming sample ay nasa loob ng 95%.

Upang ilarawan ang mahalagang puntong ito, isipin natin sandali na ang pamamahagi ng sample ay nangangahulugan para sa mga sample na may sukat n= 2 sa aming hypothetical na halimbawa ay normal. Malinaw na inilalarawan ng talahanayan 15.4 ang kinalabasan para sa unang 10 ng posibleng 190 sample na maaaring mapili sa ilalim ng isang naibigay na disenyo. Tandaan na 7 lamang sa 10 agwat ang may kasamang engrande o totoong mean. Ang pagtitiwala sa kawastuhan ng konklusyon ay hindi dahil sa ilang partikular na pagtatasa, ngunit tiyak pamamaraan mga pagtatasa. Ang pamamaraang ito ay para sa 100 sample kung saan ang sample mean at confidence interval ay kakalkulahin, sa 95 na mga kaso ang agwat na ito ay isasama ang tunay na pangkalahatang halaga. Ang katumpakan ng isang ibinigay na sample ay tinutukoy ng pamamaraan kung saan napili ang sample. Ang isang kinatawan ng sampling na disenyo ay hindi ginagarantiya na ang lahat ng mga sample ay kinatawan. Ang mga pamamaraan ng inference ng istatistika ay batay sa pagiging kinatawan ng sampling plan, kaya naman napakahalaga ng pamamaraang ito para sa mga probability sample.

Nagbibigay-daan sa amin ang mga sample ng probabilidad na suriin ang katumpakan ng mga resulta bilang ang lapit ng mga pagtatantya na ginawa sa totoong halaga. Kung mas malaki ang mean square error ng mga istatistika, mas mataas ang antas ng scatter ng mga pagtatantya at mas mababa ang katumpakan ng pamamaraan.

Ang ilan ay maaaring malito sa katotohanan na ang antas ng kumpiyansa ay nauugnay sa pamamaraan at hindi sa partikular na halaga ng sample, ngunit dapat tandaan na ang laki ng antas ng kumpiyansa para sa pagtantya ng pangkalahatang halaga ay maaaring iakma ng mananaliksik. Kung hindi mo gustong kumuha ng anumang mga pagkakataon at nag-aalala na maaari kang makatagpo ng isa sa limang sample na pagitan na pinili na hindi kasama ang ibig sabihin ng populasyon, maaari kang pumili ng 99% na agwat ng kumpiyansa kung saan isa lamang sa isang daang sample na pagitan ang hindi kasama ang ibig sabihin ng populasyon. Dagdag pa, kung maaari mong dagdagan ang laki ng sample, tataas mo ang antas ng kumpiyansa ng resulta, na nagbibigay ng nais na katumpakan sa pagtantya ng halaga ng populasyon. Pag-uusapan natin ito nang mas detalyado sa Chap. 17.

Ang pamamaraang inilalarawan namin ay may isa pang bahagi na maaaring magdulot ng ilang pagkalito. Kapag tinatantya ang agwat ng kumpiyansa, tatlong dami ang ginagamit: x, z at σx. Ang sample mean x ay kinakalkula mula sa sample na data, z ay pinili batay sa nais na antas ng kumpiyansa. Ngunit ano ang tungkol sa root mean square error ng average na σ x? Ito ay katumbas ng:

at samakatuwid, upang matukoy ito, kailangan nating itakda ang standard deviation ng quantitative na katangian ng pangkalahatang populasyon, i.e. 5. Ano ang gagawin sa mga kaso kung saan ang standard deviation s hindi kilala? Ang problemang ito ay hindi bumangon sa dalawang kadahilanan. Una, kadalasan para sa karamihan ng mga quantitative na katangian na ginagamit sa pananaliksik sa marketing, ang variation ay nagbabago nang mas mabagal kaysa sa antas ng karamihan sa mga variable ng interes sa marketer. Alinsunod dito, kung ang pag-aaral ay paulit-ulit, maaari nating gamitin ang nauna, dati nang nakuhang halaga ng s sa mga kalkulasyon. Pangalawa, kapag napili na ang sample at nakuha ang data, maaari nating tantyahin ang pagkakaiba-iba ng populasyon sa pamamagitan ng pagtukoy sa pagkakaiba-iba ng sample. Ang pagkakaiba ng isang walang pinapanigan na sample ay tinukoy bilang:

Sample na pagkakaiba-iba ŝ 2 = Kabuuan ng mga squared deviations mula sa sample mean / (Bilang ng sample na elemento -1). Upang matukoy ang sample variance, kailangan muna nating hanapin ang sample mean. Pagkatapos ang mga pagkakaiba sa pagitan ng bawat isa sa mga sample na halaga at ang sample mean ay matatagpuan; ang mga pagkakaibang ito ay naka-squad, summed at hinati sa isang numero na katumbas ng bilang ng mga sample na obserbasyon na binawasan ng isa. Ang sample na variance ay hindi lamang nagbibigay ng pagtatantya ng pangkalahatang pagkakaiba, ngunit maaari ding gamitin upang tantyahin ang root mean square error ng mean. Kapag ang pangkalahatang pagkakaiba-iba σ 2 ay kilala, ang root mean square error σ x ay kilala rin, dahil:

Kapag hindi alam ang pangkalahatang pagkakaiba, ang root mean square error ng mean ay maaari lamang matantya. Ang pagtatantya na ito ay ibinigay ŝ x, na katumbas ng standard deviation ng sample na hinati sa square root ng sample size, i.e. Ang pagtatantya ay tinutukoy sa parehong paraan tulad ng pagtatantya ng tunay na halaga ay natukoy, ngunit sa halip na ang pangkalahatang karaniwang paglihis, ang sample na karaniwang paglihis ay pinapalitan sa formula ng pagkalkula. Kaya, sabihin, para sa sample AB na may sample na mean na 5800:

Alinsunod dito, ŝ = 283, at

at ang 95% na pagitan ay ngayon

na mas mababa kaysa sa dating halaga.

Sa mesa 15.5 ay nagbubuod ng mga formula ng pagkalkula para sa iba't ibang mga average at pagkakaiba-iba na tinalakay sa kabanatang ito. Pagbuo ng isang simpleng random na sample. Sa aming halimbawa, ang pagpili ng mga sample na elemento ay isinagawa gamit ang isang pitsel, na naglalaman ng lahat ng mga elemento ng orihinal na populasyon. Ito ay nagbigay-daan sa amin na mailarawan ang mga konsepto ng nagmula na populasyon at distribusyon ng sampling. Hindi namin inirerekumenda ang paggamit ng gayong pamamaraan sa pagsasanay, dahil pinapataas nito ang posibilidad ng pagkakamali. Maaaring magkaiba ang mga mug sa parehong laki at texture, na sa ilang partikular na kaso ay maaaring humantong sa kagustuhan para sa isa kaysa sa isa. Ang pagpili ng mga kalahok sa kampanya sa Vietnam, na isinagawa gamit ang isang lottery, ay maaaring magsilbi bilang isang halimbawa ng ganitong uri ng pagkakamali.

Ang pagpili ay isinagawa sa pamamagitan ng paghila ng mga disk na may mga petsa ng kapanganakan mula sa isang malaking drum. Ini-broadcast ng telebisyon ang pamamaraang ito sa buong bansa. Sa kasamaang palad, ang mga disk ay na-load sa drum sa isang sistematikong paraan: ang mga petsa ng Enero ay nauna, ang mga petsa ng Disyembre ay huling. Kahit na ang drum ay napapailalim sa masinsinang pag-ikot, ang mga petsa ng Disyembre ay nahulog nang mas madalas kaysa sa Enero. Kasunod nito, ang pamamaraang ito ay binago sa paraang ang posibilidad ng naturang sistematikong mga pagkakamali ay makabuluhang nabawasan. Ang ginustong paraan ng pagguhit ng isang simpleng random na sample ay batay sa paggamit ng isang talahanayan ng mga random na numero.

Ang paggamit ng naturang talahanayan ay kinabibilangan ng sumusunod na pagkakasunud-sunod ng mga hakbang. Una, ang mga elemento ng populasyon ay dapat magtalaga ng mga sequential number mula 1 hanggang N; sa ating hypothetical totality ang elemento A ay itatalaga bilang 1, elemento B- numero 2, atbp. Pangalawa, ang bilang ng mga digit sa talahanayan ng random na numero ay dapat na kapareho ng numero N. Para sa N= 20 dalawang-digit na numero ang gagamitin; Para sa N sa pagitan ng 100 at 999 ay tatlong-digit na mga numero, atbp. Pangatlo, ang panimulang posisyon ay dapat na matukoy nang random. Maaari naming buksan ang kaukulang talahanayan ng mga random na numero at, ipinikit ang aming mga mata, tulad ng sinasabi nila, ituro ang aming daliri dito. Dahil ang mga numero sa random na talahanayan ng numero ay nasa random na pagkakasunud-sunod, ang panimulang posisyon ay hindi mahalaga.

At sa wakas, maaari tayong lumipat sa anumang direksyon na arbitraryong pinili - pataas, pababa o sa kabila, pinipili ang mga elementong iyon na ang mga numero ay tumutugma sa mga random na numero mula sa talahanayan. Upang ilarawan kung ano ang sinabi, isaalang-alang ang isang pinaikling talahanayan ng mga random na numero (Talahanayan 15.6). Dahil ang N= 20, dapat lang tayong magtrabaho sa dalawang-digit na numero. Sa ganitong kahulugan, talahanayan. Ang 15.6 ay ganap na nababagay sa amin. Magpasya tayo nang maaga upang lumipat pababa sa hanay, ngunit ang panimulang posisyon ay nasa intersection ng ikalabing-isang hanay at ang ikaapat na hanay, kung saan matatagpuan ang numerong 77 Ang numerong ito ay masyadong malaki at samakatuwid ay dapat na itapon. Ang susunod na dalawang numero ay itatapon din, ngunit ang ikaapat na halaga na 02 ay gagamitin dahil ang 2 ay tumutugma sa numero ng elemento. SA.

Ang susunod na limang numero ay itatapon din bilang masyadong malaki, habang ang numero 05 ay magsasaad ng elemento E. Kaya ang mga elemento SA At E ay magiging aming sample ng dalawang elemento, kung saan hahatulan namin ang antas ng kita ng populasyon na ito. Posible rin ang isang alternatibong diskarte, kung saan ang isang computer program na bumubuo ng mga random na numero ay gagamitin bilang batayan para sa pagpili. Lumabas sa Kamakailan lamang ipinahihiwatig ng mga publikasyon na ang mga numerong nabuo ng naturang mga programa ay hindi ganap na random, na maaaring magpakita ng kanilang mga sarili sa isang tiyak na paraan kapag gumagawa ng mga kumplikadong modelo ng matematika, ngunit maaari silang magamit para sa karamihan ng inilapat na pananaliksik sa marketing. Tandaan muli na ang isang simpleng random na sample ay nangangailangan ng compilation ng isang sequential na may bilang na listahan ng mga elemento ng populasyon.

Sa madaling salita, dapat kilalanin ang bawat miyembro ng orihinal na populasyon. Para sa ilang mga populasyon, hindi ito mahirap gawin, halimbawa, kapag pinag-aaralan ang 500 pinakamalaking korporasyong Amerikano, isang listahan kung saan ibinibigay sa Fortune magazine. Ang listahang ito ay naipon na, kaya ang pagbuo ng isang simpleng random na sample sa kasong ito ay hindi magiging mahirap. Para sa iba pang mga paunang populasyon (halimbawa, para sa lahat ng pamilyang nakatira sa isang partikular na lungsod), ang pag-compile ng isang pangkalahatang listahan ay napakahirap, na pumipilit sa mga mananaliksik na gumamit ng iba pang mga sampling scheme.

Buod

Layunin ng Pagkatuto 1
Malinaw na matukoy ang pagkakaiba sa pagitan ng mga konsepto ng census (kwalipikasyon) at sampling

Ang isang kumpletong census ng isang populasyon ay tinatawag kwalipikasyon. Sample isang koleksyon na nabuo mula sa mga napiling elemento.

Layunin ng Pagkatuto 2
Alamin ang kakanyahan at pagkakasunud-sunod ng anim na yugto na ipinatupad ng mga mananaliksik upang makakuha ng sample na populasyon

Ang proseso ng sampling ay nahahati sa anim na yugto:

  1. pagtatalaga ng populasyon;
  2. pagtukoy ng sampling frame;
  3. pagpili ng pamamaraan ng pagpili;
  4. pagpapasiya ng laki ng sample;
  5. pagpili ng mga sample na elemento;
  6. pagsusuri ng mga napiling elemento.

Layunin ng Pagkatuto 3
Tukuyin ang konsepto ng "sampling frame"

Ang sampling frame ay ang listahan ng mga elemento kung saan kukunin ang sample.

Layunin ng Pagkatuto 4
Ipaliwanag ang pagkakaiba sa pagitan ng probability at deterministic sampling

Sa isang probability sample, ang bawat miyembro ng populasyon ay maaaring isama sa isang tiyak binigay na hindi zero probabilidad. Ang mga probabilidad ng pagsasama ng ilang miyembro ng populasyon sa sample ay maaaring magkaiba sa isa't isa, ngunit alam ang posibilidad na maisama ang bawat elemento dito. Para sa mga deterministikong sample, ang pagtatasa sa posibilidad ng pagsasama ng anumang elemento sa sample ay nagiging imposible. Hindi matitiyak ang pagiging kinatawan ng naturang sample. Ang lahat ng deterministic sampling ay nakabatay sa halip sa personal na opinyon, paghatol o kagustuhan. Ang ganitong mga kagustuhan kung minsan ay maaaring magbigay ng mahusay na mga pagtatantya ng mga katangian ng populasyon, ngunit walang paraan upang matukoy ang pagiging angkop ng isang sample para sa layunin nito.

Layunin ng Pagkatuto 5
Tukuyin ang pagkakaiba sa pagitan ng fixed-size sampling at multi-stage (sequential) sampling

Kapag nagtatrabaho sa mga nakapirming laki ng mga sample, ang laki ng sample ay tinutukoy bago magsimula ang survey at ang pagsusuri ng mga resulta ay mauunahan ng koleksyon ng lahat ng kinakailangang data. Sa sequential sampling, ang bilang ng mga napiling elemento ay hindi alam nang maaga; ito ay tinutukoy batay sa isang serye ng mga sequential na desisyon.

Layunin ng Pagkatuto 6
Ipaliwanag kung ano ang purposive sampling at ilarawan ang parehong mga kalakasan at kahinaan nito

Ang mga item sa isang purposive sample ay pinili ng kamay at iniharap sa mananaliksik bilang pagtugon sa mga layunin ng survey. Ipinapalagay na ang mga napiling elemento ay makapagbibigay ng kumpletong larawan ng populasyon na pinag-aaralan. Habang ang mananaliksik ay nasa maagang yugto ng paggalugad sa problema at pagtukoy sa mga prospect at posibleng limitasyon ng nakaplanong survey, ang paggamit ng purposive sampling ay maaaring maging napakaepektibo. Ngunit sa anumang kaso ay hindi natin dapat kalimutan ang tungkol sa mga kahinaan ng isang sample ng ganitong uri, dahil maaari rin itong gamitin ng mananaliksik sa mga deskriptibo o sanhi ng pag-aaral, na agad na makakaapekto sa kalidad ng kanilang mga resulta.

Layunin ng Pagkatuto 7
Tukuyin ang konsepto ng quota sampling

Pinipili ang isang proporsyonal na sample sa paraang ang proporsyon ng mga elemento sa sample na may ilang partikular na katangian ay tumutugma nang humigit-kumulang sa proporsyon ng parehong mga elemento sa populasyon na sinusuri; Para magawa ito, ang bawat enumerator ay binibigyan ng quota na tumutukoy sa mga katangian ng populasyon kung saan siya dapat makipag-ugnayan.

Layunin ng Pagkatuto 8
Ipaliwanag kung ano ang isang parameter sa isang sampling procedure

Parameter - isang tiyak na katangian o tagapagpahiwatig ng pangkalahatan o pinag-aralan na populasyon; isang tiyak na quantitative indicator na nagpapakilala sa isang populasyon mula sa isa pa.

Layunin ng Pagkatuto 9
Ipaliwanag kung ano ang derived set

Ang nagmula na populasyon ay binubuo ng lahat ng posibleng mga sample na maaaring mapili mula sa populasyon ayon sa isang ibinigay na sampling plan.

Layunin ng Pagkatuto 10
Ipaliwanag kung bakit ang konsepto ng sampling distribution ay isang mahalagang konsepto sa istatistika.

Ang konsepto ng sampling distribution ay ang pundasyon ng statistical inference. Batay sa kilalang distribusyon ng sampling ng mga istatistikang pinag-aaralan, makakagawa tayo ng konklusyon tungkol sa kaukulang parameter ng populasyon. Kung alam lamang na ang sample na pagtatantya ay nag-iiba mula sa sample hanggang sa sample, ngunit ang kalikasan ng pagbabagong ito ay hindi alam, magiging imposibleng matukoy ang sampling error na nauugnay sa pagtatantya na ito. Dahil inilalarawan ng distribusyon ng sampling ng isang pagtatantya ang pagkakaiba-iba nito mula sa sample hanggang sa sample, nagbibigay ito ng batayan para sa pagtukoy ng bisa ng sample na pagtatantya.

Sample - isang set ng mga kaso (mga paksa, bagay, kaganapan, sample), gamit ang isang tiyak na pamamaraan, pinili mula sa pangkalahatang populasyon upang lumahok sa pag-aaral.

Laki ng sample

Ang laki ng sample ay ang bilang ng mga kaso na kasama sa sample na populasyon. Para sa mga kadahilanang istatistika, inirerekomenda na ang bilang ng mga kaso ay hindi bababa sa 30-35.

Dependent at independiyenteng mga sample

Kapag naghahambing ng dalawa (o higit pang) sample, ang isang mahalagang parameter ay ang kanilang pagtitiwala. Kung posible na magtatag ng isang homomorphic na pares (iyon ay, kapag ang isang kaso mula sa sample X ay tumutugma sa isa at isang kaso lamang mula sa sample Y at vice versa) para sa bawat kaso sa dalawang sample (at ang batayan na ito para sa relasyon ay mahalaga para sa katangian na sinusukat sa mga sample), ang mga naturang sample ay tinatawag na dependent. Mga halimbawa ng dependent sample:

  1. pares ng kambal,
  2. dalawang sukat ng anumang katangian bago at pagkatapos ng eksperimentong pagkakalantad,
  3. mag-asawa
  4. at iba pa.

Kung walang ganoong ugnayan sa pagitan ng mga sample, ang mga sample na ito ay itinuturing na independyente, halimbawa:

  1. lalaki at babae,
  2. mga psychologist at mathematician.
  3. Alinsunod dito, ang mga dependent na sample ay palaging may parehong laki, habang ang laki ng mga independent sample ay maaaring magkaiba.

Ang paghahambing ng mga sample ay ginawa gamit ang iba't ibang pamantayan sa istatistika:

  • T-test ng mag-aaral
  • Wilcoxon T-test
  • Mann-Whitney U na pagsubok
  • Pag-sign criterion
  • at iba pa.

pagiging kinatawan

Ang sample ay maaaring ituring na kinatawan o hindi kinatawan.

Halimbawa ng sample na hindi kinatawan

Sa Estados Unidos, ang isa sa mga pinakatanyag na makasaysayang halimbawa ng unrepresentative sampling ay nangyayari sa panahon ng 1936 presidential election. Ang Literary Digest, na matagumpay na nahula ang mga kaganapan ng ilang nakaraang halalan, ay mali sa mga hula nito nang magpadala ito ng sampung milyong test ballot sa mga subscriber nito, mga taong pinili mula sa mga libro ng telepono sa buong bansa, at mga tao mula sa mga listahan ng pagpaparehistro ng sasakyan. Sa 25% ng mga ibinalik na balota (halos 2.5 milyon), ang mga boto ay ipinamahagi tulad ng sumusunod:

57% ang ginustong kandidato ng Republikano na si Alf Landon

40% ang pinili noon-Demokratikong Presidente Franklin Roosevelt

Sa aktwal na halalan, tulad ng nalalaman, si Roosevelt ay nanalo, na nakakuha ng higit sa 60% ng mga boto. Ang pagkakamali ng Literary Digest ay ito: gustong pataasin ang pagiging kinatawan ng sample - dahil alam nila na karamihan sa kanilang mga subscriber ay itinuturing ang kanilang mga sarili na Republicans - pinalawak nila ang sample upang isama ang mga taong pinili mula sa mga libro ng telepono at mga listahan ng pagpaparehistro. Gayunpaman, hindi nila isinaalang-alang ang mga katotohanan ng kanilang panahon at sa katunayan ay nag-recruit ng higit pang mga Republikano: sa panahon ng Great Depression, higit sa lahat ang mga kinatawan ng nasa gitna at matataas na klase ang kayang magkaroon ng mga telepono at sasakyan (iyon ay, karamihan sa mga Republikano. , hindi mga Demokratiko).

Mga uri ng plano para sa pagbuo ng mga grupo mula sa mga sample

Mayroong ilang mga pangunahing uri ng mga plano sa pagbuo ng grupo:

  • Isang pag-aaral na may mga pang-eksperimentong at kontrol na grupo, na inilalagay sa iba't ibang kundisyon.
  • Mag-aral kasama ang mga pang-eksperimentong at kontrol na grupo gamit ang isang pairwise na diskarte sa pagpili
  • Isang pag-aaral na gumagamit lamang ng isang pangkat - isang eksperimental.
  • Isang pag-aaral gamit ang isang halo-halong (factorial) na disenyo - lahat ng mga grupo ay inilalagay sa iba't ibang mga kondisyon.

Mga Istratehiya sa Pagbuo ng Grupo

Ang pagpili ng mga grupo para sa pakikilahok sa isang sikolohikal na eksperimento ay isinasagawa gamit ang iba't ibang mga estratehiya upang matiyak ang pinakamalaking posibleng paggalang sa panloob at panlabas na bisa.

  • Randomization (random na pagpili)
  • Pag-akit ng mga tunay na grupo

Randomization

Randomization, o random na pagpili, ay ginagamit upang lumikha ng mga simpleng random na sample. Ang paggamit ng naturang sample ay batay sa pag-aakalang ang bawat miyembro ng populasyon ay pantay na malamang na mapabilang sa sample. Halimbawa, upang makagawa ng isang random na sample ng 100 mga mag-aaral, maaari kang maglagay ng mga piraso ng papel na may mga pangalan ng lahat ng mga mag-aaral sa unibersidad sa isang sumbrero, at pagkatapos ay kumuha ng 100 piraso ng papel mula dito - ito ay magiging isang random na seleksyon (Goodwin J. , p. 147).

Pairwise na pagpili

Pairwise na pagpili- isang diskarte para sa pagbuo ng mga sampling na grupo, kung saan ang mga pangkat ng mga paksa ay binubuo ng mga paksa na katumbas sa mga tuntunin ng pangalawang parameter na makabuluhan para sa eksperimento. Ang diskarte na ito ay epektibo para sa mga eksperimento na gumagamit ng mga pang-eksperimentong at kontrol na mga grupo na may ang pinakamahusay na pagpipilian- nang-akit

Sa mga istatistika, mayroong dalawang pangunahing pamamaraan ng pananaliksik - tuloy-tuloy at pumipili. Kapag nagsasagawa ng sample na pag-aaral, ipinag-uutos na sumunod sa mga sumusunod na kinakailangan: pagiging kinatawan ng sample na populasyon at sapat na bilang ng mga yunit ng pagmamasid. Kapag pumipili ng mga yunit ng pagmamasid, posible I-offset ang mga error, ibig sabihin, ang mga ganitong pangyayari, na ang paglitaw nito ay hindi mahuhulaan nang tumpak. Ang mga pagkakamaling ito ay layunin at natural. Kapag tinutukoy ang antas ng katumpakan ng isang sampling na pag-aaral, ang dami ng error na maaaring mangyari sa panahon ng proseso ng sampling ay tinatantya - Random na pagkakatawan ng error (M) — Ito ay ang aktwal na pagkakaiba sa pagitan ng average o kamag-anak na mga halaga na nakuha sa panahon ng isang sample na pag-aaral at mga katulad na halaga na makukuha sa panahon ng isang pag-aaral sa pangkalahatang populasyon.

Ang pagtatasa sa pagiging maaasahan ng mga resulta ng pananaliksik ay kinabibilangan ng pagtukoy:

1. mga pagkakamali ng pagiging kinatawan

2. mga limitasyon ng kumpiyansa ng average (o kamag-anak) na mga halaga sa populasyon

3. pagiging maaasahan ng pagkakaiba sa pagitan ng average (o kamag-anak) na mga halaga (ayon sa t criterion)

Pagkalkula ng error sa pagiging kinatawan(mm) arithmetic mean value (M):

Kung saan ang σ ay ang standard deviation; n—sample size (>30).

Pagkalkula ng representasyon ng error (mР) relative value (Р):

Kung saan ang P ay ang katumbas na kamag-anak na halaga (kinakalkula, halimbawa, sa%);

Q =100 - Ρ% - ang kapalit ng P; n—sample size (n>30)

Sa klinikal at pang-eksperimentong gawain, ito ay madalas na kinakailangan upang gamitin Maliit na sample Kapag ang bilang ng mga obserbasyon ay mas mababa sa o katumbas ng 30. Sa pamamagitan ng isang maliit na sample upang kalkulahin ang mga error ng pagiging kinatawan, parehong average at kamag-anak na mga halaga , Ang bilang ng mga obserbasyon ay bumababa ng isa, i.e.

; .

Ang laki ng error sa pagiging representatibo ay depende sa laki ng sample: kaysa mas malaking bilang obserbasyon, paksa mas kaunting error. Upang masuri ang pagiging maaasahan ng isang sample indicator, ang sumusunod na diskarte ay pinagtibay: ang indicator (o average na halaga) ay dapat na 3 beses na mas malaki kaysa sa error nito, kung saan ito ay itinuturing na maaasahan.

Ang pag-alam sa laki ng error ay hindi sapat upang maging kumpiyansa sa mga resulta ng isang sample na pag-aaral, dahil ang isang partikular na error sa isang sample na pag-aaral ay maaaring mas malaki (o mas kaunti) kaysa sa average na error sa representasyon. Upang matukoy ang katumpakan kung saan nais ng isang mananaliksik na makakuha ng isang resulta, ang mga istatistika ay gumagamit ng isang konsepto tulad ng posibilidad ng isang walang error na pagtataya, na isang katangian ng pagiging maaasahan ng mga resulta ng mga piling biomedical na pag-aaral sa istatistika. Kadalasan, kapag nagsasagawa ng biomedical na istatistikal na pag-aaral, ang posibilidad ng isang walang error na pagtataya ay 95% o 99%. Sa mga pinaka-kritikal na kaso, kapag kinakailangan na gumawa ng mga partikular na mahahalagang konklusyon sa teoretikal o praktikal na mga termino, gamitin ang posibilidad ng isang walang error na pagtataya na 99.7%

Ang isang tiyak na halaga ay tumutugma sa isang tiyak na antas ng posibilidad ng isang walang error na pagtataya Marginal error ng random sampling (Δ - delta), na tinutukoy ng formula:

Δ=t * m, kung saan ang t ay isang koepisyent ng kumpiyansa, na, na may malaking sample at isang 95% na posibilidad ng isang walang error na pagtataya, ay katumbas ng 2.6; na may posibilidad ng isang walang error na forecast na 99% - 3.0; na may posibilidad ng isang walang error na pagtataya na 99.7% - 3.3, at sa isang maliit na sample ito ay tinutukoy gamit ang isang espesyal na talahanayan ng mga t value ng Mag-aaral.

Gamit ang marginal sampling error (Δ), matutukoy ng isa Mga hangganan ng tiwala, kung saan, na may tiyak na posibilidad ng isang walang error na pagtataya, ang aktwal na halaga ng istatistikal na dami ay nilalaman , Nailalarawan ang buong populasyon (karaniwan o kamag-anak).

Upang matukoy ang mga limitasyon ng kumpiyansa, ang mga sumusunod na formula ay ginagamit:

1) para sa mga average na halaga:

Kung saan ang Mgen ay ang mga limitasyon ng kumpiyansa ng average na halaga sa populasyon;

Msample - average na halaga , Nakuha sa panahon ng isang pag-aaral sa isang sample na populasyon; t ay isang koepisyent ng kumpiyansa, ang halaga nito ay tinutukoy ng antas ng posibilidad ng isang walang error na pagtataya kung saan gustong makuha ng mananaliksik ang resulta; Ang mM ay ang error ng pagiging kinatawan ng average na halaga.

2) para sa mga kamag-anak na halaga:

Kung saan ang Pgen ay ang mga limitasyon ng kumpiyansa ng relatibong halaga sa populasyon; Ang Rsb ay isang relatibong halaga na nakuha kapag nagsasagawa ng pag-aaral sa isang sample na populasyon; t—confidence coefficient; Ang mP ay ang error ng pagiging kinatawan ng relatibong halaga.

Ipinapakita ng mga limitasyon sa kumpiyansa ang mga limitasyon kung saan maaaring magbago ang laki ng sample depende sa mga random na dahilan.

Sa isang maliit na bilang ng mga obserbasyon (n<30), для вычисления довери­тельных границ значение коэффициента t находят по специальной таблице Стьюдента. Значения t расположены в таблице на пересечении с избранной вероятностью безошибочного прогноза и строки, Isinasaad ang magagamit na bilang ng mga antas ng kalayaan (n) , Alin ang katumbas ng n-1.

Istatistikong populasyon- isang set ng mga yunit na may mass, typicality, qualitative homogeneity at pagkakaroon ng variation.

Ang istatistikal na populasyon ay binubuo ng mga materyal na umiiral na bagay (Mga empleyado, negosyo, bansa, rehiyon), ay isang bagay.

Yunit ng populasyon— bawat partikular na yunit ng isang istatistikal na populasyon.

Ang parehong istatistikal na populasyon ay maaaring homogenous sa isang katangian at heterogenous sa isa pa.

Kwalitatibong pagkakapareho- pagkakatulad ng lahat ng yunit ng populasyon sa ilang batayan at hindi pagkakatulad sa lahat ng iba pa.

Sa isang istatistikal na populasyon, ang mga pagkakaiba sa pagitan ng isang yunit ng populasyon at isa pa ay kadalasang may likas na dami. Ang dami ng mga pagbabago sa mga halaga ng isang katangian ng iba't ibang mga yunit ng isang populasyon ay tinatawag na pagkakaiba-iba.

Pagkakaiba-iba ng isang katangian- isang quantitative na pagbabago sa isang katangian (para sa isang quantitative na katangian) sa panahon ng paglipat mula sa isang yunit ng populasyon patungo sa isa pa.

Tanda- ito ay isang ari-arian, katangiang katangian o iba pang katangian ng mga yunit, bagay at phenomena na maaaring obserbahan o sukatin. Ang mga palatandaan ay nahahati sa quantitative at qualitative. Ang pagkakaiba-iba at pagkakaiba-iba ng halaga ng isang katangian sa mga indibidwal na yunit ng isang populasyon ay tinatawag pagkakaiba-iba.

Ang mga katangiang katangian (kwalitatibo) ay hindi maaaring ipahayag ayon sa numero (komposisyon ng populasyon ayon sa kasarian). Ang mga quantitative na katangian ay may numerical expression (komposisyon ng populasyon ayon sa edad).

Index- ito ay isang pangkalahatang katangian ng quantitative at qualitative ng anumang pag-aari ng mga yunit o populasyon sa kabuuan sa ilalim ng mga tiyak na kondisyon ng oras at lugar.

Scorecard ay isang set ng mga indicator na komprehensibong sumasalamin sa phenomenon na pinag-aaralan.

Halimbawa, pinag-aralan ang suweldo:
  • Sign - sahod
  • Statistical population - lahat ng empleyado
  • Ang yunit ng populasyon ay bawat empleyado
  • Qualitative homogeneity - naipon na sahod
  • Pagkakaiba-iba ng isang tanda - isang serye ng mga numero

Populasyon at sample mula dito

Ang batayan ay isang set ng data na nakuha bilang resulta ng pagsukat ng isa o higit pang mga katangian. Ang isang tunay na naobserbahang hanay ng mga bagay, na istatistikal na kinakatawan ng isang bilang ng mga obserbasyon ng isang random na variable, ay sampling, at ang hypothetically na umiiral (conjectural) - pangkalahatang populasyon. Ang populasyon ay maaaring may hangganan (bilang ng mga obserbasyon N = const) o walang katapusan ( N = ∞), at ang isang sample mula sa isang populasyon ay palaging resulta ng isang limitadong bilang ng mga obserbasyon. Ang bilang ng mga obserbasyon na bumubuo ng isang sample ay tinatawag laki ng sample. Kung sapat ang laki ng sample ( n → ∞) ang sample ay isinasaalang-alang malaki, kung hindi man ito ay tinatawag na sampling limitadong volume. Ang sample ay isinasaalang-alang maliit, kung kapag sinusukat ang isang one-dimensional na random variable ang laki ng sample ay hindi lalampas sa 30 ( n<= 30 ), at kapag sumusukat ng ilan nang sabay-sabay ( k) tampok sa multidimensional relation space n Upang k hindi lumalampas 10 (n/k< 10) . Ang mga sample form serye ng pagkakaiba-iba, kung ang mga miyembro nito ay ordinal na istatistika, ibig sabihin, mga sample na halaga ng random variable X ay inayos sa pataas na pagkakasunud-sunod (ranggo), ang mga halaga ng katangian ay tinatawag mga pagpipilian.

Halimbawa. Halos pareho ang random na napiling hanay ng mga bagay - mga komersyal na bangko ng isang administratibong distrito ng Moscow, ay maaaring ituring bilang isang sample mula sa pangkalahatang populasyon ng lahat ng mga komersyal na bangko sa distritong ito, at bilang isang sample mula sa pangkalahatang populasyon ng lahat ng mga komersyal na bangko sa Moscow , pati na rin ang isang sample mula sa mga komersyal na bangko ng bansa at atbp.

Mga pangunahing paraan ng pag-aayos ng sampling

Ang pagiging maaasahan ng mga istatistikal na konklusyon at makabuluhang interpretasyon ng mga resulta ay nakasalalay sa pagiging kinatawan mga sample, i.e. pagkakumpleto at kasapatan ng representasyon ng mga katangian ng pangkalahatang populasyon, na may kaugnayan sa kung saan ang sample na ito ay maaaring ituring na kinatawan. Ang pag-aaral ng mga istatistikal na katangian ng isang populasyon ay maaaring ayusin sa dalawang paraan: gamit tuloy-tuloy At hindi tuloy-tuloy. Patuloy na pagmamasid nagsasangkot ng pagsusuri sa lahat mga yunit pinag-aralan kabuuan, A bahagyang (selective) pagmamasid- mga bahagi lamang nito.

Mayroong limang pangunahing paraan upang ayusin ang sample na pagmamasid:

1. simpleng random na pagpili, kung saan ang mga bagay ay random na pinipili mula sa isang populasyon ng mga bagay (halimbawa, gamit ang isang talahanayan o random na generator ng numero), na ang bawat isa sa mga posibleng sample ay may pantay na posibilidad. Ang ganitong mga sample ay tinatawag random talaga;

2. simpleng pagpili gamit ang isang regular na pamamaraan ay isinasagawa gamit ang isang mekanikal na bahagi (halimbawa, petsa, araw ng linggo, numero ng apartment, mga titik ng alpabeto, atbp.) at ang mga sample na nakuha sa ganitong paraan ay tinatawag na mekanikal;

3. pinagsasapin-sapin ang pagpili ay binubuo sa katotohanan na ang pangkalahatang populasyon ng volume ay nahahati sa mga subpopulasyon o mga layer (strata) ng volume upang . Ang Strata ay mga homogenous na bagay sa mga tuntunin ng istatistikal na katangian (halimbawa, ang populasyon ay nahahati sa mga strata ayon sa mga pangkat ng edad o panlipunang klase; mga negosyo ayon sa industriya). Sa kasong ito, ang mga sample ay tinatawag pinagsasapin-sapin(kung hindi, stratified, tipikal, regionalized);

4. pamamaraan serye ang pagpili ay ginagamit upang mabuo serial o mga sample ng pugad. Ang mga ito ay maginhawa kung kinakailangan upang suriin ang isang "block" o isang serye ng mga bagay nang sabay-sabay (halimbawa, isang batch ng mga kalakal, mga produkto ng isang tiyak na serye, o ang populasyon ng isang teritoryal-administratibong dibisyon ng bansa). Ang pagpili ng serye ay maaaring gawin nang random o mekanikal. Sa kasong ito, ang isang kumpletong inspeksyon ng isang tiyak na batch ng mga kalakal, o isang buong yunit ng teritoryo (isang gusali ng tirahan o bloke), ay isinasagawa;

5. pinagsama-sama Ang (hakbang) na pagpili ay maaaring pagsamahin ang ilang paraan ng pagpili nang sabay-sabay (halimbawa, stratified at random o random at mechanical); ang ganitong sample ay tinatawag pinagsama-sama.

Mga uri ng pagpili

Sa pamamagitan ng isip indibidwal, pangkat at pinagsamang pagpili ay nakikilala. Sa indibidwal na pagpili ang mga indibidwal na yunit ng pangkalahatang populasyon ay pinili sa sample na populasyon, na may pagpili ng pangkat- qualitatively homogenous na mga grupo (serye) ng mga yunit, at pinagsamang pagpili nagsasangkot ng kumbinasyon ng una at pangalawang uri.

Sa pamamagitan ng paraan ang pagpili ay nakikilala paulit-ulit at hindi paulit-ulit sample.

Paulit-ulit tinatawag na seleksyon kung saan ang isang yunit na kasama sa sample ay hindi babalik sa orihinal na populasyon at hindi nakikilahok sa karagdagang pagpili; habang ang bilang ng mga yunit sa pangkalahatang populasyon N ay nabawasan sa panahon ng proseso ng pagpili. Sa paulit-ulit pagpili nahuli sa sample, ang isang yunit pagkatapos ng pagpaparehistro ay ibinalik sa pangkalahatang populasyon at sa gayon ay nagpapanatili ng pantay na pagkakataon, kasama ng iba pang mga yunit, upang magamit sa isang karagdagang pamamaraan sa pagpili; habang ang bilang ng mga yunit sa pangkalahatang populasyon N nananatiling hindi nagbabago (ang pamamaraan ay bihirang ginagamit sa sosyo-ekonomikong pananaliksik). Gayunpaman, sa malaki N (N → ∞) mga formula para sa nauulit ang pagpili ay lumalapit sa mga para sa paulit-ulit pagpili at ang huli ay halos mas madalas na ginagamit ( N = const).

Mga pangunahing katangian ng mga parameter ng pangkalahatan at sample na populasyon

Ang mga istatistikal na konklusyon ng pag-aaral ay batay sa pamamahagi ng random variable, at ang mga naobserbahang halaga (x 1, x 2, ..., x n) ay tinatawag na realizations ng random variable X(n ang laki ng sample). Ang distribusyon ng isang random na variable sa pangkalahatang populasyon ay isang teoretikal, perpektong katangian, at ang sample na analogue nito ay empirical pamamahagi. Ang ilang mga teoretikal na pamamahagi ay tinukoy nang analitikal, i.e. kanilang mga pagpipilian matukoy ang halaga ng function ng pamamahagi sa bawat punto sa espasyo ng mga posibleng halaga ng random variable. Para sa isang sample, mahirap ang distribution function at minsan imposibleng matukoy, samakatuwid mga pagpipilian ay tinatantya mula sa empirical na data, at pagkatapos ay pinapalitan ang mga ito sa isang analytical expression na naglalarawan sa theoretical distribution. Sa kasong ito, ang pagpapalagay (o hypothesis) tungkol sa uri ng pamamahagi ay maaaring tama o mali sa istatistika. Ngunit sa anumang kaso, ang empirikal na pamamahagi na muling itinayo mula sa sample ay halos nagpapakilala lamang sa tunay. Ang pinakamahalagang mga parameter ng pamamahagi ay inaasahang halaga at pagpapakalat.

Sa pamamagitan ng kanilang likas na katangian, ang mga pamamahagi ay tuloy-tuloy At discrete. Ang pinakakilalang patuloy na pamamahagi ay normal. Mga halimbawang analogue ng mga parameter at para dito ay: mean value at empirical variance. Kabilang sa mga discrete sa socio-economic research, ang pinakamadalas na ginagamit alternatibo (dichotomous) pamamahagi. Ang mathematical expectation parameter ng distribution na ito ay nagpapahayag ng relative value (o ibahagi) mga yunit ng populasyon na may katangiang pinag-aaralan (ito ay ipinahiwatig ng titik); ang proporsyon ng populasyon na walang ganitong katangian ay tinutukoy ng titik q (q = 1 - p). Ang pagkakaiba-iba ng alternatibong pamamahagi ay mayroon ding empirical analogue.

Depende sa uri ng pamamahagi at sa paraan ng pagpili ng mga yunit ng populasyon, ang mga katangian ng mga parameter ng pamamahagi ay kinakalkula nang iba. Ang mga pangunahing para sa teoretikal at empirikal na pamamahagi ay ibinibigay sa talahanayan. 1.

Sample fraction k n Ang ratio ng bilang ng mga yunit sa sample na populasyon sa bilang ng mga yunit sa pangkalahatang populasyon ay tinatawag na:

kn = n/N.

Sample fraction w ay ang ratio ng mga yunit na nagtataglay ng katangiang pinag-aaralan x sa laki ng sample n:

w = n n /n.

Halimbawa. Sa isang batch ng mga kalakal na naglalaman ng 1000 units, na may 5% sample sample share k n sa absolute value ay 50 units. (n = N*0.05); kung 2 may sira na produkto ang makikita sa sample na ito, kung gayon sample na rate ng depekto w magiging 0.04 (w = 2/50 = 0.04 o 4%).

Dahil ang sample na populasyon ay iba sa pangkalahatang populasyon, mayroon mga error sa sampling.

Talahanayan 1. Mga pangunahing parameter ng pangkalahatan at sample na populasyon

Mga error sa pag-sample

Sa anumang kaso (patuloy at pumipili), maaaring mangyari ang mga error ng dalawang uri: pagpaparehistro at pagiging kinatawan. Mga pagkakamali pagpaparehistro maaaring magkaroon random At sistematiko karakter. Random ang mga error ay binubuo ng maraming iba't ibang hindi nakokontrol na dahilan, hindi sinasadya at kadalasang binabalanse ang isa't isa (halimbawa, mga pagbabago sa performance ng device dahil sa mga pagbabago sa temperatura sa kwarto).

Sistematiko may kinikilingan ang mga error dahil nilalabag nila ang mga panuntunan para sa pagpili ng mga bagay para sa sample (halimbawa, mga paglihis sa mga sukat kapag binabago ang mga setting ng aparato sa pagsukat).

Halimbawa. Upang masuri ang kalagayang panlipunan ng populasyon sa lungsod, pinlano na suriin ang 25% ng mga pamilya. Kung ang pagpili ng bawat ikaapat na apartment ay batay sa numero nito, kung gayon mayroong panganib na piliin ang lahat ng mga apartment ng isang uri lamang (halimbawa, isang silid na apartment), na magbibigay ng isang sistematikong error at papangitin ang mga resulta; Ang pagpili ng numero ng apartment sa pamamagitan ng lot ay mas kanais-nais, dahil ang error ay random.

Mga pagkakamali sa pagiging kinatawan ay likas lamang sa sample na obserbasyon, hindi maiiwasan ang mga ito at lumitaw ang mga ito bilang resulta ng katotohanan na ang sample na populasyon ay hindi ganap na nagpaparami ng pangkalahatang populasyon. Ang mga halaga ng mga tagapagpahiwatig na nakuha mula sa sample ay naiiba mula sa mga tagapagpahiwatig ng parehong mga halaga sa pangkalahatang populasyon (o nakuha sa pamamagitan ng patuloy na pagmamasid).

Sampling bias ay ang pagkakaiba sa pagitan ng halaga ng parameter sa populasyon at ng sample na halaga nito. Para sa average na halaga ng isang quantitative na katangian ito ay katumbas ng: , at para sa bahagi (alternatibong katangian) - .

Ang mga sampling error ay likas lamang sa mga sample na obserbasyon. Ang mas malaki ang mga error na ito, mas ang empirical distribution ay naiiba mula sa theoretical one. Ang mga parameter ng empirical distribution ay mga random na variable, samakatuwid, ang mga sampling error ay mga random na variable din, maaari silang kumuha ng iba't ibang mga halaga para sa iba't ibang mga sample at samakatuwid ay kaugalian na kalkulahin average na error.

Average na sampling error ay isang dami na nagpapahayag ng standard deviation ng sample mean mula sa mathematical expectation. Ang halagang ito, na napapailalim sa prinsipyo ng random na pagpili, ay pangunahing nakasalalay sa laki ng sample at sa antas ng pagkakaiba-iba ng katangian: mas malaki at mas maliit ang pagkakaiba-iba ng katangian (at samakatuwid ang halaga), mas maliit ang average na error sa sampling . Ang ugnayan sa pagitan ng mga pagkakaiba-iba ng pangkalahatan at sample na populasyon ay ipinahayag ng formula:

mga. kapag sapat na ang laki, maaari nating ipagpalagay na . Ang average na sampling error ay nagpapakita ng mga posibleng paglihis ng sample na parameter ng populasyon mula sa pangkalahatang parameter ng populasyon. Sa mesa Ang 2 ay nagpapakita ng mga expression para sa pagkalkula ng average na sampling error para sa iba't ibang paraan ng pag-aayos ng pagmamasid.

Talahanayan 2. Average na error (m) ng sample mean at proporsyon para sa iba't ibang uri ng sample

Nasaan ang average ng mga pagkakaiba-iba ng sample sa loob ng pangkat para sa tuluy-tuloy na katangian;

Average ng mga pagkakaiba-iba sa loob ng pangkat ng proporsyon;

— bilang ng napiling serye, — kabuuang bilang ng mga serye;

,

nasaan ang average ng ika-series;

— ang pangkalahatang average para sa buong sample na populasyon para sa tuluy-tuloy na katangian;

,

nasaan ang bahagi ng katangian sa ika-serye;

— ang kabuuang bahagi ng katangian sa buong sample na populasyon.

Gayunpaman, ang magnitude ng average na error ay maaari lamang husgahan sa isang tiyak na posibilidad P (P ≤ 1). Lyapunov A.M. pinatunayan na ang distribusyon ng sample ay nangangahulugan, at samakatuwid ang kanilang mga paglihis mula sa pangkalahatang mean, para sa isang sapat na malaking bilang na tinatayang sumusunod sa normal na batas sa pamamahagi, sa kondisyon na ang pangkalahatang populasyon ay may hangganan na mean at limitadong pagkakaiba.

Sa matematika, ang pahayag na ito para sa average ay ipinahayag bilang:

at para sa bahagi, ang expression (1) ay kukuha ng anyo:

saan - meron marginal sampling error, na isang multiple ng average na error sa pag-sample , at ang multiplicity coefficient ay ang Student's test ("confidence coefficient"), na iminungkahi ni W.S. Gosset (pseudonym "Mag-aaral"); Ang mga halaga para sa iba't ibang laki ng sample ay naka-imbak sa isang espesyal na talahanayan.

Ang mga halaga ng function na Ф(t) para sa ilang mga halaga ng t ay katumbas ng:

Samakatuwid, ang expression (3) ay maaaring basahin bilang mga sumusunod: may posibilidad P = 0.683 (68.3%) ito ay maaaring argued na ang pagkakaiba sa pagitan ng sample at pangkalahatang average ay hindi lalampas sa isang halaga ng average na error m(t=1), na may posibilidad P = 0.954 (95.4%)- na hindi ito lalampas sa halaga ng dalawang average na error m (t = 2), may posibilidad P = 0.997 (99.7%)- hindi lalampas sa tatlong halaga m (t = 3) . Kaya, ang posibilidad na ang pagkakaiba na ito ay lalampas sa tatlong beses ang average na error ay tinutukoy ng antas ng error at wala nang halaga 0,3% .

Sa mesa 3 ay nagpapakita ng mga formula para sa pagkalkula ng maximum sampling error.

Talahanayan 3. Marginal error (D) ng sample para sa mean at proportion (p) para sa iba't ibang uri ng sample observation

Paglalahat ng mga sample na resulta sa populasyon

Ang pangwakas na layunin ng sample na pagmamasid ay upang makilala ang pangkalahatang populasyon. Sa maliliit na laki ng sample, ang mga empirical na pagtatantya ng mga parameter ( at ) ay maaaring makabuluhang lumihis mula sa kanilang mga tunay na halaga ( at ). Samakatuwid, mayroong pangangailangan na magtatag ng mga hangganan kung saan ang mga tunay na halaga ( at ) ay namamalagi para sa mga sample na halaga ng mga parameter ( at ).

Agwat ng kumpiyansa ng anumang parameter θ ng pangkalahatang populasyon ay ang random na hanay ng mga halaga ng parameter na ito, na may posibilidad na malapit sa 1 ( pagiging maaasahan) ay naglalaman ng tunay na halaga ng parameter na ito.

Marginal error mga sample Δ ay nagbibigay-daan sa iyo upang matukoy ang mga limitasyon ng mga halaga ng mga katangian ng pangkalahatang populasyon at ang kanilang mga agwat ng kumpiyansa, na katumbas ng:

Bottom line agwat ng kumpiyansa nakuha sa pamamagitan ng pagbabawas maximum na error mula sa sample mean (share), at sa itaas sa pamamagitan ng pagdaragdag nito.

Agwat ng kumpiyansa para sa average na ito ay gumagamit ng maximum sampling error at para sa isang naibigay na antas ng kumpiyansa ay tinutukoy ng formula:

Nangangahulugan ito na may ibinigay na posibilidad R, na tinatawag na antas ng kumpiyansa at natatanging tinutukoy ng halaga t, maaaring pagtalunan na ang tunay na halaga ng average ay nasa hanay mula sa , at ang tunay na halaga ng bahagi ay nasa hanay mula sa

Kapag kinakalkula ang agwat ng kumpiyansa para sa tatlong karaniwang antas ng kumpiyansa P = 95%, P = 99% at P = 99.9% ang halaga ay pinili ng . Mga aplikasyon depende sa bilang ng mga antas ng kalayaan. Kung ang laki ng sample ay sapat na malaki, kung gayon ang mga halaga na tumutugma sa mga posibilidad na ito t ay pantay: 1,96, 2,58 At 3,29 . Kaya, ang marginal sampling error ay nagpapahintulot sa amin na matukoy ang mga limitasyon ng mga halaga ng mga katangian ng populasyon at ang kanilang mga agwat ng kumpiyansa:

Ang pamamahagi ng mga resulta ng sample observation sa pangkalahatang populasyon sa socio-economic na pananaliksik ay may sariling mga katangian, dahil nangangailangan ito ng kumpletong representasyon ng lahat ng mga uri at grupo nito. Ang batayan para sa posibilidad ng naturang pamamahagi ay ang pagkalkula relatibong pagkakamali:

saan Δ % - kamag-anak na maximum sampling error; , .

Mayroong dalawang pangunahing pamamaraan para sa pagpapalawak ng isang sample na pagmamasid sa isang populasyon: direktang recalculation at coefficient method.

Kakanyahan direktang conversion binubuo ng pagpaparami ng sample mean!!\overline(x) sa laki ng populasyon.

Halimbawa. Hayaang matantya ang average na bilang ng mga bata sa lungsod sa pamamagitan ng paraan ng sampling at halaga sa isang tao. Kung mayroong 1000 batang pamilya sa lungsod, kung gayon ang bilang ng mga kinakailangang lugar sa mga munisipal na nursery ay nakuha sa pamamagitan ng pagpaparami ng average na ito sa laki ng pangkalahatang populasyon N = 1000, i.e. magkakaroon ng 1200 upuan.

Pamamaraan ng Odds Maipapayo na gamitin sa kaso kapag ang pumipili na pagmamasid ay isinasagawa upang linawin ang data ng patuloy na pagmamasid.

Ang sumusunod na formula ay ginagamit:

kung saan ang lahat ng mga variable ay ang laki ng populasyon:

Kinakailangang laki ng sample

Talahanayan 4. Kinakailangang laki ng sample (n) para sa iba't ibang uri ng organisasyon ng sample na pagmamasid

Kapag nagpaplano ng sample na obserbasyon na may paunang natukoy na halaga ng pinahihintulutang sampling error, kinakailangang tama ang pagtatantya ng kinakailangang laki ng sample. Ang dami na ito ay maaaring matukoy sa batayan ng pinahihintulutang error sa panahon ng sample na pagmamasid batay sa isang ibinigay na posibilidad na ginagarantiyahan ang pinahihintulutang halaga ng antas ng error (isinasaalang-alang ang paraan ng pag-aayos ng pagmamasid). Ang mga formula para sa pagtukoy ng kinakailangang laki ng sample n ay madaling makuha nang direkta mula sa mga formula para sa maximum na error sa sampling. Kaya, mula sa expression para sa marginal error:

ang laki ng sample ay direktang tinutukoy n:

Ipinapakita ng formula na ito na habang bumababa ang maximum sampling error Δ ang kinakailangang laki ng sample ay tumataas nang malaki, na proporsyonal sa pagkakaiba at parisukat ng t test ng Estudyante.

Para sa isang tiyak na paraan ng pag-aayos ng pagmamasid, ang kinakailangang laki ng sample ay kinakalkula ayon sa mga formula na ibinigay sa talahanayan. 9.4.

Mga halimbawa ng praktikal na pagkalkula

Halimbawa 1. Pagkalkula ng mean value at confidence interval para sa tuluy-tuloy na quantitative na katangian.

Upang masuri ang bilis ng pag-areglo sa mga nagpapautang, isang random na sample ng 10 mga dokumento sa pagbabayad ang isinagawa sa bangko. Ang kanilang mga halaga ay naging pantay (sa mga araw): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Kinakailangan na may posibilidad P = 0.954 matukoy ang marginal error Δ sample ng mean at mga limitasyon ng kumpiyansa ng average na oras ng pagkalkula.

Solusyon. Ang average na halaga ay kinakalkula gamit ang formula mula sa talahanayan. 9.1 para sa sample na populasyon

Ang pagkakaiba ay kinakalkula gamit ang formula mula sa talahanayan. 9.1.

Mean square error ng araw.

Ang average na error ay kinakalkula gamit ang formula:

mga. ang average ay x ± m = 12.0 ± 2.3 araw.

Ang pagiging maaasahan ng ibig sabihin ay

Kinakalkula namin ang maximum na error gamit ang formula mula sa talahanayan. 9.3 para sa paulit-ulit na sampling, dahil hindi alam ang laki ng populasyon, at para sa P = 0.954 antas ng kumpiyansa.

Kaya, ang average na halaga ay `x ± D = `x ± 2m = 12.0 ± 4.6, ibig sabihin. ang tunay na halaga nito ay nasa saklaw mula 7.4 hanggang 16.6 na araw.

Gamit ang t-table ng Mag-aaral. Ang application ay nagbibigay-daan sa amin upang tapusin na para sa n = 10 - 1 = 9 degrees ng kalayaan, ang nakuha na halaga ay maaasahan na may antas ng kahalagahan ng isang £ 0.001, i.e. ang resultang mean value ay makabuluhang naiiba sa 0.

Halimbawa 2. Pagsusuri ng posibilidad (pangkalahatang bahagi) p.

Sa isang mekanikal na paraan ng sampling ng pagsisiyasat sa katayuan sa lipunan ng 1000 pamilya, nahayag na ang proporsyon ng mga pamilyang mababa ang kita ay w = 0.3 (30%)(ang sample ay 2% , ibig sabihin. n/N = 0.02). Kinakailangan na may antas ng kumpiyansa p = 0.997 tukuyin ang tagapagpahiwatig R mga pamilyang may mababang kita sa buong rehiyon.

Solusyon. Batay sa ipinakita na mga halaga ng function Ф(t) maghanap para sa isang naibigay na antas ng kumpiyansa P = 0.997 ibig sabihin t = 3(tingnan ang formula 3). Marginal error ng fraction w matukoy sa pamamagitan ng formula mula sa talahanayan. 9.3 para sa hindi paulit-ulit na sampling (mechanical sampling ay palaging hindi paulit-ulit):

Maximum relative sampling error sa % magiging:

Ang posibilidad (pangkalahatang bahagi) ng mga pamilyang mababa ang kita sa rehiyon ay magiging р=w±Δw, at ang mga limitasyon ng kumpiyansa p ay kinakalkula batay sa dobleng hindi pagkakapantay-pantay:

w — Δ w ≤ p ≤ w — Δ w, ibig sabihin. ang tunay na halaga ng p ay nasa loob ng:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Kaya, na may posibilidad na 0.997 masasabi na ang bahagi ng mga pamilyang may mababang kita sa lahat ng pamilya sa rehiyon ay mula 28.6% hanggang 31.4%.

Halimbawa 3. Pagkalkula ng mean value at confidence interval para sa isang discrete na katangian na tinukoy ng isang serye ng interval.

Sa mesa 5. ang pamamahagi ng mga aplikasyon para sa produksyon ng mga order ayon sa oras ng kanilang pagpapatupad ng enterprise ay tinukoy.

Talahanayan 5. Pamamahagi ng mga obserbasyon ayon sa oras ng paglitaw

Solusyon. Ang average na oras para sa pagkumpleto ng mga order ay kinakalkula gamit ang formula:

Ang average na panahon ay magiging:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23.1 buwan.

Nakukuha namin ang parehong sagot kung gagamitin namin ang data sa p i mula sa penultimate column ng talahanayan. 9.5, gamit ang formula:

Tandaan na ang gitna ng agwat para sa huling gradasyon ay matatagpuan sa pamamagitan ng artipisyal na pagdaragdag nito ng lapad ng pagitan ng nakaraang gradasyon na katumbas ng 60 - 36 = 24 na buwan.

Ang pagkakaiba ay kinakalkula gamit ang formula

saan x i- ang gitna ng serye ng pagitan.

Samakatuwid!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), at ang mean square error ay .

Ang average na error ay kinakalkula gamit ang buwanang formula, i.e. ang average na halaga ay!!\overline(x) ± m = 23.1 ± 13.4.

Kinakalkula namin ang maximum na error gamit ang formula mula sa talahanayan. 9.3 para sa paulit-ulit na pagpili, dahil hindi alam ang laki ng populasyon, para sa 0.954 na antas ng kumpiyansa:

Kaya ang average ay:

mga. ang tunay na halaga nito ay nasa hanay mula 0 hanggang 50 buwan.

Halimbawa 4. Upang matukoy ang bilis ng mga pag-aayos sa mga nagpapautang ng N = 500 na mga kumpanya ng korporasyon sa isang komersyal na bangko, kinakailangan na magsagawa ng isang sample na pag-aaral gamit ang isang random na hindi paulit-ulit na paraan ng pagpili. Tukuyin ang kinakailangang laki ng sample n upang may posibilidad na P = 0.954 ang error ng sample mean ay hindi lalampas sa 3 araw kung ang mga pagtatantya ng pagsubok ay nagpakita na ang standard deviation s ay 10 araw.

Solusyon. Upang matukoy ang bilang ng mga kinakailangang pag-aaral n, gagamitin namin ang formula para sa hindi paulit-ulit na pagpili mula sa talahanayan. 9.4:

Sa loob nito, ang halaga ng t ay tinutukoy mula sa antas ng kumpiyansa na P = 0.954. Ito ay katumbas ng 2. Ang mean square value ay s = 10, ang laki ng populasyon ay N = 500, at ang maximum na error ng mean ay Δ x = 3. Ang pagpapalit ng mga halagang ito sa formula, nakukuha natin:

mga. Ito ay sapat na upang mag-compile ng isang sample ng 41 mga negosyo upang matantya ang kinakailangang parameter - ang bilis ng mga pag-aayos sa mga nagpapautang.