Hur beräknar man provstorleken korrekt? Seminarieämne: provtagning i sociologisk forskning Nyckelbegrepp Beroende och oberoende urval

Sampling i 1C 8.2 och 8.3 är en specialiserad metod för att söka igenom register över infobastabeller. Låt oss ta en närmare titt på vad provtagning är och hur man använder det.

Vad är provtagning i 1C?

Prov- en metod för att sortera information i 1C, som består av att sekventiellt placera markören på nästa post. Ett urval i 1C kan erhållas från frågeresultatet och från objekthanteraren, till exempel dokument eller kataloger.

Ett exempel på att hämta och iterera från en objekthanterare:

Urval = Kataloger. Banker. Välj() ; Hejdå urval. Next() Loop EndLoop ;

Ett exempel på att få ett prov från en förfrågan:

Få 267 videolektioner på 1C gratis:

Request = New Request( "Välj länk, kod, namn från Directory.Banks"); Hämta = Fråga. Springa() . Välj() ; Hejdå urval. Next() Loop //utför de åtgärder som är av intresse med katalogen "Banker". EndCycle ;

Båda exemplen ovan får samma datamängder att iterera över.

Provtagningsmetoder 1C 8.3

Provtagning har ett stort antal metoder, låt oss överväga dem mer i detalj:

  • Välja()- en metod genom vilken ett prov erhålls direkt. Från provet kan du få ett annat, underordnat, prov om typen av korsning "genom gruppering" anges.
  • Ägare()— metod invers till Select(). Låter dig få "förälder"-exemplet av en begäran.
  • Nästa()— en metod som flyttar markören till nästa post. Om det finns en post returneras True, om det inte finns några poster returneras False.
  • Hitta nästa()- en mycket användbar metod med vilken du endast kan sortera genom de obligatoriska fälten efter urvalsvärde (selektion - fältstruktur).
  • NextByFieldValue()— låter dig få nästa post med ett värde som skiljer sig från den aktuella positionen. Till exempel måste du iterera igenom alla poster med ett unikt värde för "Konto"-fältet: Select.NextByFieldValue ("Konto").
  • Återställa()— låter dig återställa den aktuella markörpositionen och ställa in den till dess ursprungliga position.
  • Kvantitet()— returnerar antalet poster i urvalet.
  • Skaffa sig()— med metoden kan du ställa in markören på önskad post efter indexvärde.
  • Nivå() - nivå i hierarkin för den aktuella posten (nummer).
  • Inspelningstyp()— visar typen av post - DetailedRecord, TotalByGrouping, TotalByHierarchy eller GeneralTotal
  • Grupp()— returnerar namnet på den aktuella grupperingen; om posten inte är en gruppering returnerar den en tom sträng.

Om du börjar lära dig 1C-programmering rekommenderar vi vår gratiskurs (glöm inte

Lärandemål

  1. Skilj tydligt mellan begreppen folkräkning (kvalifikation) och urval.
  2. Känna till essensen och sekvensen av de sex stegen som implementerats av forskare för att få en provpopulation.
  3. Definiera begreppet "samplingsram".
  4. Förklara skillnaden mellan sannolikhet och deterministiskt urval.
  5. Skilj mellan provtagning med fast storlek och flerstegs (sekventiell) provtagning.
  6. Förklara vad målinriktat urval är och beskriv både dess styrkor och svagheter.
  7. Definiera begreppet kvoturval.
  8. Förklara vad en parameter är i ett provtagningsförfarande.
  9. Förklara vad en härledd mängd är.
  10. Förklara varför begreppet urvalsfördelning är det viktigaste konceptet statistik.

Så, forskaren har exakt definierat problemet och säkrat en forskningsdesign och datainsamlingsverktyg som är lämpliga för att lösa det. Nästa steg i forskningsprocessen bör vara urvalet av de element som kommer att undersökas. Det är möjligt att kartlägga varje del av en given befolkning genom att ta en fullständig folkräkning av den populationen. En fullständig undersökning av befolkningen kallas en folkräkning. Det finns en annan möjlighet. En viss del av befolkningen, ett urval av delar av en stor grupp, utsätts för en statistisk undersökning, och baserat på data som erhålls från denna delmängd dras vissa slutsatser om hela gruppen. Generaliserbarheten av resultat erhållna från provdata till en större grupp beror på metoden med vilken provet samlades in. Mycket av detta kapitel kommer att ägnas åt hur urvalet ska väljas och varför det ska vara så.

Census (kvalifikation)
Fullständig folkräkning.
Prov
En samling av element i en delmängd av en större grupp av objekt.

Begreppet "befolkning" eller "samling" kan syfta inte bara på människor, utan också till företag som är verksamma inom tillverkningsindustrin, till detaljhandels- eller grossistorganisationer, eller till och med till helt livlösa föremål, såsom delar som produceras i ett företag; detta koncept definieras som hela uppsättningen av element som uppfyller vissa specificerade villkor. Dessa villkor definierar tydligt både de element som tillhör målgruppen och de element som bör uteslutas från hänsyn.

Forskning för att fastställa den demografiska profilen för konsumenter av fryst pizza bör börja med att identifiera vem som bör och inte bör klassificeras som sådan. Tillhör personer som har provat denna pizza minst en gång denna kategori? Individer som köper minst en pizza per månad? I vecka? Människor som äter mer än en viss minimimängd pizza på en månad? Forskaren måste vara mycket noggrann i att identifiera målgruppen. Det är också nödvändigt att se till att urvalet tas från målpopulationen och inte från "någon" population, vilket är fallet när urvalsramen är olämplig eller ofullständig. Det senare är en lista över element från vilka själva provet kommer att bildas.

En forskare kan av flera skäl föredra en urvalsmetod framför en undersökning av hela befolkningen. För det första, fullständig undersökning aggregering av även en relativt liten storlek kräver mycket stora material- och tidskostnader. Ofta, när folkräkningen är klar och uppgifterna behandlas, är informationen redan inaktuell. I vissa fall är kvalificering helt enkelt omöjlig. Låt oss säga att forskarna försökte kontrollera om den faktiska livslängden för elektriska glödlampor motsvarar den beräknade, för vilken de måste hålla dem på tills de misslyckas. Om vi ​​undersöker hela lagret av lampor på detta sätt kommer tillförlitliga data att erhållas, men det blir inget kvar att handla.

Slutligen, till nybörjares förvåning, kan en forskare föredra provtagningsmetoden framför kvalificeringsmetoden för att säkerställa att resultaten är korrekta. Att genomföra folkräkningar kräver inblandning av en stor personalstyrka, vilket ökar sannolikheten för systematiska (icke-urval) fel. Detta faktum är en av anledningarna till att US Census Bureau använder urvalsundersökningar för att kontrollera riktigheten av olika typer av folkräkningar. Du hörde rätt: urvalsundersökningar kan genomföras för att verifiera riktigheten av kvalifikationsdata.

Exempel på designsteg

I fig. Figur 15.1 visar en sexstegssekvens som en provforskare kan följa. Först och främst är det nödvändigt att bestämma målpopulationen eller uppsättningen av element som forskaren vill veta något om.

När man till exempel studerar barns preferenser måste forskare avgöra om populationen som studeras kommer att bestå av enbart barn, bara föräldrar eller båda.

Aggregerat (population)
En uppsättning element som uppfyller vissa specificerade villkor.
Urvalsramen
Lista över element från vilka provet kommer att göras; kan bestå av territoriella enheter, organisationer, individer och andra element.

Ett visst företag testade sina elektriska "race" endast på barn. De gladde barnen. Föräldrar reagerade annorlunda på den nya produkten. Mammor gillade inte det faktum att attraktionen inte lärde barn att ta hand om bilar, och pappor gillade inte det faktum att produkten var gjord som en leksak.
Den motsatta situationen är också möjlig. Ett visst företag började producera en ny livsmedelsprodukt och lanserade en rikstäckande reklamkampanj där huvudrollen tilldelades ett brådmoget barn.Företaget testade effektiviteten av reklam endast på mammor som var glada av förtjusning. Barnen tyckte att denna "accelerator" och med den den annonserade produkten i sig var äcklig. Produkten är färdig 1.

Forskaren måste bestämma vem eller vad den relevanta populationen kommer att bestå av: individer, familjer, företag, andra organisationer, kreditkortstransaktioner etc. När man fattar sådana beslut är det nödvändigt att fastställa vilka element som bör uteslutas från populationer. Både tidsmässig och geografisk referens av element måste utföras, vilket i vissa fall kan vara föremål för ytterligare villkor eller restriktioner. Om vi ​​till exempel pratar om individer, kan den intressanta populationen endast bestå av personer över 18 år, eller endast av kvinnor, eller endast av personer med minst gymnasieutbildning.

Uppgiften att bestämma geografiska gränser för målpopulationen i internationell marknadsforskning kan vara speciellt problem, eftersom detta ökar heterogeniteten hos det aktuella systemet. Till exempel kan det relativa förhållandet mellan stad och landsbygd variera avsevärt från land till land. Den territoriella aspekten har en allvarlig inverkan på sammansättningen av befolkningen inom ett land. Till exempel i norra Chile bor en övervägande indisk befolkning kompakt, medan i de södra delarna av landet bor huvudsakligen ättlingar till européer.

Täckning (incidens)
Uttryckt i procent, andelen delar av en population eller grupp som uppfyller villkoren för att ingå i urvalet.

Generellt sett gäller att ju enklare målpopulationen definieras, desto högre täckning (incidens) och desto enklare och billigare är provtagningsförfarandet. Täckning (incidens) motsvarar andelen delar av en population eller grupp som uppfyller villkoren för att ingå i urvalet. Täckning påverkar direkt tid och materialkostnader nödvändig för undersökningen. Om täckningen är stor (det vill säga en stor andel av delarna av befolkningen uppfyller ett eller flera enkla kriterier som används för att identifiera potentiella respondenter) minimeras tids- och materialkostnader som krävs för datainsamling. Omvänt, eftersom antalet kriterier som potentiella respondenter måste uppfylla ökar, ökar både material- och tidskostnaderna.

I fig. Figur 15.2 visar hur stor andel av den vuxna befolkningen som deltar i vissa idrotter. Uppgifterna i figuren indikerar att det är mycket svårare och kostsammare att undersöka personer som är inblandade i motorcykling (endast 3,6 % av det totala antalet vuxna) än att undersöka personer som tar vanliga fritidspromenader (27,4 % av det totala antalet vuxna). Huvudsaken är att forskaren är noggrann när han avgör vilka element som ska ingå i populationen som studeras och vilka element som ska uteslutas från den. En tydlig redogörelse för forskningsmålet underlättar i hög grad lösningen av detta problem. Det andra steget i urvalsprocessen är att bestämma provramen, som, som du redan vet, är listan över element från vilka provet kommer att dras. Låt målgruppen för en studie vara alla familjer som bor i Dallas-området. Vid första anblicken skulle en bra och lättillgänglig samplingsram vara Dallas telefonkatalog. Men vid närmare granskning blir det uppenbart att listan över familjer som finns i katalogen inte är helt korrekt, eftersom numren på vissa familjer är utelämnade från den (naturligtvis inkluderar den inte familjer som inte har en telefon), medan vissa familjer har flera telefonnummer. Personer som nyligen har bytt bostadsort och därmed telefonnummer finns inte heller med i katalogen.

Erfarna forskare finner att det sällan finns en exakt matchning mellan urvalsramen och målpopulationen av intresse. En av de mest kreativa stadier Jobbet med samplingsdesign är att bestämma en lämplig urvalsram när det är svårt att lista populationselement. Detta kan kräva provtagning från arbetsblock och prefix när exempelvis slumpmässig uppringning används på grund av brister i telefonkataloger. Den betydande ökningen av arbetsenheter under de senaste 10 åren har dock försvårat denna uppgift. Liknande situationer kan uppstå vid selektiv observation av territoriella zoner eller organisationer med efterföljande delprovtagning, när till exempel målpopulationen är individer, men det finns ingen exakt aktuell lista över dem.

Källa: Baserat på data i SSI LITE TM: L o Förekomst T argeted S ampling" (Fairfield, Conn.: Survey Sampling, Inc., 1994).

Det tredje steget i provtagningsproceduren är nära relaterat till bestämningen av provtagningsramen. Valet av provtagningsmetod eller procedur beror till stor del på den provtagningsram som forskaren använder. Olika typer av prover kräver olika typer provtagningsramar. Detta kapitel och nästa kommer att ge en översikt över huvudtyperna av prover som används i marknadsundersökningar. När man beskriver dem bör sambandet mellan provtagningsramen och metoden för dess bildande bli uppenbart.

Det fjärde steget i provtagningsproceduren är att bestämma provstorleken. Detta problem diskuteras i kap. 17. I det femte steget måste forskaren faktiskt välja de element som ska undersökas. Metoden som används för detta ändamål bestäms av den valda provtypen; När vi diskuterar provtagningsmetoder kommer vi också att prata om urvalet av dess element. Slutligen måste forskaren faktiskt kartlägga de utvalda respondenterna. I detta skede är det stor sannolikhet att göra ett antal misstag.
Dessa problem och några metoder för att lösa dem diskuteras i kapitel. 18.

Typer av provtagningsplaner

Alla provtagningskontrollmetoder kan delas in i två kategorier: observation av sannolikhetsurval och observation av deterministiska stickprov. Varje medlem av populationen kan ingå i ett sannolikhetsurval med en viss specificerad sannolikhet som inte är noll. Sannolikheten att inkludera vissa medlemmar av populationen i urvalet kan variera, men sannolikheten att inkludera varje element i det är känd. Denna sannolikhet bestäms av den specifika mekaniska procedur som används för att välja provelementen.

För deterministiska urval blir det omöjligt att bedöma sannolikheten att inkludera något element i urvalet. Ett sådant urvals representativitet kan inte garanteras. Till exempel, Allstate Corporation utvecklat ett system för att behandla försäkringskravsdata för 14 miljoner hushåll (dess kunder). Företaget planerar att använda dessa data för att bestämma efterfrågan på sina tjänster – till exempel sannolikheten att ett hushåll som äger en Mercedes Benz också kommer att äga ett fritidshus (vilket kommer att kräva försäkring). Även om databasen är mycket stor har företaget inga möjligheter att bedöma sannolikheten för att någon viss kund kommer att göra ett krav. Företaget kan därför inte vara säker på att uppgifterna om kunder som gör anspråk är representativa för företagets samtliga kunder; och i ännu mindre utsträckning - i förhållande till potentiella kunder.

Alla deterministiska prover baseras på forskarens individuella position, bedömning eller preferens snarare än på en mekanisk procedur för att välja provelement. Sådana preferenser kan ibland ge bra uppskattningar av populationsegenskaper, men det finns inget sätt att objektivt avgöra om ett urval är lämpligt för den aktuella uppgiften. En bedömning av noggrannheten av provtagningsresultaten kan endast göras om sannolikheterna för att välja vissa element var kända. Av denna anledning anses sannolikhetssampling i allmänhet vara en överlägsen metod för att uppskatta storleken på urvalsfelet. Prover kan också delas upp i prover med fast storlek och sekventiella prover. När man arbetar med stickprover av fast storlek bestäms urvalsstorleken innan undersökningen börjar, och analysen av resultaten föregås av insamling av all nödvändig data. Vi kommer främst att vara intresserade av prover av en fast storlek, eftersom detta är den typ som vanligtvis används i marknadsundersökningar.

Sannolikhetsurval
Ett urval där varje element i populationen kan inkluderas med någon känd sannolikhet som inte är noll.
Deterministiskt urval
Sampling baserat på vissa privata preferenser eller bedömningar som bestämmer urvalet av vissa element; i detta fall blir det omöjligt att bedöma sannolikheten att inkludera ett godtyckligt populationselement i urvalet.

Det bör dock inte glömmas bort att det också finns sekventiella prover som kan användas med var och en av de grundläggande provtagningsdesignerna som diskuteras nedan.

Vid sekventiell sampling är antalet valda element okänt i förväg, det bestäms baserat på en serie sekventiella beslut. Om en undersökning av ett litet urval inte leder till ett tillförlitligt resultat utökas utbudet av undersökta element. Om resultatet fortfarande inte är entydigt, ökas provstorleken igen. I varje steg fattas ett beslut om det erhållna resultatet anses vara tillräckligt övertygande eller om man ska fortsätta att samla in data. Att arbeta med sekventiell sampling gör det möjligt att bedöma trenden för data när de samlas in, vilket gör att du kan minska kostnaderna för ytterligare observationer i de fall där deras genomförbarhet kommer till intet.

Både probabilistiska och deterministiska samplingsdesigner finns i ett antal typer. Till exempel kan deterministiska urval vara icke-representativa (bekvämt), avsiktliga eller kvoterade; sannolikhetsurval är indelade i enkla slumpmässiga, stratifierade eller grupp (kluster), de kan i sin tur delas in i undertyper. I fig. Figur 15.3 visar vilka typer av prover som kommer att diskuteras i detta och nästa kapitel.

Fast volymsampling (fast sampling)
Ett prov vars storlek bestäms a priori; den nödvändiga informationen bestäms från de valda elementen.
Sekventiell provtagning
Ett urval bildat baserat på en serie sekventiella beslut. Om resultatet efter att ha övervägt ett litet urval verkar osäkra, övervägs ett större urval; om detta steg inte leder till ett resultat, ökas provstorleken igen etc. Sålunda fattas i varje skede ett beslut om det erhållna resultatet kan anses vara tillräckligt övertygande.

Man bör komma ihåg att huvudtyperna av prover kan kombineras för att bilda fler komplexa planer selektiv observation. Om du förstår deras grundläggande initiala typer blir det lättare för dig att förstå mer komplexa kombinationer.

Deterministiska prover

Som redan nämnts spelar privata bedömningar eller beslut en avgörande roll vid urvalet av delar av ett deterministiskt urval. Ibland kommer dessa uppskattningar från forskaren, men i andra fall överlåts urvalet av delar av befolkningen till fältarbetare. Eftersom element inte väljs mekaniskt, blir det omöjligt att bestämma sannolikheten för inkludering av ett godtyckligt element i provet och följaktligen samplingsfelet. Okunskap om felet på grund av den valda provtagningsproceduren hindrar forskare från att bedöma riktigheten i sina uppskattningar.

Icke-representativa (bekvämlighets)prover

Icke-representativa (bekvämlighets)prover kallas ibland slumpmässigt eftersom urvalet av urvalselement görs på ett "slumpmässigt" sätt - de element som är eller verkar vara mest tillgängliga under urvalsperioden väljs ut.

Vårt dagliga liv är fyllt av exempel på sådana urval. Vi pratar med vänner och utifrån deras reaktioner och ståndpunkter drar vi slutsatser om de politiska fördomar som råder i samhället; en lokal radiostation uppmanar människor att uttrycka sina åsikter i en kontroversiell fråga, och de åsikter de uttrycker tolkas som rådande; Vi uppmuntrar volontärer att samarbeta och arbeta med de som frivilligt hjälper oss. Problemet med bekvämlighetsprover är uppenbart – vi kan inte vara säkra på att prover av detta slag faktiskt representerar målpopulationen. Vi kan fortfarande tvivla på att våra vänners åsikter korrekt återspeglar de politiska åsikter som råder i samhället, men vi vill ofta verkligen tro att större urval, valda på samma sätt, är representativa. Låt oss visa felet i ett sådant antagande med ett exempel.
För flera år sedan genomförde en av de lokala tv-stationerna i staden där författaren till denna bok bor en daglig opinionsundersökning om ämnen av intresse för lokalsamhället. Omröstningarna, kallade "Pulse of Madison", genomfördes enligt följande. Varje kväll under nyheterna klockan sex ställde stationen tittarna en fråga angående en specifik kontroversiell fråga, som de var tvungna att ge ett positivt eller negativt svar på.

Vid ett positivt svar var man tvungen att ringa ett, vid ett negativt svar fick man ringa ett annat telefonnummer. Antalet röster "för" och "emot" beräknades automatiskt. Nyhetssändningen klockan tio rapporterade resultatet av telefonundersökningen. Varje kväll ringde från 500 till 1000 personer till studion och ville uttrycka sin ståndpunkt i en eller annan fråga; en tv-kommentator tolkade omröstningsresultaten som den allmänna opinionen.

Icke-representativt (bekvämlighets-) urval
Kallas ibland slumpmässigt eftersom urvalet av urvalselement görs på ett "slumpmässigt" sätt – de element som är eller verkar vara mest tillgängliga under urvalsperioden väljs ut.

I ett av de sex timmar långa avsnitten fick tittarna följande fråga: "Tycker du att alkoholåldern i Madison borde sänkas till 18?" Den nuvarande lagliga åldern var 21 år. Publiken svarade på denna fråga med extraordinär aktivitet – den kvällen ringde nästan 4 000 personer till studion, varav 78 % var för att sänka åldersgränsen. Det verkar uppenbart att ett urval på 4 000 personer "bör vara representativt" för en gemenskap på 180 000. Inget sådant. Som du säkert redan gissat var en viss åldersgrupp i befolkningen mycket mer intresserad av det kända resultatet av omröstningen än andra. Det var därför inte förvånande att det vid diskussionen om denna fråga några veckor senare visade sig att eleverna agerade i samförstånd under den tid som avsatts för undersökningen. De ringde tv:n i tur och ordning, var och en flera gånger. Således var varken urvalsstorleken eller andelen anhängare av liberalisering av lagen något överraskande. Urvalet var inte representativt.

Att bara öka urvalsstorleken gör det inte representativt. Provets representativitet säkerställs inte av storleken, utan genom det korrekta förfarandet för att välja element. När undersökningsdeltagare frivilligt identifieras eller urvalselement väljs utifrån deras tillgänglighet, garanterar inte urvalsplanen representativitet för urvalet. Empiriska bevis tyder på att urval som valts av bekvämlighetsskäl sällan är representativa (oavsett urvalsstorlek). Telefonundersökningar, som mäter 800-900 röster, är den vanligaste formen av stora men icke-representativa urval.

Målmedveten provtagning
Deterministisk (avsiktlig) sampling, vars element väljs manuellt; exakt de element väljs ut som, enligt forskarens uppfattning, uppfyller målen för undersökningen.
Målmedvetet urval, beroende på forskarens förmåga att identifiera en initial uppsättning respondenter med önskade egenskaper; dessa respondenter används sedan som informanter för att bestämma det fortsatta urvalet av individer.

Tyvärr är det många som tar resultaten av sådana undersökningar med tillförsikt. Ett av de mest typiska exemplen på användningen av icke-representativa urval i internationell marknadsundersökning är en undersökning av vissa länder baserad på ett urval bestående av utlänningar som för närvarande bor i det land som initierade undersökningen (till exempel skandinaver som bor i USA). Även om sådana prover kan kasta lite ljus över vissa aspekter av befolkningen i fråga, måste man komma ihåg att dessa individer vanligtvis representerar en "amerikaniserad" elit vars koppling till sitt eget land kan vara ganska villkorad. Det rekommenderas inte att använda icke-representativa urval när man gör beskrivande eller orsaksundersökningar. De är endast tillåtna i explorativa studier som syftar till att utveckla specifika idéer eller koncept, men även i detta fall är det att föredra att använda avsiktliga prover.

Målmedveten provtagning

Målmedveten provtagning kallas ibland ofokuserad; deras element, som enligt forskarens uppfattning uppfyller studiens mål, väljs manuellt. Procter & Gamble använde den här metoden när de visade reklam för 13- till 17-åringar som bor nära dess huvudkontor i Cincinnati. Företagets mat- och dryckesdivision anlitade denna grupp tonåringar för att fungera som ett slags konsumentprov. De arbetade 10 timmar i veckan i utbyte mot 1 000 dollar och gick på en konsert, tittade på tv-reklam, besökte stormarknader med företagsledare för att se produktdisplayer, testade nya produkter och diskuterade köpbeteende. Genom att välja urvalsrepresentanter genom en "rekryteringsprocess" snarare än slumpmässigt, kunde företaget fokusera på egenskaper som det ansåg vara användbara, såsom en tonårings förmåga att uttrycka sig tydligt, med risken att deras åsikter kanske inte är representativa för deras åldersgrupp.

Som redan nämnts, särdrag Ett avsiktligt urval är det riktade urvalet av dess element. I vissa fall väljs urvalselement inte för att de är representativa, utan för att de kan ge information av intresse för forskare. När en domstol förlitar sig på sakkunnig vittnesmål, tillgriper den i viss mening användningen av avsiktlig provtagning. En liknande ståndpunkt kan råda vid utveckling av forskningsprojekt. Under den inledande studien av frågan är forskaren i första hand intresserad av att bestämma utsikterna för studien, som avgör urvalet av urvalselement.

Snöbollsprovtagningär en typ av målinriktad urval som används när man arbetar med speciella typer av populationer. Detta urval beror på forskarens förmåga att identifiera en initial uppsättning respondenter med de önskade egenskaperna. Dessa respondenter används sedan som informanter för att bestämma det fortsatta urvalet av individer.

Föreställ dig till exempel att ett företag vill utvärdera behovet av en viss produkt som skulle göra det möjligt för döva att kommunicera via telefon. Forskare kan börja utveckla detta problem genom att identifiera nyckelpersoner i dövsamhället; den senare kunde namnge andra medlemmar i denna grupp som skulle acceptera att delta i undersökningen. Med sådan taktik växer provet som en snöboll.

Medan forskaren är kl inledande skeden När problemet väl har undersökts och utsikterna och möjliga begränsningar för den planerade undersökningen har identifierats, kan användningen av ändamålsenlig provtagning vara mycket effektiv. Men i inget fall bör vi glömma svagheterna i ett prov av denna typ, eftersom det också kan användas av forskaren i beskrivande eller kausala studier, vilket omedelbart kommer att påverka kvaliteten på deras resultat. Ett klassiskt exempel på sådan glömska är konsumentprisindex (”KPI”). Som Südman påpekar ( Sudman): ”KPI bestäms endast för 56 städer och storstadsområden, vars val också påverkas av den politiska faktorn. Faktum är att dessa städer bara kan representera sig själva, medan indexet kallas prisindex för konsumtionsvaror för stadsbor som får timlön lön *, Och anställda och framstår för de flesta som ett index som återspeglar prisnivån i någon region i USA. Valet av butiker i sig görs också på ett icke-slumpmässigt sätt, vilket resulterar i att uppskatta möjliga provtagningsfel blir omöjligt"(min kursivering) 2.

* Det vill säga arbetare. - Notera. körfält

Kvotprover

Den tredje typen av deterministiskt urval är kvotprover; dess kända representativitet uppnås genom att inkludera samma andel element med vissa egenskaper som i populationen som studeras (se "Forskningsfönster 15.1"). Som ett exempel kan du överväga att försöka skapa ett representativt urval av studenter som bor på campus. Om det i ett visst urval bestående av 500 individer inte finns en enda seniorstudent har vi rätt att tvivla på dess representativitet och legitimiteten att tillämpa resultaten från detta urval på den undersökta populationen. När forskaren arbetar med ett proportionellt urval kan forskaren säkerställa att andelen seniorstudenter i urvalet motsvarar deras andel av det totala antalet studenter.

Antag att en forskare genomför en urvalsstudie av universitetsstudenter och han är intresserad av att se till att urvalet inte bara speglar deras kön utan också deras fördelning över kurser. Låt det totala antalet studenter vara 10 000: 3200 är förstaårsstudenter, 2600 är andraårsstudenter, 2200 är tredjeårsstudenter och 2000 är fjärdeårsstudenter; varav 7 000 var pojkar och 3 000 flickor. För en provstorlek på 1 000 kräver den proportionella provtagningsplanen 320 förstaårsstudenter, 260 andraårsstudenter, 220 tredjeåringar och 200 akademiker, 700 pojkar och 300 flickor. Forskaren kan implementera denna plan genom att tilldela varje intervjuare en specifik kvot som avgör vilka studenter de ska kontakta.

Kvotprov Ett deterministiskt urval valt så att andelen element i urvalet som har vissa egenskaper ungefär motsvarar andelen av samma element i populationen som studeras; Varje fältarbetare får en kvot som definierar egenskaperna hos befolkningen som han måste komma i kontakt med.

En intervjuare som ska genomföra 20 intervjuer kan instrueras att fråga:

            • sex förstaårsstudenter - fem pojkar och en flicka;
            • sex andra år - fyra pojkar och två flickor;
            • fyra tredjeårsstudenter - tre pojkar och en flicka;
            • fyra fjärdeårsstudenter - två pojkar och två flickor.

Observera att urvalet av specifika provelement inte bestäms av forskningsplanen, utan av intervjuarens val, utformad för att endast uppfylla de villkor som fastställdes av kvoten: intervju fem förstaårsstudenter, en nybörjare, etc.

Observera också att denna kvot exakt återspeglar könsfördelningen av studentpopulationen, men förvränger något fördelningen av studenter över kurser; 70 % (14 av 20) av intervjuerna är bland pojkar, men endast 30 % (6 av 20) är bland förstaårsstudenter, medan de utgör 32 % av det totala antalet elever. Den kvot som tilldelas varje enskild intervjuare kanske inte, och vanligtvis inte, återspeglar fördelningen av kontrollegenskaper i populationen – endast det resulterande urvalet bör ha lämplig proportionalitet.

Man bör komma ihåg att proportionerliga urval beror på personliga, subjektiva attityder eller bedömningar snarare än på ett objektivt förfarande för att välja urvalselement. Dessutom, till skillnad från avsiktlig sampling, tillhör personlig bedömning här inte projektutvecklaren, utan intervjuaren. Frågan uppstår om proportionella urval kan anses representativa, även om de återger det inneboende förhållandet av komponenter i populationen som har vissa kontrollegenskaper. I detta avseende måste tre anmärkningar göras.

För det första kan urvalet skilja sig markant från populationen i vissa andra viktiga egenskaper, vilket kan ha en allvarlig inverkan på resultatet. Till exempel, om studien ägnas åt problemet med rasfördomar som finns bland studenter, kan en viktig omständighet visa sig vara var respondenterna kom ifrån: från staden eller från landsbygden. Eftersom en kvot för egenskapen "från stads-/landsbygdsbakgrund" inte specificerades, blir en korrekt representation av denna egenskap osannolik. Naturligtvis finns det ett alternativ: definiera kvoter för alla potentiellt relevanta egenskaper. En ökning av antalet styregenskaper leder dock till en mer komplex specifikation. Detta i sin tur gör det svårt – och ibland till och med omöjligt – att välja provelement och leder i alla fall till en kostnadsökning. Om till exempel tillhör en stad eller landsbygdsbefolkningen och socioekonomisk status kommer också att vara relevant för studien, kan intervjuaren behöva leta efter en nybörjare som är urban och över- eller medelklass. Du håller med om att det är mycket lättare att hitta bara en manlig nybörjare.

För det andra är det mycket svårt att säkerställa att ett givet urval verkligen är representativt. Naturligtvis går det att kontrollera urvalet för att säkerställa att fördelningen av egenskaper som inte ingår i kontrollen överensstämmer med deras fördelning i populationen. En sådan kontroll kan dock bara leda till negativa slutsatser. Det enda som kan identifieras är divergensen av fördelningar. Om fördelningarna av urvalet och populationen för var och en av dessa egenskaper upprepar varandra, finns det en möjlighet att urvalet skiljer sig från populationen på något annat, inte uttryckligen specificerat, sätt.

Och slutligen, för det tredje. Intervjuare, när de lämnas åt sig själva, tenderar att vidta vissa åtgärder. De tar för ofta till att intervjua sina vänner. Eftersom de ofta visar sig likna intervjuarna själva finns det risk för fel. Bevis från England tyder på att kvotprover tenderar att:

  1. överdrift av de mest tillgängliga elementens roll;
  2. tona ner rollen som små familjer;
  3. överdrift av barnfamiljers roll;
  4. nedtoning av arbetarnas roll i industriell produktion;
  5. tona ned rollen för dem med de högsta och lägsta inkomsterna;
  6. nedtoning av lågutbildade medborgares roll;
  7. tona ned rollen som personer som har en låg social ställning.
Intervjuare som väljer ut kvoter genom att stoppa slumpmässiga förbipasserande kommer sannolikt att fokusera sin uppmärksamhet på områden med ett stort antal potentiella svarande, som t.ex. köpcentrum, järnvägsstationer och flygplatser, ingångar till stora snabbköp och liknande. Denna praxis leder till överrepresentation av de grupper av människor som besöker sådana platser oftast. När hembesök krävs motiveras intervjuare ofta av bekvämlighet.
De kan till exempel endast genomföra undersökningar under dagen, vilket leder till en underskattning av arbetarnas åsikter. Bland annat går de inte in i fallfärdiga byggnader och klättrar i regel inte upp till de övre våningarna i byggnader som saknar hiss.

Beroende på detaljerna i det problem som studeras, kan dessa trender leda till olika typer av fel, men att korrigera dem vid dataanalysstadiet verkar väldigt, väldigt svårt. Å andra sidan, med ett objektivt urval av urvalselement, har forskare till sitt förfogande vissa verktyg som gör det möjligt att förenkla förfarandet för att bedöma ett givet urvals representativitet. När man analyserar problemet med representativitet för sådana prover, överväger forskaren inte så mycket sammansättningen av provet som förfarandet för att välja dess element.

Forskningsfönster: Strålande! Men vem kommer att läsa detta?

Varje år spenderar annonsörer miljontals dollar på annonser som visas i otaliga publikationer, från reklamålder till Yankee. En viss bedömning av texten och bilden kan göras innan den publiceras, som man säger, hemma, på en reklambyrå; dess verkliga verifiering och utvärdering sker först efter publiceringen av annonsen, omgiven av dussintals lika noggrant förberedda annonser som tävlar om läsarens uppmärksamhet.

Företag Roper Starch över hela världen sysslar med att bedöma läsbarheten av annonser som placerats i konsument-, affärs-, handels- och professionella tidskrifter och tidningar. Resultaten av forskningen uppmärksammas av annonsörer och byråer – naturligtvis mot en lämplig avgift. Eftersom annonsörer går långt varje dag för att försöka få ut sina annonser till konsumenterna, företaget Stärkelse beslutade att sammanställa ett urval som skulle förse prenumeranter med aktuell och korrekt information om effektiviteten av reklam. Varje år företaget Stärkelse undersökte mer än 50 000 personer och tittade på cirka 20 000 annonser. Cirka 500 enskilda publikationer studerades årligen.

Stärkelse använde proportionellt urval, med en minsta provstorlek på 100 läsare av det ena könet och 100 läsare av det andra könet. Starch drog slutsatsen att med denna provstorlek stabiliserades stora variationer i läsbarhetsnivåer. Läsare över 18 år undersöktes personligen, och detta inkluderade alla publikationer utom de som var avsedda för särskilda grupper av befolkningen (till exempel undersöktes flickor i samma ålder för att utvärdera tidningen Seventeen).

När man genomförde undersökningar tog man hänsyn till distributionszonen för en viss publikation. Låt oss säga att en Los Angeles magazine-studie tittade på läsare som bor i södra Kalifornien. Tid studerades nationellt. Undersökningen ägnades åt enskilda nummer av tidningen och genomfördes i 20-30 städer samtidigt.

Varje intervjuare tilldelades en liten kvot av intervjuer, vilket tjänade syftet att minimera enkätbias. Frågeformulär delades ut bland personer i olika yrken och åldrar med olika inkomster. Varje sådan studie gav en möjlighet att presentera ståndpunkter för en ganska bred läsekrets. När man övervägde ett antal professionella, affärs- och branschpublikationer togs även hänsyn till detaljerna kring deras prenumeration och distribution. Prenumerationslistor dedikerade till publikationer med en ganska snäv spridning gjorde det möjligt att välja acceptabla respondenter.

I varje undersökning bad intervjuarna respondenterna titta igenom publikationen och frågade om de hade lagt märke till några annonser. Om svaret var jakande ställde registratorn en hel rad frågor för att bedöma i vilken grad annonsen uppfattades.

Denna bedömning kan vara tredelad:

  • Var uppmärksam: de som redan har uppmärksammat själva faktumet att ett sådant tillkännagivande dyker upp.
  • Bekanta: de som kom ihåg någon del av annonsen, som handlade om det annonserade varumärke eller om annonsören.
  • Läs: personer som läser minst hälften av annonsen.

Efter att ha granskat alla annonser registrerade intervjuarna grundläggande klassificeringsinformation: kön, ålder, yrke, Familjestatus, nationalitet, inkomst, familjestorlek och sammansättning, vilket gjorde det möjligt att korstabellera nivån på läsarens intresse.

När den används på rätt sätt, företagsdata Stärkelse tillåta annonsörer och byråer att identifiera både misslyckade och framgångsrika typer av reklamprogram som lockar och håller läsarens uppmärksamhet. Information av det här slaget är oerhört värdefull för annonsörer som i första hand är intresserade av effektiviteten i deras reklamkampanj.

Källa: Roper Starch Worldwide, Mamaronek, NY 10543.

Sannolikhetsprover

En forskare kan bestämma sannolikheten för inkludering av vilken del av en population som helst i ett sannolikhetsurval eftersom urvalet av dess element utförs på grundval av någon objektiv process och inte beror på forskarens eller fältarbetarens nycker och preferenser. Eftersom proceduren för att välja element är objektiv kan forskaren bedöma tillförlitligheten av de erhållna resultaten, vilket var omöjligt i fallet med deterministiska urval, oavsett hur noggrant urvalet av element av de senare var.

Man ska inte tro att probabilistiska urval alltid är mer representativa än deterministiska. Faktum är att ett deterministiskt urval kan vara mer representativt. Fördelen med sannolikhetsurval är att de gör det möjligt att uppskatta eventuella urvalsfel. Om en forskare arbetar med ett deterministiskt urval har han ingen objektiv metod för att bedöma dess lämplighet för studiens syften.

Enkelt slumpmässigt urval

De flesta har stött på enkla stickprov på ett eller annat sätt, antingen som en del av en statistikkurs på högskolan eller genom att läsa om resultaten av relevanta studier i tidningar eller tidskrifter. I ett enkelt slumpmässigt urval har varje element som ingår i urvalet samma specificerade sannolikhet att ingå i urvalet, och vilken kombination av element som helst i den ursprungliga populationen kan potentiellt bli ett urval. Om vi ​​till exempel vill dra ett enkelt slumpmässigt urval av alla studenter som är inskrivna på en viss högskola, skulle vi bara behöva göra en lista över alla studenter, tilldela ett nummer till varje namn på den och använda en dator för att slumpmässigt välja en givet antal föremål.

Befolkning

Befolkning
En uppsättning element som uppfyller vissa specificerade villkor; även kallad studie(mål)populationen.
Parameter
En specifik egenskap eller indikator för en allmän eller studiepopulation.

Den allmänna, eller studerade, befolkningenär den population från vilken urvalet görs. Denna uppsättning (population) kan beskrivas av ett antal specifika parametrar, som är egenskaper hos den allmänna befolkningen, som var och en representerar en viss kvantitativ indikator som skiljer en population från en annan.

Föreställ dig att befolkningen som studeras är hela den vuxna befolkningen i Cincinnati. Ett antal parametrar kan användas för att beskriva denna population: medelålder, andel av befolkningen med högre utbildning, inkomstnivå etc. Observera att alla dessa indikatorer har ett visst fast värde. Naturligtvis kan vi beräkna dem genom att genomföra en fullständig folkräkning av befolkningen som studeras. Vanligtvis förlitar vi oss inte på kvalifikationer, men på urvalet väljer vi och använder de värden som erhålls under provobservation för att bestämma de nödvändiga parametrarna för populationen.

Låt oss illustrera vad som har sagts i tabell 1. 15.1 är ett exempel på en hypotetisk population bestående av 20 personer. Att arbeta med en liten hypotetisk population som denna har ett antal fördelar. För det första gör den lilla urvalsstorleken det möjligt att enkelt beräkna populationsparametrar som kan användas för att beskriva det. För det andra ger denna omfattning insikt i vad som kan hända om en viss provtagningsplan antas. Båda dessa funktioner gör det enkelt att jämföra provresultaten med det "sanna" och i det här fallet känt värde aggregat, vilket inte är fallet i den typiska situationen där det faktiska värdet av aggregatet är okänt. Jämförelse av skattningen med det "sanna" värdet blir särskilt tydlig i detta fall.

Antag att vi vill uppskatta, baserat på två slumpmässigt utvalda element, medelinkomsten för individer i den ursprungliga befolkningen. Genomsnittlig inkomst kommer att vara dess parameter. För att uppskatta detta medelvärde, som vi betecknar som μ, måste vi dividera summan av alla värden med deras antal:

Populationsmedelvärde μ = Summan av populationselement / Antal element.

I vårt fall ger beräkningarna:

Härledd uppsättning

Härledd uppsättning består av alla möjliga urval som kan väljas från den allmänna populationen enligt en given urvalsplan (provtagningsplan). Statistikär en egenskap, eller indikator, för ett prov. Värdet av en provstatistik används för att uppskatta en viss populationsparameter. Olika urval ger olika statistik eller uppskattningar av samma populationsparameter.

Härledd uppsättning
Summan av alla möjliga urskiljbara urval som kan väljas från populationen enligt en given urvalsplan. Statistik En egenskap eller indikator för ett urval.

Betrakta den härledda populationen av alla möjliga urval som skulle kunna väljas från vår hypotetiska population på 20 individer under en provtagningsplan som antar en urvalsstorlek på n=2 kan erhållas genom slumpmässigt icke-repetitivt urval.

Låt oss för tillfället anta att uppgifterna för varje enhet av befolkningen - i vårt fall individens namn och inkomst - registreras på muggar, varefter de släpps i en kanna och blandas. Forskaren tar bort en cirkel från kannan, skriver ner information från den och lägger den åt sidan. Han gör samma sak med den andra cirkeln borttagen från kannan. Sedan lämnar forskaren tillbaka båda muggarna till kannan, blandar dess innehåll och upprepar samma sekvens av åtgärder. I tabell Figur 15.2 visar de möjliga resultaten av denna procedur. För 20 cirklar är 190 sådana parade kombinationer möjliga.

För varje kombination kan medelinkomsten beräknas. Låt oss säga för ett prov AB (k= 1)

k-e sample mean = Summa av provelement / Antal provelement =

I fig. 15.4 visar uppskattningen av medelinkomsten för hela befolkningen och storleken på felet för varje uppskattning för urval k = 25, 62,108,147 Och 189 .

Innan vi börjar överväga sambandet mellan urvalets medelinkomst (statistik) och befolkningens medelinkomst (en parameter som kräver uppskattning), låt oss säga några ord om den härledda populationen. För det första, i praktiken konstruerar vi inte aggregat av detta slag. Detta skulle kräva för mycket tid och ansträngning. Utövaren är begränsad till att bara sammanställa ett urval av den storlek som krävs. Forskaren använder begrepp härledd population och det associerade konceptet med urvalsfördelning vid formulering av slutsatser.

Hur kommer att visas nedan. För det andra bör man komma ihåg att en härledd population definieras som helheten av alla möjliga olika urval som kan väljas från populationen enligt en given urvalsplan. När någon del av provtagningsplanen ändras ändras också den härledda populationen. Således, om forskaren, när han väljer cirklar, returnerar den första av de borttagna skivorna till kannan innan han tar bort den andra, kommer den härledda uppsättningen att inkludera.

prover AA, BB, etc. Om volymen av icke-repetitiva prover är lika med 3, och inte 2, kommer prover av ABC-typ att visas, och det kommer att finnas 1140 av dem, och inte 190, som var fallet i tidigare fall. När man byter från enkel slumpmässig urval till någon annan metod för att välja urvalselement, ändras också den härledda populationen.

Man bör också komma ihåg att att välja ett urval av en given storlek från en allmän population motsvarar att välja ett element (1 av 190) från en härledd population. Detta faktum gör att vi kan dra många statistiska slutsatser.

Urvalsmedelvärde och befolkningsmedelvärde

Har vi rätt att likställa urvalets medelvärde med det sanna populationsmedelvärdet? Vi antar i alla fall att de är sammanlänkade. Men vi tror också att fel kommer att inträffa. Det kan till exempel antas att informationen från internetanvändare kommer att skilja sig väsentligt från resultaten av en undersökning av den "vanliga" befolkningen. I andra fall kan vi anta en ganska nära matchning, annars skulle vi inte kunna använda urvalsvärdet för att uppskatta det allmänna värdet. Men hur stort misstag kan vi göra i detta?

Låt oss lägga ihop alla provmedelvärden som finns i tabellen. 15.2 och dividera den resulterande mängden med antalet prover, d.v.s. låt oss ta ett medelvärde av medelvärdena.
Vi kommer att få följande resultat:

Det sammanfaller med befolkningens medelvärde. De säger att i det här fallet har vi att göra med opartisk statistik.

En statistik sägs vara opartisk om dess medelvärde över alla möjliga urval är lika med den uppskattade populationsparametern. Observera att vi inte talar om någon speciell betydelse här. Den partiella uppskattningen kan vara ganska långt från det sanna värdet - ta till exempel AB- eller ST-proverna. I vissa fall kan det sanna populationsvärdet kanske inte uppnås genom att överväga ett eventuellt urval, även om statistiken är opartisk. I vårt fall är detta inte fallet: en hel rad möjliga urval - till exempel AT - ger ett urvalsmedelvärde lika med det sanna populationsmedelvärdet.

Det är vettigt att överväga fördelningen av dessa urvalsuppskattningar, och i synnerhet sambandet mellan denna spridning av skattningar och variationen i inkomstnivåer i befolkningen. Populationens varians används som ett mått på variation. För att bestämma populationens varians måste vi beräkna avvikelsen för varje värde från medelvärdet, addera kvadraterna på alla avvikelser och dividera den resulterande summan med antalet termer. Låt oss beteckna befolkningens spridning med a^. Sedan:

Populationsvarians σ 2 = Summan av kvadratskillnader för varje element
befolkning och befolkningsmedelvärde / Antal befolkningselement =

Dispersion Genomsnittligt värde inkomstnivå kan bestämmas på samma sätt. Det vill säga, vi kan hitta det genom att bestämma avvikelserna för varje medelvärde från deras totala medelvärde, summera kvadraterna på avvikelserna och dividera den resulterande summan med antalet termer.

Vi kan bestämma spridningen av medelinkomstnivån på ett annat sätt genom att använda spridningen av inkomstnivåerna i befolkningen, eftersom det finns ett direkt samband mellan dessa två värden. För att vara exakt, i de fall där urvalet endast representerar en liten del av populationen, är variansen för urvalets medelvärde lika med variansen av populationen dividerat med urvalsstorleken:

där σ x 2 är spridningen av det genomsnittliga urvalsvärdet för inkomstnivån, σ 2 är spridningen av inkomstnivån i den allmänna befolkningen, n- provstorlek.

Låt oss nu jämföra fördelningen av resultat med fördelningen av en kvantitativ egenskap i den allmänna befolkningen. Figur 15.5 visar att populationsfördelningen för en kvantitativ egenskap, som visas i panel A, är flertoppad (vart och ett av de 20 värdena visas bara en gång) och symmetrisk om det sanna populationsmedelvärdet på 9400.

Provfördelning
Fördelningen av värden för en specificerad statistik beräknad för alla möjliga urskiljbara urval som kan väljas från populationen under en given urvalsplan.

Fördelningen av poäng som visas i ruta B baseras på uppgifterna i tabell 1. 15.3, som i sin tur kompilerades genom att tilldela värden från tabellen. 15.2 till en eller annan grupp beroende på deras storlek, följt av att räkna deras antal i gruppen. Fält B är ett traditionellt histogram, betraktat i början av en statistikkurs, som representerar provtagningsfördelning statistik. Låt oss notera följande i förbigående: begreppet urvalsfördelning är det viktigaste begreppet inom statistik, det är hörnstenen i att konstruera statistiska slutledningar. Baserat på den kända urvalsfördelningen av statistiken som studeras kan vi dra en slutsats om motsvarande parameter för populationen. Om det bara är känt att provuppskattningen varierar från prov till prov, men karaktären av denna förändring är okänd, blir det omöjligt att fastställa samplingsfelet som är associerat med denna uppskattning. Eftersom urvalsfördelningen av en uppskattning beskriver dess variation från urval till urval, ger den en grund för att bestämma giltigheten av provuppskattningen. Det är av denna anledning som sannolikhetssamplingsdesign är så viktig för statistisk slutledning.

Från de kända sannolikheterna för inkludering i urvalet av varje element i populationen kan intervjuare hitta urvalsfördelningen av olika statistik. Forskare förlitar sig på dessa fördelningar – oavsett om det är stickprovets medelvärde, urvalsproportion, provvarians eller någon annan statistik – när de utvidgar resultatet av en provobservation till befolkningen. Observera också att för prover av storlek 2 är fördelningen av provmedelvärden entoppad och symmetrisk om det sanna medelvärdet.

Så vi har visat att:

  1. Medelvärdet av alla möjliga urvalsmedelvärden är lika med det allmänna medelvärdet.
  2. Spridningen av provmedel är på ett visst sätt relaterad till den allmänna spridningen.
  3. Fördelningen av urvalsmedelvärden är entoppad, medan fördelningen av värden av en kvantitativ egenskap i den allmänna befolkningen är flertoppad.

Centrala gränsvärdessatsen

Ett teorem som säger att för enkla slumpmässiga prover av volym n, isolerad från den allmänna befolkningen med ett allmänt medelvärde μ och varians σ 2, för stora n fördelningen av provmedelvärdet x närmar sig normal med ett centrum lika med μ och varians σ 2 . Noggrannheten för denna approximation ökar med ökande n.

Centrala gränsvärdessatsen. Enkeltoppsfördelningen av uppskattningar kan betraktas som en manifestation av den centrala gränssatsen, som säger att för enkla slumpmässiga prover av volym n, isolerad från den allmänna befolkningen med ett sant medelvärde μ och varians σ 2, för stora n fördelningen av urvalsmedelvärden närmar sig det normala med ett centrum lika med det sanna medelvärdet och en varians lika med förhållandet mellan populationsvariansen och urvalsstorleken, dvs.

Denna approximation blir mer och mer exakt när vi växer n. Kom ihåg det här. Oavsett typ av population kommer fördelningen av urvalsmedelvärden att vara normal för urval av tillräckligt stor storlek. Vad ska förstås med en tillräckligt stor volym? Om fördelningen av värden för en kvantitativ egenskap hos den allmänna befolkningen är normal, är fördelningen av urvalsmedelvärden för urval av storlek n=1. Om fördelningen av en variabel (kvantitativ egenskap) i populationen är symmetrisk men inte normal, kommer mycket små urval att ge en normalfördelning av urvalsmedelvärden. Om fördelningen av en kvantitativ egenskap hos den allmänna befolkningen har en uttalad asymmetri finns det ett behov av större urval. Och ändå kan fördelningen av urvalsgenomsnittet accepteras som normal endast i de fall vi har att göra med ett urval av tillräcklig storlek.

För att dra slutsatser med hjälp av en normal kurva är det inte alls nödvändigt att utgå från villkoret för normalfördelning av värdena för en kvantitativ egenskap hos den allmänna befolkningen. Snarare förlitar vi oss på den centrala gränssatsen och, beroende på populationsfördelningen, bestämmer vi en urvalsstorlek som skulle tillåta oss att arbeta med en normalkurva. Lyckligtvis säkerställs normalfördelningen av statistik av relativt små urval - Fig. 15.6 visar tydligt denna omständighet. Uppskattningar av konfidensintervall. Kan ovanstående hjälpa oss att dra vissa slutsatser om det allmänna medelvärdet? I praktiken väljer vi faktiskt bara ett, och inte alla möjliga urval av en given storlek, och baserat på erhållna data drar vi vissa slutsatser om målgruppen.

Hur går det till? Som bekant har en viss procentandel av alla observationer med en normalfördelning en viss standardavvikelse; Låt oss säga att 95 % av observationerna ryms inom ±1,96 standardavvikelser från medelvärdet. Normalfördelningen av sampelmedel, på vilken den centrala gränssatsen kan tillämpas, är inget undantag i denna mening. Medelvärdet för en sådan provfördelning är lika med det allmänna medelvärdet μ, och dess standardavvikelse kallas medelvärdets standardfel:

Det visar sig att:

  • 68,26 % av provmedelvärdena avviker från det allmänna medelvärdet med högst ± σ x;
  • 95,45 % av provmedelvärdena avviker från det allmänna medelvärdet med inte mer än ±σ x;
  • 99,73 % av provmedelvärdena avviker från det allmänna medelvärdet med högst ± σ x,

dvs en viss andel av provmedel beroende på det valda värdet z kommer att ingå i det intervall som bestäms av värdet z. Detta uttryck kan skrivas om som en ojämlikhet:

Det allmänna genomsnittet - z < Среднее по выборке < Генеральное среднее + z(Root Mean Square Error of the Mean)

Således ligger urvalsmedelvärdet med en viss sannolikhet i intervallet, vars gränser är summan och skillnaden av fördelningens medelvärde och ett visst antal standardavvikelser. Denna ojämlikhet kan omvandlas till:

Exempel genomsnitt - z(Root Mean Square Error of the Mean)< Генеральное среднее < Среднее по выборке + z(Root Mean Square Error of the Mean)

Om förhållandet 15,1 observeras, till exempel i 95 % av fallen ( z= 1,96), i 95 % av fallen observeras förhållandet 15,2. I de fall slutsatsen baseras på ett enstaka urvalsmedelvärde använder vi uttryck 15.2.

Det är viktigt att komma ihåg att uttrycket 15.2 betyder inte att intervallet som motsvarar ett givet urval nödvändigtvis måste inkludera det allmänna medelvärdet. Intervallet har mer att göra med urvalsförfarandet. Intervallet konstruerat kring ett givet medelvärde kan eller kanske inte inkluderar det sanna populationsmedelvärdet. Vårt förtroende för riktigheten av de slutsatser som gjorts bygger på det faktum att 95 % av alla intervall konstruerade enligt den valda provtagningsplanen kommer att innehålla det verkliga medelvärdet. Vi tror att vårt urval faller inom dessa 95 %.

För att illustrera denna viktiga punkt, låt oss för ett ögonblick föreställa oss att fördelningen av urval betyder för urval av storlek n= 2 i vårt hypotetiska exempel är normalt. Tabell 15.4 illustrerar tydligt utfallet för de första 10 av de möjliga 190 proverna som skulle kunna väljas under en given design. Observera att endast 7 av de 10 intervallen inkluderar ett stort eller sant medelvärde. Tilltron till slutsatsens riktighet beror inte på någon speciell bedömning, utan exakt procedur bedömningar. Denna procedur är sådan att för 100 prover för vilka provmedelvärde och konfidensintervall kommer att beräknas, i 95 fall kommer detta intervall att inkludera det verkliga allmänna värdet. Noggrannheten för ett givet prov bestäms av den procedur genom vilken provet valdes. En representativ provtagningsdesign garanterar inte att alla prover är representativa. Statistiska slutledningsförfaranden baseras på provtagningsplanens representativitet, vilket är anledningen till att denna procedur är så kritisk för sannolikhetsurval.

Sannolikhetsprover tillåter oss att utvärdera resultatens noggrannhet som hur nära de uppskattningar som gjorts till det verkliga värdet. Ju större medelkvadratfel i statistiken, desto högre grad av spridning av uppskattningar och desto lägre noggrannhet för proceduren.

Vissa kan bli förvirrade av det faktum att konfidensnivån relaterar till proceduren och inte till det specifika urvalsvärdet, men man bör komma ihåg att storleken på konfidensnivån för att uppskatta det allmänna värdet kan justeras av forskaren. Om du inte vill ta några chanser och är orolig för att du kan stöta på ett av de fem valda urvalsintervallen som inte inkluderar populationsmedelvärdet, kan du välja ett 99 % konfidensintervall där endast ett av hundra urvalsintervall gör det. inte inkludera befolkningsmedelvärdet. Om du dessutom kan öka urvalsstorleken kommer du att öka konfidensnivån för resultatet, vilket ger önskad noggrannhet vid uppskattning av populationsvärdet. Vi kommer att tala mer om detta i kap. 17.

Proceduren vi beskriver har ytterligare en komponent som kan orsaka viss förvirring. Vid uppskattning av konfidensintervallet används tre kvantiteter: x, z och σx. Provmedelvärdet x beräknas från provdata, z väljs baserat på önskad konfidensnivå. Men hur är det med rotmedelkvadratfelet för medelvärdet σ x? Det är lika med:

och därför, för att bestämma det, måste vi ställa in standardavvikelsen för den kvantitativa egenskapen för den allmänna befolkningen, dvs. 5. Vad ska man göra i fall där standardavvikelsen s okänd? Detta problem uppstår inte av två skäl. För det första, vanligtvis för de flesta kvantitativa attribut som används i marknadsundersökningar, förändras variationen mycket långsammare än nivån på de flesta variabler som är av intresse för marknadsföraren. Följaktligen, om studien upprepas, kan vi använda det tidigare, tidigare erhållna värdet på s i beräkningarna. För det andra, när urvalet har valts ut och data erhållits, kan vi uppskatta populationsvariansen genom att bestämma urvalsvariansen. Variansen för ett opartiskt urval definieras som:

Provvarians ŝ 2 = Summan av kvadrerade avvikelser från urvalets medelvärde / (Antal provelement -1). För att bestämma stickprovsvariansen måste vi först hitta provmedelvärdet. Sedan hittas skillnaderna mellan vart och ett av provvärdena och provmedelvärdet; dessa skillnader kvadreras, summeras och divideras med ett tal lika med antalet provobservationer minus en. Urvalsvariansen ger inte bara en uppskattning av den allmänna variansen, utan kan också användas för att uppskatta medelvärdets rotmedelkvadratfel. När den allmänna variansen σ 2 är känd, är rotmedelkvadratfelet σ x också känt, eftersom:

När den allmänna variansen är okänd kan medelvärdets rotmedelkvadratfel endast uppskattas. Denna uppskattning är given ŝ x, vilket är lika med standardavvikelsen för provet dividerat med kvadratroten av provstorleken, dvs. Uppskattningen bestäms på samma sätt som uppskattningen av det verkliga värdet fastställdes, men istället för den allmänna standardavvikelsen ersätts provets standardavvikelse i beräkningsformeln. Så, säg, för prov AB med ett urvalsmedelvärde på 5800:

Följaktligen är ŝ = 283, och

och 95%-intervallet är nu

vilket är mindre än det tidigare värdet.

I tabell 15.5 sammanfattar beräkningsformlerna för olika medelvärden och varianser som diskuteras i detta kapitel. Bildning av ett enkelt slumpmässigt urval. I vårt exempel utfördes urvalet av provelement med hjälp av en kanna, som innehöll alla element från den ursprungliga populationen. Detta gjorde det möjligt för oss att visualisera begreppen härledd population och provtagningsfördelning. Vi rekommenderar inte att använda en sådan metod i praktiken, eftersom det ökar sannolikheten för fel. Muggar kan skilja sig åt i både storlek och konsistens, vilket i vissa fall kan leda till att man föredrar den ena framför den andra. Valet av deltagare i Vietnam-kampanjen, utfört med hjälp av ett lotteri, kan fungera som ett exempel på denna typ av fel.

Urvalet gjordes genom att skivor med födelsedatum drogs från en stor trumma. TV sände denna procedur i hela landet. Tyvärr laddades skivorna i trumman på ett systematiskt sätt: januaridatum kom först, decemberdatum sist. Även om trumman var föremål för intensiv snurrande, föll decemberdatum mycket oftare än januari. Därefter reviderades detta förfarande på ett sådant sätt att sannolikheten för sådana systematiska fel minskade avsevärt. Den föredragna metoden att dra ett enkelt slumpmässigt urval är baserad på användningen av en tabell med slumptal.

Att använda en sådan tabell innebär följande sekvens av steg. Först måste elementen i populationen tilldelas sekvensnummer från 1 till N; i vår hypotetiska helhet elementet A kommer att tilldelas nummer 1, element B- nummer 2, etc. För det andra måste antalet siffror i slumptalstabellen vara detsamma som antalet N. För N= 20 tvåsiffriga nummer kommer att användas; För N mellan 100 och 999 är tresiffriga tal etc. För det tredje måste startpositionen bestämmas slumpmässigt. Vi kan öppna motsvarande tabell med slumpmässiga tal och blunda, som de säger, peka med fingret på den. Eftersom siffrorna i slumptalstabellen är i slumpmässig ordning spelar startpositionen inte så stor roll.

Och slutligen kan vi röra oss i valfri godtyckligt vald riktning - upp, ner eller tvärs över, välja de element vars nummer kommer att motsvara slumpmässiga tal från tabellen. För att illustrera vad som har sagts, överväg en förkortad tabell med slumptal (tabell 15.6). Eftersom den N= 20, vi ska bara arbeta med tvåsiffriga tal. I denna mening, tabell. 15.6 passar oss perfekt. Låt oss i förväg bestämma oss för att flytta nedåt i kolumnen, men startpositionen är i skärningspunkten mellan den elfte raden och den fjärde kolumnen, där siffran 77 finns. Detta nummer är för stort och måste därför kasseras. De följande två siffrorna kommer också att förkastas, men det fjärde värdet 02 kommer att användas eftersom 2 motsvarar elementnumret I.

De nästa fem siffrorna kommer också att kasseras som för stora, medan siffran 05 kommer att indikera elementet E. Alltså elementen I Och E kommer att bli vårt urval av två element, genom vilket vi kommer att bedöma inkomstnivån för denna population. En alternativ strategi är också möjlig, där ett datorprogram som genererar slumpmässiga tal kommer att användas som grund för urval. Framträdde i Nyligen publikationer indikerar att siffrorna som genereras av sådana program inte är helt slumpmässiga, vilket kan visa sig på ett visst sätt när man konstruerar komplexa matematiska modeller, men de kan användas för de flesta tillämpade marknadsundersökningar. Observera igen att ett enkelt slumpmässigt urval kräver sammanställning av en sekventiell numrerad lista över element i populationen.

Med andra ord måste varje medlem av den ursprungliga befolkningen identifieras. För vissa befolkningar är detta inte svårt att göra, till exempel när man studerar de 500 största amerikanska företagen, en lista över vilka ges i tidningen Fortune. Denna lista har redan sammanställts, så att bilda ett enkelt slumpmässigt urval i det här fallet kommer inte att vara svårt. För andra initiala populationer (till exempel för alla familjer som bor i en viss stad) är det extremt svårt att sammanställa en allmän lista, vilket tvingar forskare att ta till andra provtagningssystem.

Sammanfattning

Lärandemål 1
Skilj tydligt mellan begreppen folkräkning (kvalifikation) och urval

En fullständig folkräkning av en befolkning kallas kompetens. Prov en samling bildad av utvalda element.

Lärandemål 2
Känna till essensen och sekvensen av de sex stegen som implementerats av forskare för att få en provpopulation

Provtagningsprocessen är uppdelad i sex steg:

  1. befolkningsfördelning;
  2. bestämning av samplingsramen;
  3. val av urvalsförfarande;
  4. bestämning av provstorlek;
  5. urval av provelement;
  6. granskning av utvalda element.

Lärandemål 3
Definiera begreppet "samplingsram"

Samplingsramen är listan över element från vilka provet kommer att tas.

Lärandemål 4
Förklara skillnaden mellan sannolikhet och deterministiskt urval

I ett sannolikhetsurval kan varje medlem av populationen inkluderas med en viss ges icke-noll sannolikhet. Sannolikheterna att inkludera vissa medlemmar av populationen i urvalet kan skilja sig från varandra, men sannolikheten att inkludera varje element i det är känd. För deterministiska urval blir det omöjligt att bedöma sannolikheten att inkludera något element i urvalet. Ett sådant urvals representativitet kan inte garanteras. Allt deterministiskt urval baseras snarare på personlig åsikt, bedömning eller preferens. Sådana preferenser kan ibland ge bra uppskattningar av populationsegenskaper, men det finns inget sätt att objektivt avgöra om ett urval är lämpligt för den aktuella uppgiften.

Lärandemål 5
Skilj mellan provtagning med fast storlek och flerstegs (sekventiell) provtagning

När man arbetar med stickprover av fast storlek bestäms urvalsstorleken innan undersökningen påbörjas och analysen av resultaten föregås av insamling av all nödvändig data. Vid sekventiell sampling är antalet valda element okänt i förväg, det bestäms baserat på en serie sekventiella beslut.

Lärandemål 6
Förklara vad målinriktat urval är och beskriv både dess styrkor och svagheter

Objekt i ett syftesurval väljs ut för hand och presenteras för forskaren för att uppfylla målen för undersökningen. Det antas att de valda elementen kan ge en helhetsbild av populationen som studeras. Medan forskaren är i de tidiga stadierna av att utforska problemet och bestämma utsikterna och eventuella begränsningar för den planerade undersökningen, kan användningen av målinriktad provtagning vara mycket effektiv. Men i inget fall bör vi glömma svagheterna i ett prov av denna typ, eftersom det också kan användas av forskaren i beskrivande eller kausala studier, vilket omedelbart kommer att påverka kvaliteten på deras resultat.

Lärandemål 7
Definiera begreppet kvoturval

Ett proportionellt urval väljs så att andelen element i urvalet som har vissa egenskaper ungefär motsvarar andelen av samma element i populationen som studeras; För att göra detta får varje enumerator en kvot som definierar egenskaperna hos befolkningen som han måste kontakta.

Lärandemål 8
Förklara vad en parameter är i ett provtagningsförfarande

Parameter - en viss egenskap eller indikator för den allmänna eller studerade befolkningen; en viss kvantitativ indikator som skiljer en population från en annan.

Lärandemål 9
Förklara vad en härledd mängd är

Den härledda populationen består av alla möjliga urval som kan väljas från populationen enligt en given urvalsplan.

Lärandemål 10
Förklara varför begreppet urvalsfördelning är ett väsentligt begrepp i statistik.

Konceptet med urvalsfördelning är hörnstenen i statistisk slutledning. Baserat på den kända urvalsfördelningen av statistiken som studeras kan vi dra en slutsats om motsvarande parameter för populationen. Om det bara är känt att provuppskattningen varierar från prov till prov, men karaktären av denna förändring är okänd, blir det omöjligt att fastställa samplingsfelet som är associerat med denna uppskattning. Eftersom urvalsfördelningen av en uppskattning beskriver dess variation från urval till urval, ger den en grund för att bestämma giltigheten av provuppskattningen.

Prov - en uppsättning fall (ämnen, objekt, händelser, prover), med hjälp av en viss procedur, utvald från den allmänna befolkningen för att delta i studien.

Provstorlek

Urvalsstorlek är antalet fall som ingår i urvalspopulationen. Av statistiska skäl rekommenderas att antalet fall är minst 30-35.

Beroende och oberoende urval

När man jämför två (eller flera) prov är en viktig parameter deras beroende. Om det är möjligt att fastställa ett homomorft par (det vill säga när ett fall från prov X motsvarar ett och endast ett fall från prov Y och vice versa) för varje fall i två prov (och denna grund för sambandet är viktig för egenskap som mäts i proverna), kallas sådana prover beroende. Exempel på beroende prover:

  1. tvillingpar,
  2. två mätningar av någon egenskap före och efter experimentell exponering,
  3. män och hustrur
  4. och så vidare.

Om det inte finns något sådant förhållande mellan proverna anses dessa prover vara oberoende, till exempel:

  1. män och kvinnor,
  2. psykologer och matematiker.
  3. Följaktligen har beroende urval alltid samma storlek, medan storleken på oberoende urval kan skilja sig åt.

Jämförelse av prover görs med hjälp av olika statistiska kriterier:

  • Elevens t-test
  • Wilcoxon T-test
  • Mann-Whitney U-test
  • Teckenkriterium
  • och så vidare.

Representativitet

Urvalet kan anses representativt eller icke-representativt.

Exempel på ett icke-representativt urval

I USA inträffar ett av de mest kända historiska exemplen på icke-representativ provtagning under presidentvalet 1936. The Literary Digest, som framgångsrikt hade förutspått händelserna i flera tidigare val, hade fel i sina förutsägelser när den skickade ut tio miljoner provröstsedlar till sina prenumeranter, personer som valts ut från telefonböcker över hela landet och personer från bilregistreringslistor. I 25 % av de returnerade valsedlarna (nästan 2,5 miljoner) fördelade sig rösterna enligt följande:

57 % föredrog den republikanske kandidaten Alf Landon

40 % valde dåvarande demokratiske presidenten Franklin Roosevelt

I själva valet vann Roosevelt som bekant och fick mer än 60 % av rösterna. The Literary Digests misstag var detta: de ville öka urvalets representativitet - eftersom de visste att de flesta av deras prenumeranter ansåg sig vara republikaner - utökade de urvalet till att omfatta personer som valts ut från telefonböcker och registreringslistor. De tog dock inte hänsyn till sin tids verklighet och rekryterade faktiskt ännu fler republikaner: under den stora depressionen var det främst representanter för medel- och överklassen som hade råd att äga telefoner och bilar (det vill säga de flesta republikaner , inte demokrater).

Typer av plan för att konstruera grupper från prover

Det finns flera huvudtyper av gruppbyggnadsplaner:

  • En studie med experiment- och kontrollgrupper, som placeras i olika förhållanden.
  • Studera med experiment- och kontrollgrupper med hjälp av en parvis urvalsstrategi
  • En studie som endast använder en grupp - en experimentgrupp.
  • En studie med en blandad (faktoriell) design - alla grupper placeras i olika förhållanden.

Gruppbyggnadsstrategier

Urvalet av grupper för deltagande i ett psykologiskt experiment genomförs med hjälp av olika strategier för att säkerställa största möjliga respekt för intern och extern validitet.

  • Randomisering (slumpmässigt urval)
  • Attrahera riktiga grupper

Randomisering

Randomisering, eller slumpmässigt urval, används för att skapa enkla slumpmässiga urval. Användningen av ett sådant urval bygger på antagandet att varje medlem av befolkningen är lika sannolikt att ingå i urvalet. Till exempel, för att göra ett slumpmässigt urval av 100 studenter, kan du lägga papperslappar med namnen på alla universitetsstudenter i en hatt och sedan ta 100 stycken papper ur det - detta kommer att vara ett slumpmässigt urval (Goodwin J. , sid. 147).

Parvis val

Parvis val- en strategi för att konstruera provtagningsgrupper, där grupper av försökspersoner är uppbyggda av försökspersoner som är likvärdiga vad gäller sekundära parametrar som är signifikanta för experimentet. Denna strategi är effektiv för experiment med experimentella och kontrollgrupper med det bästa alternativet- lockande

Inom statistiken finns det två huvudsakliga forskningsmetoder – kontinuerlig och selektiv. När man genomför en urvalsstudie är det obligatoriskt att uppfylla följande krav: representativitet för urvalspopulationen och ett tillräckligt antal observationsenheter. Vid val av observationsenheter är det möjligt Offset fel, dvs sådana händelser, vars förekomst inte kan förutsägas exakt. Dessa fel är objektiva och naturliga. När man bestämmer graden av noggrannhet för en provtagningsstudie, uppskattas mängden fel som kan uppstå under provtagningsprocessen - Slumpmässigt representativitetsfel (M) — Det är den faktiska skillnaden mellan de genomsnittliga eller relativa värden som erhållits under en provstudie och liknande värden som skulle erhållas under en studie på den allmänna befolkningen.

Att bedöma tillförlitligheten av forskningsresultaten innebär att fastställa:

1. representativitetsfel

2. konfidensgränser för genomsnittliga (eller relativa) värden i befolkningen

3. tillförlitligheten av skillnaden mellan medelvärden (eller relativa) värden (enligt t-kriteriet)

Beräkning av representativitetsfel(mm) aritmetiskt medelvärde (M):

Där σ är standardavvikelsen; n—provstorlek (>30).

Beräkning av representativitetsfel (mР) relativt värde (Р):

Där P är motsvarande relativa värde (beräknat t.ex. i %);

Q =100 - Ρ% - det reciproka av P; n – provstorlek (n>30)

I kliniskt och experimentellt arbete är det ganska ofta nödvändigt att använda Litet prov När antalet observationer är mindre än eller lika med 30. Med ett litet urval för att beräkna representativitetsfel, både medelvärden och relativa värden , Antalet observationer minskar med en, d.v.s.

; .

Storleken på representativitetsfelet beror på urvalets storlek: än större antal observationer, ämnen mindre fel. För att bedöma tillförlitligheten hos en provindikator används följande tillvägagångssätt: indikatorn (eller medelvärdet) måste vara 3 gånger större än dess fel, i vilket fall den anses tillförlitlig.

Att känna till storleken på felet är inte tillräckligt för att vara säker på resultaten av en urvalsstudie, eftersom ett specifikt fel i en urvalsstudie kan vara betydligt större (eller mindre) än det genomsnittliga representativitetsfelet. För att bestämma noggrannheten med vilken en forskare vill få ett resultat, använder statistiken ett sådant koncept som sannolikheten för en felfri prognos, vilket är ett kännetecken för tillförlitligheten av resultaten från biomedicinska statistiska provstudier. Normalt när man utför biomedicinska statistiska studier är sannolikheten för en felfri prognos 95 % eller 99 %. I de mest kritiska fallen, när det är nödvändigt att dra särskilt viktiga slutsatser i teoretiska eller praktiska termer, använd sannolikheten för en felfri prognos på 99,7 %

Ett visst värde motsvarar en viss grad av sannolikhet för en felfri prognos Marginalfel vid slumpmässigt urval (Δ - delta), som bestäms av formeln:

Δ=t * m, där t är en konfidenskoefficient, som med ett stort urval och en 95 % sannolikhet för en felfri prognos är lika med 2,6; med en sannolikhet för en felfri prognos på 99% - 3,0; med en sannolikhet för en felfri prognos på 99,7% - 3,3, och med ett litet urval bestäms den med hjälp av en speciell tabell med Students t-värden.

Med hjälp av marginalsamplingsfelet (Δ) kan man bestämma Lita på gränser, där, med en viss sannolikhet för en felfri prognos, det faktiska värdet av den statistiska kvantiteten ingår , Karakterisera hela befolkningen (genomsnitt eller relativ).

För att fastställa konfidensgränser används följande formler:

1) för medelvärden:

Där Mgen är konfidensgränserna för medelvärdet i befolkningen;

Msample - medelvärde , Erhållen under en studie på en provpopulation; t är en konfidenskoefficient, vars värde bestäms av graden av sannolikhet för en felfri prognos med vilken forskaren vill erhålla resultatet; mM är representativitetsfelet för medelvärdet.

2) för relativa värden:

Där Pgen är konfidensgränserna för det relativa värdet i befolkningen; Rsb är ett relativt värde som erhålls när man genomför en studie på en urvalspopulation; t—konfidenskoefficient; mP är representativitetsfelet för det relativa värdet.

Konfidensgränser visar de gränser inom vilka urvalsstorleken kan fluktuera beroende på slumpmässiga skäl.

Med ett litet antal observationer (n<30), для вычисления довери­тельных границ значение коэффициента t находят по специальной таблице Стьюдента. Значения t расположены в таблице на пересечении с избранной вероятностью безошибочного прогноза и строки, Anger tillgängligt antal frihetsgrader (n) , Vilket är lika med n-1.

Statistisk population- en uppsättning enheter som har massa, typiskhet, kvalitativ homogenitet och närvaro av variation.

Den statistiska populationen består av materiellt existerande objekt (Anställda, företag, länder, regioner), är ett objekt.

Enhet av befolkningen— Varje specifik enhet i en statistisk population.

Samma statistiska population kan vara homogen i en egenskap och heterogen i en annan.

Kvalitativ enhetlighet- likhet mellan alla enheter i befolkningen på någon grund och olikhet på alla andra.

I en statistisk population är skillnaderna mellan en befolkningsenhet och en annan ofta av kvantitativ karaktär. Kvantitativa förändringar i värdena för en egenskap hos olika enheter i en population kallas variation.

Variation av en egenskap- en kvantitativ förändring av en egenskap (för en kvantitativ egenskap) under övergången från en enhet av befolkningen till en annan.

Skylt- detta är en egenskap, karakteristisk egenskap eller annan egenskap hos enheter, föremål och fenomen som kan observeras eller mätas. Tecken delas in i kvantitativa och kvalitativa. Mångfalden och variationen av värdet av en egenskap i enskilda enheter av en population kallas variation.

Attributiva (kvalitativa) egenskaper kan inte uttryckas numeriskt (befolkningssammansättning efter kön). Kvantitativa egenskaper har ett numeriskt uttryck (populationssammansättning efter ålder).

Index- detta är ett generaliserande kvantitativt och kvalitativt kännetecken för alla egenskaper hos enheter eller befolkningen som helhet under specifika förhållanden i tid och plats.

Score-kortär en uppsättning indikatorer som heltäckande återspeglar det fenomen som studeras.

Till exempel studeras lön:
  • Tecken - löner
  • Statistisk population - alla anställda
  • Enheten av befolkningen är varje anställd
  • Kvalitativ homogenitet - upplupna löner
  • Variation av ett tecken - en serie siffror

Population och prov från den

Grunden är en uppsättning data som erhålls som ett resultat av att mäta en eller flera egenskaper. En verkligt observerad uppsättning objekt, statistiskt representerad av ett antal observationer av en slumpvariabel, är provtagning, och det hypotetiskt existerande (konjekturiska) - allmänna befolkningen. Populationen kan vara ändlig (antal observationer N = konst) eller oändlig ( N = ∞), och ett urval från en population är alltid resultatet av ett begränsat antal observationer. Antalet observationer som bildar ett urval kallas provstorlek. Om provstorleken är tillräckligt stor ( n → ∞) provet beaktas stor, annars kallas det provtagning begränsad volym. Provet beaktas små, om urvalsstorleken inte överstiger 30 vid mätning av en endimensionell slumpvariabel ( n<= 30 ), och när man mäter flera samtidigt ( k) funktioner i flerdimensionellt relationsrum n Till köverstiger inte 10 (n/k< 10) . Provformulären variationsserie, om dess medlemmar är det ordinarie statistik, dvs. urvalsvärden för den slumpmässiga variabeln Xär ordnade i stigande ordning (rankad), kallas egenskapernas värden alternativ.

Exempel. Nästan samma slumpmässigt utvalda uppsättning objekt - affärsbanker i ett administrativt distrikt i Moskva, kan betraktas som ett urval från den allmänna befolkningen av alla affärsbanker i detta distrikt, och som ett urval från den allmänna befolkningen i alla affärsbanker i Moskva , samt som ett urval från landets affärsbanker och etc.

Grundläggande metoder för att organisera provtagning

Tillförlitligheten av statistiska slutsatser och meningsfull tolkning av resultaten beror på representativitet prover, dvs. fullständighet och adekvat representation av egenskaperna hos den allmänna befolkningen, i förhållande till vilka detta urval kan anses representativt. Studiet av en populations statistiska egenskaper kan organiseras på två sätt: med hjälp av kontinuerlig Och inte kontinuerligt. Kontinuerlig observation föreskriver granskning av alla enheter studerat helhet, A partiell (selektiv) observation- bara delar av den.

Det finns fem huvudsakliga sätt att organisera provobservation:

1. enkelt slumpmässigt urval, där objekt väljs slumpmässigt från en population av objekt (till exempel med hjälp av en tabell eller slumptalsgenerator), där vart och ett av de möjliga urvalen har samma sannolikhet. Sådana prover kallas faktiskt slumpmässigt;

2. enkelt urval med ett vanligt förfarande utförs med hjälp av en mekanisk komponent (till exempel datum, veckodag, lägenhetsnummer, bokstäver i alfabetet etc.) och proverna som erhålls på detta sätt kallas mekanisk;

3. stratifierad urvalet består i att volymens allmänna population är uppdelad i delpopulationer eller lager (strata) av volymen så att . Strata är homogena objekt i termer av statistiska egenskaper (till exempel är befolkningen indelad i strata efter åldersgrupper eller social klass, företag efter bransch). I det här fallet kallas proverna stratifierad(annat, stratifierad, typisk, regionaliserad);

4. metoder serie urval används för att bilda serie eller boprover. De är praktiska om det är nödvändigt att övervaka ett "block" eller en serie objekt på en gång (till exempel ett parti varor, produkter av en viss serie eller befolkningen i en territoriell-administrativ avdelning av landet). Urvalet av serier kan göras rent slumpmässigt eller mekaniskt. I det här fallet utförs en fullständig inspektion av ett visst parti varor eller en hel territoriell enhet (en bostadsbyggnad eller ett block);

5. kombinerad(stegvis) urval kan kombinera flera urvalsmetoder på en gång (till exempel stratifierad och slumpmässig eller slumpmässig och mekanisk); ett sådant prov kallas kombinerad.

Typer av urval

Förbi sinne individuellt, grupp- och kombinerat urval urskiljs. På individuellt val enskilda enheter av den allmänna befolkningen väljs in i urvalspopulationen, med gruppval- kvalitativt homogena grupper (serier) av enheter, och kombinerat urval involverar en kombination av den första och andra typen.

Förbi metod urvalet särskiljs upprepade och icke-repetitiva prov.

Upprepade kallas urval där en enhet som ingår i urvalet inte återgår till den ursprungliga populationen och inte deltar i ytterligare urval; medan antalet enheter i den allmänna befolkningen N minskas under urvalsprocessen. På upprepas urval fångad I urvalet återförs en enhet efter registrering till den allmänna befolkningen och behåller således en lika stor möjlighet, tillsammans med andra enheter, att användas i ett ytterligare urvalsförfarande; medan antalet enheter i den allmänna befolkningen N förblir oförändrad (metoden används sällan inom socioekonomisk forskning). Dock med stor N (N → ∞) formler för repeterbar urval närmar sig de för upprepas urval och de senare används praktiskt taget oftare ( N = konst).

Grundläggande egenskaper hos parametrarna för den allmänna populationen och urvalspopulationen

Studiens statistiska slutsatser baseras på fördelningen av den slumpmässiga variabeln och de observerade värdena (x 1, x 2, ..., x n) kallas realisationer av den slumpmässiga variabeln X(n är provstorlek). Fördelningen av en slumpvariabel i den allmänna populationen är av teoretisk, idealisk karaktär, och dess provanalog är empirisk distribution. Vissa teoretiska fördelningar specificeras analytiskt, d.v.s. deras alternativ bestäm värdet på fördelningsfunktionen vid varje punkt i utrymmet för möjliga värden för den slumpmässiga variabeln. För ett urval är fördelningsfunktionen därför svår och ibland omöjlig att fastställa alternativ uppskattas från empiriska data, och sedan ersätts de i ett analytiskt uttryck som beskriver den teoretiska fördelningen. I det här fallet, antagandet (eller hypotes) om typen av distribution kan vara antingen statistiskt korrekt eller felaktig. Men i alla fall kännetecknar den empiriska fördelningen som rekonstruerats från urvalet endast grovt sett den sanna. De viktigaste fördelningsparametrarna är förväntat värde och varians.

Till sin natur är distributioner kontinuerlig Och diskret. Den mest kända kontinuerliga distributionen är vanligt. Exempel på analoger av parametrarna och för det är: medelvärde och empirisk varians. Bland diskreta inom socioekonomisk forskning är de mest använda alternativ (dikotom) distribution. Den matematiska förväntansparametern för denna fördelning uttrycker det relativa värdet (eller dela med sig) enheter av befolkningen som har den egenskap som studeras (det anges med bokstaven); andelen av befolkningen som inte har denna egenskap anges med bokstaven q (q = 1 - p). Variansen av den alternativa fördelningen har också en empirisk analog.

Beroende på typen av fördelning och metoden för att välja populationsenheter beräknas fördelningsparametrarnas egenskaper på olika sätt. De viktigaste för teoretiska och empiriska fördelningar ges i tabell. 1.

Provfraktion k n Förhållandet mellan antalet enheter i urvalspopulationen och antalet enheter i den allmänna populationen kallas:

kn = n/N.

Provfraktion wär förhållandet mellan enheter som har den egenskap som studeras x till provstorlek n:

w = n n/n.

Exempel. I ett varuparti innehållande 1000 enheter, med 5 % prov provandel k n i absolut värde är 50 enheter. (n = N*0,05); om 2 defekta produkter hittas i detta prov, då provdefektfrekvens w kommer att vara 0,04 (w = 2/50 = 0,04 eller 4%).

Eftersom urvalspopulationen skiljer sig från den allmänna populationen finns det provtagningsfel.

Tabell 1. Huvudparametrar för den allmänna populationen och urvalspopulationerna

Provtagningsfel

I vilket fall som helst (kontinuerligt och selektivt) kan fel av två slag förekomma: registrering och representativitet. Fel registrering kan ha slumpmässig Och systematisk karaktär. Slumpmässig fel består av många olika okontrollerbara orsaker, är oavsiktliga och balanserar vanligtvis varandra (till exempel förändringar i enhetens prestanda på grund av temperaturfluktuationer i rummet).

Systematisk fel är partiska eftersom de bryter mot reglerna för att välja objekt för provet (till exempel avvikelser i mätningar vid ändring av inställningarna för mätanordningen).

Exempel. För att bedöma den sociala situationen för befolkningen i staden är det planerat att undersöka 25 % av familjerna. Om valet av var fjärde lägenhet baseras på dess antal, finns det en fara att välja alla lägenheter av endast en typ (till exempel enrumslägenheter), vilket kommer att ge ett systematiskt fel och förvränga resultaten; Att välja lägenhetsnummer genom lott är mer att föredra, eftersom felet kommer att vara slumpmässigt.

Representativitetsfelär inneboende endast i provobservation, de kan inte undvikas och de uppstår som ett resultat av att urvalspopulationen inte helt reproducerar den allmänna populationen. Värdena för indikatorerna som erhålls från urvalet skiljer sig från indikatorerna för samma värden i den allmänna befolkningen (eller erhållna genom kontinuerlig observation).

Provtagningsbiasär skillnaden mellan parametervärdet i populationen och dess urvalsvärde. För medelvärdet av en kvantitativ egenskap är det lika med: , och för andelen (alternativ egenskap) - .

Urvalsfel är enbart inneboende i provobservationer. Ju större dessa fel är, desto mer skiljer sig den empiriska fördelningen från den teoretiska. Parametrarna för den empiriska fördelningen är slumpmässiga variabler, därför är urvalsfel också slumpvariabler, de kan ta olika värden för olika urval och därför är det vanligt att beräkna medelfel.

Genomsnittligt urvalsfelär en kvantitet som uttrycker standardavvikelsen för provmedelvärdet från den matematiska förväntan. Detta värde, med förbehåll för principen om slumpmässigt urval, beror i första hand på urvalsstorleken och graden av variation av egenskapen: ju större och ju mindre variationen av egenskapen (och därmed värdet är), desto mindre är det genomsnittliga urvalsfelet. . Förhållandet mellan varianserna för den allmänna populationen och urvalspopulationen uttrycks med formeln:

de där. när det är tillräckligt stort kan vi anta att . Det genomsnittliga urvalsfelet visar möjliga avvikelser mellan urvalspopulationsparametern från den allmänna populationsparametern. I tabell 2 visar uttryck för beräkning av det genomsnittliga urvalsfelet för olika metoder för att organisera observation.

Tabell 2. Genomsnittligt fel (m) av provmedelvärde och andel för olika typer av prov

Var är medelvärdet av varianserna inom gruppprovet för ett kontinuerligt attribut;

Genomsnitt av andelens varianser inom gruppen;

— Antal utvalda serier. — Totalt antal serier.

,

var är medelvärdet av den e serien;

— Det totala genomsnittet för hela urvalspopulationen för en kontinuerlig egenskap.

,

var är andelen av egenskapen i den e serien;

— Den totala andelen av egenskapen för hela urvalspopulationen.

Storleken på medelfelet kan dock endast bedömas med en viss sannolikhet P (P ≤ 1). Lyapunov A.M. bevisat att fördelningen av urvalsmedelvärden, och därför deras avvikelser från det allmänna medelvärdet, för ett tillräckligt stort antal ungefär följer normalfördelningslagen, förutsatt att den allmänna befolkningen har ett ändligt medelvärde och begränsad varians.

Matematiskt uttrycks detta påstående för genomsnittet som:

och för andelen kommer uttryck (1) att ha formen:

Var - Det finns marginellt urvalsfel, vilket är en multipel av det genomsnittliga urvalsfelet , och multiplicitetskoefficienten är studentens test ("konfidenskoefficient"), föreslagit av W.S. Gosset (pseudonym "Student"); värden för olika provstorlekar lagras i en speciell tabell.

Värdena för funktionen Ф(t) för vissa värden på t är lika med:

Därför kan uttryck (3) läsas på följande sätt: med sannolikhet P = 0,683 (68,3 %) Det kan hävdas att skillnaden mellan stickprovet och det allmänna medelvärdet inte kommer att överstiga ett värde av medelfelet m(t=1), med sannolikhet P = 0,954 (95,4 %)- att det inte kommer att överstiga värdet av två medelfel m (t = 2), med sannolikhet P = 0,997 (99,7 %)- kommer inte att överstiga tre värden m (t = 3). Sannolikheten att denna skillnad överstiger tre gånger medelfelet bestäms alltså av felnivå och uppgår inte till mer 0,3% .

I tabell 3 visar formler för beräkning av det maximala provtagningsfelet.

Tabell 3. Provets marginalfel (D) för medelvärde och proportion (p) för olika typer av provobservationer

Generalisering av provresultat till populationen

Det slutliga målet med provobservation är att karakterisera den allmänna populationen. Med små urvalsstorlekar kan empiriska uppskattningar av parametrar ( och ) avvika avsevärt från deras verkliga värden ( och ). Därför finns det ett behov av att fastställa gränser inom vilka de sanna värdena ( och ) ligger för urvalsvärdena för parametrarna ( och ).

Konfidensintervall av någon parameter θ för den allmänna populationen är det slumpmässiga värdeintervallet för denna parameter, som med en sannolikhet nära 1 ( pålitlighet) innehåller det sanna värdet för denna parameter.

Marginalt fel prover Δ låter dig bestämma gränsvärdena för egenskaperna hos den allmänna befolkningen och deras konfidensintervall, som är lika:

Slutsats konfidensintervall erhålls genom subtraktion maximalt fel från urvalets medelvärde (andel), och den övre genom att lägga till den.

Konfidensintervall för genomsnittet använder den det maximala urvalsfelet och för en given konfidensnivå bestäms av formeln:

Det betyder att med en given sannolikhet R, som kallas konfidensnivån och bestäms unikt av värdet t, kan det hävdas att det sanna värdet av genomsnittet ligger i intervallet från , och aktiens verkliga värde ligger i intervallet från

Vid beräkning av konfidensintervall för tre standardkonfidensnivåer P = 95 %, P = 99 % och P = 99,9 % värdet väljs av . Ansökningar beroende på antalet frihetsgrader. Om urvalsstorleken är tillräckligt stor, då värdena som motsvarar dessa sannolikheter tär jämlika: 1,96, 2,58 Och 3,29 . Således tillåter det marginella urvalsfelet oss att bestämma gränsvärdena för befolkningens egenskaper och deras konfidensintervall:

Fördelningen av resultaten av provobservation till den allmänna befolkningen inom socioekonomisk forskning har sina egna egenskaper, eftersom den kräver fullständig representation av alla dess typer och grupper. Grunden för möjligheten till sådan fördelning är beräkningen relativt fel:

Var Δ % - relativ maximalt samplingsfel; , .

Det finns två huvudmetoder för att utöka en provobservation till en population: direkt omräkning och koefficientmetod.

Väsen direkt konvertering består av att multiplicera urvalets medelvärde!!\overline(x) med populationens storlek.

Exempel. Låt det genomsnittliga antalet småbarn i staden uppskattas med provtagningsmetoden och uppgå till en person. Om det finns 1000 unga familjer i staden, så erhålls antalet erforderliga platser i kommunala daghem genom att multiplicera detta genomsnitt med storleken på den allmänna befolkningen N = 1000, d.v.s. kommer att ha 1200 platser.

Odds metod Det är tillrådligt att använda i fallet när selektiv observation utförs för att förtydliga data för kontinuerlig observation.

Följande formel används:

där alla variabler är populationens storlek:

Obligatorisk provstorlek

Tabell 4. Erforderlig urvalsstorlek (n) för olika typer av provobservationsorganisationer

När man planerar en provobservation med ett förutbestämt värde på det tillåtna urvalsfelet är det nödvändigt att korrekt uppskatta det nödvändiga provstorlek. Denna volym kan bestämmas på basis av det tillåtna felet under provobservation baserat på en given sannolikhet som garanterar det tillåtna värdet av felnivån (med hänsyn till metoden för att organisera observationen). Formler för att bestämma den erforderliga provstorleken n kan enkelt erhållas direkt från formlerna för det maximala urvalsfelet. Så, från uttrycket för det marginella felet:

provstorleken bestäms direkt n:

Denna formel visar att när det maximala urvalsfelet minskar Δ den nödvändiga urvalsstorleken ökar markant, vilket är proportionellt mot variansen och kvadraten på studentens t-test.

För en specifik metod för att organisera observation beräknas den erforderliga urvalsstorleken enligt formlerna i tabellen. 9.4.

Praktiska räkneexempel

Exempel 1. Beräkning av medelvärde och konfidensintervall för en kontinuerlig kvantitativ egenskap.

För att bedöma avvecklingshastigheten med fordringsägarna gjordes ett slumpmässigt urval av 10 betalningshandlingar på banken. Deras värden visade sig vara lika (i dagar): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Nödvändigt med sannolikhet P = 0,954 bestämma det marginella felet Δ provmedelvärde och konfidensgränser för genomsnittlig beräkningstid.

Lösning. Medelvärdet beräknas med hjälp av formeln från tabellen. 9,1 för urvalspopulationen

Variansen beräknas med hjälp av formeln från tabellen. 9.1.

Dagens medelkvadratfel.

Medelfelet beräknas med formeln:

de där. genomsnittet är x ± m = 12,0 ± 2,3 dagar.

Tillförlitligheten av medelvärdet var

Vi beräknar det maximala felet med hjälp av formeln från tabellen. 9,3 för upprepad provtagning, eftersom populationsstorleken är okänd, och för P = 0,954 nivå av förtroende.

Således är medelvärdet `x ± D = `x ± 2m = 12,0 ± 4,6, dvs. dess verkliga värde ligger i intervallet från 7,4 till 16,6 dagar.

Använda en elevs t-tabell. Applikationen låter oss dra slutsatsen att för n = 10 - 1 = 9 frihetsgrader är det erhållna värdet tillförlitligt med en signifikansnivå på £ 0,001, dvs. det resulterande medelvärdet skiljer sig signifikant från 0.

Exempel 2. Uppskattning av sannolikhet (generell andel) sid.

Under en mekanisk provtagningsmetod för att kartlägga den sociala statusen för 1 000 familjer, avslöjades att andelen låginkomstfamiljer var w = 0,3 (30 %)(provet var 2% , dvs. n/N = 0,02). Krävs med konfidensnivå p = 0,997 bestämma indikatorn R låginkomstfamiljer i hela regionen.

Lösning. Baserat på de presenterade funktionsvärdena Ф(t) hitta för en given konfidensnivå P = 0,997 menande t = 3(se formel 3). Marginalfel av bråkdel w bestämma med formeln från tabellen. 9.3 för icke-repetitiv provtagning (mekanisk provtagning är alltid icke-repetitiv):

Maximalt relativ samplingsfel i % kommer vara:

Sannolikheten (generell andel) för låginkomstfamiljer i regionen blir р=w±Δw, och konfidensgränser p beräknas baserat på den dubbla olikheten:

w — Δ w ≤ p ≤ w — Δ w, dvs. det sanna värdet av p ligger inom:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Sålunda kan man med en sannolikhet på 0,997 konstatera att andelen låginkomstfamiljer bland alla familjer i regionen varierar från 28,6 % till 31,4 %.

Exempel 3. Beräkning av medelvärde och konfidensintervall för en diskret egenskap specificerad av en intervallserie.

I tabell 5. Fördelningen av ansökningar för produktion av beställningar enligt tidpunkten för deras genomförande av företaget specificeras.

Tabell 5. Fördelning av observationer efter uppträdande

Lösning. Den genomsnittliga tiden för att slutföra beställningar beräknas med formeln:

Den genomsnittliga perioden kommer att vara:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 månader.

Vi får samma svar om vi använder data på p i från tabellens näst sista kolumn. 9.5, med formeln:

Observera att mitten av intervallet för den sista graderingen hittas genom att artificiellt komplettera det med bredden på intervallet för den föregående graderingen lika med 60 - 36 = 24 månader.

Variansen beräknas med hjälp av formeln

Var x i- mitten av intervallserien.

Därför!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), och medelkvadratfelet är .

Medelfelet beräknas med hjälp av månadsformeln, d.v.s. medelvärdet är!!\overline(x) ± m = 23,1 ± 13,4.

Vi beräknar det maximala felet med hjälp av formeln från tabellen. 9,3 för upprepat urval, eftersom populationsstorleken är okänd, för en 0,954 konfidensnivå:

Så genomsnittet är:

de där. dess verkliga värde ligger i intervallet från 0 till 50 månader.

Exempel 4. För att bestämma hastigheten för uppgörelser med fordringsägare i N = 500 företagsföretag i en affärsbank är det nödvändigt att genomföra en provstudie med en slumpmässig icke-repetitiv urvalsmetod. Bestäm den erforderliga urvalsstorleken n så att med sannolikheten P = 0,954 felet för urvalsmedelvärdet inte överstiger 3 dagar om provuppskattningar visade att standardavvikelsen s var 10 dagar.

Lösning. För att bestämma antalet nödvändiga studier n kommer vi att använda formeln för icke-repetitivt urval från tabellen. 9.4:

I den bestäms t-värdet från en konfidensnivå på P = 0,954. Det är lika med 2. Medelkvadratvärdet är s = 10, populationsstorleken är N = 500, och det maximala felet för medelvärdet är Δ x = 3. Genom att ersätta dessa värden i formeln får vi:

de där. Det räcker med att sammanställa ett urval av 41 företag för att uppskatta den nödvändiga parametern - hastigheten på uppgörelser med borgenärer.