¿Cómo calcular correctamente el tamaño de la muestra? Tema del seminario: muestreo en la investigación sociológica Conceptos clave Muestras dependientes e independientes

El muestreo en 1C 8.2 y 8.3 es un método especializado para buscar registros en tablas de bases de datos. Echemos un vistazo más de cerca a qué es el muestreo y cómo utilizarlo.

¿Qué es el muestreo en 1C?

Muestra- un método de clasificación de información en 1C, que consiste en colocar secuencialmente el cursor en el siguiente registro. Se puede obtener una selección en 1C del resultado de la consulta y del administrador de objetos, por ejemplo, documentos o directorios.

Un ejemplo de cómo obtener e iterar desde un administrador de objetos:

Selección = Directorios. Bancos. Elegir() ; Adiós selección. Siguiente() Bucle Final del Bucle;

Un ejemplo de cómo obtener una muestra de una solicitud:

Obtenga 267 lecciones en video sobre 1C gratis:

Solicitud = Nueva solicitud ( "Seleccione enlace, código y nombre del directorio.Bancos") ; Recuperar = Consulta. Correr() . Elegir() ; Adiós selección. Siguiente() Bucle //realizar las acciones de interés con el directorio "Bancos" FinCiclo;

Ambos ejemplos enumerados anteriormente reciben los mismos conjuntos de datos para iterar.

Métodos de muestreo 1C 8.3

El muestreo tiene una gran cantidad de métodos, considerémoslos con más detalle:

  • Elegir()- un método mediante el cual se obtiene una muestra directamente. De la muestra, puede obtener otra muestra subordinada si se especifica el tipo de recorrido "por agrupación".
  • Dueño()— método inverso a Select(). Le permite obtener la muestra "principal" de una solicitud.
  • Próximo()— un método que mueve el cursor al siguiente registro. Si existe un registro, devuelve Verdadero; si no hay registros, devuelve Falso.
  • BuscarSiguiente()- un método muy útil con el que puede ordenar solo los campos obligatorios por valor de selección (selección - estructura de campos).
  • SiguienteByFieldValue()— le permite obtener el siguiente registro con un valor diferente de la posición actual. Por ejemplo, debe recorrer todos los registros con un valor único para el campo "Cuenta": Select.NextByFieldValue ("Cuenta").
  • Reiniciar()— le permite restablecer la ubicación actual del cursor y establecerlo en su posición original.
  • Cantidad()— devuelve el número de registros de la selección.
  • Conseguir()— utilizando el método puede colocar el cursor en el registro deseado por valor de índice.
  • Nivel() - nivel en la jerarquía del registro actual (número).
  • Tipo de registro()— muestra el tipo de registro: RegistroDetallado, TotalByGrouping, TotalByHierarchy o GeneralTotal
  • Grupo()— devuelve el nombre de la agrupación actual; si el registro no es una agrupación, devuelve una cadena vacía.

Si estás empezando a aprender programación 1C, te recomendamos nuestro curso gratuito (no olvides

Metas de aprendizaje

  1. Distinguir claramente entre los conceptos de censo (calificación) y muestreo.
  2. Conocer la esencia y secuencia de las seis etapas que implementan los investigadores para obtener una muestra de población.
  3. Definir el concepto de "marco muestral".
  4. Explique la diferencia entre muestreo probabilístico y determinista.
  5. Distinga entre muestreo de tamaño fijo y muestreo de múltiples etapas (secuencial).
  6. Explique qué es el muestreo intencional y describa sus fortalezas y debilidades.
  7. Definir el concepto de muestreo por cuotas.
  8. Explique qué es un parámetro en un procedimiento de muestreo.
  9. Explica qué es un conjunto derivado.
  10. Explique por qué el concepto de distribución muestral es el concepto más importante Estadísticas.

Así, el investigador ha definido con precisión el problema y ha conseguido un diseño de investigación y herramientas de recopilación de datos adecuadas para resolverlo. La siguiente etapa del proceso de investigación debe ser la selección de aquellos elementos que serán examinados. Es posible encuestar cada elemento de una población determinada realizando un censo completo de esa población. Una encuesta completa de la población se llama censo. Hay otra posibilidad. Una determinada parte de la población, una muestra de elementos de un grupo grande, es sometida a una encuesta estadística y, a partir de los datos obtenidos de este subconjunto, se extraen determinadas conclusiones sobre todo el grupo. La generalización de los resultados obtenidos de los datos de una muestra a un grupo más grande depende del método mediante el cual se recopiló la muestra. Gran parte de este capítulo se dedicará a cómo se debe seleccionar la muestra y por qué debe ser así.

Censo (calificación)
Censo completo de la población.
Muestra
Una colección de elementos de un subconjunto de un grupo más grande de objetos.

El concepto de "población" o "colección" puede referirse no sólo a personas, sino también a empresas que operan en la industria manufacturera, a organizaciones minoristas o mayoristas, o incluso a objetos completamente inanimados, como piezas producidas en una empresa; este concepto se define como el conjunto completo de elementos que satisfacen ciertas condiciones especificadas. Estas condiciones definen claramente tanto los elementos que pertenecen al grupo objetivo como los elementos que deben excluirse de la consideración.

La investigación para determinar el perfil demográfico de los consumidores de pizza congelada debe comenzar identificando quién debe y quién no debe ser clasificado como tal. ¿Pertenecen a esta categoría las personas que han probado esta pizza al menos una vez? ¿Personas que compran al menos una pizza al mes? ¿En la semana? ¿Personas que comen más de una determinada cantidad mínima de pizza en un mes? El investigador debe ser muy preciso al identificar el grupo objetivo. También es necesario garantizar que la muestra se extraiga de la población objetivo y no de “alguna” población, como ocurre cuando el marco muestral es inapropiado o incompleto. Esta última es una lista de elementos a partir de los cuales se formará la muestra real.

Un investigador puede preferir un método de muestreo a una encuesta de toda la población por varias razones. En primer lugar, examen completo La agregación incluso de un tamaño relativamente pequeño requiere costos de material y tiempo muy grandes. A menudo, cuando se completa el censo y se procesan los datos, la información ya está desactualizada. En algunos casos, la calificación es simplemente imposible. Digamos que los investigadores se propusieron comprobar si la vida útil real de las lámparas incandescentes eléctricas corresponde a la calculada, para lo cual es necesario mantenerlas encendidas hasta que fallen. Si examinamos de esta manera todo el stock de lámparas, obtendremos datos fiables, pero no quedará nada para comercializar.

Finalmente, para sorpresa de los principiantes, un investigador puede preferir el método de muestreo al método de calificación para garantizar la precisión de los resultados. La realización de censos requiere la participación de una gran cantidad de personal, lo que aumenta la probabilidad de errores sistemáticos (ajenos al muestreo). Este hecho es una de las razones por las que la Oficina del Censo de EE. UU. utiliza encuestas por muestreo para comprobar la exactitud de varios tipos de censos. Escuchó bien: se pueden realizar encuestas de muestra para verificar la exactitud de los datos de calificación.

Pasos de diseño de muestra

En la Fig. La figura 15.1 muestra una secuencia de seis pasos que podría seguir un investigador de muestra. En primer lugar, es necesario determinar la población objetivo o conjunto de elementos sobre los que el investigador quiere saber algo.

Por ejemplo, al estudiar las preferencias de los niños, los investigadores deben decidir si la población estudiada estará compuesta por hijos únicos, padres únicos o ambos.

Agregado (población)
Conjunto de elementos que satisfacen ciertas condiciones específicas.
Marco de muestreo
Lista de elementos a partir de los cuales se realizará la muestra; Puede estar formado por unidades territoriales, organizaciones, individuos y otros elementos.

Cierta empresa probó sus “carreras” eléctricas únicamente con niños. Encantaron a los niños. Los padres reaccionaron de manera diferente al nuevo producto. A las mamás no les gustó el hecho de que la atracción no enseñara a los niños a cuidar los autos, y a los papás no les gustó el hecho de que el producto estuviera hecho como un juguete.
También es posible la situación contraria. Una empresa empezó a producir un nuevo producto alimenticio y lanzó una campaña publicitaria a nivel nacional en la que el papel principal era asignado a un niño precoz. La empresa probó la eficacia de los anuncios sólo en madres que estaban encantadas. Los niños encontraron repugnante este “acelerador”, y con él el producto anunciado. El producto está terminado 1.

El investigador debe decidir quién o de qué estará compuesta la población relevante: individuos, familias, empresas, otras organizaciones, transacciones con tarjetas de crédito, etc. Al tomar tales decisiones, es necesario determinar los elementos que deben excluirse de las poblaciones. Se deberá realizar una referencia tanto temporal como geográfica de elementos, que en algunos casos puede estar sujeta a condiciones o restricciones adicionales. Por ejemplo, si hablamos de individuos, la población de interés puede estar formada únicamente por personas mayores de 18 años, o sólo por mujeres, o sólo por personas con al menos un nivel educativo secundario.

La tarea de determinar los límites geográficos de la población objetivo en la investigación de mercados internacionales puede ser problema especial, ya que esto aumenta la heterogeneidad del sistema considerado. Por ejemplo, la proporción relativa de áreas urbanas y rurales puede variar significativamente de un país a otro. El aspecto territorial tiene un grave impacto en la composición de la población dentro de un país. Por ejemplo, en el norte de Chile vive de forma compacta una población predominantemente india, mientras que en las regiones del sur del país viven principalmente descendientes de europeos.

Cobertura (incidencia)
Expresada como porcentaje, la proporción de elementos de una población o grupo que cumplen las condiciones para su inclusión en la muestra.

En términos generales, cuanto más sencilla sea la definición de la población objetivo, mayor será su cobertura (incidencia) y más fácil y económico será el procedimiento de muestreo. Cobertura (incidencia) Corresponde al porcentaje de elementos de una población o grupo que cumplen las condiciones para su inclusión en la muestra. La cobertura afecta directamente el tiempo y los costos de materiales necesario para el examen. Si la cobertura es grande (es decir, una gran proporción de elementos de la población satisface uno o más criterios simples utilizados para identificar a los posibles encuestados), se minimizan los costos de tiempo y material necesarios para la recopilación de datos. Por el contrario, a medida que aumenta el número de criterios que los posibles encuestados deben satisfacer, aumentan tanto los costos de material como de tiempo.

En la Fig. La Figura 15.2 muestra la proporción de la población adulta que practica ciertos deportes. Los datos del gráfico indican que examinar a las personas que practican motociclismo (sólo el 3,6% del número total de adultos) es mucho más difícil y costoso que examinar a las personas que realizan paseos recreativos regulares (27,4% del número total de adultos). Lo principal es que el investigador sea preciso al determinar qué elementos deben incluirse en la población en estudio y qué elementos deben excluirse de ella. Una declaración clara del objetivo de la investigación facilita enormemente la solución de este problema. El segundo paso en el proceso de selección de la muestra es determinar el marco muestral, que, como ya sabes, es la lista de elementos de los que se extraerá la muestra. Supongamos que la población objetivo de un estudio sean todas las familias que viven en el área de Dallas. A primera vista, un marco muestral bueno y fácilmente accesible sería el directorio telefónico de Dallas. Sin embargo, tras un examen más detenido, resulta evidente que la lista de familias contenida en el directorio no es del todo correcta, porque en él se omiten los números de algunas familias (por supuesto, no incluye familias que no tienen teléfono), mientras que algunas familias tienen varios números de teléfono. Las personas que han cambiado recientemente de lugar de residencia y, en consecuencia, de número de teléfono tampoco están incluidas en el directorio.

Los investigadores experimentados encuentran que rara vez existe una coincidencia exacta entre el marco muestral y la población objetivo de interés. Uno de los más etapas creativas La tarea del diseño muestral es determinar un marco muestral apropiado cuando resulta difícil enumerar los elementos de la población. Esto puede requerir muestreo de bloques de trabajo y prefijos cuando, por ejemplo, se utiliza marcación aleatoria debido a deficiencias en los directorios telefónicos. Sin embargo, el importante aumento de unidades de trabajo en los últimos 10 años ha dificultado esta tarea. Situaciones similares pueden surgir durante la observación selectiva de zonas territoriales u organizaciones con la posterior toma de submuestras, cuando, por ejemplo, la población objetivo son individuos, pero no existe una lista actual exacta de ellos.

Fuente: Basado en datos contenidos en SSI LITE MT: l ow incidencia t apuntado S amplificación" (Fairfield, Connecticut: Survey Sampling, Inc., 1994).

La tercera etapa del procedimiento de muestreo está estrechamente relacionada con la determinación del marco muestral. La elección del método o procedimiento de muestreo depende en gran medida del marco muestral adoptado por el investigador. Los diferentes tipos de muestras requieren varios tipos marcos de muestreo. Este capítulo y el siguiente proporcionarán una descripción general de los principales tipos de muestras utilizadas en la investigación de mercados. Al describirlos, la conexión entre el marco muestral y el método de su formación debería resultar obvia.

El cuarto paso en el procedimiento de muestreo es determinar el tamaño de la muestra. Este problema se analiza en el cap. 17. En la quinta etapa, el investigador debe seleccionar realmente los elementos que serán examinados. El método utilizado para este fin está determinado por el tipo de muestra seleccionada; Cuando hablemos de métodos de muestreo, también hablaremos de la selección de sus elementos. Finalmente, el investigador necesita encuestar a los encuestados seleccionados. En esta etapa, existe una alta probabilidad de cometer una serie de errores.
Estos problemas y algunos métodos para resolverlos se analizan en el capítulo. 18.

Tipos de planes de muestreo (muestreo)

Todos los métodos de control de muestreo se pueden dividir en dos categorías: observación de muestras probabilísticas y observación de muestras deterministas. Cada miembro de la población puede incluirse en una muestra probabilística con una cierta probabilidad especificada distinta de cero. La probabilidad de incluir a ciertos miembros de la población en la muestra puede variar, pero se conoce la probabilidad de incluir cada elemento en la misma. Esta probabilidad está determinada por el procedimiento mecánico específico utilizado para seleccionar los elementos de la muestra.

Para muestras deterministas, evaluar la probabilidad de incluir cualquier elemento en la muestra se vuelve imposible. No se puede garantizar la representatividad de dicha muestra. Por ejemplo, Corporación Allstate desarrolló un sistema para procesar datos de reclamaciones de seguros para 14 millones de hogares (sus clientes). La empresa planea utilizar estos datos para determinar patrones en la demanda de sus servicios; por ejemplo, la probabilidad de que un hogar que posee un Mercedes Benz también sea propietario de una casa de vacaciones (que requerirá un seguro). Aunque la base de datos es muy grande, la empresa no tiene medios para evaluar la probabilidad de que un cliente en particular presente un reclamo. Por lo tanto, la empresa no puede estar segura de que los datos sobre los clientes que presentan reclamaciones sean representativos de todos los clientes de la empresa; y, en menor medida, en relación con los clientes potenciales.

Todas las muestras deterministas se basan en la posición, el juicio o la preferencia individual del investigador y no en un procedimiento mecánico para seleccionar elementos de la muestra. En ocasiones, estas preferencias pueden proporcionar buenas estimaciones de las características de la población, pero no hay forma de determinar objetivamente si una muestra es apropiada para la tarea en cuestión. Sólo se puede evaluar la exactitud de los resultados del muestreo si se conocen las probabilidades de seleccionar ciertos elementos. Por esta razón, el muestreo probabilístico generalmente se considera un método superior para estimar la magnitud del error de muestreo. Las muestras también se pueden dividir en muestras de tamaño fijo y muestras secuenciales. Cuando se trabaja con muestras de tamaño fijo, el tamaño de la muestra se determina antes de que comience la encuesta y el análisis de los resultados va precedido de la recopilación de todos los datos necesarios. Nos interesarán principalmente muestras de tamaño fijo, ya que este es el tipo que se suele utilizar en la investigación de mercados.

Muestreo de probabilidad
Muestra en la que cada elemento de la población puede incluirse con alguna probabilidad conocida distinta de cero.
Muestreo determinista
Muestreo basado en determinadas preferencias o juicios privados que determinan la selección de determinados elementos; en este caso, evaluar la probabilidad de incluir un elemento de población arbitrario en la muestra se vuelve imposible.

Sin embargo, no debe olvidarse que también existen muestras secuenciales que pueden usarse con cada uno de los diseños de muestreo básicos que se analizan a continuación.

En el muestreo secuencial, el número de elementos seleccionados se desconoce de antemano; se determina en base a una serie de decisiones secuenciales. Si una encuesta de una muestra pequeña no conduce a un resultado fiable, se amplía la gama de elementos encuestados. Si el resultado aún no es concluyente, se vuelve a aumentar el tamaño de la muestra. En cada etapa se toma una decisión sobre si el resultado obtenido se considera suficientemente convincente o si se debe continuar recopilando datos. Trabajar con muestreo secuencial permite evaluar la tendencia de los datos a medida que se recopilan, lo que permite reducir los costos asociados con observaciones adicionales en los casos en que su viabilidad fracasa.

Tanto los diseños de muestreo probabilísticos como los deterministas son de varios tipos. Por ejemplo, las muestras deterministas pueden ser no representativas (convenientes), intencionales o por cuotas; las muestras probabilísticas se dividen en aleatorias simples, estratificadas o grupales (cluster), que, a su vez, se pueden dividir en subtipos. En la Fig. La figura 15.3 muestra los tipos de muestras que se analizarán en este capítulo y en el siguiente.

Muestreo de volumen fijo (muestreo fijo)
Una muestra cuyo tamaño está determinado a priori; la información necesaria se determina a partir de los elementos seleccionados.
Muestreo secuencial
Muestra formada a partir de una serie de decisiones secuenciales. Si, después de considerar una muestra pequeña, el resultado no parece concluyente, se considera una muestra más grande; si este paso no conduce a ningún resultado, se vuelve a aumentar el tamaño de la muestra, etc. Así, en cada etapa se decide si el resultado obtenido puede considerarse suficientemente convincente.

Cabe recordar que los principales tipos de muestras se pueden combinar para formar más planes complejos observación selectiva. Si comprende sus tipos iniciales básicos, le resultará más fácil comprender combinaciones más complejas.

Muestras deterministas

Como ya se mencionó, a la hora de seleccionar elementos de una muestra determinista, las valoraciones o decisiones privadas juegan un papel decisivo. A veces estas estimaciones provienen del investigador, pero en otros casos la selección de elementos de la población se deja a los trabajadores de campo. Dado que los elementos no se seleccionan mecánicamente, resulta imposible determinar la probabilidad de inclusión de un elemento arbitrario en la muestra y, en consecuencia, el error de muestreo. El desconocimiento del error debido al procedimiento de muestreo elegido impide a los investigadores evaluar la exactitud de sus estimaciones.

Muestras no representativas (de conveniencia)

Muestras no representativas (de conveniencia) A veces se denominan aleatorios porque la selección de elementos de la muestra se lleva a cabo de manera “aleatoria”: se seleccionan aquellos elementos que están o parecen estar más disponibles durante el período de muestreo.

Nuestra vida diaria está repleta de ejemplos de tales selecciones. Hablamos con amigos y, a partir de sus reacciones y posiciones, sacamos conclusiones sobre los sesgos políticos imperantes en la sociedad; una estación de radio local llama a la gente a expresar sus puntos de vista sobre un tema controvertido, y las opiniones que expresan se interpretan como prevalecientes; Alentamos a los voluntarios a cooperar y trabajar con quienes se ofrecen como voluntarios para ayudarnos. El problema con las muestras de conveniencia es obvio: no podemos estar seguros de que muestras de este tipo representen realmente a la población objetivo. Es posible que todavía dudemos de que las opiniones de nuestros amigos reflejen con precisión las opiniones políticas que prevalecen en la sociedad, pero a menudo realmente queremos creer que muestras más grandes, seleccionadas de la misma manera, son representativas. Demostremos la falacia de tal suposición con un ejemplo.
Hace varios años, una de las estaciones de televisión locales de la ciudad en la que vive el autor de este libro realizó una encuesta de opinión pública diaria sobre temas de interés para la comunidad local. Las encuestas, denominadas “Pulso de Madison”, se llevaron a cabo de la siguiente manera. Cada tarde, durante el noticiero de las seis, la estación hacía a los espectadores una pregunta sobre un tema controvertido específico, a la que tenían que dar una respuesta positiva o negativa.

En caso de respuesta positiva, debía llamar a uno, en caso de respuesta negativa, debía llamar a otro número de teléfono. El número de votos “a favor” y “en contra” se calculó automáticamente. El informativo de las diez informó sobre los resultados de la encuesta telefónica. Todas las noches, entre 500 y 1000 personas llamaban al estudio para expresar su posición sobre un tema u otro; un comentarista de televisión interpretó los resultados de la encuesta como la opinión pública mayoritaria.

Muestra no representativa (de conveniencia)
A veces se denomina aleatoria porque la selección de elementos de la muestra se lleva a cabo de manera “aleatoria”: se seleccionan aquellos elementos que están o parecen estar más disponibles durante el período de muestreo.

En uno de los episodios de seis horas, a los espectadores se les hizo la siguiente pregunta: "¿Crees que la edad mínima para beber en Madison debería reducirse a 18 años?" La edad legal vigente era la de 21 años. El público respondió a esta pregunta con extraordinaria actividad: esa noche llamaron al estudio casi 4.000 personas, de las cuales el 78% estaban a favor de reducir el límite de edad. Parece obvio que una muestra de 4.000 personas "debe ser representativa" de una comunidad de 180.000. Nada de eso. Como probablemente ya habrás adivinado, un determinado grupo de edad de la población estaba mucho más interesado que otros en el resultado conocido de la votación. En consecuencia, no fue sorprendente que al discutir este tema unas semanas más tarde, resultó que los estudiantes actuaron de manera concertada durante el tiempo asignado para la encuesta. Llamaron a la televisión por turnos, cada uno varias veces. Por lo tanto, ni el tamaño de la muestra ni el porcentaje de partidarios de la liberalización de la ley fueron sorprendentes. La muestra no fue representativa.

Simplemente aumentar el tamaño de la muestra no la hace representativa. La representatividad de la muestra no está asegurada por el tamaño, sino por el procedimiento adecuado para seleccionar los elementos. Cuando los participantes de la encuesta se identifican voluntariamente o los elementos de la muestra se seleccionan en función de su disponibilidad, el plan de muestreo no garantiza la representatividad de la muestra. La evidencia empírica sugiere que las muestras seleccionadas por razones de conveniencia rara vez son representativas (independientemente del tamaño de la muestra). Las encuestas telefónicas, que recogen entre 800 y 900 votos, son la forma más común de muestras grandes pero no representativas.

Muestreo intencionado
Muestreo determinista (intencional), cuyos elementos se seleccionan manualmente; Se seleccionan exactamente aquellos elementos que, a juicio del investigador, cumplen con los objetivos de la encuesta.
Muestreo intencionado, dependiendo de la capacidad del investigador para identificar un conjunto inicial de encuestados con las características deseadas; Estos encuestados se utilizan luego como informantes para determinar la selección adicional de individuos.

Lamentablemente, muchas personas toman con confianza los resultados de este tipo de encuestas. Uno de los ejemplos más típicos del uso de muestras no representativas en la investigación de mercados internacionales es una encuesta de ciertos países basada en una muestra compuesta por extranjeros que actualmente viven en el territorio del país que inició la encuesta (por ejemplo, escandinavos que viven en EE.UU). Aunque estas muestras pueden arrojar algo de luz sobre ciertos aspectos de la población en cuestión, hay que recordar que estos individuos suelen representar una élite "americanizada" cuya conexión con su propio país puede ser bastante condicional. No se recomienda utilizar muestras no representativas al realizar encuestas descriptivas o causales. Sólo están permitidos en estudios exploratorios destinados a desarrollar ideas o conceptos específicos, pero incluso en este caso es preferible utilizar muestras deliberadas.

Muestreo intencionado

El muestreo intencionado a veces se denomina desenfocado; sus elementos, que a juicio del investigador cumplen con los objetivos del estudio, se seleccionan manualmente. Procter & Gamble utilizó este método cuando mostró anuncios a jóvenes de 13 a 17 años que vivían cerca de su sede en Cincinnati. La división de alimentos y bebidas de la empresa contrató a este grupo de adolescentes para que actuaran como una especie de muestra de consumidores. Trabajando 10 horas a la semana a cambio de 1.000 dólares y asistiendo a un concierto, vieron anuncios de televisión, visitaron supermercados con gerentes de la empresa para ver exhibiciones de productos, probaron nuevos productos y discutieron sobre comportamientos de compra. Al seleccionar representantes de la muestra a través de un proceso de "reclutamiento" en lugar de al azar, la empresa podría centrarse en atributos que consideraba útiles, como la capacidad de un adolescente para expresarse claramente, a riesgo de que sus puntos de vista no sean representativos de su grupo de edad.

Como ya se dijo, rasgo distintivo Una muestra deliberada es la selección dirigida de sus elementos. En algunos casos, los elementos de la muestra se seleccionan no porque sean representativos, sino porque pueden proporcionar información de interés para los investigadores. Cuando un tribunal se basa en el testimonio de expertos, en cierto sentido está recurriendo al uso de un muestreo deliberado. Una posición similar puede prevalecer cuando se desarrollan proyectos de investigación. Durante el estudio inicial del tema, el investigador está interesado principalmente en determinar las perspectivas del estudio, lo que determina la selección de los elementos de la muestra.

Muestreo de bola de nieve Es un tipo de muestreo intencional que se utiliza cuando se trabaja con tipos especiales de poblaciones. Esta muestra depende de la capacidad del investigador para identificar un conjunto inicial de encuestados con las características deseadas. Estos encuestados se utilizan luego como informantes para determinar la selección adicional de individuos.

Imaginemos, por ejemplo, que una empresa quiere evaluar la necesidad de un determinado producto que permitiría a las personas sordas comunicarse por teléfono. Los investigadores pueden empezar a desarrollar este problema identificando figuras clave en la comunidad sorda; este último podría nombrar a otros miembros de este grupo que aceptarían participar en la encuesta. Con tales tácticas, la muestra crece como una bola de nieve.

Mientras el investigador está en fases iniciales Una vez que se ha explorado el problema y se han identificado las perspectivas y posibles limitaciones de la encuesta planificada, el uso del muestreo intencional puede resultar muy eficaz. Pero en ningún caso debemos olvidarnos de las debilidades de una muestra de este tipo, ya que también puede ser utilizada por el investigador en estudios descriptivos o causales, lo que repercutirá inmediatamente en la calidad de sus resultados. Un ejemplo clásico de tal olvido es el Índice de Precios al Consumidor (“IPC”). Como señala Südman ( Sudman): “El IPC se determina sólo para 56 ciudades y áreas metropolitanas, cuya selección también está influenciada por el factor político. De hecho, estas ciudades sólo pueden representarse a sí mismas, mientras que el índice se llama índice de precios de bienes de consumo para los residentes de la ciudad que reciben salarios por hora salarios *, Y empleados y a la mayoría de la gente le parece un índice que refleja el nivel de precios en cualquier región de los Estados Unidos. La elección de los puntos de venta tampoco se realiza de forma aleatoria, por lo que estimar un posible error de muestreo se vuelve imposible"(énfasis añadido) 2.

* Es decir, trabajadores. - Nota. carril

Muestras de cuota

El tercer tipo de muestreo determinista es muestras de cuota; su representatividad conocida se logra al incluir en él la misma proporción de elementos con determinadas características que en la población objeto de estudio (ver “Ventana de investigación 15.1”). Como ejemplo, podría considerar intentar crear una muestra representativa de estudiantes que viven en el campus. Si en una determinada muestra formada por 500 individuos no hay un solo estudiante de último año, tendremos derecho a dudar de su representatividad y de la legitimidad de aplicar los resultados obtenidos de esta muestra a la población encuestada. Cuando se trabaja con una muestra proporcional, el investigador puede asegurarse de que la proporción de estudiantes de último año en la muestra corresponda a su proporción en el número total de estudiantes.

Supongamos que un investigador está realizando un estudio de muestra de estudiantes universitarios y está interesado en garantizar que la muestra refleje no sólo su género, sino también su distribución entre cursos. Sea el número total de estudiantes 10.000: 3200 son estudiantes de primer año, 2600 son estudiantes de segundo año, 2200 son estudiantes de tercer año y 2000 son estudiantes de cuarto año; de los cuales 7.000 eran niños y 3.000 niñas. Para un tamaño de muestra de 1000, el plan de muestreo proporcional requiere 320 estudiantes de primer año, 260 estudiantes de segundo año, 220 de tercer año y 200 graduados, 700 niños y 300 niñas. El investigador puede implementar este plan asignando a cada entrevistador una cuota específica que determinará con qué estudiantes debe contactar.

Muestreo por cuotas Muestra determinista seleccionada de modo que la proporción de elementos de la muestra que tienen ciertas características corresponda aproximadamente a la proporción de los mismos elementos en la población que se estudia; A cada trabajador de campo se le asigna una cuota que define las características de la población con la que debe entrar en contacto.

A un entrevistador que vaya a realizar 20 entrevistas se le puede pedir que pregunte:

            • seis estudiantes de primer año: cinco niños y una niña;
            • seis estudiantes de segundo año: cuatro niños y dos niñas;
            • cuatro estudiantes de tercer año: tres niños y una niña;
            • cuatro estudiantes de cuarto año: dos niños y dos niñas.

Tenga en cuenta que la selección de elementos de muestra específicos no está determinada por el plan de investigación, sino por la elección del entrevistador, diseñado para cumplir únicamente con las condiciones establecidas por la cuota: entrevistar a cinco estudiantes de primer año, un estudiante de primer año, etc.

Tenga en cuenta también que esta cuota refleja con precisión la distribución por género de la población estudiantil, pero distorsiona en cierta medida la distribución de estudiantes entre cursos; El 70% (14 de 20) de las entrevistas son entre chicos, pero sólo el 30% (6 de 20) son entre estudiantes de primer año, mientras que representan el 32% del total de estudiantes. La cuota asignada a cada entrevistador individual puede no reflejar, y generalmente no lo hace, la distribución de las características de control en la población; sólo la muestra resultante debe tener la proporcionalidad adecuada.

Debe recordarse que las muestras proporcionadas dependen de actitudes o juicios personales y subjetivos más que de un procedimiento objetivo para seleccionar los elementos de la muestra. Además, a diferencia del muestreo deliberado, el juicio personal aquí no pertenece al desarrollador del proyecto, sino al entrevistador. Surge la pregunta de si las muestras proporcionales pueden considerarse representativas, incluso si reproducen la proporción inherente de componentes de la población que tienen ciertas características de control. A este respecto es necesario hacer tres observaciones.

En primer lugar, la muestra puede diferir significativamente de la población en algunas otras características importantes, lo que puede tener un impacto grave en el resultado. Por ejemplo, si el estudio está dedicado al problema del prejuicio racial existente entre los estudiantes, una circunstancia importante puede resultar ser el origen de los encuestados: de la ciudad o del campo. Dado que no se especificó una cuota para la característica “de origen urbano/rural”, resulta poco probable una representación precisa de esta característica. Por supuesto, existe una alternativa: definir cuotas para todas las características potencialmente relevantes. Sin embargo, un aumento en el número de características de control conduce a una especificación más compleja. Esto, a su vez, dificulta –y en ocasiones incluso imposibilita– la selección de los elementos de la muestra y, en cualquier caso, conduce a un aumento de su costo. Si, por ejemplo, pertenece a una ciudad o Población rural y el nivel socioeconómico también serán relevantes para el estudio, es posible que el entrevistador tenga que buscar un estudiante de primer año que sea urbano y de clase media o alta. Estás de acuerdo en que encontrar sólo un estudiante de primer año es mucho más fácil.

En segundo lugar, es muy difícil garantizar que una muestra determinada sea verdaderamente representativa. Por supuesto, es posible comprobar la muestra para garantizar que la distribución de las características que no están incluidas en el control coincida con su distribución en la población. Sin embargo, tal control sólo puede llevar a conclusiones negativas. Lo único que se puede identificar es la divergencia de las distribuciones. Si las distribuciones de la muestra y la población para cada una de estas características se repiten, existe la posibilidad de que la muestra difiera de la población en alguna otra forma, no especificada explícitamente.

Y por último, en tercer lugar. Los entrevistadores, cuando se los deja a su suerte, tienden a tomar ciertas acciones. Recurren con demasiada frecuencia a entrevistar a sus amigos. Dado que a menudo resultan ser similares a los propios entrevistadores, existe peligro de error. La evidencia de Inglaterra sugiere que las muestras de cuotas tienden a:

  1. exageración del papel de los elementos más accesibles;
  2. restar importancia al papel de las familias pequeñas;
  3. exageración del papel de las familias con niños;
  4. restar importancia al papel de los trabajadores involucrados en la producción industrial;
  5. restar importancia al papel de quienes tienen los ingresos más altos y más bajos;
  6. restar importancia al papel de los ciudadanos con poca educación;
  7. Minimizar el papel de las personas que ocupan una posición social baja.
Los entrevistadores que seleccionan cuotas deteniendo a transeúntes al azar probablemente centren su atención en áreas con un gran número de encuestados potenciales, como centros comerciales, estaciones de ferrocarril y aeropuertos, entradas a grandes supermercados y similares. Esta práctica conduce a una representación excesiva de los grupos de personas que visitan esos lugares con mayor frecuencia. Cuando se requieren visitas domiciliarias, los entrevistadores suelen estar motivados por la conveniencia.
Por ejemplo, es posible que realicen encuestas sólo durante el día, lo que lleva a una subestimación de las opiniones de los trabajadores. Entre otras cosas, no entran en edificios en ruinas y, por regla general, no suben a los pisos superiores de edificios que no tienen ascensor.

Dependiendo de las características específicas del problema estudiado, estas tendencias pueden conducir a varios tipos de errores, pero corregirlos en la etapa de análisis de datos parece muy, muy difícil. Por otro lado, con una selección objetiva de los elementos muestrales, los investigadores tienen a su disposición determinadas herramientas que permiten simplificar el procedimiento de evaluación de la representatividad de una determinada muestra. Al analizar el problema de la representatividad de dichas muestras, el investigador considera no tanto la composición de la muestra como el procedimiento para seleccionar sus elementos.

Ventana de investigación: ¡Brillante! ¿Pero quién leerá esto?

Cada año, los anunciantes gastan millones de dólares en anuncios que aparecen en innumerables publicaciones, desde Advertising Age hasta Yankee. Se puede realizar una determinada valoración del texto y la imagen antes de su publicación, como suele decirse, en casa, en una agencia de publicidad; su verdadera verificación y evaluación ocurre sólo después de la publicación del anuncio, rodeado por docenas de anuncios igualmente cuidadosamente preparados que compiten por la atención del lector.

Compañía Roper Starch en todo el mundo se dedica a evaluar la legibilidad de los anuncios colocados en revistas y periódicos de consumo, comerciales, comerciales y profesionales. Los resultados de la investigación se ponen en conocimiento de anunciantes y agencias, por supuesto, a cambio de una tarifa adecuada. Debido a que los anunciantes hacen todo lo posible todos los días para intentar hacer llegar sus anuncios a los consumidores, la empresa Almidón decidió compilar una muestra que proporcionaría a los suscriptores información oportuna y precisa sobre la efectividad de la publicidad. Cada año la empresa Almidón encuestó a más de 50.000 personas y vio unos 20.000 anuncios. Anualmente se estudiaron unas 500 publicaciones individuales.

Starch utilizó un muestreo proporcional, con un tamaño de muestra mínimo de 100 lectores de un género y 100 lectores del otro género. Starch concluyó que con este tamaño de muestra se estabilizaron las principales variaciones en los niveles de legibilidad. Se encuestó personalmente a lectores mayores de 18 años, y esto incluyó todas las publicaciones excepto aquellas destinadas a grupos especiales de la población (por ejemplo, se encuestó a niñas de la misma edad para evaluar las publicaciones de la revista Seventeen).

Al realizar encuestas, se tuvo en cuenta la zona de distribución de una publicación en particular. Digamos que un estudio de una revista de Los Ángeles analizó a los lectores que viven en el sur de California. El tiempo se estudió a nivel nacional. La encuesta se dedicó a números individuales de la revista y se llevó a cabo en 20-30 ciudades simultáneamente.

A cada entrevistador se le asignó una pequeña cuota de entrevistas, lo que sirvió para minimizar el sesgo de la encuesta. Los cuestionarios se distribuyeron entre personas de diferentes profesiones y edades con diferentes ingresos. Cada uno de estos estudios brindó la oportunidad de presentar posiciones a un público bastante amplio de lectores. Al considerar una serie de publicaciones profesionales, comerciales e industriales, también se tuvieron en cuenta las características específicas de su suscripción y distribución. Las listas de suscripción dedicadas a publicaciones con una distribución bastante limitada permitieron seleccionar encuestados aceptables.

En cada encuesta, los entrevistadores pidieron a los encuestados que miraran la publicación y les preguntaron si habían notado algún anuncio. Si la respuesta era afirmativa, el registrador formulaba toda una serie de preguntas para evaluar el grado de percepción del anuncio.

Esta evaluación podría ser triple:

  • Atención: aquellos que ya han prestado atención al hecho mismo de la aparición de tal anuncio.
  • Conocidos: aquellos que recordaron alguna parte del anuncio, que trataba sobre lo anunciado. marca comercial o sobre el anunciante.
  • Leído: personas que leyeron al menos la mitad del anuncio.

Después de examinar todos los anuncios, los entrevistadores registraron información de clasificación básica: género, edad, ocupación, Estado familiar, nacionalidad, ingresos, tamaño y composición de la familia, lo que permitió realizar una tabulación cruzada del nivel de interés del lector.

Cuando se utilizan correctamente, los datos de la empresa Almidón Permitir a los anunciantes y agencias identificar tipos de esquemas publicitarios exitosos y exitosos que atraen y mantienen la atención del lector. Información de este tipo es extremadamente valiosa para los anunciantes que están interesados ​​principalmente en la eficacia de su campaña publicitaria.

Fuente: Roper Starch Worldwide, Mamaronek, NY 10543.

Muestras de probabilidad

Un investigador puede determinar la probabilidad de inclusión de cualquier elemento de una población en una muestra probabilística porque la selección de sus elementos se lleva a cabo sobre la base de algún proceso objetivo y no depende de los caprichos y preferencias del investigador o trabajador de campo. Dado que el procedimiento de selección de elementos es objetivo, el investigador puede evaluar la confiabilidad de los resultados obtenidos, lo que era imposible en el caso de muestras deterministas, por muy cuidadosa que fuera la selección de los elementos de estas últimas.

No se debe pensar que las muestras probabilísticas son siempre más representativas que las deterministas. De hecho, una muestra determinista puede ser más representativa. La ventaja de las muestras probabilísticas es que permiten estimar posibles errores de muestreo. Si un investigador trabaja con una muestra determinista, no dispone de un método objetivo para evaluar su adecuación a los propósitos del estudio.

Muestreo aleatorio simple

La mayoría de las personas se han encontrado con el muestreo aleatorio simple de una forma u otra, ya sea como parte de un curso de estadística en la universidad o leyendo sobre los resultados de estudios relevantes en periódicos o revistas. En el muestreo aleatorio simple, cada elemento incluido en la muestra tiene la misma probabilidad especificada de ser incluido en la muestra, y cualquier combinación de elementos de la población original puede convertirse potencialmente en una muestra. Por ejemplo, si quisiéramos extraer una muestra aleatoria simple de todos los estudiantes matriculados en una universidad en particular, sólo necesitaríamos hacer una lista de todos los estudiantes, asignar un número a cada nombre y usar una computadora para seleccionar al azar un número dado de artículos.

Población

Población
Un conjunto de elementos que satisfacen ciertas condiciones específicas; También se llama población de estudio (objetivo).
Parámetro
Una característica o indicador específico de una población general o de estudio.

La población general o estudiada. es la población a partir de la cual se realiza la selección. Este conjunto (población) puede describirse mediante una serie de parámetros específicos, que son características de la población general, cada uno de los cuales representa un determinado indicador cuantitativo que distingue a una población de otra.

Imaginemos que la población objeto de estudio es toda la población adulta de Cincinnati. Se pueden utilizar varios parámetros para describir esta población: edad promedio, proporción de la población con educación más alta, nivel de ingresos, etc. Tenga en cuenta que todos estos indicadores tienen un valor fijo determinado. Por supuesto, podemos calcularlos realizando un censo completo de la población en estudio. Por lo general, no nos basamos en las calificaciones, sino en la muestra que seleccionamos y utilizamos los valores obtenidos durante la observación de la muestra para determinar los parámetros requeridos de la población.

Ilustremos lo dicho en la Tabla 1. 15.1 es un ejemplo de una población hipotética formada por 20 personas. Trabajar con una población hipotética pequeña como ésta tiene una serie de ventajas. En primer lugar, el pequeño tamaño de la muestra permite calcular fácilmente los parámetros poblacionales que pueden usarse para describirla. En segundo lugar, este alcance proporciona una idea de lo que podría suceder si se adopta un plan de muestreo particular. Ambas características facilitan la comparación de los resultados de la muestra con el "verdadero" y, en este caso, valor conocido agregado, lo que no es el caso en la situación típica en la que se desconoce el valor real del agregado. En este caso resulta especialmente clara la comparación de la estimación con el valor “real”.

Supongamos que queremos estimar, a partir de dos elementos seleccionados al azar, el ingreso promedio de los individuos de la población original. El ingreso medio será su parámetro. Para estimar este valor medio, que denotamos como μ, debemos dividir la suma de todos los valores por su número:

Promedio poblacional μ = Suma de elementos de la población / Número de elementos.

En nuestro caso, los cálculos dan:

conjunto derivado

conjunto derivado Consta de todas las muestras posibles que pueden seleccionarse de la población general de acuerdo con un plan de muestreo determinado (plan de muestreo). Estadísticas es una característica o indicador de una muestra. El valor de una estadística muestral se utiliza para estimar un parámetro poblacional particular. Diferentes muestras producen diferentes estadísticas o estimaciones del mismo parámetro poblacional.

conjunto derivado
La totalidad de todas las muestras distinguibles posibles que pueden seleccionarse de la población de acuerdo con un plan de muestreo determinado. Estadísticas Una característica o indicador de una muestra.

Considere la población derivada de todas las muestras posibles que podrían seleccionarse de nuestra población hipotética de 20 individuos bajo un plan de muestreo que supone un tamaño de muestra de norte=2 se puede obtener mediante selección aleatoria no repetitiva.

Supongamos por el momento que los datos de cada unidad de la población (en nuestro caso, el nombre y los ingresos del individuo) se registran en tazas, después de lo cual se dejan caer en una jarra y se mezclan. El investigador saca un círculo de la jarra, anota información y lo deja a un lado. Hace lo mismo con el segundo círculo retirado de la jarra. Luego el investigador devuelve ambas tazas a la jarra, mezcla su contenido y repite la misma secuencia de acciones. En mesa La figura 15.2 muestra los posibles resultados de este procedimiento. Para 20 círculos, son posibles 190 combinaciones de este tipo.

Para cada combinación, se puede calcular el ingreso promedio. digamos para una muestra AB (k= 1)

k-e media muestral = Suma de elementos muestrales / Número de elementos muestrales =

En la Fig. 15.4 muestra la estimación del ingreso promedio para toda la población y la magnitud del error para cada estimación para muestras k = 25, 62,108,147 Y 189 .

Antes de comenzar a considerar la relación entre el ingreso promedio de la muestra (estadística) y el ingreso promedio de la población (un parámetro que requiere estimación), digamos algunas palabras sobre la población derivada. En primer lugar, en la práctica no construimos agregados de este tipo. Esto requeriría demasiado tiempo y esfuerzo. El profesional se limita a compilar una sola muestra del tamaño requerido. El investigador utiliza concepto población derivada y el concepto asociado de distribución muestral al formular conclusiones finales.

Cómo se mostrará a continuación. En segundo lugar, debe recordarse que una población derivada se define como la totalidad de todas las muestras diferentes posibles que pueden seleccionarse de la población de acuerdo con un plan de muestreo determinado. Cuando cambia cualquier parte del plan de muestreo, la población derivada también cambia. Así, si al seleccionar círculos el investigador devuelve el primero de los discos extraídos a la jarra antes de retirar el segundo, el conjunto derivado incluirá.

muestras AA, BB, etc. Si el volumen de muestras no repetitivas es igual a 3, y no 2, aparecerán muestras del tipo ABC, y serán 1140, y no 190, como ocurría en el caso anterior. caso. Al cambiar del muestreo aleatorio simple a cualquier otro método de selección de elementos muestrales, la población derivada también cambia.

También debe recordarse que seleccionar una muestra de un tamaño determinado de una población general equivale a seleccionar un elemento (1 de 190) de una población derivada. Este hecho nos permite sacar muchas conclusiones estadísticas.

Media muestral y media poblacional

¿Tenemos derecho a equiparar la media muestral con la media poblacional real? En cualquier caso, suponemos que están interconectados. Sin embargo, también creemos que se producirá un error. Por ejemplo, se puede suponer que la información obtenida de los usuarios de Internet diferirá significativamente de los resultados de una encuesta de la población "normal". En otros casos, podemos suponer una coincidencia bastante cercana; de lo contrario, no podríamos utilizar el valor de la muestra para estimar el valor general. Pero ¿qué tan grande error podemos cometer en esto?

Sumemos todas las medias de muestra contenidas en la tabla. 15.2, y divida la cantidad resultante por el número de muestras, es decir, promediemos los promedios.
Obtendremos el siguiente resultado:

Coincide con la media poblacional. Dicen que en este caso estamos ante estadísticas imparciales.

Se dice que una estadística es insesgada si su media sobre todas las muestras posibles es igual al parámetro poblacional estimado. Tenga en cuenta que aquí no estamos hablando de ningún significado particular. La estimación parcial puede estar bastante alejada del valor real; tomemos, por ejemplo, las muestras AB o ST. En algunos casos, es posible que no se pueda alcanzar el verdadero valor poblacional considerando cualquier muestra posible, incluso si las estadísticas son imparciales. En nuestro caso, este no es el caso: toda una gama de muestras posibles (por ejemplo, AT) da una media muestral igual a la media poblacional real.

Tiene sentido considerar la distribución de estas estimaciones muestrales y, en particular, la relación entre esta dispersión de estimaciones y la variación de los niveles de ingreso de la población. La varianza de la población se utiliza como medida de variación. Para determinar la varianza de la población, debemos calcular la desviación de cada valor de la media, sumar los cuadrados de todas las desviaciones y dividir la suma resultante por el número de términos. Denotemos la dispersión de la población por a^. Entonces:

Varianza poblacional σ 2 = Suma de diferencias al cuadrado de cada elemento
población y promedio poblacional / Número de elementos de la población =

Dispersión valor promedio El nivel de ingresos se puede determinar de la misma manera. Es decir, podemos encontrarlo determinando las desviaciones de cada promedio de su promedio general, sumando los cuadrados de las desviaciones y dividiendo la suma resultante por el número de términos.

Podemos determinar la dispersión del nivel de ingreso promedio de otra manera, utilizando la dispersión de los niveles de ingreso en la población, ya que existe una relación directa entre estos dos valores. Para ser precisos, en los casos en que la muestra representa solo una pequeña parte de la población, la varianza de la media muestral es igual a la varianza de la población dividida por el tamaño de la muestra:

donde σ x 2 es la dispersión del valor muestral promedio del nivel de ingresos, σ 2 es la dispersión del nivel de ingresos en la población general, norte- tamaño de la muestra.

Ahora comparemos la distribución de resultados con la distribución de una característica cuantitativa en la población general. La figura 15.5 demuestra que la distribución poblacional de un rasgo cuantitativo, que se muestra en el panel A, tiene múltiples picos (cada uno de los 20 valores aparece solo una vez) y es simétrica con respecto a la verdadera media poblacional de 9400.

Distribución de muestras
La distribución de valores de una estadística específica calculada para todas las muestras distinguibles posibles que pueden seleccionarse de la población según un plan de muestreo determinado.

La distribución de puntuaciones que se muestra en el cuadro B se basa en los datos de la Tabla 1. 15.3, que, a su vez, se compiló asignando valores de la tabla. 15,2 a uno u otro grupo dependiendo de su tamaño, seguido de contar su número en el grupo. El campo B es un histograma tradicional, considerado al comienzo de un curso de estadística, que representa distribución muestral Estadísticas. Notemos lo siguiente de paso: el concepto de distribución muestral es el concepto más importante en estadística; es la piedra angular para construir inferencias estadísticas. Con base en la distribución muestral conocida de las estadísticas en estudio, podemos sacar una conclusión sobre el parámetro correspondiente de la población. Si sólo se sabe que la estimación muestral varía de una muestra a otra, pero se desconoce la naturaleza de este cambio, resulta imposible determinar el error de muestreo asociado con esta estimación. Debido a que la distribución muestral de una estimación describe su variación de una muestra a otra, proporciona una base para determinar la validez de la estimación muestral. Es por esta razón que el diseño de muestreo probabilístico es tan importante para la inferencia estadística.

A partir de las probabilidades conocidas de inclusión en la muestra de cada elemento de la población, los entrevistadores pueden encontrar la distribución muestral de diversas estadísticas. Los investigadores se basan en estas distribuciones (ya sea la media muestral, la proporción muestral, la varianza muestral o alguna otra estadística) al extender el resultado de una observación muestral a la población. Tenga en cuenta también que para muestras de tamaño 2, la distribución de las medias muestrales tiene un solo pico y es simétrica con respecto a la media verdadera.

Entonces hemos demostrado que:

  1. La media de todas las medias muestrales posibles es igual a la media general.
  2. La dispersión de los medios muestrales está en cierto modo relacionada con la dispersión general.
  3. La distribución de las medias muestrales tiene un solo pico, mientras que la distribución de los valores de una característica cuantitativa en la población general tiene varios picos.

Teorema del límite central

Un teorema que establece que para muestras aleatorias simples de volumen norte, aislado de la población general con una media general μ y varianza σ 2, para grandes norte la distribución de la media muestral x se aproxima a la normal con un centro igual a μ y varianza σ 2 . La precisión de esta aproximación aumenta al aumentar norte.

Teorema del límite central. La distribución de estimaciones de un solo pico puede considerarse como una manifestación del teorema del límite central, que establece que para muestras aleatorias simples de volumen norte, aislado de la población general con una media verdadera μ y varianza σ 2, para grandes norte la distribución de las medias muestrales se acerca a la normal con un centro igual a la media verdadera y una varianza igual a la relación entre la varianza de la población y el tamaño de la muestra, es decir:

Esta aproximación se vuelve cada vez más precisa a medida que crecemos. norte. Recuerda esto. Independientemente del tipo de población, la distribución de las medias muestrales será normal para muestras de un tamaño suficientemente grande. ¿Qué debe entenderse por un volumen suficientemente grande? Si la distribución de valores de una característica cuantitativa de la población general es normal, entonces la distribución de medias muestrales para muestras de tamaño norte=1. Si la distribución de una variable (característica cuantitativa) en la población es simétrica pero no normal, muestras muy pequeñas producirán una distribución normal de las medias muestrales. Si la distribución de una característica cuantitativa de la población general tiene una asimetría pronunciada, se necesitan muestras más grandes. Y, sin embargo, la distribución del promedio muestral sólo puede aceptarse como normal en los casos en que se trata de una muestra de tamaño suficiente.

Para sacar conclusiones utilizando una curva normal, no es necesario partir de la condición de distribución normal de los valores de una característica cuantitativa de la población general. Más bien, nos basamos en el teorema del límite central y, dependiendo de la distribución de la población, determinamos un tamaño de muestra que nos permitiría trabajar con una curva normal. Afortunadamente, la distribución normal de las estadísticas está garantizada por muestras relativamente pequeñas - Fig. 15.6 demuestra claramente esta circunstancia. Estimaciones de intervalos de confianza. ¿Puede lo anterior ayudarnos a sacar ciertas conclusiones sobre la media general? De hecho, en la práctica, seleccionamos solo una, y no todas las muestras posibles de un tamaño determinado, y en base a los datos obtenidos sacamos ciertas conclusiones sobre el grupo objetivo.

¿Como sucedió esto? Como se sabe, con una distribución normal, un determinado porcentaje de todas las observaciones tiene una determinada desviación estándar; Digamos que el 95% de las observaciones se ajustan a ±1,96 desviaciones estándar de la media. La distribución normal de medias muestrales, a la que se puede aplicar el teorema del límite central, no es una excepción en este sentido. La media de dicha distribución muestral es igual a la media general μ, y su desviación estándar se denomina error estándar de la media:

Resulta que:

  • El 68,26% de las medias muestrales se desvían de la media general en no más de ± σ x;
  • El 95,45% de las medias muestrales se desvían de la media general en no más de ±σ x;
  • 99,73% de las medias muestrales se desvían de la media general en no más de ± σ x,

es decir, una cierta proporción de medias muestrales dependiendo del valor seleccionado z estará contenida en el intervalo determinado por el valor z. Esta expresión se puede reescribir como una desigualdad:

Promedio general - z < Среднее по выборке < Генеральное среднее + z(Error cuadrático medio de la media)

Por lo tanto, la media muestral con una cierta probabilidad está en el intervalo cuyos límites son la suma y la diferencia del valor medio de la distribución y un cierto número de desviaciones estándar. Esta desigualdad se puede transformar en:

Promedio muestral - z(Error cuadrático medio de la media)< Генеральное среднее < Среднее по выборке + z(Error cuadrático medio de la media)

Si se observa la relación 15,1, por ejemplo, en el 95% de los casos ( z= 1,96), entonces en el 95% de los casos se observa la relación 15,2. En los casos en que la conclusión se basa en una única media muestral, utilizamos la expresión 15.2.

Es importante recordar que la expresión 15.2 no significa que el intervalo correspondiente a una muestra determinada deba incluir necesariamente la media general. El intervalo tiene más que ver con el procedimiento de selección. El intervalo construido alrededor de una media dada puede incluir o no la verdadera media poblacional. Nuestra confianza en la exactitud de las conclusiones se basa en el hecho de que el 95% de todos los intervalos construidos según el plan de muestreo elegido contendrán la media verdadera. Creemos que nuestra muestra se encuentra dentro de este 95%.

Para ilustrar este importante punto, imaginemos por un momento que la distribución de medias muestrales para muestras de tamaño norte= 2 en nuestro ejemplo hipotético es normal. El cuadro 15.4 ilustra claramente el resultado de las primeras 10 de las 190 muestras posibles que podrían seleccionarse según un diseño determinado. Tenga en cuenta que sólo 7 de los 10 intervalos incluyen una media general o verdadera. La confianza en la exactitud de la conclusión no se debe a ninguna evaluación particular, sino precisamente procedimiento evaluaciones. Este procedimiento es tal que para 100 muestras para las cuales se calculará la media muestral y el intervalo de confianza, en 95 casos este intervalo incluirá el valor general verdadero. La precisión de una muestra determinada está determinada por el procedimiento mediante el cual se seleccionó la muestra. Un diseño de muestreo representativo no garantiza que todas las muestras sean representativas. Los procedimientos de inferencia estadística se basan en la representatividad del plan de muestreo, razón por la cual este procedimiento es tan crítico para las muestras probabilísticas.

Las muestras probabilísticas nos permiten evaluar la exactitud de los resultados como la cercanía de las estimaciones realizadas al valor real. Cuanto mayor sea el error cuadrático medio de las estadísticas, mayor será el grado de dispersión de las estimaciones y menor la precisión del procedimiento.

Algunos pueden sentirse confundidos por el hecho de que el nivel de confianza se relaciona con el procedimiento y no con el valor de la muestra particular, pero debe recordarse que el investigador puede ajustar la magnitud del nivel de confianza para estimar el valor general. Si no quiere correr ningún riesgo y le preocupa encontrar uno de los cinco intervalos muestrales elegidos que no incluya la media poblacional, puede elegir un intervalo de confianza del 99% en el que sólo uno de cada cien intervalos muestrales la incluya. no incluye la media poblacional. Además, si puede aumentar el tamaño de la muestra, aumentará el nivel de confianza del resultado, proporcionando la precisión deseada al estimar el valor de la población. Hablaremos de esto con más detalle en el Cap. 17.

El procedimiento que describimos tiene un componente más que puede causar cierta confusión. Al estimar el intervalo de confianza, se utilizan tres cantidades: x, z y σx. La media muestral x se calcula a partir de los datos de la muestra, z se selecciona en función del nivel de confianza deseado. Pero ¿qué pasa con la raíz del error cuadrático medio del promedio σ x? Es igual a:

y por lo tanto, para determinarlo, necesitamos establecer la desviación estándar de la característica cuantitativa de la población general, es decir, 5. Qué hacer en los casos en que la desviación estándar s¿desconocido? Este problema no surge por dos razones. En primer lugar, normalmente para la mayoría de los atributos cuantitativos utilizados en la investigación de mercados, la variación cambia mucho más lentamente que el nivel de la mayoría de las variables de interés para el especialista en marketing. En consecuencia, si se repite el estudio, podemos utilizar en los cálculos el valor de s anterior, obtenido previamente. En segundo lugar, una vez seleccionada la muestra y obtenidos los datos, podemos estimar la varianza de la población determinando la varianza de la muestra. La varianza de una muestra insesgada se define como:

varianza muestral ŝ 2 = Suma de desviaciones al cuadrado de la media muestral / (Número de elementos muestrales -1). Para determinar la varianza muestral, primero debemos encontrar la media muestral. Luego se encuentran las diferencias entre cada uno de los valores muestrales y la media muestral; estas diferencias se elevan al cuadrado, se suman y se dividen por un número igual al número de observaciones de la muestra menos uno. La varianza muestral no solo proporciona una estimación de la varianza general, sino que también se puede utilizar para estimar el error cuadrático medio de la media. Cuando se conoce la varianza general σ 2, también se conoce la raíz del error cuadrático medio σ x, ya que:

Cuando se desconoce la varianza general, solo se puede estimar el error cuadrático medio de la media. Esta estimación se da ŝ x, que es igual a la desviación estándar de la muestra dividida por la raíz cuadrada del tamaño de la muestra, es decir La estimación se determina de la misma manera que se determinó la estimación del valor real, pero en lugar de la desviación estándar general, se sustituye la desviación estándar de la muestra en la fórmula de cálculo. Entonces, digamos, para la muestra AB con una media muestral de 5800:

En consecuencia, ŝ = 283, y

y el intervalo del 95% es ahora

que es menor que el valor anterior.

En mesa 15.5 resume las fórmulas de cálculo para varios promedios y varianzas analizadas en este capítulo. Formación de una muestra aleatoria simple. En nuestro ejemplo, la selección de elementos de la muestra se realizó utilizando una jarra, que contenía todos los elementos de la población original. Esto nos permitió visualizar los conceptos de población derivada y distribución muestral. No recomendamos utilizar este método en la práctica, ya que aumenta la probabilidad de error. Las tazas pueden diferir tanto en tamaño como en textura, lo que en determinados casos puede dar lugar a que se prefiera una sobre otra. La selección de los participantes en la campaña de Vietnam, realizada mediante sorteo, puede servir como ejemplo de este tipo de error.

La selección se realizó sacando de un gran tambor discos con fechas de nacimiento. La televisión transmitió este procedimiento en todo el país. Desafortunadamente, los discos se cargaron en el tambor de manera sistemática: las fechas de enero fueron las primeras, las de diciembre las últimas. Aunque el tambor estuvo sujeto a un intenso giro, las fechas de diciembre caían con mucha más frecuencia que las de enero. Posteriormente, este procedimiento se revisó de tal manera que se redujo significativamente la probabilidad de que se produjeran errores sistemáticos. El método preferido para extraer una muestra aleatoria simple se basa en el uso de una tabla de números aleatorios.

El uso de una tabla de este tipo implica la siguiente secuencia de pasos. Primero, a los elementos de la población se les deben asignar números secuenciales del 1 al norte; en nuestra totalidad hipotética el elemento A se le asignará el número 1, elemento B- número 2, etc. En segundo lugar, el número de dígitos en la tabla de números aleatorios debe ser el mismo que el número norte. Para norte= se utilizarán 20 números de dos dígitos; Para norte entre 100 y 999 son números de tres dígitos, etc. En tercer lugar, la posición inicial debe determinarse al azar. Podemos abrir la tabla correspondiente de números aleatorios y, cerrando los ojos, como suele decirse, señalarla con el dedo. Dado que los números en la tabla de números aleatorios están en orden aleatorio, la posición inicial realmente no importa.

Y finalmente, podemos movernos en cualquier dirección elegida arbitrariamente: arriba, abajo o transversalmente, seleccionando aquellos elementos cuyos números corresponderán a números aleatorios de la tabla. Para ilustrar lo dicho, consideremos una tabla abreviada de números aleatorios (Tabla 15.6). Porque el norte= 20, sólo debemos trabajar con números de dos cifras. En este sentido, mesa. 15.6 nos queda perfecto. Decidamos de antemano movernos hacia abajo en la columna, pero la posición inicial es en la intersección de la undécima fila y la cuarta columna, donde se encuentra el número 77. Este número es demasiado grande y, por lo tanto, debe descartarse. Los dos números siguientes también se descartarán, pero se utilizará el cuarto valor 02 ya que 2 corresponde al número del elemento. EN.

Los siguientes cinco números también se descartarán por ser demasiado grandes, mientras que el número 05 indicará el elemento mi. Entonces los elementos EN Y mi se convertirá en nuestra muestra de dos elementos, mediante la cual juzgaremos el nivel de ingresos de esta población. También es posible una estrategia alternativa, en la que se utilizará como base para la selección un programa informático que genere números aleatorios. Apareció en Últimamente Las publicaciones indican que los números generados por dichos programas no son completamente aleatorios, lo que puede manifestarse de cierta manera al construir modelos matemáticos complejos, pero pueden usarse para la mayoría de las investigaciones de mercados aplicadas. Nótese nuevamente que una muestra aleatoria simple requiere la compilación de una lista numerada secuencialmente de elementos de la población.

En otras palabras, se debe identificar a cada miembro de la población original. Para algunas poblaciones, esto no es difícil de hacer, por ejemplo, cuando se estudian las 500 corporaciones estadounidenses más grandes, cuya lista aparece en la revista Fortune. Esta lista ya ha sido compilada, por lo que en este caso no será difícil formar una muestra aleatoria simple. Para otras poblaciones iniciales (por ejemplo, para todas las familias que viven en una determinada ciudad), elaborar una lista general es extremadamente difícil, lo que obliga a los investigadores a recurrir a otros esquemas de muestreo.

Resumen

Objetivo de aprendizaje 1
Distinguir claramente entre los conceptos de censo (calificación) y muestreo

Un censo completo de una población se llama calificación. Muestra una colección formada a partir de elementos seleccionados.

Objetivo de aprendizaje 2
Conocer la esencia y secuencia de las seis etapas implementadas por los investigadores para obtener una muestra de población

El proceso de muestreo se divide en seis etapas:

  1. asignación de población;
  2. determinar el marco muestral;
  3. elección del procedimiento de selección;
  4. determinación del tamaño de la muestra;
  5. selección de elementos muestrales;
  6. examen de elementos seleccionados.

Objetivo de aprendizaje 3
Definir el concepto de "marco muestral"

El marco muestral es la lista de elementos de los que se extraerá la muestra.

Objetivo de aprendizaje 4
Explique la diferencia entre muestreo probabilístico y determinista.

En una muestra probabilística, cada miembro de la población puede incluirse con un cierto dado distinto de cero probabilidad. Las probabilidades de incluir a ciertos miembros de la población en la muestra pueden diferir entre sí, pero se conoce la probabilidad de incluir cada elemento en ella. Para muestras deterministas, evaluar la probabilidad de incluir cualquier elemento en la muestra se vuelve imposible. No se puede garantizar la representatividad de dicha muestra. Todo muestreo determinista se basa más bien en opiniones, juicios o preferencias personales. En ocasiones, estas preferencias pueden proporcionar buenas estimaciones de las características de la población, pero no hay forma de determinar objetivamente si una muestra es apropiada para la tarea en cuestión.

Objetivo de aprendizaje 5
Distinguir entre muestreo de tamaño fijo y muestreo de múltiples etapas (secuencial)

Cuando se trabaja con muestras de tamaño fijo, el tamaño de la muestra se determina antes de que comience la encuesta y el análisis de los resultados va precedido de la recopilación de todos los datos necesarios. En el muestreo secuencial, el número de elementos seleccionados se desconoce de antemano; se determina en base a una serie de decisiones secuenciales.

Objetivo de aprendizaje 6
Explicar qué es el muestreo intencional y describir sus fortalezas y debilidades.

Los elementos de una muestra intencional se seleccionan manualmente y se presentan al investigador como si cumplieran los objetivos de la encuesta. Se supone que los elementos seleccionados pueden proporcionar una imagen completa de la población en estudio. Mientras el investigador se encuentra en las primeras etapas de exploración del problema y determinación de las perspectivas y posibles limitaciones de la encuesta planificada, el uso del muestreo intencional puede resultar muy eficaz. Pero en ningún caso debemos olvidarnos de las debilidades de una muestra de este tipo, ya que también puede ser utilizada por el investigador en estudios descriptivos o causales, lo que repercutirá inmediatamente en la calidad de sus resultados.

Objetivo de aprendizaje 7
Definir el concepto de muestreo por cuotas.

Se selecciona una muestra proporcional de modo que la proporción de elementos de la muestra que tienen ciertas características corresponda aproximadamente a la proporción de los mismos elementos en la población que se estudia; Para ello, a cada empadronador se le asigna una cuota que define las características de la población con la que debe contactar.

Objetivo de aprendizaje 8
Explicar qué es un parámetro en un procedimiento de muestreo.

Parámetro: una determinada característica o indicador de la población general o estudiada; un determinado indicador cuantitativo que distingue a una población de otra.

Objetivo de aprendizaje 9
Explica qué es un conjunto derivado

La población derivada consta de todas las muestras posibles que pueden seleccionarse de la población de acuerdo con un plan de muestreo determinado.

Objetivo de aprendizaje 10
Explique por qué el concepto de distribución muestral es un concepto esencial en estadística.

El concepto de distribución muestral es la piedra angular de la inferencia estadística. Con base en la distribución muestral conocida de las estadísticas en estudio, podemos sacar una conclusión sobre el parámetro correspondiente de la población. Si sólo se sabe que la estimación muestral varía de una muestra a otra, pero se desconoce la naturaleza de este cambio, resulta imposible determinar el error de muestreo asociado con esta estimación. Debido a que la distribución muestral de una estimación describe su variación de una muestra a otra, proporciona una base para determinar la validez de la estimación muestral.

Muestra: conjunto de casos (sujetos, objetos, eventos, muestras), mediante un determinado procedimiento, seleccionados de la población general para participar en el estudio.

Tamaño de la muestra

El tamaño de la muestra es el número de casos incluidos en la población de la muestra. Por motivos estadísticos, se recomienda que el número de casos sea al menos de 30 a 35.

Muestras dependientes e independientes.

Al comparar dos (o más) muestras, un parámetro importante es su dependencia. Si es posible establecer un par homomórfico (es decir, cuando un caso de la muestra X corresponde a uno y sólo un caso de la muestra Y y viceversa) para cada caso en dos muestras (y esta base de la relación es importante para la rasgo que se mide en las muestras), dichas muestras se denominan dependientes. Ejemplos de muestras dependientes:

  1. pares de gemelos,
  2. dos mediciones de cualquier rasgo antes y después de la exposición experimental,
  3. maridos y esposas
  4. etcétera.

Si no existe tal relación entre las muestras, entonces estas muestras se consideran independientes, por ejemplo:

  1. hombres y mujeres,
  2. psicólogos y matemáticos.
  3. En consecuencia, las muestras dependientes siempre tienen el mismo tamaño, mientras que el tamaño de las muestras independientes puede diferir.

La comparación de muestras se realiza utilizando varios criterios estadísticos:

  • prueba t de Student
  • Prueba T de Wilcoxon
  • Prueba U de Mann-Whitney
  • Criterio de signo
  • y etc.

Representatividad

La muestra podrá considerarse representativa o no representativa.

Ejemplo de muestra no representativa

En Estados Unidos, uno de los ejemplos históricos más famosos de muestreo no representativo ocurre durante las elecciones presidenciales de 1936. El Literary Digest, que había predicho con éxito los acontecimientos de varias elecciones anteriores, se equivocó en sus predicciones cuando envió diez millones de papeletas de prueba a sus suscriptores, personas seleccionadas de las guías telefónicas de todo el país y personas de las listas de registro de automóviles. En el 25% de las papeletas devueltas (casi 2,5 millones), los votos se distribuyeron de la siguiente manera:

El 57% prefirió al candidato republicano Alf Landon

El 40% eligió al entonces presidente demócrata Franklin Roosevelt

En las elecciones actuales, como se sabe, ganó Roosevelt, obteniendo más del 60% de los votos. El error del Literary Digest fue este: queriendo aumentar la representatividad de la muestra -ya que sabían que la mayoría de sus suscriptores se consideraban republicanos- ampliaron la muestra para incluir a personas seleccionadas de guías telefónicas y listas de registro. Sin embargo, no tuvieron en cuenta las realidades de su época y, de hecho, reclutaron aún más republicanos: durante la Gran Depresión, eran principalmente representantes de las clases media y alta quienes podían permitirse el lujo de poseer teléfonos y automóviles (es decir, la mayoría de los republicanos , no demócratas).

Tipos de plan para construir grupos a partir de muestras.

Existen varios tipos principales de planes de construcción grupal:

  • Un estudio con grupos experimentales y de control, que se colocan en diferentes condiciones.
  • Estudiar con grupos experimentales y de control utilizando una estrategia de selección por pares.
  • Un estudio que utiliza un solo grupo: un grupo experimental.
  • Un estudio que utiliza un diseño mixto (factorial): todos los grupos se colocan en diferentes condiciones.

Estrategias de formación de grupos

La selección de grupos para participar en un experimento psicológico se realiza utilizando diversas estrategias para asegurar el mayor respeto posible a la validez interna y externa.

  • Aleatorización (selección aleatoria)
  • Atraer grupos reales

Aleatorización

Aleatorización, o Selección aleatoria, se utiliza para crear muestras aleatorias simples. El uso de dicha muestra se basa en el supuesto de que cada miembro de la población tiene la misma probabilidad de ser incluido en la muestra. Por ejemplo, para hacer una muestra aleatoria de 100 estudiantes, puedes poner hojas de papel con los nombres de todos los estudiantes universitarios en un sombrero y luego sacar 100 hojas de papel; esta será una selección aleatoria (Goodwin J. , pág.147).

Selección por pares

Selección por pares- una estrategia para construir grupos de muestreo, en los que los grupos de sujetos están formados por sujetos equivalentes en términos de parámetros secundarios que son significativos para el experimento. Esta estrategia es eficaz para experimentos que utilizan grupos experimentales y de control con la mejor opción- atrayendo

En estadística, existen dos métodos de investigación principales: continuo y selectivo. Al realizar un estudio de muestra, es obligatorio cumplir con los siguientes requisitos: representatividad de la población de muestra y un número suficiente de unidades de observación. Al seleccionar unidades de observación, es posible Errores de compensación, es decir, aquellos acontecimientos cuya aparición no se puede predecir con precisión. Estos errores son objetivos y naturales. Al determinar el grado de exactitud de un estudio de muestreo, se estima la cantidad de error que puede ocurrir durante el proceso de muestreo: Error de representatividad aleatorio (METRO) — Es la diferencia real entre los valores promedio o relativos obtenidos durante un estudio de muestra y valores similares que se obtendrían durante un estudio sobre la población general.

Evaluar la confiabilidad de los resultados de la investigación implica determinar:

1. errores de representatividad

2. límites de confianza de los valores promedio (o relativos) en la población

3. confiabilidad de la diferencia entre valores promedio (o relativos) (según el criterio t)

Cálculo del error de representatividad(mm) valor medio aritmético (M):

Donde σ es la desviación estándar; n: tamaño de muestra (>30).

Cálculo del valor relativo del error de representatividad (mР) (Р):

Donde P es el valor relativo correspondiente (calculado, por ejemplo, en%);

Q =100 - Ρ% - el recíproco de P; n—tamaño de la muestra (n>30)

En el trabajo clínico y experimental, a menudo es necesario utilizar Pequeña muestra Cuando el número de observaciones es menor o igual a 30. Con una muestra pequeña para calcular errores de representatividad, tanto valores medios como relativos. , El número de observaciones disminuye en uno, es decir

; .

La magnitud del error de representatividad depende del tamaño de la muestra: que numero mayor observaciones, temas menos errores. Para evaluar la confiabilidad de un indicador muestral se adopta el siguiente enfoque: el indicador (o valor promedio) debe ser 3 veces mayor que su error, en cuyo caso se considera confiable.

Conocer la magnitud del error no es suficiente para tener confianza en los resultados de un estudio de muestra, ya que un error específico en un estudio de muestra puede ser significativamente mayor (o menor) que el error de representatividad promedio. Para determinar la precisión con la que un investigador quiere obtener un resultado, la estadística utiliza un concepto como la probabilidad de un pronóstico sin errores, que es una característica de la confiabilidad de los resultados de estudios estadísticos biomédicos muestrales. Normalmente, cuando se realizan estudios estadísticos biomédicos, la probabilidad de un pronóstico sin errores es del 95% o 99%. En los casos más críticos, cuando sea necesario sacar conclusiones especialmente importantes en términos teóricos o prácticos, utilice la probabilidad de un pronóstico sin errores del 99,7%.

Un cierto valor corresponde a un cierto grado de probabilidad de un pronóstico libre de errores Error marginal del muestreo aleatorio (Δ -delta), que está determinado por la fórmula:

Δ=t * m, donde t es un coeficiente de confianza que, con una muestra grande y una probabilidad del 95% de un pronóstico sin errores, es igual a 2,6; con una probabilidad de realizar un pronóstico sin errores del 99% - 3,0; con una probabilidad de pronóstico sin errores de 99,7% - 3,3, y con una muestra pequeña se determina utilizando una tabla especial de valores t de Student.

Usando el error marginal de muestreo (Δ), se puede determinar Límites de confianza, en el que, con una cierta probabilidad de un pronóstico sin errores, está contenido el valor real de la cantidad estadística , Caracterizar a toda la población (media o relativa).

Para determinar los límites de confianza se utilizan las siguientes fórmulas:

1) para valores medios:

Donde Mgen son los límites de confianza del valor promedio en la población;

Muestra - valor medio , Obtenido durante un estudio sobre una muestra de población; t es un coeficiente de confianza, cuyo valor está determinado por el grado de probabilidad de un pronóstico libre de errores con el que el investigador quiere obtener el resultado; mM es el error de representatividad del valor medio.

2) para valores relativos:

Donde Pgen son los límites de confianza del valor relativo en la población; Rsb es un valor relativo obtenido al realizar un estudio en una población de muestra; t—coeficiente de confianza; mP es el error de representatividad del valor relativo.

Los límites de confianza muestran los límites dentro de los cuales el tamaño de la muestra puede fluctuar dependiendo de razones aleatorias.

Con un pequeño número de observaciones (n<30), для вычисления довери­тельных границ значение коэффициента t находят по специальной таблице Стьюдента. Значения t расположены в таблице на пересечении с избранной вероятностью безошибочного прогноза и строки, Indicando el número disponible de grados de libertad (n) , Que es igual a n-1.

Población estadística- un conjunto de unidades que tienen masa, tipicidad, homogeneidad cualitativa y presencia de variación.

La población estadística consta de objetos materialmente existentes (empleados, empresas, países, regiones), es un objeto.

Unidad de la población— cada unidad específica de una población estadística.

Una misma población estadística puede ser homogénea en una característica y heterogénea en otra.

Uniformidad cualitativa- similitud de todas las unidades de la población sobre alguna base y disimilitud sobre todas las demás.

En una población estadística, las diferencias entre una unidad de población y otra suelen ser de naturaleza cuantitativa. Los cambios cuantitativos en los valores de una característica de diferentes unidades de una población se denominan variación.

Variación de un rasgo- un cambio cuantitativo en una característica (para una característica cuantitativa) durante la transición de una unidad de la población a otra.

Firmar- es una propiedad, rasgo característico u otro rasgo de unidades, objetos y fenómenos que pueden observarse o medirse. Los signos se dividen en cuantitativos y cualitativos. La diversidad y variabilidad del valor de una característica en unidades individuales de una población se llama variación.

Las características atributivas (cualitativas) no se pueden expresar numéricamente (composición de la población por género). Las características cuantitativas tienen una expresión numérica (composición de la población por edad).

Índice- Se trata de una característica cuantitativa y cualitativa generalizadora de cualquier propiedad de unidades o de la población en su conjunto en condiciones específicas de tiempo y lugar.

Tanteador Es un conjunto de indicadores que reflejan de manera integral el fenómeno que se estudia.

Por ejemplo, se estudia el salario:
  • Signo - salarios
  • Población estadística: todos los empleados
  • La unidad de la población es cada empleado.
  • Homogeneidad cualitativa - salarios devengados
  • Variación de un signo: una serie de números.

Población y muestra de ella.

La base es un conjunto de datos obtenidos como resultado de medir una o más características. Un conjunto de objetos verdaderamente observado, representado estadísticamente por un número de observaciones de una variable aleatoria, es muestreo, y lo hipotéticamente existente (conjetural) - población general. La población puede ser finita (número de observaciones norte = constante) o infinito ( norte = ∞), y una muestra de una población es siempre el resultado de un número limitado de observaciones. El número de observaciones que forman una muestra se llama tamaño de la muestra. Si el tamaño de la muestra es lo suficientemente grande ( norte → ∞) se considera la muestra grande, de lo contrario se llama muestreo volumen limitado. La muestra se considera pequeño, si al medir una variable aleatoria unidimensional el tamaño de la muestra no excede 30 ( norte<= 30 ), y al medir varios simultáneamente ( k) características en el espacio de relaciones multidimensionales norte A k no excede 10 (n/k< 10) . Los formularios de muestra serie de variación, si sus miembros son estadísticas ordinales, es decir, valores muestrales de la variable aleatoria. X están ordenados en orden ascendente (clasificados), los valores de la característica se denominan opciones.

Ejemplo. Casi el mismo conjunto de objetos seleccionados al azar: los bancos comerciales de un distrito administrativo de Moscú, pueden considerarse como una muestra de la población general de todos los bancos comerciales de este distrito y como una muestra de la población general de todos los bancos comerciales de Moscú. , así como una muestra de los bancos comerciales del país, etc.

Métodos básicos de organización del muestreo.

La confiabilidad de las conclusiones estadísticas y la interpretación significativa de los resultados depende de representatividad muestras, es decir integridad y adecuación de la representación de las propiedades de la población general, en relación con la cual esta muestra puede considerarse representativa. El estudio de las propiedades estadísticas de una población se puede organizar de dos maneras: utilizando continuo Y no continuo. Observación continua prevé el examen de todos unidades estudió totalidad, A observación parcial (selectiva)- sólo partes de él.

Hay cinco formas principales de organizar la observación de muestras:

1. selección aleatoria simple, en el que los objetos se seleccionan aleatoriamente de una población de objetos (por ejemplo, usando una tabla o un generador de números aleatorios), y cada una de las muestras posibles tiene la misma probabilidad. Estas muestras se denominan en realidad al azar;

2. selección simple usando un procedimiento regular se realiza mediante un componente mecánico (por ejemplo, fecha, día de la semana, número de apartamento, letras del alfabeto, etc.) y las muestras así obtenidas se denominan mecánico;

3. estratificado la selección consiste en que la población general del volumen se divide en subpoblaciones o capas (estratos) del volumen de manera que . Los estratos son objetos homogéneos en términos de características estadísticas (por ejemplo, la población se divide en estratos por grupos de edad o clase social; empresas por industria). En este caso, las muestras se llaman estratificado(de lo contrario, estratificado, típico, regionalizado);

4. métodos de serie la selección se utiliza para formar de serie o muestras de nidos. Son convenientes si es necesario inspeccionar un "bloque" o una serie de objetos a la vez (por ejemplo, un lote de bienes, productos de una determinada serie o la población de una división territorial-administrativa del país). La selección de series se puede realizar de forma puramente aleatoria o mecánica. En este caso, se lleva a cabo una inspección completa de un determinado lote de mercancías, o de toda una unidad territorial (un edificio o bloque residencial);

5. conjunto la selección (escalonada) puede combinar varios métodos de selección a la vez (por ejemplo, estratificado y aleatorio o aleatorio y mecánico); tal muestra se llama conjunto.

Tipos de selección

Por mente Se distingue la selección individual, grupal y combinada. En selección individual Se seleccionan unidades individuales de la población general en la población de muestra, con selección de grupo- grupos (series) de unidades cualitativamente homogéneos, y selección combinada Implica una combinación del primer y segundo tipo.

Por método la selección se distingue repetido y no repetitivo muestra.

Repetible llamada selección en la que una unidad incluida en la muestra no regresa a la población original y no participa en una selección posterior; mientras que el número de unidades en la población general norte se reduce durante el proceso de selección. En repetido selección atrapó en la muestra, una unidad después del registro se devuelve a la población general y, por lo tanto, conserva las mismas oportunidades, junto con otras unidades, para ser utilizada en un procedimiento de selección posterior; mientras que el número de unidades en la población general norte permanece sin cambios (el método rara vez se utiliza en la investigación socioeconómica). Sin embargo, con grandes norte (norte → ∞) fórmulas para repetible la selección se acerca a aquellos para repetido selección y estos últimos se utilizan prácticamente con más frecuencia ( norte = constante).

Características básicas de los parámetros de la población general y muestral.

Las conclusiones estadísticas del estudio se basan en la distribución de la variable aleatoria y los valores observados. (x 1, x 2, ..., x n) se llaman realizaciones de la variable aleatoria X(n es el tamaño de la muestra). La distribución de una variable aleatoria en la población general es de naturaleza teórica e ideal, y su análogo muestral es empírico distribución. Algunas distribuciones teóricas se especifican analíticamente, es decir su opciones determine el valor de la función de distribución en cada punto del espacio de posibles valores de la variable aleatoria. Para una muestra, la función de distribución es difícil y a veces imposible de determinar, por lo tanto opciones se estiman a partir de datos empíricos y luego se sustituyen en una expresión analítica que describe la distribución teórica. En este caso, la suposición (o hipótesis) sobre el tipo de distribución puede ser estadísticamente correcto o erróneo. Pero en cualquier caso, la distribución empírica reconstruida a partir de la muestra sólo caracteriza de manera aproximada la verdadera. Los parámetros de distribución más importantes son valor esperado y varianza.

Por su naturaleza, las distribuciones son continuo Y discreto. La distribución continua más conocida es normal. Los análogos de muestra de los parámetros y para ello son: valor medio y varianza empírica. Entre los discretos en la investigación socioeconómica, los más utilizados alternativa (dicotómica) distribución. El parámetro de expectativa matemática de esta distribución expresa el valor relativo (o compartir) unidades de la población que tienen la característica en estudio (se indica con la letra); la proporción de la población que no tiene esta característica se denota con la letra q (q = 1-p). La varianza de la distribución alternativa también tiene un análogo empírico.

Dependiendo del tipo de distribución y del método de selección de unidades de población, las características de los parámetros de distribución se calculan de manera diferente. Los principales para las distribuciones teóricas y empíricas se dan en la tabla. 1.

Fracción de muestra k n La relación entre el número de unidades de la población de muestra y el número de unidades de la población general se denomina:

kn = n/N.

Fracción de muestra w es la proporción de unidades que poseen la característica que se está estudiando X al tamaño de la muestra norte:

w = norte norte /norte.

Ejemplo. En un lote de mercancías que contiene 1000 unidades, con una muestra del 5% muestra compartida k n en valor absoluto es 50 unidades. (n = N*0,05); Si se encuentran 2 productos defectuosos en esta muestra, entonces tasa de defectos de muestra w será 0,04 (w = 2/50 = 0,04 o 4%).

Dado que la población de muestra es diferente de la población general, existen errores de muestreo.

Tabla 1. Principales parámetros de la población general y de la muestra

Errores de muestreo

En cualquier caso (continuo y selectivo), pueden producirse errores de dos tipos: de registro y de representatividad. Errores registro puede tener aleatorio Y sistemático personaje. Aleatorio Los errores se deben a muchas causas diferentes e incontrolables, no son intencionados y normalmente se equilibran entre sí (por ejemplo, cambios en el rendimiento del dispositivo debido a fluctuaciones de temperatura en la habitación).

Sistemático los errores están sesgados porque violan las reglas para seleccionar objetos para la muestra (por ejemplo, desviaciones en las mediciones al cambiar la configuración del dispositivo de medición).

Ejemplo. Para evaluar la situación social de la población de la ciudad, está previsto encuestar al 25% de las familias. Si la selección de uno de cada cuatro apartamentos se basa en su número, existe el peligro de seleccionar todos los apartamentos de un solo tipo (por ejemplo, apartamentos de una habitación), lo que provocará un error sistemático y distorsionará los resultados; Es más preferible elegir un número de apartamento por lote, ya que el error será aleatorio.

Errores de representatividad son inherentes únicamente a la observación de la muestra, no se pueden evitar y surgen como resultado del hecho de que la población de la muestra no reproduce completamente la población general. Los valores de los indicadores obtenidos de la muestra difieren de los indicadores de los mismos valores en la población general (u obtenidos mediante observación continua).

Sesgo de muestreo es la diferencia entre el valor del parámetro en la población y su valor muestral. Para el valor medio de una característica cuantitativa es igual a: , y para la acción (característica alternativa) - .

Los errores de muestreo son inherentes únicamente a las observaciones de muestras. Cuanto mayores son estos errores, más difiere la distribución empírica de la teórica. Los parámetros de la distribución empírica son variables aleatorias, por lo tanto, los errores de muestreo también son variables aleatorias, pueden tomar diferentes valores para diferentes muestras y por eso se acostumbra calcular error promedio.

Error de muestreo promedio es una cantidad que expresa la desviación estándar de la media muestral de la expectativa matemática. Este valor, sujeto al principio de selección aleatoria, depende principalmente del tamaño de la muestra y del grado de variación de la característica: cuanto mayor y menor es la variación de la característica (y por tanto del valor), menor es el error muestral medio. . La relación entre las varianzas de la población general y de la muestra se expresa mediante la fórmula:

aquellos. cuando es lo suficientemente grande, podemos suponer que . El error de muestreo promedio muestra posibles desviaciones del parámetro de la población de muestra del parámetro de la población general. En mesa 2 muestra expresiones para calcular el error de muestreo promedio para diferentes métodos de organización de la observación.

Tabla 2. Error promedio (m) de la media muestral y proporción para diferentes tipos de muestras

¿Dónde está el promedio de las varianzas de la muestra dentro del grupo para un atributo continuo?

Promedio de las varianzas de la proporción dentro del grupo;

— número de series seleccionadas, — número total de series;

,

¿Dónde está el promedio de la décima serie?

— el promedio general de toda la población de la muestra para una característica continua;

,

¿Dónde está la proporción de la característica en la octava serie?

— la proporción total de la característica en toda la población de la muestra.

Sin embargo, la magnitud del error promedio sólo puede juzgarse con una cierta probabilidad P (P ≤ 1). Lyapunov A.M. demostró que la distribución de las medias muestrales y, por lo tanto, sus desviaciones de la media general, para un número suficientemente grande obedece aproximadamente a la ley de distribución normal, siempre que la población general tenga una media finita y una varianza limitada.

Matemáticamente, esta afirmación para el promedio se expresa como:

y para la acción, la expresión (1) tomará la forma:

Dónde - Hay error marginal de muestreo, que es un múltiplo del error de muestreo promedio , y el coeficiente de multiplicidad es la prueba de Student ("coeficiente de confianza"), propuesta por W.S. Gosset (seudónimo de "Estudiante"); Los valores para diferentes tamaños de muestra se almacenan en una tabla especial.

Los valores de la función Ф(t) para algunos valores de t son iguales a:

Por tanto, la expresión (3) se puede leer de la siguiente manera: con probabilidad P = 0,683 (68,3%) Se puede argumentar que la diferencia entre la muestra y el promedio general no excederá un valor del error promedio. metro(t=1), con probabilidad P = 0,954 (95,4%)- que no supere el valor de dos errores medios metro (t = 2), con probabilidad P = 0,997 (99,7%)- no excederá de tres valores metro (t = 3) . Por tanto, la probabilidad de que esta diferencia supere tres veces el error medio está determinada por nivel de error y no equivale a más 0,3% .

En mesa 3 muestra fórmulas para calcular el error máximo de muestreo.

Tabla 3. Error marginal (D) de la muestra para la media y proporción (p) para diferentes tipos de observación de muestra

Generalización de resultados muestrales a la población.

El objetivo final de la observación de muestras es caracterizar a la población general. Con tamaños de muestra pequeños, las estimaciones empíricas de los parámetros ( y ) pueden desviarse significativamente de sus valores verdaderos ( y ). Por lo tanto, es necesario establecer límites dentro de los cuales se encuentran los valores verdaderos ( y ) de los valores muestrales de los parámetros ( y ).

Intervalo de confianza de cualquier parámetro θ de la población general es el rango aleatorio de valores de este parámetro, que con una probabilidad cercana a 1 ( fiabilidad) contiene el valor verdadero de este parámetro.

error marginal muestras Δ le permite determinar los valores límite de las características de la población general y sus intervalos de confianza, que son iguales:

Línea de fondo intervalo de confianza obtenido por resta error máximo de la media muestral (participación), y la superior sumándola.

Intervalo de confianza para el promedio se utiliza el error máximo de muestreo y para un nivel de confianza determinado se determina mediante la fórmula:

Esto significa que con una probabilidad dada R, que se llama nivel de confianza y está determinado únicamente por el valor t, se puede argumentar que el verdadero valor del promedio se encuentra en el rango de , y el valor real de la acción está en el rango de

Al calcular el intervalo de confianza para tres niveles de confianza estándar P = 95 %, P = 99 % y P = 99,9 % el valor es seleccionado por . Aplicaciones en función del número de grados de libertad. Si el tamaño de la muestra es lo suficientemente grande, entonces los valores correspondientes a estas probabilidades t son iguales: 1,96, 2,58 Y 3,29 . Así, el error marginal de muestreo nos permite determinar los valores límite de las características de la población y sus intervalos de confianza:

La distribución de los resultados de la observación de muestras a la población general en la investigación socioeconómica tiene características propias, ya que requiere una representación completa de todos sus tipos y grupos. La base para la posibilidad de tal distribución es el cálculo. error relativo:

Dónde Δ % - error de muestreo máximo relativo; , .

Hay dos métodos principales para extender una observación de muestra a una población: recálculo directo y método de coeficientes.

Esencia conversión directa consiste en multiplicar la media muestral!!\overline(x) por el tamaño de la población.

Ejemplo. Supongamos que el número medio de niños pequeños en la ciudad se estime mediante el método de muestreo y ascienda a una persona. Si hay 1.000 familias jóvenes en la ciudad, entonces el número de plazas necesarias en las guarderías municipales se obtiene multiplicando este promedio por el tamaño de la población general N = 1.000, es decir tendrá 1200 asientos.

método de probabilidades Es recomendable utilizarlo en el caso de que se realice una observación selectiva para aclarar los datos de la observación continua.

Se utiliza la siguiente fórmula:

donde todas las variables son el tamaño de la población:

Tamaño de muestra requerido

Tabla 4. Tamaño de muestra requerido (n) para diferentes tipos de organización de observación de muestras

Al planificar una observación de muestra con un valor predeterminado del error de muestreo permisible, es necesario estimar correctamente el requerido tamaño de la muestra. Este volumen se puede determinar sobre la base del error permisible durante la observación de la muestra en función de una probabilidad dada que garantiza el valor permisible del nivel de error (teniendo en cuenta el método de organización de la observación). Las fórmulas para determinar el tamaño de muestra requerido n se pueden obtener fácilmente directamente a partir de las fórmulas para el error de muestreo máximo. Entonces, de la expresión del error marginal:

El tamaño de la muestra se determina directamente. norte:

Esta fórmula muestra que a medida que disminuye el error máximo de muestreo Δ el tamaño de muestra requerido aumenta significativamente, lo cual es proporcional a la varianza y al cuadrado de la prueba t de Student.

Para un método específico de organización de la observación, el tamaño de muestra requerido se calcula de acuerdo con las fórmulas que figuran en la tabla. 9.4.

Ejemplos prácticos de cálculo

Ejemplo 1. Cálculo del valor medio y el intervalo de confianza para una característica cuantitativa continua.

Para evaluar la velocidad de liquidación con los acreedores, se realizó en el banco una muestra aleatoria de 10 documentos de pago. Sus valores resultaron ser iguales (en días): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Necesario con probabilidad P = 0,954 determinar el error marginal Δ media muestral y límites de confianza del tiempo de cálculo medio.

Solución. El valor medio se calcula utilizando la fórmula de la tabla. 9.1 para la población de muestra

La varianza se calcula utilizando la fórmula de la tabla. 9.1.

Error cuadrático medio del día.

El error promedio se calcula mediante la fórmula:

aquellos. el promedio es x ± m = 12,0 ± 2,3 días.

La confiabilidad de la media fue

Calculamos el error máximo usando la fórmula de la tabla. 9.3 para muestreo repetido, ya que se desconoce el tamaño de la población, y para P = 0,954 nivel de confianza.

Por tanto, el valor medio es `x ± D = `x ± 2m = 12,0 ± 4,6, es decir su valor real se encuentra en el rango de 7,4 a 16,6 días.

Usando la tabla t de Student. La aplicación nos permite concluir que para n = 10 - 1 = 9 grados de libertad, el valor obtenido es confiable con un nivel de significancia de £ 0,001, es decir el valor medio resultante es significativamente diferente de 0.

Ejemplo 2. Estimación de probabilidad (participación general) p.

Un método de muestreo mecánico para encuestar el estatus social de 1000 familias reveló que la proporción de familias de bajos ingresos era w = 0,3 (30%)(la muestra fue 2% , es decir. norte/norte = 0,02). Requerido con nivel de confianza p = 0,997 determinar el indicador R familias de bajos ingresos en toda la región.

Solución. Basado en los valores de función presentados. Ф(t) encontrar para un nivel de confianza dado P = 0,997 significado t = 3(ver fórmula 3). Error marginal de fracción w determinar mediante la fórmula de la tabla. 9.3 para muestreo no repetitivo (el muestreo mecánico siempre es no repetitivo):

Error de muestreo relativo máximo en % será:

La probabilidad (proporción general) de familias de bajos ingresos en la región será ð=w±Δw, y los límites de confianza p se calculan en función de la doble desigualdad:

w — Δ w ≤ p ≤ w — Δ w, es decir. el verdadero valor de p se encuentra dentro de:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Así, con una probabilidad de 0,997 se puede afirmar que la proporción de familias de bajos ingresos entre todas las familias de la región oscila entre el 28,6% y el 31,4%.

Ejemplo 3. Cálculo del valor medio y el intervalo de confianza para una característica discreta especificada por una serie de intervalos.

En mesa 5. Se ha especificado la distribución de las solicitudes para la producción de pedidos según el momento de su implementación por parte de la empresa.

Tabla 5. Distribución de observaciones por tiempo de aparición

Solución. El tiempo medio para completar los pedidos se calcula mediante la fórmula:

El periodo medio será:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 meses.

Obtenemos la misma respuesta si utilizamos los datos sobre p i de la penúltima columna de la tabla. 9.5, usando la fórmula:

Tenga en cuenta que la mitad del intervalo de la última gradación se encuentra completándola artificialmente con el ancho del intervalo de la gradación anterior igual a 60 - 36 = 24 meses.

La varianza se calcula mediante la fórmula.

Dónde xyo- la mitad de la serie de intervalos.

¡¡Por lo tanto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), y el error cuadrático medio es .

El error promedio se calcula utilizando la fórmula mensual, es decir ¡¡el valor promedio es!!\overline(x) ± m = 23,1 ± 13,4.

Calculamos el error máximo usando la fórmula de la tabla. 9,3 para selección repetida, ya que se desconoce el tamaño de la población, para un nivel de confianza de 0,954:

Entonces el promedio es:

aquellos. su valor real se encuentra en el rango de 0 a 50 meses.

Ejemplo 4. Para determinar la velocidad de los acuerdos con los acreedores de N = 500 empresas corporativas en un banco comercial, es necesario realizar un estudio de muestra utilizando un método de selección aleatorio no repetitivo. Determine el tamaño de muestra requerido n de modo que con probabilidad P = 0,954 el error de la media muestral no exceda de 3 días si las estimaciones de prueba mostraron que la desviación estándar s fue de 10 días.

Solución. Para determinar el número de estudios necesarios n, utilizaremos la fórmula de selección no repetitiva de la tabla. 9.4:

En él, el valor t se determina a partir de un nivel de confianza de P = 0,954. Es igual a 2. El valor cuadrático medio es s = 10, el tamaño de la población es N = 500 y el error máximo de la media es Δ x = 3. Sustituyendo estos valores en la fórmula, obtenemos:

aquellos. Basta compilar una muestra de 41 empresas para estimar el parámetro requerido: la velocidad de los acuerdos con los acreedores.