Procedimiento de muestreo
1.1. Descripción del marco de muestreo
El módulo de BIARE 2024 utiliza el Marco Maestro de Muestreo (MMM) del INEGI como marco de muestreo. Dicho marco se construyó a partir de la información del último Censo de Población y Vivienda.
El MMM está compuesto por Unidades Primarias de Muestreo (UPM). Las UPM se delimitan geográficamente para agrupar un conjunto de viviendas particulares habitadas. En una zona urbana, las UPM están conformadas por una o varias manzanas que contienen viviendas particulares habitadas. Por su parte, en áreas rurales, las UPM pueden estar constituidas por una o más localidades pequeñas, o por agrupaciones de viviendas dispersas en un territorio delimitado, garantizando la contigüidad geográfica.
1.2. Estratificación del marco de muestreo
El marco de muestreo está estratificado exhaustivamente para mejorar la eficiencia del diseño y asegurar la representatividad de la muestra en los principales dominios de estudio.
Las variables de estratificación son:
- Entidad federativa: Se establecen 32 conjuntos geográficos principales, correspondiendo a cada una de las entidades federativas de la República Mexicana.
- Tamaño de localidad: Se consideran cuatro tamaños de localidad:
1. 100,000 habitantes o más
2. De 15,000 a 99,999 habitantes
3. De 2,500 a 14,999 habitantes
4. De 1 a 2,499 habitantes
Estos cuatro rangos de población se agrupan en tres dominios geográficos principales para fines de muestreo: Urbano Alto (100,000 habitantes o más); Complemento Urbano (que abarca las localidades de 2,500 a 99,999 habitantes, correspondientes a los rangos 2 y 3) y Rural (localidades de 1 a 2,499 habitantes, correspondiente al rango 4).
- Nivel socioeconómico: Para determinar el nivel socioeconómico de las UPM, se utiliza información del último censo de población y vivienda, que incluye datos sobre empleo, ocupación, sexo, edad, educación, inserción laboral, características de las viviendas y acceso a servicios de salud. A partir de esta información, se establecieron cuatro niveles socioeconómicos para las UPM: Bajo, Medio Bajo, Medio Alto y Alto.
La conformación final de los estratos se realiza al interior de cada entidad federativa, combinando la clasificación por tamaño de localidad y nivel socioeconómico.
1.3. Muestra Maestra y actualización del marco
Para la gestión eficiente y la actualización continua del MMM, se implementó la selección de una Muestra Maestra (MM). Esta MM está constituida por una muestra de UPM seleccionadas del MMM, diseñada para ser lo suficientemente amplia como para mantener la representatividad estadística, pero con un tamaño que facilita su mantenimiento y actualización periódica.
La selección de las UPM que componen la MM se realizó en cada estrato mediante un muestreo balanceado con probabilidades proporcionales al tamaño, ver el Capítulo 6 de (Tillé, 2019). Este método garantiza que las UPM de un mismo estrato con mayor número de viviendas particulares habitadas tengan una mayor probabilidad de formar parte de la MM, lo que contribuye a la eficiencia y representatividad de las encuestas posteriores.
El INEGI mantiene la MM vigente a través de un operativo de campo continuo. Este proceso implica la verificación y actualización periódica de la información de las viviendas particulares habitadas dentro de las UPM que conforman la MM. Estas visitas garantizan que los listados de viviendas estén actualizados y que el marco de muestreo refleje la realidad demográfica del momento.
La MM sirve como la primera etapa de selección para las encuestas en hogares, incluida el BIARE. A partir de las UPM seleccionadas en la MM, se procede a la selección de las muestras finales de viviendas particulares habitadas para cada encuesta específica. Este enfoque centralizado en la MM optimiza los recursos, asegura la consistencia metodológica entre distintas encuestas y facilita la comparabilidad de sus resultados.
2. Diseño estadístico de la muestra
2.1. Descripción del diseño de muestreo
El diseño de muestreo del módulo BIARE 2025 es estratificado, aprovechando la estratificación preexistente del MMM. Dentro de cada estrato, se implementa un muestreo en cuatro etapas, diseñado para asegurar la representatividad y eficiencia de la muestra:
1). Primera etapa: Selección de UPM para la Muestra Maestra (MM).
Como se mencionó en la Sección 1.3, en esta etapa inicial, se seleccionan las UPM que conforman la MM a partir del universo del MMM. Este proceso se lleva cabo mediante un muestreo balanceado con probabilidades proporcionales al tamaño. Este método garantiza que las UPM con un mayor número de viviendas tengan una mayor probabilidad de ser incluidas en la MM, lo que optimiza su representatividad inicial y su capacidad para ser la base de múltiples encuestas.
2). Segunda etapa: Selección de UPM para el módulo BIARE 2025.
Para el levantamiento específico del módulo BIARE 2025, dentro de cada estrato previamente definido, se selecciona un conjunto de UPM de la MM. La selección en esta etapa se realiza mediante un muestreo aleatorio simple sin reemplazo. Este método garantiza que cada UPM disponible en la MM dentro de un estrato tenga una probabilidad igual de ser seleccionada para participar en la encuesta actual.
3). Tercera etapa: Selección de viviendas particulares habitadas.
Una vez seleccionadas las UPM en la segunda etapa, en cada una de estas UPM se procede a la selección de una muestra de viviendas particulares habitadas. Esta selección se realiza mediante un muestreo aleatorio simple sin reemplazo a partir del listado actualizado de viviendas en la UPM.
4). Cuarta etapa: Selección de personas.
Dentro de cada vivienda seleccionada en la etapa anterior, se elige aleatoriamente a una persona de 12 años o más que resida habitualmente en la vivienda. Esta persona funge como informante para la aplicación del cuestionario del módulo BIARE. La selección aleatoria garantiza la representatividad de la población residente en los hogares encuestados.
Este diseño multietápico permite al INEGI gestionar eficientemente los recursos, al concentrar las operaciones de campo en un conjunto limitado de UPM seleccionadas, mientras se mantiene la validez estadística y la representatividad de las estimaciones a los niveles requeridos.
2.2 Tamaño de la muestra
El tamaño de la muestra del módulo BIARE 2025 se calculó para garantizar la representatividad estadística a nivel nacional, sobre todo en lo que respecta a la estimación de proporciones clave de la población objetivo. La fórmula para el cálculo de tamaño de muestra necesario en términos de personas se presenta en la página 4 del documento de Diseño Muestral del módulo de Bienestar Autorreportado BIARE 2025.
Para este proyecto en particular, se consideraron los siguientes valores de los parámetros, basados en la experiencia del módulo BIARE 2024 y en los objetivos de precisión establecidos:
• Proporción por estimar (p): Se tomó como referencia la tasa de participación de la población objetivo en los cuidados especiales a integrantes del hogar por enfermedad crónica, temporal o discapacidad, la cual fue del 5.62 % (o 0.0562 en proporción).
• Error relativo máximo de estimación (epsilón): Se estableció un error relativo máximo del 10.0 % (o 0.10).
• Percentil de la normal estándar (z): Para una probabilidad mínima de (1-alpha)=0.9 (90 % y alpha=0.1) de observar un error relativo máximo de (epsilón)=0.1, el percentil correspondiente de una distribución normal estándar es z=1.6448.
• Efecto de diseño (DEFF): Se estableció un efecto de diseño de 2.7.
• Tasa máxima de no respuesta (tnr): Se consideró una tasa de no respuesta máxima del 15 % (o 0.15).
Aplicando estos valores a la fórmula, se obtuvo un tamaño de muestra inicial de 14,433 personas de la población objetivo.
Considerando que, en promedio, se estima que hay 3 personas de la población objetivo por vivienda, este tamaño de muestra en personas se traduce a 4,811 viviendas (14,433/3=4,811).
Cabe aclarar que, debido a la forma de distribuir la muestra de viviendas por estratos, la cual se describirá en el apartado 2.3, el tamaño de muestra final fue de 4,811 viviendas a nivel nacional.
Para estar en condiciones de proporcionar resultados a nivel nacional, el tamaño de muestra del BIARE está constituido por dos componentes. El primer componente corresponde a la muestra con 2,336 viviendas que tienen una cobertura en el agregado de las 32 ciudades del país de mayor importancia. El segundo componente corresponde una muestra adicional de 2,482 viviendas, distribuidas en los ámbitos urbano alto, complemento urbano y rural de cada entidad federativa. Cabe mencionar que el tamaño de muestra no es fijo, debido a que en el ámbito nacional la muestra de las viviendas se hace seleccionando segmentos geográficos de aproximadamente 4 viviendas en promedio cada uno, lo que hace que tengamos tamaños de muestra variable en cada mes de levantamiento de la encuesta.
2.3. Distribución de la muestra en los estratos
Para dar continuidad a la serie histórica del BIARE, se asignaron 2,336 viviendas al agregado de las 32 ciudades. El resto de las viviendas se distribuyó aproximadamente igual en cada entidad federativa y, al interior de estas, la asignación del tamaño de muestra por estrato se realizó de manera a su tamaño.
Esta asignación proporcional dentro de cada entidad federativa, combinada con una asignación casi igual entre entidades, busca optimizar la eficiencia del diseño.
2.4. Determinación del número de viviendas por UPM en la tercera etapa de muestreo
Con la finalidad de optimizar nuevamente los recursos humanos y económicos, se seleccionaron 4 viviendas en cada UPM en muestra.
Este tamaño de muestra por UPM determina el número de estas necesarias en la segunda etapa de muestreo.
El resultado final de la distribución de la muestra de viviendas por entidad federativa y tamaño de localidad se muestra en la tabla que aparece en el Anexo (a) del documento de Diseño Muestral del módulo de Bienestar Autorreportado BIARE 2025.
3. Ponderación
Los ponderadores, que se utilizan para estimar los parámetros de interés de la encuesta, se componen de tres partes: los ponderadores de diseño, los factores de corrección por no respuesta y el factor de calibración. A continuación, se describe cada uno de estos componentes.
3.1 Ponderadores de diseño
Como se mencionó en el apartado 2.1, el diseño de muestreo se realizó en cuatro etapas.
Primera etapa. Esta etapa corresponde a la selección de UPM que conforman la MM, como se mencionó en el apartado 1.3. En cada estrato se utilizó un diseño con probabilidades proporcionales al tamaño de cada UPM.
Segunda etapa. Esta etapa corresponde a la selección de UPM para el proyecto BIARE 2025. En cada estrato se utilizó un muestreo aleatorio simple sin reemplazo.
Tercera etapa. En esta etapa se seleccionan viviendas por muestreo aleatorio simple sin reemplazo.
Cuarta etapa: En esta etapa se selecciona de manera aleatoria a una persona de 12 o más años dentro de cada vivienda.
3.2. Factores de corrección por no respuesta
La no respuesta es un fenómeno inherente a las encuestas por muestreo y puede ocurrir en diferentes etapas de la captación de información. Para mitigar el sesgo potencial que esto introduce y asegurar la representatividad de las estimaciones, se calculan factores de corrección por no respuesta en cada etapa relevante del muestreo, ver la Sección 3.4 de (Valliant & Dever, 2018). Estos factores se aplican multiplicativamente a los ponderadores de diseño.
3.2.1. Ajuste por no respuesta de UPM
Es posible que, por diversas causas (e.g., inaccesibilidad, rechazo colectivo), no se obtenga respuesta de ninguna vivienda en muestra de alguna UPM seleccionada para este proyecto. Previendo esta situación, se calcula un factor de corrección por no respuesta de UPM. Este factor se aplica al ponderador de la segunda etapa de muestreo y se calcula dentro de cada estrato, ver la Sección 15.6.2 de (Särndal, Swensson, & Wretman, 1992).
3.2.2. Ajuste por no respuesta de vivienda
Dentro de las UPM que tuvieron respuesta, es posible que no se obtenga información de todas las viviendas seleccionadas. Para estos casos, se calcula un factor de corrección por no respuesta de vivienda. Este factor se aplica al ponderador de la tercera etapa de muestreo.
3.2.3. Ajuste por no respuesta de persona
Finalmente, en cada vivienda que tuvo respuesta, se selecciona aleatoriamente una persona de la población objetivo. Si no es posible captar información de esta (e.g., ausencia prolongada o rechazo individual), es necesario calcular un factor de corrección por no respuesta de persona.
3.3. Calibración de ponderadores
El proceso de calibración de los ponderadores es una etapa fundamental para asegurar la coherencia de las estimaciones obtenidas de este proyecto. Esta coherencia es vital para la integración de datos y la producción de estadísticas oficiales armonizadas.
Los ponderadores ajustados por no respuesta se someterán a un proceso de calibración para que las estimaciones de ciertas variables auxiliares coincidan con los totales poblacionales conocidos y fiables. Al incorporar información auxiliar en este proceso de calibración, se mejora la precisión de las estimaciones y se reduce el posible sesgo inducido por la corrección de la no respuesta.
Las variables auxiliares utilizadas en este proyecto para la calibración son la población estimada por el INEGI dividida en tres grupos de edad: de 0 a 11 años, de 12 a 17 y de 18 y más años.
Para lograr esta calibración, se utiliza el método Raking, ver la Sección 12.2.2 de (Tillé, 2019). Este método ajusta los ponderadores de forma iterativa para que las distribuciones marginales de las variables auxiliares en la muestra se alineen con las distribuciones marginales poblacionales conocidas. El objetivo específico de aplicar Raking con estas variables es que la muestra de este proyecto estime, con la mayor precisión posible, la población total de los tres grupos de edad antes mencionados.
De este proceso iterativo de calibración se obtiene el factor de calibración, el cual se aplica multiplicativamente al ponderador ajustado por no respuesta para cada UPM en la muestra de esta encuesta.
3.4 Ponderadores para el proceso de estimación
Los ponderadores son valores que se asignan a diferentes unidades de muestreo para identificar su importancia estadística al calcular un valor estimado.
Ponderador. Es un concepto relacionado con la probabilidad de selección y se interpreta como la cantidad de unidades en la población objeto de estudio que representa una unidad en la muestra, llámese personas, viviendas, áreas económicas o agrícolas, entre otras; dicho ponderador permite dar conclusiones sobre la población objeto de estudio.
Estimador. Es un estadístico usado para estimar un parámetro desconocido de la población objeto de estudio.
4. Estimación
4.1. Estimación de totales y razones
Se refieren al método para calcular los valores aproximados de características poblacionales (totales, proporciones, promedios y razones) a partir de los datos muestrales.
Cociente de dos Totales (R=Y/X). En teoría del muestreo, es estimar la división de dos variables (p. ej., una razón o proporción) suele implicar el uso de estimadores derivados de los datos muestrales. Diferentes diseños de muestreo, como el muestreo aleatorio simple o el muestreo estratificado, pueden influir en la elección del estimador y su rendimiento.
4.2. Estimación de la varianza
Dada la complejidad del diseño de muestreo (estratificado y multietápico) de este proyecto, las varianzas de los estimadores se calculan utilizando el método de Conglomerados Últimos, ver la Sección 4.6 de (Särndal, Swensson, & Wretman, 1992).
El método de conglomerados últimos es una técnica robusta y ampliamente utilizada para la estimación de la varianza en diseños de muestreo complejos. Este método simplifica el cálculo de la varianza al considerar únicamente la variabilidad de los estimadores entre las UPM.
Este enfoque es particularmente adecuado para este proyecto, donde las UPM de la segunda etapa actúan como los conglomerados últimos para el cálculo de la varianza. Al emplear este método, se logra una estimación viable y robusta de la varianza, se puede calcular el efecto de diseño, DEFF, y se pueden construir intervalos de confianza.
4.3 Intervalos de confianza
Un intervalo de confianza proporciona un rango de valores dentro del cual se espera que se encuentre el valor del parámetro poblacional (e.g., la proporción real de la población que realiza una actividad específica o el tiempo promedio real dedicado a una actividad), con una alta probabilidad o nivel de confianza.
La construcción de estos intervalos de confianza se basará en las estimaciones puntuales y las estimaciones de la respectiva varianza.
NOTA: Para mayor información favor de consultar el documento Diseño Muestral del módulo BIARE 2025, en la siguiente liga:
https://www.inegi.org.mx/contenidos/programas/biare/2025/doc/biare_2025_diseno_muestral.pdf
Referencias
Lohr, S. (2010). Sampling: Design and Analysis (Second ed.). Austria: Cengage Learning.
Särndal, C., Swensson, B., & Wretman, J. (1992). Model Assisted Survey Sampling. Alemania: Springer.
Tillé, Y. (2019). Sampling and Estimation from Finite Populations. Reino Unido: Wiley.
Valliant, R., & Dever, J. (2018). Survey Weights: A Step-by-step Guide to Calculation. Estados Unidos: Stata Press.