Construcción de un índice compuesto y aproximación para medir los cambios en el tiempo

Edición: Vol.5 Núm.2 mayo-agosto 2014

rde_12_art06

     

En este trabajo se desarrolló una metodología para la construcción de un índice compuesto que resume la información contenida en fenómenos de naturaleza multidimensional. La varianza explicada por este índice es casi igual a la obtenida por la técnica de análisis de componentes principales (ACP) respecto a la varianza total del conjunto original de variables consideradas, lo cual fue corroborado mediante simulación de Monte Carlo y con aplicación a datos derivados de los censos de población y vivienda levantados por el Instituto Nacional de Estadística y Geografía (INEGI). El resultado de los cambios en el tiempo se obtiene al establecer un espacio común de mediciones.

Las ventajas del nuevo índice comparado con el de la primera componente principal son: el cálculo es muy simple e intuitivo; es de fácil interpretación, ya que los resultados se dan en la misma escala que las variables de insumo; y no se prevén problemas de comunicación con el usuario en general.

Palabras clave: índice multivariado, marginación, primera componente principal, varianza explicada, ponderador, proyección ortogonal.

 

This paper shows the development of a methodology aimed for the creation of a compound index that summarizes the information contained in multidimensional phenomena. The variance explained according to this index is almost identical to that obtained with the technique of Principal Components Analysis (PCA) in regard to the total variance of the original set of considered variables. This was proven by means of a Monte Carlo simulation as well as by applying data that derived from Population and Housing Censuses conducted by the National Institute of Statistic and Geography (INEGI). The result of changes over time is obtained by having established a common space of measurements.

The advantages of the new index, compared with that of the first main component, are that the calculation is very simple and intuitive; it is of easy interpretation since the results are given in the same scale that the input variables; and that we do not foresee communication problems with the user.

Key words: multivariate index, marginalization, first main component, explained variance, weight, orthogonal projection.

 

Recibido: 13 de noviembre de 2013

Aceptado: 24 de abril de 2014

 

 

1. Introducción

Los indicadores sintéticos son de gran utilidad para resumir la información contenida en un conjunto, generalmente grande, de variables medidas sobre un mismo individuo u objeto; permiten brindar un primer referente de la situación que prevalece en fenómenos de naturaleza multidimensional y, así, orientar a quienes toman decisiones en los diversos campos de acción. Un indicador sintético debe ser fácil de calcular, confiable, comparable en el tiempo y en el espacio, sencillo de interpretar y de fácil comunicación con el usuario en general; para su construcción, suelen utilizarse técnicas de análisis estadístico multivariado para analizar, de manera simultánea, tres o más variables. Entre las más usuales se ubica el análisis de componentes principales (ACP) en sus diferentes variantes.

En la revisión de literatura especializada (al menos en el campo de la estadística oficial), no se encontró ningún procedimiento para construir un índice multivariado que cumpla con las características mencionadas. En particular, se analizaron las técnicas de factores dinámicos, STATIS y componentes principales comunes (ver Flury, 1984 y 1987; Forni, 2000; Lavit, 1982 y 1988; Watson, 1983; Geyne y Hernández, 2007).

Éstas son de las más citadas para establecer comparaciones en el tiempo, y los resultados obtenidos mediante su aplicación son válidos e inamovibles sólo en el periodo considerado; sin embargo, el problema surge cuando se quiere incorporar información de otro tiempo; en este caso debe considerarse el nuevo conjunto de datos históricos agrandado, y los resultados cambian respecto a los obtenidos en el cálculo anterior, lo cual puede generar desconfianza y desconcierto tanto en los usuarios como en los tomadores de decisiones, quienes podrían estar familiarizados con las cifras proporcionadas en algún ejercicio previo. La explicación de esta situación al usuario no es fácil de comunicar, además de que las técnicas en sí tienen un alto grado de especialización.

Cortés y Vargas (2011) proponen una metodología para medir la marginación en México a través del tiempo mediante el uso del análisis factorial confirmatorio y del concepto de invarianza longitudinal. De la lectura de su artículo se desprende que los puntajes obtenidos no están acotados entre cero y cien (en términos porcentuales) como lo están los indicadores básicos que sirven de insumo para la construcción del índice compuesto; su cálculo no es simple, se requiere cierto grado de adiestramiento, pero tal vez la mayor área de oportunidad que se observa es la difícil comunicación con el usuario.

La Organización para la Cooperación y el Desarrollo Económicos (OCDE, 2008) desarrolló un manual a manera de guía para la construcción y uso de indicadores compuestos; constituye una amplia revisión de aspectos conceptuales y prácticos, y proporciona recomendaciones que ayudan a entender sus aplicaciones y la interpretación de resultados.

Los índices multivariados construidos en México han sido un referente importante para el diseño y evaluación de programas sociales, así como para la focalización de recursos; permiten identificar, particularmente, a las unidades geográficas con mayores carencias y dan la pauta para realizar estudios específicos sobre los grupos de población vulnerable que son objeto de apoyos gubernamentales. A partir de 1990 se identifican los siguientes índices:

• Índice de rezago social para reubicar las tiendas del Sistema de Distribuidoras Conasupo, SA de CV (DICONSA).

• Índice para medir la calidad del empleo en las ciudades de México. Universidad Autónoma del Estado de Hidalgo (UAEH).

• Índice para medir el cumplimiento de los derechos humanos del Instituto Nacional de Derechos Humanos (INDH).

• Índice de marginación del Consejo Nacional de Población (CONAPO).

• Índice de rezago social del Consejo Nacional de Evaluación de la Política de Desarrollo Social (CONEVAL).

• Índice de rezago del Gobierno del Distrito Federal.

Lo anterior originó el desarrollo del presente trabajo, que tiene como objetivo construir una medida resumen sencilla que dé cuenta de la magnitud del fenómeno estudiado y de sus cambios en el tiempo, que facilite la interpretación de resultados y la comunicación con el usuario, para apoyar las decisiones dirigidas a mejorar el bienestar de la población.

2.- Marco teórico

En el ACP existen tantas componentes principales (CP) independientes como variables de insumo correlacionadas se hayan considerado. La primera CP explica la mayor cantidad posible de la varianza conjunta de esas variables para una combinación lineal, y expresa el tamaño promedio del fenómeno estudiado, razón por la cual suele utilizarse como un índice cuyo nombre es acorde con la naturaleza del problema, y la calidad del mismo se forta-lece cuanto mayor es la varianza explicada; éste se construye al optimizar una función de varianzas y es claro que ningún otro que sea combinación lineal de variables puede contener más información que la primera CP.

Por lo anterior, la técnica de ACP ha sido de las más utilizadas para la construcción de índices socioeconómicos. No obstante, la relevancia teórica del índice resultante presenta en la práctica ciertas limitaciones; si bien es cierto que retiene la máxima cantidad de información —es decir, es el que mejor representa al conjunto original de variables y permite un ordenamiento entre las unidades de observación—, no es de utilidad para medir los cambios en el tiempo y tampoco es fácil de interpretarlo ni comunicar los resultados con el usuario en general.

Así, para cumplir con la primera parte del objetivo planteado, se ha generado un nuevo índice que conserva, en la medida de lo posible, las propiedades teóricas de la primera CP y supera las li-mitaciones mencionadas. Para ello, la metodología utilizada en este trabajo fue la siguiente:

• Se estudió a profundidad la técnica de análisis de componentes principales aplicada a la matriz de correlaciones R (Jackson, 1991; Johnson, 1982; Peña, 2003; Vences, 1999). Algo nuevo desprendido de ello es que cuando las variables de insumo forman un solo factor, en la combinación lineal de la primera CP el mayor ponderador corresponde a la variable que, en promedio, está más correlacionada con el resto; el segundo ponderador, en orden decreciente de magnitud, es el asociado con la variable que presenta la segunda mayor correlación con las demás; y así, de forma sucesiva. Esto es, el vector característico de la primera CP es aproximadamente proporcional al vector de correlaciones promedio entre cada variable original y el resto.

• Se generaron varios índices alternativos.

• Los diversos índices se compararon con la primera CP (Y1) en términos de la varianza explicada. Para esto, en principio se recurrió a la técnica de simulación de Monte Carlo; después, se realizaron aplicaciones con datos derivados de los censos de población y vivienda 1990-2010 (INEGI, 2012) y se contrastaron con los resultados esperados.

• El mejor índice sería aquel que en términos de la información retenida fuera similar al obtenido por el ACP, pero de fácil interpretación y simplicidad en su cálculo y, sobre todo, que resultara de utilidad para el usuario.

Por su parte, para la medición aproximada de los cambios en el tiempo se utilizó la proyección ortogonal de un vector sobre otro y, sin pérdida de generalidad, para referirse al tiempo se ha usado el término año.

3. El índice

El índice constituye un promedio aritmético ponderado, donde la suma de los ponderadores es igual a la unidad. Por lo tanto, se interpreta en términos de las unidades de las variables originales y es muy fácil de calcular por el usuario en general; aspectos de los que adolece la técnica de ACP.

4. Los cambios en el tiempo

En la realidad, el caso más usual es que la matriz de correlaciones (o de covarianzas) entre las variables consideradas no permanezca constante en el transcurso del tiempo debido a que los cambios registrados en las unidades de observación no son proporcionales, de manera que los vectores de ponderaciones resultantes son diferentes y, por lo tanto, apuntan en direcciones también distintas, lo cual hace que sus magnitudes no sean directamente comparables. Para salvar esta situación, una vez que el nuevo índice es obtenido para cada año, se calcula la norma de la proyección ortogonal a un año base, con el fin de tener un espacio común de mediciones de una sola dimensión y, así, determinar los cambios aproximados en el tiempo. La proyección se logra mediante el producto escalar:

y la norma o magnitud de este vector se calcula como:

donde,

u = vector de ponderaciones en la combinación lineal del nuevo índice para el año base definido.

v = vector de ponderaciones en la combinación lineal del nuevo índice para los otros años.

Proyu(v) = proyección ortogonal del vector v sobre el vector u.

|u•v| =valor absoluto del producto escalar entre los vectores, u y v.

||u|| = norma o magnitud del vector u.

Cabe recordar que en un espacio euclidiano, de entre todos los vectores en la dirección de u, hay uno que es el más próximo a v. A esto se le llama mejor aproximación de v sobre u, y es precisamente la proyección ortogonal Proyu(v). (Campos, 2014, p. 15.).

5. Resultados de la simulación

Se simuló un experimento en el que se generaron variables correlacionadas distribuidas de forma aleatoria, para diferentes tamaños de población. El experimento se repitió 500 veces mediante la elaboración de una rutina en lenguaje de programación R (R Core Team, 2013).

En el cuadro 1 se observa que la varianza explicada por el nuevo índice (I) es casi la misma que la correspondiente a la primera componente principal, Y1. De hecho, el cociente de la información retenida por esta componente respecto al nuevo índice es muy cercano a la unidad.

6. Resultados en la práctica

Para el análisis de resultados prácticos, se utilizaron los nueve indicadores básicos del índice de marginación del Consejo Nacional de Población (CONAPO, 2013) aplicados a las 32 entidades federativas del país, para 1990, 1995, 2000, 2005 y 2010.

En el cuadro 2 se muestran algunas estadísticas descriptivas para los indicadores considerados. Ahí se observa que, en promedio, los indicadores de rezago social tienden gradualmente a la baja al transcurrir el tiempo, es decir, experimentan una mejora, pero según el coeficiente de variación, el beneficio del desarrollo entre las entidades no es equitativo; por lo tanto, el nuevo índice sintético tendrá que reflejar esta situación en términos numéricos.

Por su parte, las mayores dispersiones las presenta el indicador correspondiente a la población radicada en localidades rurales; en contraste, las menores se registran donde no disponen de energía eléctrica; por ejemplo, para el 2010, la varianza del primero es casi 150 veces más grande en relación con el segundo, lo cual significa que las varianzas de los indicadores son heterogéneas, a pesar de estar medidos en la misma escala (en porcentaje), pero los recorridos son diferentes de forma notoria. Esto, junto con el hecho de que conceptualmente se establece la misma importancia para cada variable, conlleva a que el índice compuesto se genere a partir de las variables estandarizadas respecto a su desviación estándar, es decir, que se utilice la matriz de correlaciones en lugar de la de covarianzas.

Al final de este mismo cuadro se pueden ver las correlaciones medias entre cada indicador y el resto, donde se observa que, en general, son altas para los cinco años, por lo que, dado el traslape de información, es posible construir índices sintéticos que den cuenta de manera resumida de la situación multivariada prevaleciente en los conjuntos de datos originales.

En el cuadro 3 se presentan los resultados obtenidos tanto por la primera componente principal (Y1) como por el nuevo índice (I), así como los niveles de rezago social a partir de este último; las observaciones están ordenadas de manera descendente conforme al nuevo índice para 1990.

Los límites de los intervalos de valores que corresponden a los niveles de rezago fueron establecidos de manera arbitraria, pero razonada, al observar la situación que prevalece en el año inicial (1990), esto es, no se utilizó ningún procedimiento de análisis de conglomerados; se mantuvieron fijos a lo largo del tiempo con el fin de observar los cambios de nivel entre las unidades de observación al pasar de un año a otro.

El nuevo índice aparece transformado al considerar la proyección ortogonal al año base 1990, una vez que es calculado para cada año; por ejemplo, los vectores de ponderaciones unitarios para 1990 y 1995, respectivamente, son:

u = (.499, .339, .238, .385, .252,
.421, .262, .188, .295)’

v = (.472, .442, .191, .460, .252,
.350, .258, .156, .239)’

Para encontrar la magnitud de la proyección del índice de Aguascalientes, de 1995 a 1990, el procedimiento es como sigue:

Primero se determina el vector que correspo de a la magnitud del índice en la dirección de v:

w = (18.6)*(.472, .442, .191, .460, .252,
.350, .258, .156, .239)’
=(8.8, 8.2, 3.5, 8.6, 4.7, 6.5, 4.8, 2.9, 4.4)’.

Así, conforme a lo expresado en el apartado 4, la magnitud del índice en la dirección de u para 1990 es:

w • u= 18.3

En este mismo cuadro destaca que el ordenamiento coincide con el de Y1 (de hecho, las varianzas explicadas por ambos procedimientos también coinciden hasta del orden de centésimas y se ubican cerca de 80%); sin embargo, obsérvese como sus valores no son fáciles de interpretar: algunos son positivos y otros, negativos; en el tiempo suben y bajan, además de que no están en la escala de las variables originales ni poseen un cero absoluto. Esto es consecuencia principal de la forma en que se estandarizaron los indicadores básicos, ya que fueron expresados como desviaciones respecto a sus propias medias divididas entre sus correspondientes desviaciones estándar (Cortés y Vargas, 2011, p. 362).

En contraste, con el nuevo índice, estas limitaciones son esclarecidas. En particular, se observa que el rezago social disminuye a lo largo del tiempo para todas las entidades federativas, reflejando así el comportamiento de las variables originales, en una escala también de cero a cien en términos porcentuales.

Con base en los resultados del nuevo índice, en la gráfica 1 se ilustra la disminución gradual del rezago social en el tiempo; se observa que, en general, la brecha entre las entidades federativas es cada vez más cerrada.

Mientras tanto, en la gráfica 2 se destaca que las tres entidades con mayor rezago social son Chiapas, Oaxaca y Guerrero; en el otro extremo se ubican el Distrito Federal, Nuevo León y Baja California.

7. Conclusiones

El nuevo índice compuesto refleja la situación que prevalece en las unidades de observación, según las variables originales consideradas, esto es, permite un ordenamiento de las unidades de observación y mide los cambios aproximados en el tiempo.

Dicho índice está dado en la misma escala de medición que las variables de insumo (en particular, si éstas expresan un porcentaje); entonces, el índice tendrá una variación entre cero y 100.

El nuevo índice es fácil de calcular, de interpretar y, por lo tanto, también sin problemas para comunicarlo o explicárselo al usuario no especializado.

En contraste con la primera componente principal, el nuevo índice tiene una interpretación intuitiva, ya que al considerar el promedio de la correlación entre cada variable y el resto, de manera inmediata se asocia el mayor valor con la importancia de la variable correspondiente, y es ahí donde debe ponerse especial interés, de manera tal que invertir en ella para abatir su rezago, si fuera el caso, indirectamente se estaría mejorando la situación de las otras variables y, por lo tanto, beneficiando a la población objeto de análisis, por ser el fin último de las políticas sociales.

8. Consideraciones finales

La metodología para generar el índice tiene sentido cuando las variables son numéricas y están correlacionadas; de preferencia, medidas en la misma dirección, es decir, todas deberán ser de bienestar, o bien, de rezago. Por lo tanto, el índice es de uso generalizado a cualquier fenómeno con estas características de medición.

El nuevo índice sintético es con fines exploratorios y descriptivos; se aplica a datos poblacionales. Su aplicación con datos muestrales y la consideración de dependencia temporal para realizar inferencia estadística quedan fuera del alcance de este trabajo, aunque pueden ser motivo de discusiones académicas y de estudios posteriores con mayor grado de especificidad.

Cuando se utiliza la matriz de varianzas y covarianzas los coeficientes que deben normalizarse son: ci /S, donde ci denota la covarianza y se define de manera similar como en el caso de ri, pero ahora el

promedio se obtiene sobre p; S es la suma de los ci . De esta forma,

donde,

Por último, con el propósito de facilitar el cálculo de indicadores compuestos y enriquecer el análisis, ya se cuenta con una aplicación informática en lenguaje de programación R, donde también es posible observar la relación entre variables provenientes de diversas fuentes, formar los factores inmersos y seleccionar aquél relevante para la construcción del índice sintético de interés; esto mediante la presentación y vinculación de gráficas multivariadas, como es el caso de las Biplot y Trellis, así como de las gráficas dinámicas, pero también con la aplicación de técnicas estadísticas recientes. En la actualidad, se está analizando la forma de incorporar elementos geográficos, como: ríos, carreteras, distancias y ubicación de los centros de salud. El sistema se encuentra en su versión beta y se espera que, en breve, el usuario pueda generar su propio índice en línea; para conocer más acerca de esto, el lector puede comunicarse con el autor del presente artículo.

Fuentes

Campos, Neila. Álgebra Lineal. Espacio Euclídeo. España, Universidad de Cantabria. Consultado en: http://personales.unican.es/camposn/espacio_euclideo.pdf el 15 de mayo de 2013.
Consejo Nacional de Población. Índices de marginación 1990, 1995, 2000, 2005 y 2010. México, consultados en: www.conapo.gob.mx/es/CONAPO/Indices_de_Marginacion el 11 de abril de 2013.
Cortés, F. y D. Vargas. “Marginación en México a través del tiempo: a propósito del índice de CONAPO”, en: Estudios Sociológicos. Vol. XXIX, núm. 86, mayo-agosto, 2011, pp. 361-387. Distrito Federal, México, El Colegio de México.
Flury, B. N. “Common principal components in k groups”, en: Journal of the American Statistical Association. 79, 1984, pp. 892-898.
________ “Two generalizations of the common principal component model”, en: Biometrika. 74, 1987, pp. 59-69.
Forni, Mario, Marc Hallin, Marco Lippi y Lucrezia Reichlin. “The generalized dynamic factor model: identification and estimation”, en: The Review of Economics and Statistics. Noviembre del 2000.
Geyne, F. y R. Hernández. “Análisis longitudinal de la marginación en México (1990-2005)”, en: XXII Foro Nacional de Estadística, AME. 2007.
INEGI. Censos y conteos de población y vivienda, 1990-2010. México, consultados en: www.inegi.org.mx/est/contenidos/proyectos/ccpv/default.aspx el 26 de noviembre de 2012.
Jackson, J. Edward. A User´s Guide To Principal Components. New York, John Wiley & Sons, Inc., 1991.
Johnson, Richard A. y Dean Wichern. Applied Multivariate Statistical Analysis. New York, Prentice-Hall, Inc., 1982.
Lavit, Ch. Analyse Conjointe de Tableaux Quantitatifs. París, Masson, 1988.
Lavit Ch. y C. Roux. Manual del método Statis. Ponencia en ISUP, París, 1982.
OCDE. Handbook on constructing composite indicators: methodology and user guide. París, Francia, 2008. Consultado en: http://www.oecd.org/std/42495745.pdf el 19 de marzo de 2013.
Peña, Daniel. Análisis de datos multivariantes. McGraw-Hill Interamericana de España, 2003.
R Core Team. R: A language and environment for statistical. 2013. Consultado en: www.R-project.org/
Vences, José. Estadística multivariada. Análisis de factores. México, Instituto de Educación de Aguascalientes, 1999.
Watson, Mark W. y Robert F. Engle. “Alternative algorithms for the estimation of dynamic factors, MIMIC, and varying coefficient regression models”, en: Journal of Econometrics. 23, 1983, pp. 385-400.

 

 

 

Jose Vences Rivera

Autor

Es de nacionalidad mexicana. Estudió la carrera de Física y Matemáticas en el Instituto Politécnico Nacional, tiene la Maestría en Estadística Experimental por el Colegio de Postgraduados y cursó un posgrado en Demografía en el Centro Latinoamericano de Demografía (CELADE)-Universidad de Costa Rica. Como docente, ha impartido cursos en diferentes maestrías de la UAA. Ha sido conferencista sobre estadística oficial y superación de la pobreza en diversas universidades del país y el extranjero. Es autor del libro Estadística multivariada análisis de factores. Fue miembro del Grupo de Río-CEPAL sobre Estadísticas de Pobreza y del Comité Técnico para la Medición de la Pobreza en México, así como representante del INEGI en este tema para la Conferencia Estadística de las Américas. Es miembro activo de la Sociedad Matemática Mexicana y de la Asociación Mexicana de Estadística. Fue cofundador de la Maestría en Ciencias en Estadística Oficial INEGI-CIMAT y coordinador académico de la misma. En la actualidad, se desempeña como director de Desarrollo de Procesos Estadísticos en el INEGI.