Edición de Datos
El procesamiento de la información de los Censos Nacionales de Gobierno tiene como objetivo preparar la base de datos, asegurándose de que los datos sean congruentes y ordenados para su aprovechamiento estadístico; para ello se realizan diversas actividades que implican la captura, codificación y validación de datos individuales. De manera particular, la validación permitirá resolver problemas como omisiones de respuesta, respuestas a preguntas no aplicables, multirrespuesta e incongruencias, de acuerdo con los criterios de naturaleza tanto conceptual como cuantitativa y de relación lógica. El aprovechamiento de la base de datos ya procesada se realiza basándose en procesos informáticos que se desarrollan conforme a los requerimientos definidos para la presentación de resultados.
Es conveniente prever que a lo largo del procesamiento los programas informáticos generen estadísticas sobre la frecuencia de los problemas encontrados, con el propósito de documentar las causas que los producen y sus efectos en la calidad de la información, lo cual es de particular importancia para monitorear el proceso y adecuar los criterios de validación. La información de esos reportes será de gran utilidad en proyectos similares futuros.
En un inicio se lleva a cabo la recepción de los datos provenientes de las fuentes informantes; estos datos están almacenados en archivos de donde se extraen para su depósito en la base de datos para el procesamiento. Por tanto, es aquí donde se define y crea la base de datos preliminar, que es donde se almacenan los datos para el inicio del procesamiento. Después se establece la integración, asignación de códigos requeridos y orden de los datos. Además de preparar los archivos llamados de correlación para realizar la migración de la información desde la fuente hacia la base de datos preliminar.
Al terminar de migrar, se realiza la validación de datos, esto para identificar aquellos datos que se ajustan a los criterios de validación establecidos, y dar solución a los que no se ajustan, a fin de garantizar la calidad del producto final. Por ello, a través de algoritmos informativos, denominados descriptores, se prepara la revisión automática de la información al ejecutar el procesamiento, dando como resultados el conjunto de datos validados, así como de inconsistencias a resolver.
Como actividad final, se ejecutan todos los archivos que se prepararon previamente, es decir, se migra la información, se procesa y valida, se solventan las inconsistencias y, por último, se integran los datos en la base de datos definitiva. El conjunto de datos que contiene la base de datos definitiva ya fue procesado y permite la identificación, cuantificación y caracterización estadística para la creación de productos finales de calidad.
Para documentar el procesamiento de datos, se crea finalmente los siguientes documentos:
a) Modelo de base de datos: es una referencia grafica de la estructura de la base de datos definitiva, que se utiliza para consulta de la información. Es creado con la herramienta informática modeladora de datos, que trabaja con el archivo SQL que se generó. Al cargar el archivo en la herramienta se genera una vista de las tablas, que las distribuye de tal manera que sea más fácil visualizar la relación que hay entre ellas y así poder analizar sus atributos. Como resultado se obtiene un archivo en formato PDF.
b) Conteo de datos: de la base de datos definitiva se hace un conteo de todos los datos, en este conteo se incluye la segregación de cuatro tipos de datos: “Mayores o iguales a cero” y que incluyen códigos relacionados con preguntas de tipo “verdadero” y “falso”; valores que corresponden a reactivos que por las características de las preguntas no requieren una respuesta o no requieren el registro de datos específicos, y que se registran como “No aplica” y se codifican con “-2”; valores que corresponden a datos que no fueron proporcionados por el informante, ya sea por desconocimiento o por falta de elementos de información en sus registros estadísticos y que se registraron como “No se sabe” y se codificaron con “-1”; por último, los denominados valores nulos que corresponden a variables que no requieren registro de información dada la construcción de las tablas y las características de las preguntas, es decir, son variables que no tiene un valor asignado en la base de datos.
c) Archivo de revisiones de caso y bitácora de cambios: se genera un archivo en una hoja de cálculo donde se registran las inconsistencias y sus soluciones, con este archivo se tiene control sobre todos los cambios aplicados a la base de datos preliminar, así como de las inconsistencias detectadas, sirve como bitácora del procesamiento. Además, se incluyen todos los cambios realizados a la información durante el procesamiento.