Hay numerosas definiciones de la revolución de datos. El informe del Grupo de Consejeros Expertos Independientes del Secretario General de la ONU (IEAG, por sus siglas en inglés) menciona una “explosión” en el volumen y producción de datos emparejados comuna “creciente demanda de datos de todas partes de la sociedad” (IEAG, 2014). PARIS21 usa un enfoque complementario y se refiere a “entregar los datos correctos a la gente pertinente en el momento oportuno” (PARIS21, 2015). Esta definición enfatiza que la revolución de datos debería incrementar el uso y el impacto de los datos sobre los resultados.
Para posibilitarlo, las estrategias de los Sistemas Estadísticos Nacionales (SEN) deberán incluir, donde fuese posible, nuevas fuentes de datos y mayor contacto con los nuevos actores, como ser el sector privado, organizaciones sin fines de lucro e instituciones académicas. Estas directrices están escritas con un enfoque sobre este aspecto particular e importante de la Revolución de Datos. El acceso y uso de estas nuevas fuentes de datos en un nuevo ecosistema de-usuarios, dueños, productores y legisladores permitirá que los decisores políticos, las organizaciones de la sociedad civil y los ciudadanos “monitoreen el progreso, pidan cuentas a sus gobiernos e impulsen el desarrollo sostenible” (IEAG, 2014).
La Revolución de Datos adquiere diferentes significados dependiendo de la posición dentro del ecosistema de datos en la que se esté. Las Estadísticas Oficiales y los SEN se enfrentarán a desafíos en la adaptación al entorno de datos. De lo contrario, los modelos de desarrollo estadístico que fueron implementados a lo largo de los últimos 15-20 años podrán ser ignorados por las nuevas agencias productoras de datos y considerados irrelevantes. La Revolución en Datos afectará cada área del SEN. Esto ya sucede en ciertos países como Senegal donde propuestas innovadoras para la planificación y adaptación de operaciones estadísticas basadas en Registros en Detalle de Llamadas [CDRs, por sus siglas en inglés]de operadores de redes móviles están impulsando un nuevo pensamiento hacia la acción. En otros países también, los Institutos Nacionales de Estadística (INE) necesitarán adaptarse para poder mantener su relevancia en el nuevo ecosistema.
El uso de estas nuevas fuentes de datos (definidas posteriormente en esta Sección) se alienta explícitamente en los Principios Fundamentales de las Estadísticas Oficiales. Más específicamente: para honrar el derecho de los ciudadanos a la información pública (basada en calidad, oportunidad, costo), los INE pueden alimentarse de “todo tipo de fuentes” (Naciones Unidas, 2014). El rasgo que define a las estadísticas oficiales es que deben ser provistas por instituciones oficiales de acuerdo a estándares profesionales y normas tales como las de los principios fundamentales.
“Principio 5: Relación costo-eficacia: Los datos para fines estadísticos pueden obtenerse de todo tipo de fuentes[...].Los organismos de estadística han de seleccionar la fuente con respecto a la calidad, la oportunidad, el costo y la carga que impondrá a los encuestados.” -- Naciones Unidas (2014), Principios Fundamentales de las Estadísticas Oficiales.
Todas las etapas ENDE deberían responder a estas nuevas demandas considerando:
- Mayor desarrollo de los sistemas administrativos de datos para producir estimaciones fiables y robustas, para cambiar la base de los datos referidos a la población y anclar nuevas fuentes de datos.
- Complementar la recolección tradicional con nuevas fuentes basadas en revisiones de costos, facilidad de recolección, y calidad de datos obtenida gracias a los nuevos procesos y sustentabilidad de estos procesos.
- Emprender la evaluación de la sustitución de las actuales fuentes de datos en términos de “costo-eficacia”.
- Desarrollar un plan exhaustivo de datos y un enfoque coordinado asure colección, incrementando la frecuencia de previsiones, profundizando el desglose, y ampliando la cobertura geográfica (ver la hoja de Ruta de la Revolución de Datos desarrollada por la Alianza Global de Datos para el Desarrollo Sostenible).
- Presupuestar personal/recursos humanos en el campo emergente de la ciencia de datos pero también en capacidades legales y regulatorias.
- Desarrollar un plan para construir nuevas alianzas, ya sea al construir nexos con diferentes actores dentro del sector privado, ya sea acudiendo a la red de consultorías de confianza, o apalancando a los institutos estadísticos regionales para facilitar el acceso a grandes multilaterales.
- Establecer fuertes nexos con las Estrategias Regionales para el Desarrollo Estadístico (ERDE) para combinar los recursos en centros de conocimiento y excelencia regionales donde las agencias estadísticas nacionales no tiene la capacidad o recursos para adaptarse.
- Revisar de los procesos existentes de negocios en estadística, y si fuese necesario, corregirlos
Mejorando los Procesos de Datos Existentes
No hay duda de que los censos y encuestas continuarán siendo las principales fuentes de datos para el monitoreo internacional y toma de decisiones nacionales, y que los sistemas de recolección de datos administrativos deberán ser desarrollados. Este legado continuará y, de hecho, serán siempre necesarias para cambiar de base los datos referidos a la población. Estimaciones de población, confiables y robustas, anclarán las nuevas fuentes de datos y los harán más útiles. La Revolución de Datos y las tecnologías que la posibilitan nos proporcionan las herramientas para mejorar la actual gestión en varias áreas, como ser:
- Metodologías de encuesta. Mejoras en la metodología de encuestas
- Recolección de datos móviles. El ingreso remoto de datos utilizando teléfonos móviles y “tablets”
- Datos administrativos. Desarrollos actuales en la disponibilidad de datos administrativos y su uso (ver capítulo sobre Datos Abiertos)
- Difusión de datos. Difusión coherente utilizando nuevas tecnologías y herramientas innovadoras que se adapten a la demanda de los usuarios (ver en particular el capítulo sobre Difusión de Datos)
La aplicación de innovaciones puede ayudar a agilizar los procesos existentes y asegurar mayor confiabilidad de las encuestas. Los INE deberán trabajar con los sectores y reconciliar, promover y abogar a favor del desarrollo de fuertes sistemas administrativos. Estos datos son, en muchos casos, comparativamente más baratos. Sin embargo, debido a que no provienen de estudios poblacionales, mayor esfuerzo deberá dedicarse a conciliarlos. Para ello, el INE debería generar listas de principales centros de servicio público para incluirlos en proceso de planificación. Una meta a ser adoptada por las INE, a fin de tener una base de datos de referencia para planificar las encuestas y, a la vez, brindar un servicio a la sociedad civil, es el desarrollo zonas de referencia geo-espacial. En ellas se trazarán las demarcaciones territoriales utilizadas en censos y se marcaran los servicios de salud (clínicas y dispensarios), escuelas (primarias, secundarias) y servicios de extensión agrícola.
Nuevas Fuentes de Datos y Sistemas Estadísticos Nacionales
Movilizar la Revolución de Datos para el desarrollo sostenible requiere que el SEN emplee la creciente cantidad de datos, muchos de los cuales están en manos del sector privado. Nuevas alianzas de datos con el sector privado, ya sea con o sin fines de lucro, pueden ahorrar costos y proporcionar datos más detallados y reveladores más oportunamente. Ellas también acarrean desafíos y riesgos(cf. PARIS21, 2015).Lo que se llama popularmente “Big Data”- “rastros de acciones humanas recolectadas por aparatos digitales” (Letouzé et al., 2013) – tendrá que ser gestionado y probablemente cree alianzas pertinentes entre académicos, analistas políticos y el SEN. Se debe tomar recaudos, pues el uso de estos datos requiere técnicas analíticas relativamente sofisticadas.
Independientemente de cómo se definan los nuevos datos, en vez de intentar una definición de las “nuevas fuentes”, este capítulo asume una perspectiva más pragmática y reduce su alcance. Se toman las siguientes cinco sobre las que existe un consenso en considerar novedosas para las estadísticas oficiales, en orden de viabilidad de implementación en el contexto de un país en desarrollo.
- Datos de sensores y geoespacial. Ejemplo: Utilizar imágenes satelitales para estimar niveles de pobreza (ver aquí).
- Datos de telecomunicaciones. Ejemplo: Utilizar registros-en-detalle de llamadas para estimar pobreza y riqueza (ver aquí).
- Transacciones comerciales, incluyendo datos de escáner, datos de tarjetas de crédito, etc. Ejemplo: Utilizar datos de escáner para el Índice de Precios al Consumidor (ver aquí).
- “Web crawling”, “scraping”, búsqueda y análisis. Ejemplo: Utilizar “posteos” [notificaciones] en sitios de búsqueda de empleo en línea, o datos LinkedIn para estimar cambios en categorías de empleo (ver aquí).
- Redes Sociales. Ejemplo: Utilizar Google Trends y análisis de opiniones para medir el bienestar subjetivo (ver aquí).
Estas fuentes de datos son particularmente útiles para reportar sobre indicadores entre encuestas y captar cambios en aquellos que varían rápidamente. Los estudios de caso de países serán una fuente de información primaria ya que actualmente el uso de estos datos es altamente embrionario. El SEN deberá involucrarse en una mayor comprensión de la viabilidad de utilizarlas en el país. Las instituciones regionales probablemente tendrán un rol activo en la gestión de los escasos recursos y el aprovechamiento de las economías de escala.
El acceso al Big Data (en manos del sector privado) y las cuestiones de privacidad relacionadas se diferencian del uso de datos administrativos (ocasionalmente denominados del mismo modo). Para acceder datos administrativos, los INE pueden valerse de los marcos legales existentes. Los provenientes de empresas, en cambio, son un nuevo campo y su acceso deberá ser reglamentado por comisiones nacionales sobre protección de privacidad e incluyendo a los actores relevantes. A nivel internacional, el Grupo de Trabajo Internacional sobre Big Data para Estadísticas Oficiales de la ONU está trabajando en la actualidad sobre “Principios de Acceso a Datos” que podría ampliarlos Principios Fundamentales de Estadísticas Oficiales (Naciones Unidas, 2014).
Robin, Klein y Jütting (2016) proporcionan una visión general detallada de los beneficios y complementariedades, así como de los riesgos y desafíos, asociados al uso de nuevas fuentes de datos. Los siguientes puntos resumen las lecciones claves para los SEN.
Beneficios y Complementariedades
- Efectividad en costos. Las alianzas público-privadas – definidas como acuerdos voluntarios de colaboración orientados a incrementar la capacidad del SEN de proporcionar nuevas o mejores estadísticas- pueden ayudar a ahorrar recursos al compartir datos y a evitar los altos costos iniciales de infraestructura. Primero, los costos marginales de transferir los datos ya recolectados por el sector privado a una SEN involucrada son extremadamente bajos. Por ejemplo, mientras que una encuesta en los Estados Unidos podría costar más de $20 millones, el comparar los microdatos con los datos agregados existentes (por ejemplo, vincular los datos a nivel de planta con los datos a nivel empresa) podría costar menos de una quinta parte (Landfeld, 2014). Segundo, al terciarizar [outsourcing]el procesamiento de los datos, una SEN limitada en capital puede hacer uso del software y experiencia del sector privado y así evitarlos elevados costos iniciales.
- Oportunidad. Ya que los metadatos móviles no procesados se encuentran disponibles casi instantáneamente, los Registros-en-Detalle de Llamadas (CDRs) de los operadores de telefonía móvil, por ejemplo, pueden producir estadísticas casi en tiempo real. .
- “Granularidad”. Los datos del sector privado –los CDRs y datos geoespaciales en particular – ofrecen un gran nivel de detalle temporal, espacial, temático e individual. Esto es útil para la evaluación de políticas a corto plazo y la producción de estadísticas desglosadas a nivel regional y sub-regional, como ejemplo.
Las nuevas fuentes de datos también permiten que las agencias estadísticas midan tendencias que previamente fueron consideradas inmensurables, así como poder responder a los vertiginosos cambios en los requisitos de las políticas públicas.
- Datos en nuevas áreas. El Big Data en particular tiene el potencial de sustentarla generación de nuevos indicadores previamente no compilados por los INE, tales como la medición de desigualdades que son especialmente relevantes dentro del marco de los ODS.
- Capacidad de respuesta incrementada Nuevas fuentes dotan a los INE de la capacidad requerida para responder rápidamente a nuevas consultas y ayudar a los académicos con sus modelos.
Riesgos & Desafíos
Cuatro desafíos vinculados a las propiedades específicas de los datos distinguen a la mayoría de las alianzas para estadísticas de aquellas en otros sectores como salud o infraestructura. Asegurar la seguridad de los datos privados, crear un modelo para el intercambio de datos, preservar la privacidad y enfrentar las dificultades técnicas asociadas con Big Data.
- Acceso. La filtración de información privada es vista como una considerable amenaza para las organizaciones con o sin fines de lucro. La información concreta sobre los clientes, compradores o estrategias de una organización es generalmente confidencial. Por ejemplo, los CDRs, que son utilizados por empresas para propósitos de geo-marketing son mucho más sensibles que los relativamente accesibles tweets públicos. Hay también preocupaciones de que los gobiernos podrían utilizarlos datos para propósitos regulatorios o que la difusión de datos sobre los clientes de una organización podrían dañar su imagen pública.
- Incentivos y sostenibilidad. Ciertos factores pueden reducir el atractivo de las alianzas de datos como modelo de negocios. Primero, la incertidumbre sobre la demanda de Big Data puede generar dudas sobre la dimensión del mercado. Segundo, los beneficios de las alianzas de datos no son siempre inmediatos o directos. Tercero, hay preocupaciones sobre la durabilidad de las nuevas fuentes de datos. De hecho, dado que los datos privados se recolectan originalmente con propósitos no estadísticos, mantener el proceso de extracción podría convertirse en una carga si el campo aplicación inicial perdiera relevancia.
- Privacidad y ética. La dimensión de intercambio propia de las alianzas de datos puede poner en peligro la privacidad individual o de grupos. Por lo tanto, la seguridad de la información es tanto una condición como una meta en sí misma. Primero, la legislación sobre privacidad impone restricciones regulatorias. Ya que la mayoría de las legislaciones sobre privacidad y datos no cubren Big Data en forma específica, las leyes existentes están sujetas a interpretación. Por lo tanto los INE no tienen un claro mandato para explotar microdatos sensibles como ser los CDRs. Segundo, los actores involucrados, tanto públicos como privados, se enfrentan a problemas éticos y de reputación: el simple hecho de que las empresas retengan los datos de sus clientes puede inducir a que éstos cambien de proveedores. La transferencia de datos por lo tanto, presenta un importante riesgo a las organizaciones.
- Desafíos técnicos y estadísticos. Estos se relacionan con la naturaleza de la mayoría de los datos privados, en especial de Big Data, que con frecuencia pueden requerir infraestructura especializada y que pueden ser descentralizados, des-estandarizados, desestructurados y no representativos. Las propiedades de grandes conjuntos de Big Data, por lo tanto, también imponen restricciones sobre las estructuras características de las alianzas, pero también sobre el tipo de estadísticas que pueden producir.
Integrando Nuevas Fuentes de Datos en una ENDE
El informe IAEG sobre la Revolución de Datos convocaba específicamente a modificar el enfoque ENDE para tomar tal Revolución cuenta al
[…]actualizar las “Estrategias Nacionales para el Desarrollo de la Estadística (ENDE)”para alcanzar una planificación coordinada y a largo plazo, identificar inversiones sólidas e involucrar alos productores no-oficiales de datos en el esfuerzo tendiente a acelerar la producción, difusióny uso de datos, fortaleciendo la capacidad y recursos de la sociedad civil para producir, utilizar y divulgar datos”. – IEAG (2014, page 25)
La revolución de datos cambiará la forma en que los INE y SEN operan, y necesita de lograr el involucramiento de nuevos actores en el proceso ENDE.
- Roles cambiantes de los INE. El cambiante ecosistema de nuevos proveedores y usuarios de datos resultará en nuevos modelos de negocios para los INE y otras agencias productoras. Ellas estarán menos verticalmente integradas y terciarizarán una mayor parte de sus procesos estadísticos. Esto transformará el rol del INE, pasando de encargarse de la producción, a responsabilizarse por la gestión y evaluación de riesgos y costos.
- Cambios en perfiles profesionales. El rol cambiante de los INE va acompañada de nuevas exigencias relativas al acervo de capacidades que deben poseer. Su personal debe dominar las nuevas metodologías de identificación, evaluación y acceso a nuevas fuentes de datos. Esto requiere de conocimientos y capacitación en los nuevos campos emergentes de la ciencia de datos, pero también en leyes y regulaciones.
- Construyendo centros regionales de apoyo. Donde las agencias estadísticas nacionales no dispongan de recursos y capacidades para adaptarse, las ERDE deberán ser un punto de referencia para coordinar la trasferencia de la revolución de datos a las estadísticas nacionales. Los dominios de los que Revolución podría beneficiarse para acelerar el cambio regional podrían ser: (i) crear centros de excelencia y conocimiento, (ii) Proporcionar repositorios de Big Data: plataformas escalables y de desarrollo como la de UNECE pueden ser utilizadas para indagar en los ricos conjuntos de información de una organización mediante la interacción y la colaboración, (iii) Concentrar recursos para alianzas académicas claves y promover alianzas público-privadas para contribuir al equipo de expertos regionales disponibles.
- Un enfoque combinado para compilar estadísticas oficiales. El grado de generalización estadística de muchas fuentes no-tradicionales sigue sin ser completamente comprendido. Por lo tanto éstas deberían ser utilizadas con precaución y sus estimaciones deberían ser validadas y calibradas con las tradicionales, especialmente en el corto plazo. Tal enfoque combinado y complementario implica que los INE continuarán apoyándose en los métodos estadísticos tradicionales.
- Protocolos. El éxito de las alianzas de datos depende de la adopción de enfoques sistemáticos, transparentes y basados en protocolos para compartir datos, lo que limita el riesgo de re-identificar individuos. Estos ya se usan para datos médicos sensibles y son esenciales para crear confianza en la fiabilidad e integridad de los Sistemas Estadísticos Nacionales cuando se trata de datos que no han sido otorgados voluntariamente.
- Liderando mediante el ejemplo. Los varios actores del SEN incorporarán diferentes fuentes a ritmos diversos. Los INE con frecuencia los responsables de formular e implementar la ENDE. Ellos pueden dar un buen ejemplo de cómo utilizar nuevas fuentes de datos para las estadísticas oficiales al esforzarse en experimentar con ellas prestando debida atención a las cuestiones de privacidad y calidad.
Nuevas formas de asociaciones
El acceso a nuevas fuentes de datos requiere de nuevos tipos de alianzas. En años recientes, hemos visto emerger varias estructuras cooperativas exitosas que con frecuencia conectan a diferentes actores dentro del sector privado. Estas asociaciones público-privadas (PPPs, por sus iniciales en inglés) para las estadísticas se diferencian en tres características de las de otros sectores:
- Necesitan ser formuladas como acuerdos a largo plazo ya que hay con frecuencia necesidad de datos longitudinales y, al mismo tiempo, existen pocos proveedores alternativos – por ejemplo, registros telefónicos son propiedad de un pequeño número de operadores de redes móviles.
- Los riesgos de propiedad y de privacidad juegan un rol central, a diferencia de otros sectores, por ejemplo en infraestructura, donde los riesgos están principalmente relacionados a la eficiencia y rendimiento de la inversión.
- Pueden cubrir cualquier etapa de la cadena de valor de datos, incluyendo la recolección, el procesamiento, el análisis y la difusión.
La constitución de estas asociaciones puede demorar si buscan ser sólidas. Por lo tanto los INE deberán de sacar el mayor provecho posible de las ya establecidas. Esto puede lograr pinchando datos de terceros o explorando fuentes de datos menos sensibles. Un papel importante puede ser desempeñado por la cooperación más cercana entre los INE y las agencias estadísticas regionales. Estas últimas pueden frecuentemente facilitar el acceso a grandes cooperaciones multilaterales y reducir costos de coordinación. Hay también lugar para una cooperación más cercana entre los INE de países en desarrollo y las de países desarrollados, por ejemplo, compartiendo datos satelitales.
Marcos Legales
Un obstáculo a la obtención y uso de nuevas fuentes de datos es la necesidad de definir instrumentos legales y procesos para el acceso a dichos datos y la preservación de la confidencialidad del usuario. Estos pertenecen al ámbito privado y forman una rica fuente de datos de clientes custodiados por intereses particulares. En muchos países, no existe claridad legal los procesos para su obtención e inserción en el dominio público. Se logró una gran concientización durante la era de los ODM en colocar los microdatos de encuestas en línea para los investigadores. Para ello hubo que definir estándares y protocolos de documentación de datos. El resultado fue la evolución de definiciones de metadatos, tal como la Iniciativa de Documentación de Datos (DDI, por sus siglas en inglés) y el Intercambio de Datos Estadísticos y Metadatos (SDMX, por sus siglas en inglés). Adicionalmente, una gran cantidad de trabajo de preconización fue emprendido para reformar las estructuras legales y redefinir los derechos de los usuarios, incorporando los procesos de anonimato. Iniciativas como el Estatuto Africano para la Estadística proporcionaron una guía para que los países puedan establecer sus propios procedimientos legales; El Estatuto proporciona directrices que ayudan a la modificación de las leyes tomando en cuenta a los nuevos desarrollos en datos, como por ejemplo el uso de Big data.