La Revolución en Datos

Hay numerosas definiciones de la revolución en datos. El informe del Grupo de Consejeros Expertos Independientes del Secretario General de las NN.UU.” (IEAG) habla de una “explosión” en el volumen y producción de datos equiparado por una “creciente demanda de datos de todas partes de la sociedad” (IEAG, 2014). PARIS21 toma un diferente enfoque y se refiere a “entregar los datos correctos a la gente correcta en el momento correcto” (PARIS21, 2015). Esta definición pone el énfasis en que la revolución en datos debería incrementar el uso y el impacto de los datos sobre resultados (outcomes). 

Para habilitar este incremento e impacto de datos, las estrategias de los Sistemas de Estadística Nacionales deberán incluir, donde fuese posible, nuevas fuentes de datos y mayor contacto con los nuevos actores, como ser el sector privado, organizaciones sin fines de lucro e instituciones académicas. Estas directrices están escritas con un enfoque sobre este aspecto particular e importante de la Revolución en Datos. Es el acceso y uso de estas nuevas fuentes de datos en un nuevo ecosistema de involucrados en datos -usuarios, dueños, productores y legisladores- que permitirá que los elaboradores de políticas, las organizaciones de la sociedad civil y los ciudadanos “monitoreen el progreso del desarrollo, aseguren la “respondabilidad” de sus gobiernos e impulsen el desarrollo sostenible” (IEAG, 2014).

La Revolución en Datos significa diferentes cosas dependiendo de donde uno está dentro del ecosistema de datos. Las Estadísticas Oficiales y los Sistemas Estadísticos Nacionales se enfrentarán a desafíos en la adaptación al nuevo medio ambiente de datos. Los modelos de desarrollo estadístico que fueron implementados a lo largo de los últimos 15-20 años podrán ser esquivados o rodeados y convertidos en algo irrelevante si los países no se adaptan. La Revolución en Datos afectará cada área del Sistema Estadístico Nacional. Esto ya está sucediendo en ciertos países como Senegal donde los enfoques innovadores hacia la planificación y adaptación de operaciones estadísticas basadas en listas detalladas de llamadas de operadores de redes móviles ya están impulsando un nuevo pensamiento hacia la acción. En otros países, las Oficinas Estadísticas Nacionales (OENs) necesitarán adaptarse para poder mantener su relevancia en el nuevo ecosistema.

El uso de estas nuevas fuentes de datos (definidas posteriormente en esta Sección) se alienta explícitamente en los Principios Fundamentales de las Estadísticas Oficiales. Más específicamente: para honrar el derecho de los ciudadanos a la información pública (basada en calidad, oportunidad, costo), las OENs pueden alimentarse de “todo tipo de fuentes” (Naciones Unidas, 2014). El rasgo que define a las estadísticas oficiales es que deben ser provistas por cuerpos estadísticos oficiales de acuerdo a estándares profesionales y normas como están descritas en los principios fundamentales.

“Principio 5: Efectividad de costos: Los Datospara propósitos estadísticos podría ser obtenida de todo tipo de fuentes [...]. Las agencias estadísticas deben escoger la fuente con relación a la calidad, oportunidad, costos y la carga sobre los respondientes.” -- Naciones Unidas (2014), Principios Fundamentales de las Estadísticas Oficiales.

Todas las etapas ENDE deberían responder a estas nuevas demandas considerando:

  • Mayor desarrollo de los sistemas administrativos de datos para producir estimados confiables y robustos para repasar los datos basados en población y anclar nuevas fuentes de datos.
  • Complementar la recolección tradicional de datos con nuevas fuentes de datos basadas en revisiones de costos, facilidad de recolección, y calidad de datos obtenidos a través de nuevos procesos y sostenibilidad de estos procesos.
  • Poner el empeño debido en el proceso de evaluación de costos de una efectiva sustitución de las fuentes de datos existentes.
  • Desarrollar un plan de datos comprensivo y un enfoque coordinado en la recolección de datos que tome en cuenta una mayor frecuencia de informes hasta llegar a los “informes del momento” (nowcasting), mayor desagregación, más relevancia geográfica (ver la hoja de Ruta de la Revolución en Datos desarrollado por la Alianza Global para el Desarrollo Sostenible de Datos [Global Partnership for Sustainable Development Data]).
  • Presupuestar personal/recursos humanos en el campo emergente de la ciencia de datos pero también en capacidades legales y regulatorias.
  • Desarrollar un plan para construir nuevas alianzas, ya sea al construir nexos con diferentes actores dentro del sector privado, ya sea acudiendo a-y aprovechando de- la red de consultorías de confianza, o apalancando a las agencias estadísticas regionales para facilitar el acceso a grandes multilaterales.
  • Establecer fuertes nexos con las Estrategias Regionales para el Desarrollo Estadístico (ERDEs) para combinar los recursos regionales en centros de conocimiento y excelencia donde las agencias estadísticas nacionales no tiene la capacidad o recursos para adaptarse.

 

Mejorando los Procesos de Datos Existentes

No hay duda de que los datos de encuestas continuarán siendo las fuentes de datos claves para el monitoreo internacional y toma de decisiones nacionales, y que los sistemas de recolección de datos administrativos deberán ser desarrollados más aún. Este legado continuará y, de hecho, será siempre relevante para repasar los datos basados en población. Estimados de población, confiables y robustos, anclarán nuevas fuentes de datos y los harán más útiles. La Revolución en Datos y las tecnologías que la posibilitan nos proporcionan las herramientas para mejorar la actual gestión de datos en varias áreas, como ser:

  1. Metodologías de encuesta. Mejoras en la metodología de encuesta
  2. Recolección móvil de datos. El ingreso remoto de datos utilizando teléfonos móviles y “tablets”

Difusión de datos. Difusión coherente utilizando nueva tecnología y herramientas innovadoras que se adaptan a las demandas del usuario. La aplicación de innovaciones puede ayudar a hacer más eficientes (streamline) los procesos existentes y asegurar mayor confiabilidad de los datos de encuestas. Las OENs deberán trabajar con los sectores y reconciliar, promover y abogar a favor del desarrollo de fuertes sistemas administrativos. Estos datos son comparativamente más baratos de usar y, aunque no están basados en población, se debería hacer mayores esfuerzos en reconciliar estos datos. Para poder lograrlo, la OEN debería estar recolectando y centralizando listas de instalaciones claves para poder ayudar a integrarlas al proceso de planificación. Una meta clara que debería ser adoptada por las OENs es el desarrollo de un área central de referencia geoespacial donde las fronteras de censos, puntos de servicios de salud (clínicas y dispensarios), escuelas (primarias, secundarias) y servicios de extensión agrícola estén todos conjuntamente marcados y mapeados. Esto puede servir como una fuerte base de datos de referencia para la planificación y estratificación de encuestas, a la vez de proporcionar servicios a la sociedad civil.


Nuevas Fuentes de Datos y Sistemas Estadísticos Nacionales

Movilizar la Revolución de Datos para el desarrollo sostenible requiere de las OENs para controlar y utilizar las cantidades de datos que aumentan exponencialmente, muchos de los cuales son propiedad del sector privado. Nuevas alianzas de datos con el sector privado de lucro y el sector sin fines de lucro pueden contribuir en esto, ayudando a las OENs a ahorrar costos y proporcionar datos más detallados y reveladores en una forma más oportuna, pero estas también vienen con varios desafíos y riesgos (cf. PARIS21, 2015).Lo que se llama popularmente “Big Data”-- “indicios de acciones humanas recolectadas por aparatos digitales” (Letouzé et al., 2013) –tendrá que ser gestionado y con probabilidad creará alianzas necesarias entre académicos, analistas políticos y la OEN. Se debe tener cuidado sin embargo, ya que el uso de estos datos requiere técnicas analíticas relativamente sofisticadas.

Cualquiera que sea la definición delos nuevos datos, en vez de intentar definir aquello que constituye una nueva fuente de datos, adoptemos un camino más pragmático y disminuyamos el ámbito para considerar a las siguientes cinco nuevas fuentes de datos, listadas en orden de factibilidad de implementación en el marco de un país en desarrollo.

  1. Datos de sensores y geoespacial. Ejemplo: Utilizar imágenes satelitales para estimar densidad de población.
  2. Data Telecom. Ejemplo: Utilizar registros-en-detalle de llamadas para estimar pobreza y riqueza (ver aquí).
  3. Transacciones comerciales, includyendo datos de escáner, datos de tarjetas de crédito, etc. Ejemplo: Utilizar datos de escáner para el Índice de Precios al Consumidor (ver aquí).
  4. “Web crawling”, “scraping”, búsqueda y análisis. Ejemplo: Utilizar “posteos” [notificaciones] en sitios de búsqueda de empleo en línea, o datos LinkedIn para estimar cambios en categorías de empleo (ver aquí).
  5. Medios Sociales. Ejemplo: Utilizar “tweets”geo-codificados y análisis de sentimientos para medir el bienestar subjetivo

Estas fuentes de datos son particularmente útiles para reportar sobre indicadores durante los años entre encuestas y para captar cambios en indicadores de movimiento rápido. Los Estudios de Caso de países serán una fuente de información primaria ya que el uso de estos datos es todavía altamente “embriónico”. La OEN deberá jugar un rol en el desarrollo de una mayor comprensión de las aplicaciones de país. Sin embargo las instituciones regionales probablemente tendrán que involucrarse activamente para gestionar recursos escasos y sacar ventaja de las economías de escala.

Acceso a Big Data (que se encuentra en manos del sector privado) y los temas de privacidad relacionados a ellos on temas diferentes al uso de datos administrativos (a los que también ocasionalmente se los llama Big Data). Para acceder a los datos administrativos las OENscon frecuencia se pueden apoyar en los marcos legales existentes. Los datos empresariales, en cambio, son un nuevo campo y las modalidades de acceso deberán ser desarrolladas con los consejos nacionales sobre protección de privacidad y todos los actores relevantes involucrados. A nivel internacional, el Grupo de Trabajo Internacional sobre Big Data para Estadísticas Oficiales de las NN.UU. [UN Global WorkingGroupon Big Data for Official Statistics] está trabajando en la actualidad sobre “Principios de Acceso a Datos”que podría extender de manera útil los Principios Fundamentales de Estadísticas Oficiales [Fundamental Principles of Official Statistics] (Naciones Unidas, 2014).

Robin, Klein y Jutting (2016) proporcionan una visión general detallada de los beneficios y complementariedades, así como de los riesgos y desafíos, asociados con el uso de nuevas fuentes de datos para las estadísticas oficiales. Los siguientes puntos resumen las lecciones claves para los instituciones nacionales de estadística.

Beneficios y Complementariedades 

  • Efectividad en costos. Las alianzas públicas-privadas pueden ayudar que las OENs ahorren recursos al compartir datos al mismo tiempo de evitar altos costos iniciales para la gestión de datos. Primero, los costos marginales de transferir los datos ya recolectados por el sector privado a una OEN son extremadamente bajos. Por ejemplo, mientras que una encuesta en los Estados Unidos podría costar más de $20 millones, el comparar los microdatos con los datos agregados existentes (por ejemplo, vincular los datos a nivel de planta [fábrica] con los datos a nivel firmas [empresas]) podría costar menos de una quinta parte de este monto (Landfeld, 2014). Segundo, al terciarizar (outsourcing) el procesamiento de los datos unaOEN con limitaciones de capital puede hacer uso del software y experiencia del sector privado y así evitar costos elevados por adelantado.
     
  • Oportunidad. Ya que los metadatos móviles no procesados se encuentran disponibles casi instantáneamente, los Registros-en-Detalle de Llamadas (CDRs [CallDetail Records] ) de los operadores de telefonía móvil, por ejemplo, pueden producir estadísticas casí en tiempo real.
     
  • Granularidad. Los datos del sector privado –los CDRsy datos geoespaciales en particular – pueden desplegar gran granularidad temporal, espacial, temática y de unidades. Esto es útil para la evaluación de políticas a corto plazo y la producción de estadísticas desagregadas a los niveles regionales y sub-regionales, por ejemplo. 

Las nuevas fuentes de datos también permiten que las agencias estadísticas midan tendencias que previamente fueron consideradas inmensurables, así como tener mayor capacidad de respuesta para requerimientos en políticas que son cambiantes a alta velocidad.

  • Datos en nuevas áreas. Los Big Data en particular tiene el potencial de generar nuevos indicadores previamente no compilados por las OENs, tales como la medición de desigualdades que son especialmente relevantes dentro del marco de los MDSs.
  • Capacidad de respuesta incrementada. Nuevas fuentes de datos equipan a las OENs con la capacidad de resolver nuevos temas rápidamente y ayudar a los académicos a responder las preguntas del orden “y que tal si...”.

 

Riesgos & Desafíos

Cuatro desafíos que tienen relación a las propiedades particulares de los datos distinguen a la mayoría de las alianzas para estadísticas de aquellas en otros sectores como ser salud o infraestructura: asegurar la seguridad de los datos de propiedad restringida [patentados], crear un modelo de negocios para compartir datos, preservar la privacidad y enfrentar las dificultades técnicas asociadas con Big Data.

  • Acceso. La divulgación no autorizada (leakage) de información de propiedad restringida es percibida como una amenaza considerable para las organizaciones de lucro y sin lucro. Los datos que proporcionan información accionable sobre los clientes, compradores o estrategias de una organización es la que con mayor probabilidad se mantiene en secreto. Por ejemplo, los CDRs, que son utilizados por empresas para propósitos de geo-mercadeo son mucho más sensibles que los tweets públicos que son relativamente accesibles. Hay también preocupaciones de que los gobiernos podrían utilizarlos datos para propósitos regulatorios o que la difusión de datos sobre los clientes de una organización podrían dañar su imagen pública.
  • Incentivos y sostenibilidad. Ciertos factores pueden reducir lo atractivo de las alianzas en datos como modelo de negocios. Primero, la incertidumbre sobre la demanda de Big Data puede levantar dudas sobre la dimensión del mercado. Segundo, los beneficios de las alianzas de datos no son siempre inmediatos o directos. Tercero, hay preocupaciones sobre la durabilidad de las nuevas fuentes de datos. De hecho, dado que los datos privados se recolectan originalmente para propósitos no estadísticos, mantener el proceso de extracción podría convertirse en una carga si el campo original de aplicación perdiera su relevancia.
  • Privacidad y ética. La dimensión de las alianzas que comparten datos puede poner en peligro la privacidad individual o de grupos. Por lo tanto, la seguridad de la información tanto personal como de grupo es tanto una condición para la implementación de las alianzas de datos como una meta en sí misma. Primero, la legislación sobre privacidad con frecuencia impone constreñimientos regulatorios. Ya que la mayor parte de las legislaciones sobre privacidad y datos no cubren Big Data en forma específica, las leyes existentes están sujetas a interpretación. Por lo tanto las OENs no tienen un claro mandato para explotar microdatos sensibles como ser los registros-en-detalle de llamadas. Segundo, los actores involucrados, tanto públicos como privados, se enfrentan a temas éticos y de reputación: el simple hecho de que las empresas retengan los datos de sus clientes puede inducir a que éstos cambien de proveedores. La transferencia de datos por lo tanto, presenta un importante riesgo a las organizaciones.
  • Desafíos técnicos y estadísticos. Estos se relacionan a la naturaleza de la mayoría de los datos privados, en especial de Big Data, que con frecuencia pueden requerir infraestructura especializada y que pueden ser descentralizados, des-estandarizados, desestructurados y no representativos. Las propiedades de grandes conjuntos de datos (datasets) por lo tanto también imponen restricciones sobre las estructuras características de las alianzas de datos, y también sobre el tipo de estadísticas que pueden producir.


Integrando Nuevas Fuentes de Datos en una ENDE

El informe IAEG sobre la Revolución en Datos llamaba específicamente hacia la modificación del enfoque ENDE para tomar la Revolución en Datos en cuenta al

[…]actualizar las “Estrategias Nacionales para el Desarrollo de la Estadística (ENDE)”para mejorar la planificación coordinada y a largo plazo, la identificación de inversiones sólidas e involucramiento de los productores de datos no-oficiales en un esfuerzo cooperativo de acelerar la producción, difusión y uso de datos, fortaleciendo la capacidad y recursos de la sociedad civil para producir, utilizar y difundir datos” . – IEAG (2014, page 25)

La revolución en datos cambiará la forma en que las OENs y SENs operan y requiere de lograr el involucramiento de nuevos actores en el proceso ENDE.

  • Roles cambiantes de las OENs: El cambiante ecosistema de datos de los nuevos proveedores y usuarios de datos resultará en modelos cambiantes de negocios para las OENs y otras agencias productoras de datos. Las OENs en particular estarán menos verticalmente integradas y tercia rizarán una mayor parte de sus procesos estadísticos. Esto viene con un cambio en los roles de las OENs,de propiedad sobre la producción estadística a propiedad de los desafíos de gestión para evaluar los riesgos y costos.
     
  • Cambios en perfiles de capacidades. El rol cambiante de las OENs también presenta diferentes requerimientos en los juegos de capacidades de las OENs. El personal de la OEN debe tener un dominio apropiado de las nuevas metodologías para identificar, evaluar y acceder a nuevas fuentes de datos. Esto requiere de capacidades y capacitación en los nuevos campos emergentes de la ciencia de datos, pero también en capacidades legales y regulatorias.
     
  • Construyendo centros regionales de apoyo: Donde las agencias estadísticas nacionales no tienen la capacidad y recursos para adaptarse, las ERDEs deberán responder con un enfoque coordinado en llevar la Revolución en datosa las estadísticas nacionales. La áreas donde la Revolución en datos podría ser apalancada para acelerar el cambio a nivel regional podrían ser: (i) Proporcionar centros de excelencia y conocimiento, (ii) Proporcionar repositorios de datos Big Data (Big Data sandboxes): plataformas escalables y de desarrollo tales como las de UNECE que se utilizan para explorar los conjuntos ricos de información de una organización a través de interacción y colaboración, (iii) Concentrar recursos para alianzas académicas claves y promover alianzas Públicas y Privadas para contribuir al equipo de expertos regionales disponibles.
     
  • Un enfoque combinado para compilar estadísticas oficiales: El grado de “generalizabilidad” estadística de muchas fuentes no-tradicionales de datos no está bien comprendido por el momento. Por lo tanto éstas deberían ser utilizadas con precaución y se debería utilizar fuentes tradicionales para validar y calibrar estas estimaciones, especialmente en el corto plazo. Tal enfoque combinado y complementario implica que las OENs continuarán apoyándose en los métodos estadísticos tradicionales.
     
  • Nuevas formas de alianzas: el acceso a nuevas fuentes de datos requiere de nuevas formas de alianzas. En años recientes, hemos visto la emergencia de varias estructuras cooperativas exitosas que con frecuencia conectan a diferentes actores dentro del sector privado. Estas pueden tomar tiempo en construir. Por lo tanto las OENs deberán aprovechar las estructuras ya en uso al máximo posible. Esto se puede hacer accediendo a la red de ¨terceros” o explorando fuentes de datos menos sensibles. Hay también un papel importante a ser jugado por la cooperación más cercana entre las OENs y las agencias estadísticas regionales. Estas últimas con frecuencia pueden facilitar acceso a grandes cooperaciones multilaterales y reducir costos de coordinación. Hay también lugar para una cooperación más cercana entre las OENs de países en desarrollo y las de países desarrollados, por ejemplo, compartir datos de satélites.
     
  • Marco legal y protocolos. El éxito de las alianzas de datos depende de la adopción de enfoques sistemáticos, transparentes y basados en protocolos para compartir datos, lo que limita el riesgo de re-identificar individuos. Tales protocolos ya están en uso para datos médicos sensibles y son esenciales para poder crear confianza en la credibilidad e integridad de los Sistemas Estadísticos Nacionales cuando se está hablando de datos “no-ofrecidos”.
     
  • Liderando mediante el ejemplo. Los diferentes actores en el Sistema Estadístico Nacional tomarán diferentes fuentes a velocidades diferentes. Las OENs con frecuencia serán la agencia líder a cargo de formular e implementar la ENDE de un país. Las OENs pueden jugar un rol importante al dar un buen ejemplo de cómo se pueden utilizar nuevas fuentes de datos para las estadísticas oficiales al esforzarse en experimentar con dichas nuevas fuentes con la debida consideración hacia los temas de privacidad y calidad.

 

Herramientas: 
La siguiente es una lista de casos concretos de uso de las nuevas herramientas para gestión de datos y nuevas fuentes de datos:
 
La Herramienta Avanzada de Planificación de Datos (ADAPT) es una innovadora herramienta de planificación para que las oficinas estadísticas puedan adaptarse a nuevas demandas y prácticas cambiantes en datos. ADAPT ayuda a los productores de datos en el Sistema Estadístico Nacional a consultar, costear y graficar sus indicadores, tal como están definidos por el plan nacional de desarrollo. La herramienta está dirigida a los países meta que están tratando de cumplir con la demanda de las agencias globales que monitorean las Metas de Desarrollo Sostenible y ponerlas en contexto con sus propias prioridades nacionales.
 
El Inventario Paris21 de Innovacione es una colección de innovaciones en el área de datos y estadísticas oficiales en países en desarrollo. Proporciona información básica tal como revisiones, detalles de contacto, breves evaluaciones y estudios de caso sobre innovaciones institucionales, organizativas y tecnológicas tanto del sector público como del privado.
Buenas prácticas: 
Una cantidad de proyectos colaborativos para compartir datos entre los sectores público y privado ya han emergido. De acuerdo a Robin, Klein y Jutting (2016) estos pueden ser clasificados en cuatro tipos ideales:
 
Producción interna de estadísticas : La red operadora Móvil Telefónica ha utilizado sus registros telefónicos para desarrollar varias aplicaciones internas (in-house) utilizando sus propias capacidades. Estos proyectos demuestran que los productores privados de datos no sólo están dispuestos a ayudar a llenar brechas estadísticas, sino que qué también pueden derivar beneficios de usar sus datos y recursos hacía el bien público.
 
Transferencia de “conjuntos de datos” a los usuarios finales : Entre el 2012 y el 2015, el Mobile Network Operator Orange organizó dos desafíos innovadores en los cuales puso sus CDRs,transcritos a formatos anónimos, a disposición de equipos de investigación en todo el mundo, pese a los riesgos involucrados en términos de privacidad e información propietaria.
 
Transferencia de conjuntos de datos a terceros de confianza : Desde el año 2009 las estadísticas de viaje para determinar la balanza de pagos de cuenta de viajes, son calculadas en base a registros-en-detalle de llamadas gracias a una alianza privada-pública entre la empresa Positiumy el Banco Central de Estonia, EestiPank.
 
Terciarización de funciones OEN : Un ejemplo reciente de tercerización es el Billion Prices Projecten el cual un índice diario de precios se calcula a través de “scraping” en la Web de acuerdo a una metodología desarrollada por investigadores de MIT [Massachussetts Institute of Technology]. Varios estados [de los EE.UU.] hacen uso de este índice que pude ser adquirido de StateStreet.
 
Referencias: 
IEAG (2014).A World that Counts: Mobilising the Data Revolution for sustainable development, Independent Expert Advisory Group on a Data Revolution for Sustainable Development
 
Landfeld, S. (2014). Uses of Big Data for Official Statistics: Privacy, Incentives, Statistical Challenges, and Other Issues. In: United Nations Statistics Division (UNSD) and National Bureau of Statistics of China, International Conference on Big Data for Official Statistics, Beijing, China: 8-30 October 2014
 
Letouzé et al. (2013), Big Data for Conflict Prevention: New Oil and Old Fires. In: Francesco Mancini, ed., New Technology and the Prevention of Violence and Conflict, New York: International Peace Institute, April 2013.
 
PARIS21 (2015). A Road Map for a Country-led Data Revolution, PARIS21 Secretariat.
 
A number of collaborative data sharing projects between the private and public sector have already emerged. Robin, N., T. Klein and J. Jutting (2016). Public-Private Partnerships for Statistics. Lessons Learned, Future Steps:A focus on the use of non-official data sources for national statistics and public policy, OECD Development Co-operation Working Papers, No. 27, OECD Publishing, Paris.http://dx.doi.org/10.1787/5jm3nqp1g8wf-en
 
United Nations (2014), Fundamental Principles of Official Statistics, UN General Assembly Resolution 68/261, United Nations, http://unstats.un.org/unsd/dnss/gp/FP-New-E.pdf.