Hoy en día, en cambio, la recogida de datos masivos ha permitido
obtener información sobre la muestra completa (o casi)
de datos relacionada con el fenómeno que hay que evaluar, es
decir, toda la población. Por ejemplo, si una institución desea
analizar los tweets que tratan sobre un tema de interés público,
es perfectamente factible que pueda recoger todos aquellos
que hablen del tema y analizarlos. En este caso, el análisis no
pretende confirmar o invalidar una hipótesis, sino establecer
correlaciones entre distintas variables de la muestra. Por
ejemplo, supongamos que existe una fuerte correlación entre
el lugar de residencia de los vecinos de una ciudad y su opinión
ante una determinada problemática de esta. En este caso, podemos
explotar la relación que existe entre ambas variables
aunque no sepamos la causa que induce de la una a la otra.
Los datos masivos imponen un nuevo paradigma donde la
correlación «sustituye» a la causalidad. Determinar la causalidad
de un fenómeno pierde importancia, y en contraposición,
«descubrir» las correlaciones entre las variables se convierte
en uno de los objetivos principales del análisis.
Este cambio de paradigma provoca que los sistemas de big
data se centren en encontrar «qué» aspectos están relacionados
entre sí, y no en «por qué» están relacionados. Estos
sistemas pretenden responder cuestiones del tipo: ¿qué pasó?,
¿qué está pasando? y ¿qué pasaría si?, pero desde un punto de
vista basado en las correlaciones, donde no se busca la explicación
del fenómeno, sino solo el descubrimiento del fenómeno
en sí. En consecuencia, la causalidad pierde terreno a favor de
asociación entre hechos.
Habéis entendido algo... YO NO
No hay comentarios:
Publicar un comentario