Crean algoritmo para verificar la veracidad de artículos en Wikipedia

Crean algoritmo para verificar la veracidad de artículos en Wikipedia

Se basa en el análisis bayesiano de probabilidades, utilizado en la filtración de e-mails en la bandeja de correos.

La enciclopedia colaborativa libre más grande siempre ha sido una fuente bastante recurrida para obtener información, aunque no siempre se confía lo que en sus entradas se cita de otras fuentes referenciadas por los editores. En ocasiones, la información queda obsoleta o es modificada intencionalmente con el fin de perjudicar al protagonista del artículo.

Muchos de nosotros en verdad deseamos que la información sea libre, pero también real y que esté verificada, por lo cual, Jyngyu Han y Kehia Chen, científicos de la Universidad de Nanjing de Correos y Telecomunicaciones, desarrollaron un algoritmo para verificar la veracidad en la información de los artículos en Wikipedia, inspirados en la falta de confianza hacia la enciclopedia.

Si bien los lectores y cualquier otra persona puede calificar la entrada según su contenido, el sistema automatizado se basa en las estadísticas bayesianas expresadas en términos de creencia, el mismo que se utiliza para consultar los correos electrónicos y clasificarlos según su contenido, determinando la probabilidad de que sea spam, correo basura, entre otros filtros.

Para su desarrollo, hicieron uso de la red bayesiana, la cual se basa en la probabilidad de que un ocurra un suceso a partir de variables, para analizar de manera similar el contenido de los artículos, aplicando una distribución gaussiana multivariada para el análisis, lo cual da como resultado una distribución de la calidad de cada artículo para que las entradas puedan ser clasificadas.

Han y Chen probaron su algoritmo en cientos de entradas de Wikipedia comparado con el análisis de un humano. Como resultado, la persona fue superada hasta un 23% en la clasificación del artículo, según su contenido. Lo importante sería actualizar el software o conectarlo a bases de datos de información confiables para evitar que la información se vuelva obsoleta.

De tratarse de un contenido de baja clasificación, se marcan para que los editores presten atención a la veracidad de la información y los lectores al contenido; por el contrario, si la información fue clasificada con un mayor grado de credibilidad, se informa para que la entrada sea modificada lo menos posible y así evitar que sea perjudicada.

Este sería un gran avance para la distribución libre del conocimiento, tanto como puede ser una biblioteca, artículos científicos en la base de datos de importantes universidades, o bien, el sitio para resguardar las obras más grandes creadas en la antigüedad, todo esto para mantener la referencia y no olvidarnos de donde provino la información en primer lugar.