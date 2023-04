Por fin tenemos un poco de claridad sobre el origen de la información de la Inteligencia Artificial de ChatGPT, ya que un grupo de periodistas e investigadores han logrado descifrar la fuente de información de la que se alimenta esta plataforma. Pero por desgracia no tenemos buenas noticias.

La comunidad científica y académica pasa por un periodo de seria preocupación por el ritmo desenfrenado con el que han crecido plataformas de Inteligencia Artificial como GPT-4, Midjourney y similares, cuyo desempeño en los últimos meses ha sido mucho más grande y veloz de lo que habríamos observado en años anteriores.

De hecho más de mil especialistas y figuras prominentes del sector de las Tecnologías de la Información (IT), han firmado una carta abierta en donde piden a OpenAI y las demás compañías especializadas del sector que pongan un freno a sus proyectos para articular algunas medidas regulatorias por el bien de todos a futuro.

Eso no ha sucedido y la forma en la que estas empresas alimentan a tales programas para hacerlos crecer y comportarse de la forma en que estamos observando sigue siendo algo muy poco transparente. Lo que levanta altas suspicacias sobre la ética interna de desarrollo y el tipo de información que se está introduciendo a esos sistemas.

Pero no por fortuna no se han detenido las iniciativas que buscan dar con la verdad y finalmente tenemos un panorama concreto de cómo ha sido que ChatGPT habría crecido tanto en tan poco tiempo. Pero no es muy alentador el hallazgo.

The Washington Post descifra la lista secreta de sitios web que alimentan a ChatGPT

El diario estadounidense ha publicado un imperdible artículo en donde comparte los detalles de su proyecto periodístico de investigación realizado en conjunto con el Allen Institute for AI, un centro de investigación sin fines directos de lucro creado por el cofundador de Microsoft, Paul Allen, quien falleció en 2018.

The Washington Post en conjunto con la organización terminó analizando los más de 15,1 millones de sitios web de la base de datos Colossal Clean Crawled Corpus de Google, mejor conocida como C4.

Esta compilación habría sido, a final de cuentas, la base sobre la cual se desarrollaron las principales plataformas de Inteligencia Artificial activas hoy en día: T5, de Google, LLaMA, de Facebook y por supuesto GPT-3.5 y GPT-4.

Estas dos últimas son el alma y base desde la que funciona ChatGPT, de modo que el proyecto de investigación se dedicó a analizar los sitios, para encontrar que había algunos con un claro discurso de odio, sesgo de información, inclinaciones religiosas radicales y posturas racistas, que ahora forman parte de esta IA.

Pero otro factor delicado es que también en la base habría información de sitios de pago de suscripción, como el propio Post y otros diarios, así como perfiles de Patreon y otras plataformas de crowdfunding.

Esto implicaría una violación directa al uso de información protegida por derechos de autor. Lo que podría abrir un nuevo capítulo legal en este drama. Por lo pronto aquí compartimos la lista con los 15 principales sitios de los que se alimenta ChatGPT: