HomeTECNOLOGÍALos expertos defienden preservar una copia del Internet de 2022: el de antes de que la IA lo “contaminase”

Los expertos defienden preservar una copia del Internet de 2022: el de antes de que la IA lo “contaminase”

Los expertos defienden preservar una copia del Internet de 2022: el de antes de que la IA lo “contaminase”

Desde el lanzamiento de ChatGPT en 2022, Internet ha entrado en una nueva etapa: esa en la que ya no es posible saber con certeza si los textos, imágenes o artículos que encontramos fueron creados por humanos o por máquinas. Y este cambio radical pone una pregunta sobre la mesa de archivistas, tecnólogos, historiadores y usuarios comunes: ¿debemos preservar específicamente el Internet tal como era antes de su ‘contaminación’ por la IA?

Una línea divisoria en la historia digital

La aparición de modelos de lenguaje avanzados ha generado un volumen sin precedentes de contenido automatizado. Esta situación plantea desafíos para quienes estudian la historia, el desarrollo tecnológico e incluso el funcionamiento del conocimiento colectivo.

Es decir: si el contenido original humano desaparece entre una masa creciente de textos sintéticos, ¿cómo podrán las futuras generaciones comprender cómo pensábamos antes de la era de las máquinas?

Los historiadores digitales ya están experimentando problemas a la hora de determinar la autoría, la intencionalidad y el contexto cultural de los documentos que examinan: las fuentes primarias corren el riesgo de convertirse en recursos ambiguos, cuya autenticidad y representatividad serán constantemente puestas en duda.

Rajiv Pant, exdirector de tecnología de The New York Times y The Wall Street Journal, alerta sobre esta amenaza. Afirma que no se trata de un problema meramente académico o propio de la ciencia-ficción, sino de una realidad que ya afecta áreas clave como el periodismo, la investigación científica y los procesos legales:

“Ya no hay una forma fiable de distinguir contenido humano del generado por IA a gran escala”.

¿Preservar lo humano…

Por un lado, hay quienes promueven la creación de archivos “puros”, como John Graham-Cumming, de la empresa de ciberseguridad Cloudflare. Para él, la información creada antes de 2022 tiene un valor especial: la compara con el “acero de bajo fondo”, un tipo de metal fabricado antes de las pruebas nucleares de 1945 que hoy se utiliza en instrumentos de alta precisión por su pureza.

Graham-Cumming ha lanzado el sitio lowbackgroundsteel.ai, un repositorio de datos previos a la irrupción de los grandes modelos de lenguaje. Entre sus iniciativas destaca una copia completa de Wikipedia de agosto de 2022, cuando aún no se detectaban los signos masivos de contribuciones de IA que hoy ya resultan evidentes.

Sin embargo, él mismo afirma que no se trata de rechazar la inteligencia artificial, sino de comprender que incluso ella necesita del legado humano para funcionar y mejorarse:

“En algún momento, una IA pensará algo que los humanos no habíamos imaginado. Podrá demostrar un teorema matemático o crear algo realmente nuevo. Y no estoy seguro de que eso deba llamarse ‘contaminación'”.

…o archivar también lo artificial?

Sin embargo, otros expertos, como Mark Graham del Internet Archive, creen que también merece la pena preservar de manera específica (aunque por separado) el contenido generado por la IA. Para Graham, el objetivo no debe ser tanto preservar el pasado como documentar el presente: su plan consiste en realizar diariamente mil preguntas a diferentes modelos de IA y almacenar sus respuestas, como si de un diario digital algorítmico se tratase. Así, se podría registrar (y analizar) la evolución de la IA, creando una crónica de cómo cambian su comportamiento y sus respuestas con el tiempo.

El peligro del ‘colapso de modelos’

Más allá de las implicaciones culturales e históricas, conservar contenido humano también tiene una utilidad técnica: proteger la calidad futura de la propia inteligencia artificial. Si los modelos se entrenan cada vez más con información generada por otros modelos, existe el riesgo de una degeneración progresiva conocida como colapso de modelos.

Esto es así, porque los algoritmos de ‘machine learning’ dependen en gran medida de los datos con los que son entrenados: si éstos ya han sido generados, reciclados o alterados por otras IA, se entra en un ciclo de retroalimentación artificial que puede empobrecer la calidad del aprendizaje. Este fenómeno implica una pérdida de diversidad y precisión en los sistemas de IA, lo que terminaría afectando gravemente a su utilidad.

Compartir con
Valora esta nota

ingenioti.ch@gmail.com

Sin comentarios

Sorry, the comment form is closed at this time.