ChatGPT, Claude, Gemini y Grok no están listos para informar a los votantes estadounidenses

0 3 7 minutos de lectura

Una nueva generación de votantes preguntará a ChatGPT, Claude, Gemini y Grok cómo votar, dónde están los colegios electorales y quién dice la verdad. Las investigaciones publicadas son consistentes: los modelos no pueden responder de manera confiable a esta pregunta. Las elecciones llegarán de todos modos.

En la primavera de 2024, un investigador del Tow Center de la Escuela de Periodismo de Columbia llevó a cabo un experimento controlado que, en retrospectiva, debería resolver una discusión industrial.

El equipo solicitó ocho productos de búsqueda de IA, incluidos ChatGPT Search, Perplexity, Gemini, Copilot y los modos de búsqueda Grok-2 y Grok-3, un conjunto de 200 artículos de noticias de veinte editores, y luego pidió a cada herramienta que identificara el artículo y acreditara su fuente. Más de 1.600 preguntas, Los modelos dieron respuestas incorrectas más del 60% del tiempo..

La búsqueda ChatGPT, la única herramienta que accedió a responder 200 preguntas, fue completamente precisa en el 28% de ellas y completamente errónea en el 57%. La distracción, comercializada como una alternativa de grado de investigación, fue incorrecta el 37% de las veces, la tasa de fracaso más baja del grupo.

Estas cifras se publicaron hace un año. No mejoraron. Este es un resumen de un estudio de Bloomberg publicado el 20 de mayo. Se confirmó que ChatGPT, Claude, Gemini y Grok no son confiables cuando se les pregunta sobre noticias, incluidas las electorales.

Nieman Lab leyó el mismo conjunto de datos ChatGPT se considera el peor de los cuatro en cuanto a acreditar a los medios de noticias de los que recopila información. un separado Monitor de afirmaciones falsas de NewsGuard Los diez principales chatbots con IA generativa arrojaron afirmaciones falsas en las noticias el 35% de las veces en agosto de 2025, frente al 18% del año anterior.

Al momento de escribir este artículo, faltan 167 días para las elecciones intermedias de Estados Unidos de 2026. El primer grupo de votantes estadounidenses que, tal vez, utilizará un chatbot como su principal interfaz de noticias, acudirá a las urnas en noviembre.

Informes de NOTUS sobre la campaña Blunted: ChatGPT y Claude serán una fuerza en esta elección, y nadie, incluidos los laboratorios que crearon, tiene planes de defensa cuando esas fuerzas producen respuestas seguras, elocuentes y bien citadas que también son incorrectas.

Lo que muestra la investigación publicada, en conjunto, no es que los chatbots a veces alucinen. El encuadre de alucinaciones es un error de clase heredado del discurso de principios de 2024. Las investigaciones muestran algo más específico y más peligroso para la integridad de los datos.

Los chatbots atribuyen erróneamente citas de forma sistemática. Crean enlaces que no resuelven nada. Se refieren a copias sindicadas o abreviadas por IA con preferencia al original, cortando la cadena con los periodistas que producen los informes.

No pueden distinguir de manera confiable entre un cable de Reuters, una reescritura de una granja de contenidos y un sitio de desinformación ruso envuelto en el mismo envoltorio de distribución. El seguimiento que hace NewsGuard de los sitios de noticias falsas sembrados en Moscú Se descubrió que los diez principales modelos de IA generativa imitaban las afirmaciones de desinformación rusas aproximadamente un tercio de las veces, citando sitios sembrados como fuentes autorizadas.

Su causa estructural no es un misterio y los laboratorios no pretenden que lo sea. Los canales de datos de capacitación que producen la generación actual de modelos de frontera han invadido la web abierta en una escala que incluye tanto al New York Times como a los resultados blanqueados de las operaciones de desinformación.

Los sistemas de recuperación de generación aumentada que se encuentran encima de estos modelos, que están destinados a proporcionar respuestas a fuentes actuales, se ejecutan en un índice de búsqueda cuyos principales resultados para muchas consultas de noticias son reescrituras generadas por IA de reescrituras generadas por IA.

Análisis de la 'brecha de datos' Lawfare de principios de este año describe el proceso: cuando hay cobertura de fuente original de una historia real, la campaña llena el vacío y el chatbot, en una lectura limpia de sus registros de recuperación, trata la campaña como la fuente original.

Esta es la posición desde la que los laboratorios ahora están negociando acuerdos de licencia de editores. OpenAI ha firmado acuerdos con el Financial Times, Axel Springer, News Corp, Le Monde y una lista de otros; También lo hizo Google; La antropología y el delirio han creado su propia asociación reveladora

El fundamento del acuerdo alcanzado por ambas partes es que el acceso al contenido con licencia generará mejores citas, resúmenes más precisos y una relación de tráfico más saludable entre el chatbot y el editor. El argumento es sólido. La evidencia publicada, hasta mayo de 2026, todavía no respalda esto.

Se midió una tasa de fracaso total del 57 % en las búsquedas de ChatGPT en un corpus que incluía artículos de editores con los que ChatGPT tenía una relación de licencia. La concesión de licencias no produjo una recuperación adecuada. Esto creó la apariencia de legitimidad en torno a la recuperación indebida.

El problema específico del medio es que los modos de falla de la generación actual de chatbots están casi perfectamente calibrados para la desinformación selectiva. Un votante que pregunte a ChatGPT "¿Dónde está mi lugar de votación?" obtendrá una respuesta segura con una cita que parece real; Que la respuesta sea correcta depende de si la última fuente almacenada en caché del modelo para esa dirección es correcta.

Un votante que le pregunta a Géminis "¿El candidato republicano de mi distrito ha sido acusado de algún delito?" Una respuesta cuya precisión depende del nivel de recuperación del informe de una versión noticiosa y de si esa superficie es un cable de AP o una reescritura sindicada que omite silenciosamente el artículo en disputa.

Un votante que le pregunta a Grok '¿Quién está ganando esta carrera'? El límite de entrenamiento del modelo subyacente y el índice de recuperación producirán una respuesta determinada por la proporción de sitios de encuestadores-agregadores.

Ninguno de estos modos de falla parece alucinaciones para el usuario. Parecen información autorizada, entregada con fluidez y con citas.

La respuesta del laboratorio es posicionar los productos de chatbot como fuentes auxiliares, no primarias. Sam Altman, Dario Amodei, Sundar Pichai y Elon Musk han hecho, en varios momentos de los últimos dieciocho meses, alguna versión del argumento de "verificar siempre con la fuente primaria".

El argumento es técnicamente correcto y funcionalmente inútil. Un votante que leyó la fuente primaria antes de preguntar al chatbot nunca estuvo en riesgo de despoblación.

Chatbots para votantes en riesgo fuente primariaAsí como la Búsqueda de Google fue la fuente principal para los equipos anteriores, y las noticias de la noche de la cadena fueron la fuente principal para el equipo antes de eso.

Cobertura continua de CJR Los experimentos de IA en salas de redacción han sido pasivos en este sentido: la compensación es precisión por conveniencia, y los editores están cada vez más dispuestos a hacerlo.

Hay un arco paralelo que hace que las exposiciones intermedias sean más nítidas. La represión regulatoria de China contra los abusos de la IA Las reglas obligatorias de etiquetado y simulación de personalidad entraron en línea en abril de 2026.

La Comisión Europea está ejecutando en paralelo su vía de aplicación de la ley en materia de servicios digitales. Ambos sistemas están calibrados para permitir a los operadores de chatbot revelar la procedencia, etiquetar la salida y aceptar la responsabilidad por la información errónea producida dentro de sus productos.

No hay nada comparable a los libros federales de Estados Unidos. Adopción de la pila de procedencia C2PA y SynthID de OpenAI Respuestas de laboratorio a una parte de esta pregunta, aplicadas a imágenes generadas por IA. No existe una capa de procedencia equivalente para la salida de texto del chatbot.

Las afirmaciones de verdad hechas en ChatGPT o en la prosa confiada de Grok no contienen ninguna indicación legible por máquina de dónde vinieron, cómo fueron recuperadas o si la fuente subyacente fue un informe electrónico o una granja de contenido.

A lo que apuestan los laboratorios, basándose en la evidencia disponible, es a que los resultados de noviembre serán lo suficientemente inequívocos como para que no se pueda culpar a un chatbot. Esa apuesta puede ser correcta. También es una apuesta en la que ningún principio honesto de integridad de la información puede basarse.

Grupo de investigación FSI en Stanford Está claro que las capas de evidencia seleccionadas pueden reducir materialmente las tasas de citas falsas en los chatbots, pero no requieren el tipo de infraestructura editorial a escala que ofrecen las interfaces actuales de los chatbots.

La pregunta para mediados de 2026 no es si los laboratorios podrán construir esa infraestructura. Si lo construyen antes del segundo martes de noviembre.

Temptation, sentado a esta distancia de las elecciones intermedias, escribió una columna instando a los votantes a escudriñar, instando a los editores a demandar, instando a los reguladores a actuar e instando a los laboratorios a enviar mejores citas.

Todos estos impulsos son correctos y piden a los actores equivocados que absorban el costo de un problema creado por los laboratorios y mantengan el barco a flote.

Los laboratorios han enviado productos en modo noticia a las elecciones estadounidenses más productivas desde 2020, con una tasa de desinformación del 35%, una tasa de citas fallidas del 60% y una arquitectura de recuperación que ellos mismos admiten que no pueden auditar completamente.

Los mismos laboratorios están discutiendo excepciones regulatorias. En la misma semana, sobre los costos de energía y derechos de autor de ejecutar Frontier Training en el Reino Unido y Europa, los reporteros estadounidenses dicen a los medios que la exposición es exagerada.

La exposición no es exagerada. Patrones de la atención sanitaria El paralelo más cercano disponible: los resultados confiables de la IA se ubican en dominios de alto riesgo, los reguladores deben demorar su aparición y una clasificación de seguridad del paciente de la ECRI coloca el uso indebido de los chatbots de IA en la parte superior de la lista de riesgos de tecnología sanitaria para 2026.

El ámbito de las elecciones está estructuralmente más expuesto que la atención sanitaria porque el modo de fracaso no es una sola mala respuesta clínica sino un flujo acumulativo de noticias que todo un electorado cree. Para cuando los investigadores post mortem midan ese flujo, los votos ya habrán sido contados.

El período intermedio llegará en 167 días. El chatbot no estará listo. Los votantes que los utilizan como su principal interfaz de noticias acudirán a las urnas de todos modos.

Lo que hacen los laboratorios desde ahora hasta noviembre es probar si entienden la diferencia entre enviar un producto y enviar una pieza de la infraestructura de información de la democracia.

La evidencia revelada hasta ahora es que entienden lo primero y aún no han necesitado entender lo segundo.

Source link

Redacción - ACN 3 horas hace

0 3 7 minutos de lectura