ArXiv introduce una prohibición de un año a los investigadores que envíen artículos con contenido generado por IA no controlado

0 4 5 minutos de lectura

TL; DR

ArXiv prohibirá a los investigadores durante un año si envían artículos con signos obvios de generación de IA sin control, como referencias alucinantes o instrucciones sobrantes de chatbot. La política, anunciada por el presidente del Departamento de Ciencias de la Computación, Thomas Dieterich, es la primera sanción formal impuesta por una importante plataforma de preimpresión por desperdicios generados por IA.

ArXiv, el repositorio de acceso abierto que ha servido como principal canal de distribución para investigaciones preimpresas en informática, matemáticas y física durante más de tres décadas, prohibirá a los autores durante un año si envían artículos que contengan signos claros de generación incontrolada de IA. Thomas Dieterich, presidente del Departamento de Ciencias de la Computación de RXV, anunció la política el jueves y escribió que "Evidencia indiscutible"Medios de salida del modelo de lenguaje grande no probados"No podemos confiar en nada escrito"

La norma no es una prohibición total del uso de herramientas de inteligencia artificial. Los investigadores aún pueden utilizar modelos de lenguaje para redactar, editar o analizar. Lo que desencadena una penalización es la evidencia de que un autor ha pegado resultados de LLM en un artículo sin verificarlo, el tipo de descuido que crea referencias alucinatorias, instrucciones de marcador de posición de chatbots o tablas de datos creadas con notas de lectura".Completa los números reales de tu prueba.Si los moderadores encuentran dicha evidencia y un jefe de departamento la confirma, el autor enfrenta una prohibición de un año en arXiv, después del cual todos los envíos posteriores deben ser aceptados primero por una revista revisada por pares antes de aparecer en la plataforma.

¿Por qué es importante?

Espacio de coworking de TNW City: donde ocurre tu mejor trabajo

Un espacio de trabajo diseñado para el crecimiento, la colaboración y un sinfín de oportunidades de networking en el corazón de la tecnología.

ArXiv no es una revista. No se trata de artículos revisados por pares. Pero se ha convertido en la forma real en que la investigación se extiende a algunas de las áreas de la ciencia que evolucionan más rápidamente, especialmente el aprendizaje automático y la inteligencia artificial. Los artículos publicados en arXiv se leen, citan y desarrollan mucho antes de que aparezcan en publicaciones formales, si es que alguna vez lo hacen. Esto hace que los estándares de calidad de la plataforma sean inusualmente fructíferos: una cita alucinada en arXiv puede propagarse a través de la literatura de investigación con la misma eficacia que en una revista revisada por pares y, a menudo, más rápido.

La magnitud del problema es significativa. Se ha publicado un estudio la lanceta En mayo de 2026, investigadores de la Universidad de Columbia auditaron 2,5 millones de artículos biomédicos y 126 millones de referencias indexadas en PubMed Central. Descubrió que las citas falsas se habían multiplicado por doce desde 2023. Ese año, uno de cada 2.828 artículos contenía al menos una referencia falsa. Para 2025, la tasa había aumentado a uno de cada 458. En las primeras siete semanas de 2026, era una de 277. Los investigadores atribuyeron la proliferación de herramientas de escritura de IA, y señalaron que estudios anteriores han estimado que entre el 30 y el 69 por ciento del contenido generado por LLM se encuentra en contextos biomedicados.

ArXiv tiene motivos para tomarse en serio la amenaza. La plataforma recibe miles de envíos cada mes y su sistema de moderación voluntaria no está diseñado para examinar contenido generado por máquinas a escala. El anuncio de Dieterich describió el nuevo castigo como una regla de "un solo golpe", aunque las decisiones están sujetas a apelación y requieren la confirmación del presidente de la división antes de ser impuestas.

que cuenta como evidencia

La política es deliberadamente estrecha. Dietrich enumera ejemplos específicos de "Evidencia indiscutible”: referencias alucinadas que no coinciden con ninguna publicación real, metacomentarios de modelos de lenguaje dejados en el texto (por ejemplo, “Aquí hay un resumen de 200 palabras; ¿Quieres que haga algún cambio?") y datos de marcador de posición con instrucciones del autor que nunca se eliminaron. Estos no son fallos de calidad sutiles. Son señales de que el autor no leyó el artículo antes de enviarlo.

La distinción es importante porque evita la pregunta más difícil de si debería permitirse la escritura asistida por IA. La política existente de ArXiv ya establece que los autores llevan "Responsabilidad total"por su contenido"Independientemente de cómo se genere el contenido"La nueva pena aplica ese principio a las violaciones más graves, en los casos en que la falta de control por parte del autor se desprende del propio texto.

Este enfoque tiene ventajas prácticas. Determinar si un artículo bien editado fue redactado con un LLM no es confiable con las herramientas de detección actuales, y tratar de hacer cumplir una prohibición más amplia sería técnicamente difícil y potencialmente penalizaría a los investigadores que usan herramientas de inteligencia artificial de manera responsable. Al centrarse en la pendiente obvia, arXiv puede aplicar reglas sin la necesidad de construir o comprar un sistema de detección de IA, una tecnología que es propensa a tener sus propios defectos.

Un problema generalizado

ArXiv no es la única institución que lucha con este problema. Las conferencias académicas en ciencias de la computación, incluidas NeuriIPS e ICML, han informado de un aumento en las presentaciones que parecen haber sido realizadas con una mínima supervisión humana. la naturaleza A finales de 2025 se publica un artículo que describe cómo la caída de la IA está creando una crisis en la informática, donde el volumen de envíos de baja calidad abruma a los revisores y reduce la relación señal-ruido de la producción del campo.

Las revistas revisadas por pares enfrentan el mismo problema. D la lanceta El estudio encontró que las citas inventadas aparecen en artículos que ya han pasado la revisión por pares, lo que sugiere que los revisores no están verificando las referencias o no pueden detectar fabricaciones al ritmo que aparecen ahora. El autor principal, Maxime Topaz, de la Escuela de Enfermería de la Universidad de Columbia, advierte que los médicos y los elaboradores de directrices no tienen forma de saber cuándo no existe la evidencia en la que se basan, una brecha que los esfuerzos para reducir las alucinaciones de la IA en la investigación científica aún no han cerrado.

El propio ArXiv está experimentando cambios estructurales que pueden ayudarle a afrontar el desafío. Después de más de 20 años como proyecto organizado por la Universidad de Cornell, la plataforma se está convirtiendo en una organización sin fines de lucro independiente, una medida que debería darle más autonomía sobre su política de moderación y la capacidad de recaudar fondos específicamente para abordar problemas de calidad. También introdujo un requisito para que quienes envían por primera vez obtengan la aprobación de un autor establecido, una medida de control destinada a reducir los envíos de cuentas creadas únicamente para publicar material generado por IA.

Límites de aplicación

Las nuevas reglas atraparán a los infractores más descuidados, los investigadores que presentan artículos que no han leído. No atrapará a los investigadores que utilizan modelos lingüísticos para hacer afirmaciones plausibles pero falsas, falsificar datos o producir artículos sólidos pero científicamente vacíos. Estas cuestiones requieren revisión por pares, supervisión institucional y la voluntad de la comunidad investigadora de tratar las malas prácticas asistidas por IA con la misma seriedad que las formas tradicionales de fabricación.

Lo que establece la política de arXiv es un principio: si envías un artículo, eres responsable de cada palabra del mismo. Esto siempre ha sido cierto en teoría. La diferencia ahora es que los modelos lingüísticos hacen que sea trivialmente fácil producir textos de tipo científico pero sin sustancia. La prohibición de un año de ArXiv es un castigo modesto por un delito grave, pero es el primer reconocimiento oficial por parte de una importante plataforma de investigación de que el problema no es un descuido ocasional. Está estructurado, está creciendo y requiere una infraestructura dedicada para combatirlo.

Source link

Redacción - ACN 8 horas hace

0 4 5 minutos de lectura