Modelos de lenguaje de gran escala en la producción de documentos científicos: capacidades, limitaciones y consideraciones éticas para la investigación en psicología

Ensayo comparativo analítico-crítico

Resumen

El uso de modelos de lenguaje de gran escala (LLM) en la redacción y estructuración de documentos científicos ha crecido de forma acelerada en diversas disciplinas, incluida la psicología.

El presente trabajo ofrece un análisis comparativo de cinco herramientas —ChatGPT, Microsoft Copilot Pro, Claude, Grok y Elicit— atendiendo a sus capacidades para la generación de texto académico, el soporte a LaTeX, la gestión de referencias bibliográficas y la exportación a formato PDF. El análisis se apoya en la literatura empírica disponible. Los resultados muestran que, si bien todos los LLM generalistas pueden asistir tareas de redacción, ninguno es apropiado como fuente autónoma de referencias bibliográficas, dada la alta prevalencia documentada de citas fabricadas —las denominadas “alucinaciones”— que comprometen la integridad académica. Las herramientas especializadas en recuperación bibliográfica, como Elicit, constituyen un complemento más fiable para esa función. Se concluye con implicaciones prácticas y éticas para investigadores en psicología que incorporan estas tecnologías a su flujo de trabajo.

Palabras clave: inteligencia artificial; modelos de lenguaje; redacción científica; alucinaciones; integridad académica; psicología.

1. Introducción

La escritura académica ocupa un lugar central en la práctica científica de la psicología. La producción de artículos empíricos, revisiones sistemáticas, informes de caso e instrumentos de evaluación exige no solo dominio conceptual, sino también adherencia estricta a normas formales —entre ellas las establecidas por la American Psychological Association (APA, 2020)— y veracidad comprobable de cada afirmación empírica citada.

Desde la publicación masiva de ChatGPT a finales de 2022, múltiples estudios han examinado las capacidades y los riesgos de los LLM en entornos académicos. Una línea de investigación documenta su utilidad para tareas de organización de manuscritos, mejora estilística y síntesis preliminar de información (Khalifa & Albadawy, 2024; Granjeiro et al., 2025). Paralelamente, otra línea ha cuantificado un problema crítico: la generación sistemática de referencias bibliográficas falsas —fenómeno denominado “alucinación”—, que puede alcanzar tasas de entre el 18% y el 55% dependiendo del modelo y del prompt (Walters & Wilder, 2023; Chelli et al., 2024).

El objetivo del presente trabajo es doble: (1) caracterizar las funcionalidades de cinco herramientas en relación con la producción científica en psicología y (2) situar dicho análisis en el marco de la evidencia empírica disponible. El texto no constituye una revisión sistemática, sino un ensayo comparativo analítico-crítico.

2. Marco conceptual: los LLM como herramientas de escritura

Un LLM es un sistema de aprendizaje profundo entrenado sobre grandes corpus textuales cuyo funcionamiento se basa en la predicción probabilística de secuencias de palabras. Esta arquitectura permite generar texto fluido, pero introduce una limitación estructural relevante: la ausencia de verificación factual y acceso directo a bases de datos bibliográficas.

Como señalan Walters y Wilder (2023), los LLM son transformadores de texto, no sistemas de recuperación de información. Su tendencia a producir citas plausibles pero inexistentes no es un error accidental, sino una consecuencia estructural del modelo.

Khalifa y Albadawy (2024), en una revisión sistemática de 24 estudios, identifican seis dominios de apoyo de la IA en escritura académica: generación de ideas, estructuración de contenido, síntesis de literatura, gestión de datos, edición estilística y apoyo ético. Sin embargo, advierten que la síntesis bibliográfica requiere verificación rigurosa.

Granjeiro et al. (2025) señalan que estas herramientas optimizan la escritura científica, pero requieren supervisión constante debido a limitaciones éticas y metodológicas.

3. Análisis comparativo de herramientas

3.1 ChatGPT (OpenAI)

Alta capacidad de generación de texto académico, adecuado para estructura APA y uso funcional de LaTeX. Sin embargo, presenta alucinaciones bibliográficas significativas: 55% en GPT-3.5 y 18% en GPT-4 (Walters & Wilder, 2023). Exportación PDF no nativa.

3.2 Microsoft Copilot Pro

Integración directa en Microsoft Word. Ventaja en flujo de trabajo y exportación PDF. Limitado en LaTeX. Sin evaluación empírica sólida en literatura revisada por pares.

3.3 Claude (Anthropic)

Alta coherencia en textos extensos. Adecuado para marcos teóricos complejos. Sin acceso a bases de datos, susceptible a alucinaciones. Escasa evidencia empírica en psicología.

3.4 Grok (xAI)

Capacidades generales similares a otros LLM. Muy baja evidencia empírica publicada. Evaluación científica prácticamente inexistente.

3.5 Elicit

Herramienta especializada en recuperación de literatura científica. Baja o nula tasa de alucinación en referencias. No genera textos extensos ni argumentación completa.

4. Tabla comparativa

Herramienta	Generación de texto	LaTeX	Referencias	PDF	Evidencia empírica
ChatGPT	Alta	Parcial	Baja	Indirecta	Alta
Copilot Pro	Alta	Limitada	Media	Sí	Baja
Claude	Alta	Sí	Baja	No	Baja
Grok	Media	Parcial	Baja	No	Muy baja
Elicit	Baja	No	Alta	No	Media

5. Consideraciones éticas

Se identifican tres problemas centrales:

Integridad referencial: riesgo de citas fabricadas con impacto en validez científica.
Autoría y transparencia: necesidad de declarar uso de IA en manuscritos.
Validez conceptual: textos plausibles pero no necesariamente basados en razonamiento empírico.

6. Conclusiones

Ningún LLM generalista es fiable como fuente de referencias sin verificación externa.
Su uso más adecuado es como herramienta de apoyo en la redacción, no en la generación de evidencia.
La combinación de LLM con herramientas de recuperación bibliográfica como Elicit representa el flujo de trabajo más equilibrado.