Un equipo del Washington Post llevó a cabo una prueba en la que evaluó a cinco de los principales chatbots de inteligencia artificial, entre ellos ChatGPT y Claude. El objetivo era medir su capacidad de comprensión al leer diferentes tipos de textos, como literatura, contratos legales y discursos políticos. Los resultados mostraron que, a pesar de que Claude y ChatGPT tuvieron un desempeño notable, ninguno de los bots logró superar el 70% de precisión en sus respuestas.
Los bots fueron analizados en cuatro categorías de texto: literatura, ciencia médica, contratos legales y discursos políticos. Se formularon un total de 115 preguntas para evaluar su comprensión, análisis crítico y precisión. En el área literaria, muchos de los bots fallaron al leer una novela histórica. Solo Claude acertó en todos los datos clave del libro, mientras que ChatGPT ofreció el mejor resumen general, aunque dejó de lado personajes y temas importantes como la esclavitud.
Gemini fue el que tuvo el peor desempeño; el autor de la novela lo comparó con un personaje de “Seinfeld” que vio la película en lugar de leer el libro.
Desempeño en contratos legales
En el ámbito de los contratos legales, Claude volvió a destacar. Según Sterling Miller, un abogado corporativo, Claude fue el único chatbot que entendió correctamente las cláusulas más importantes. Además, propuso mejoras útiles y detectó detalles que otros bots pasaron por alto. En contraste, ChatGPT y Meta AI resumieron partes clave en una sola línea, algo que Miller calificó como “inútil”.
Evaluación en investigación médica
En el área de investigación médica, los cinco bots mostraron un nivel aceptable al analizar artículos científicos. Claude obtuvo el mejor puntaje (10/10) al explicar un artículo sobre COVID persistente, siendo claro y útil para los médicos. Por otro lado, Gemini omitió partes esenciales del estudio sobre Parkinson.
Comprensión política
En el ámbito político, ChatGPT demostró una mejor comprensión de Trump, logrando un equilibrio entre contexto y veracidad en los discursos del actual presidente. Claude fue el más consistente y se posicionó en el primer lugar de la evaluación general. Fue el único que se destacó tanto en análisis científico como en redacción legal, manteniendo respuestas coherentes.
A diferencia de otros bots que resumieron de manera incorrecta o ignoraron partes clave, Claude se mostró más completo y preciso. Según los jueces, fue el que más se acercó a ser un buen asistente real.
Conclusiones sobre los chatbots
Tanto Claude como ChatGPT demostraron ser los más capaces entre los evaluados; sin embargo, ninguno de los bots superó el 70% de precisión general. Todos ellos omitieron datos clave o generaron respuestas engañosas en mayor o menor medida. Aunque pueden ser útiles como asistentes de lectura, todavía no son un reemplazo para la comprensión humana.
El test realizado por el Washington Post pone de manifiesto las limitaciones actuales de estos sistemas automatizados frente a la complejidad del lenguaje humano y su interpretación adecuada. La conclusión es clara: “el robot se esconde detrás de una máscara humana”, lo que resalta la necesidad de mantener un enfoque crítico hacia estas herramientas tecnológicas emergentes.