Prueba evidencia fallas en "lectura de comprensión" de chatbots - La Patria 3.0

Estudios recientes indican que ni ChatGPT ni otros bots han logrado un desempeño sobresaliente en comprensión lectora; aunque útiles, todavía carecen del entendimiento humano necesario.

Un equipo del Washington Post llevó a cabo una prueba en la que evaluó a cinco de los principales chatbots de inteligencia artificial, entre ellos ChatGPT y Claude. El objetivo era medir su capacidad de comprensión al leer diferentes tipos de textos, como literatura, contratos legales y discursos políticos. Los resultados mostraron que, a pesar de que Claude y ChatGPT tuvieron un desempeño notable, ninguno de los bots logró superar el 70% de precisión en sus respuestas.

Los bots fueron analizados en cuatro categorías de texto: literatura, ciencia médica, contratos legales y discursos políticos. Se formularon un total de 115 preguntas para evaluar su comprensión, análisis crítico y precisión. En el área literaria, muchos de los bots fallaron al leer una novela histórica. Solo Claude acertó en todos los datos clave del libro, mientras que ChatGPT ofreció el mejor resumen general, aunque dejó de lado personajes y temas importantes como la esclavitud.

Gemini fue el que tuvo el peor desempeño; el autor de la novela lo comparó con un personaje de “Seinfeld” que vio la película en lugar de leer el libro.

Desempeño en contratos legales

En el ámbito de los contratos legales, Claude volvió a destacar. Según Sterling Miller, un abogado corporativo, Claude fue el único chatbot que entendió correctamente las cláusulas más importantes. Además, propuso mejoras útiles y detectó detalles que otros bots pasaron por alto. En contraste, ChatGPT y Meta AI resumieron partes clave en una sola línea, algo que Miller calificó como “inútil”.

Evaluación en investigación médica

En el área de investigación médica, los cinco bots mostraron un nivel aceptable al analizar artículos científicos. Claude obtuvo el mejor puntaje (10/10) al explicar un artículo sobre COVID persistente, siendo claro y útil para los médicos. Por otro lado, Gemini omitió partes esenciales del estudio sobre Parkinson.

Comprensión política

En el ámbito político, ChatGPT demostró una mejor comprensión de Trump, logrando un equilibrio entre contexto y veracidad en los discursos del actual presidente. Claude fue el más consistente y se posicionó en el primer lugar de la evaluación general. Fue el único que se destacó tanto en análisis científico como en redacción legal, manteniendo respuestas coherentes.

A diferencia de otros bots que resumieron de manera incorrecta o ignoraron partes clave, Claude se mostró más completo y preciso. Según los jueces, fue el que más se acercó a ser un buen asistente real.

Conclusiones sobre los chatbots

Tanto Claude como ChatGPT demostraron ser los más capaces entre los evaluados; sin embargo, ninguno de los bots superó el 70% de precisión general. Todos ellos omitieron datos clave o generaron respuestas engañosas en mayor o menor medida. Aunque pueden ser útiles como asistentes de lectura, todavía no son un reemplazo para la comprensión humana.

El test realizado por el Washington Post pone de manifiesto las limitaciones actuales de estos sistemas automatizados frente a la complejidad del lenguaje humano y su interpretación adecuada. La conclusión es clara: “el robot se esconde detrás de una máscara humana”, lo que resalta la necesidad de mantener un enfoque crítico hacia estas herramientas tecnológicas emergentes.

Prueba evidencia fallas en “lectura de comprensión” de chatbots

Desempeño en contratos legales

Evaluación en investigación médica

Comprensión política

Conclusiones sobre los chatbots

Noticias destacadas

México firma acuerdo con plataformas para prevenir ciberacoso

Demandan a Google por “suicidio inducido por IA”

Segundo simulacro de apagón analógico será este sábado

Tecnología boliviana: ROV lograra un hito en limpieza de lagos

Microsoft invertirá 50 mil millones en IA para el Sur Global

Desempeño en contratos legales

Evaluación en investigación médica

Comprensión política

Conclusiones sobre los chatbots

Tal vez te interese

México firma acuerdo con plataformas para prevenir ciberacoso

Noticias destacadas

México firma acuerdo con plataformas para prevenir ciberacoso

Demandan a Google por “suicidio inducido por IA”

Segundo simulacro de apagón analógico será este sábado

Tecnología boliviana: ROV lograra un hito en limpieza de lagos

Microsoft invertirá 50 mil millones en IA para el Sur Global