ChatGPT, la inteligencia artificial que utiliza un modelo de lenguaje grande (LLM) GPT (transformador previamente entrenado generativo) que ha sido entrenado con enormes cantidades de datos de texto en línea para generar lenguaje similar al humano y proporcionar respuestas a las solicitudes de los usuarios, repite respuestas memorizadas y a veces se tambalea, improvisa e incluso razona de manera que parece similar a un aprendiz.

ChatGPT genera respuestas prediciendo secuencias de palabras aprendidas durante su entrenamiento. Ahora, un nuevo estudio israelí muestra que la imprevisibilidad de ChatGPT puede limitar su fiabilidad en un aula de matemáticas, pero también sugiere algo poderoso: la IA puede ser más que un recuperador de hechos. Utilizada con cuidado, podría convertirse en un compañero que despierta la curiosidad, desafía suposiciones y ayuda a los estudiantes a practicar las habilidades que hacen de las matemáticas un acto de descubrimiento, según investigadores de la Universidad Hebrea de Jerusalén (HUJI).

El experimento, realizado por dos investigadores en educación, pidió al chatbot resolver una versión del experimento del esclavo de Platón de "duplicar el cuadrado" - una lección que describió alrededor del 385 a.C. y que, según el artículo, es "quizás el primer experimento documentado en la educación matemática".

El equipo preguntó: "¿Cuál es el origen del conocimiento humano? ¿Realmente aprendemos cosas nuevas, o en cambio, nacemos con algún conocimiento innato y latente que nuestras experiencias en el mundo y nuestras interacciones con otros nos ayudan a recordar?"

Estas preguntas epistemológicas se abordan en el famoso diálogo de Platón, Menón, en el que Sócrates argumenta que todo nuestro conocimiento es innato, y por lo tanto, el aprendizaje debería verse como un proceso de recuerdo. El enigma llevó a siglos de debate sobre si el conocimiento está latente en nosotros, esperando ser "recuperado", o algo que "generamos" a través de la experiencia vivida y los encuentros. Los investigadores querían saber si ChatGPT resolvería el problema del antiguo filósofo griego utilizando conocimiento que ya "poseía" o desarrollando adaptativamente sus propias soluciones.

Dr. Nadav Marco
Dr. Nadav Marco (credit: Courtesy)

El NUEVO estudio, recién publicado en la Revista Internacional de Educación Matemática en Ciencia y Tecnología, titulado "Una exploración sobre la naturaleza del conocimiento matemático de ChatGPT", exploró una pregunta similar sobre el "conocimiento" matemático de ChatGPT, al menos en la medida en que puede ser percibido por sus usuarios.

Los investigadores fueron liderados por el Dr. Nadav Marco, un destacado experto en educación matemática en la HUJI y en el David Yellin College of Education de Jerusalén, y un académico visitante de matemáticas en la Universidad de Cambridge en el Reino Unido. Colaboró con el Prof. Andreas Stylianides, también experto en educación matemática de Cambridge.

Presentaron el problema a ChatGPT-4, primero imitando las preguntas de Sócrates y luego introduciendo deliberadamente errores, consultas y nuevas variantes del problema.

"Fui profesor de matemáticas de secundaria durante años y amaba la materia. No fui entrenado como filósofo, pero leí sobre Menón, Platón y Sócrates porque realmente fue el primer ejemplo histórico de educación matemática", Marco le dijo al Jerusalem Post. "Utilizo mucho ChatGPT; es una parte integral de mi trabajo, pero no confío automáticamente en él".

Platón describe a Sócrates enseñando a un niño no educado cómo duplicar el área de un cuadrado. Al principio, el niño sugiere erróneamente duplicar la longitud de cada lado, pero las preguntas de Sócrates finalmente lo llevan a entender que los lados del nuevo cuadrado deben tener la misma longitud que la diagonal del original.

Al igual que otros LLMs, ChatGPT está entrenado en vastas colecciones de texto. Los investigadores esperaban que pudiera manejar su desafío matemático de la antigua Grecia regurgitando su preexistente "conocimiento" de la famosa solución de Sócrates. Sin embargo, pareció improvisar su enfoque y, en un momento, también cometió un error claramente humano. Aunque son cautelosos con los resultados, enfatizando que los LLMs no piensan como humanos ni "resuelven problemas", Marco caracterizó el comportamiento de ChatGPT como "similar al de un aprendiz".

"Cuando enfrentamos un problema nuevo, a menudo nuestra instinto es probar cosas basadas en nuestra experiencia pasada", dijo Marco. "En nuestro experimento, ChatGPT pareció hacer algo similar. Como un aprendiz o académico, parecía desarrollar sus propias hipótesis y soluciones".

Debido a que ChatGPT está entrenado en texto y no en diagramas, tiende a ser más débil en el tipo de razonamiento geométrico que Sócrates utilizó en el problema de duplicar el cuadrado. A pesar de esto, Marco dijo que el texto de Platón es tan conocido que los investigadores esperaban que el chatbot reconociera sus preguntas y reprodujera la solución de Sócrates. De manera intrigante, falló en hacerlo. Al pedirle que duplicara el cuadrado, ChatGPT optó por un enfoque algebraico que habría sido desconocido en la época de Platón.

Luego resistió los intentos de que cometiera el error del niño y se mantuvo tercamente en el álgebra incluso cuando los investigadores se quejaron de que su respuesta era una aproximación. Solo cuando Marco y Stylianides le dijeron que estaban decepcionados de que, a pesar de todo su entrenamiento, no pudiera proporcionar una respuesta "elegante y exacta", el chatbot produjo la alternativa geométrica.

A pesar de esto, ChatGPT presentó un conocimiento completo de la obra de Platón cuando se le preguntó directamente al respecto. "Si solo hubiera estado recordando de memoria, casi con certeza habría mencionado la solución clásica de construir un nuevo cuadrado en la diagonal del cuadrado original de inmediato", dijo Stylianides. "En cambio, pareció tomar su propio enfoque".

Los investigadores también plantearon una variante del problema de Platón, pidiéndole a ChatGPT que duplicara el área de un rectángulo manteniendo sus proporciones. Aunque ahora era consciente de su preferencia por la geometría, tercamente se aferró al álgebra. Cuando se le presionó, afirmó erróneamente que, dado que la diagonal de un rectángulo no se puede usar para duplicar su tamaño, no existía una solución geométrica.

El punto sobre la diagonal es cierto, pero sí existe una solución geométrica diferente. Marco sugirió que la posibilidad de que esta afirmación falsa proviniera de la base de conocimientos del chatbot era "extremadamente pequeña". En cambio, ChatGPT parecía estar improvisando sus respuestas basándose en la discusión previa sobre el cuadrado.

Finalmente, Marco y Stylianides le pidieron que duplicara el tamaño de un triángulo. Nuevamente recurrió al álgebra, pero después de más insistencias, finalmente dio con una respuesta geométrica correcta.

LOS INVESTIGADORES enfatizan la importancia de no sobreinterpretar estos resultados, ya que solo estaban interactuando con el chatbot y no podían observar científicamente su programación. Desde la perspectiva de su experiencia digital como usuarios, sin embargo, lo que surgió en ese nivel superficial fue una mezcla de recuperación de datos y razonamiento improvisado.

Comparan este comportamiento con el concepto educativo de "zona de desarrollo próximo" (ZDP) - la brecha entre lo que un aprendiz ya sabe y lo que eventualmente podría saber con apoyo y orientación. Tal vez, argumentan, la IA generativa tiene una "ZDP metafórica de Chat": En algunos casos, no podrá resolver problemas de inmediato pero podría hacerlo con indicaciones.

Los autores sugieren que trabajar con ChatGPT en su ZDP puede ayudar a convertir sus limitaciones en oportunidades de aprendizaje. Al incitar, cuestionar y poner a prueba sus respuestas, los estudiantes no solo navegarán por sus límites, sino que también desarrollarán las habilidades críticas de evaluación de pruebas y razonamiento que se encuentran en el corazón del pensamiento matemático.

"Hay muchas razones para preocuparse por los efectos potencialmente dañinos de la IA en la educación y la formación. Los usuarios tienen que desarrollar un sentido crítico independiente porque ChatGPT comete errores. Cuando los profesores y conferenciantes reciben lo que escriben los estudiantes, tienen que asegurarse de que sea auténtico y no copiado y pegado de la IA, que también sabe parafrasear, por lo que no es plagio. Es como pedir a los niños que calculen un problema matemático, y no les importa ni entienden cómo se hace porque usan su calculadora electrónica", afirmó Marco.

Añadió que prevenir que las personas -estudiantes, incluso estudiantes de medicina- copien de ChatGPT es un gran desafío. "Tenemos que desarrollar las habilidades de los estudiantes. Se cometen errores. Evalúo lo que los estudiantes escriben, y usualmente puedo detectar cuando está siendo utilizado. En su lugar, habrá más énfasis en exámenes orales y presentaciones. En el Colegio David Yellin, pido a los profesores de matemáticas que presenten los temas y se graben a sí mismos haciéndolo".

"A diferencia de las pruebas encontradas en libros de texto confiables, los estudiantes no pueden asumir que las pruebas de ChatGPT son válidas", concluyó Marco. "Estas son habilidades fundamentales que queremos que los estudiantes dominen, pero esto significa usar indicaciones como 'Quiero que exploremos este problema juntos', no 'Dime la respuesta'. Esperamos que nuestra exploración arroje luz sobre nuevas direcciones de investigación que aspiran a explotar el potencial pedagógico de utilizar LLM para aprender y enseñar matemáticas".