Qué puede hacer la nueva IA GPT-4
La empresa de investigación tecnológica OpenAI acaba de lanzó una versión actualizada de su programa de inteligencia artificial generadora de texto, llamado GPT-4, y demostró algunas de las nuevas habilidades del modelo de lenguaje. GPT-4 no solo puede producir texto con un sonido más natural y resolver problemas con mayor precisión que su predecesor. También puede procesar imágenes además de texto. Pero la IA sigue siendo vulnerable a algunos de los mismos problemas que aquejaron a los modelos GPT anteriores: mostrar parcialidad, sobrepasar las barreras destinadas a evitar que diga cosas ofensivas o peligrosas y «alucinar» o inventar falsedades con confianza que no se encuentran en sus datos de entrenamiento. .
En Twitter, el CEO de OpenAI, Sam Altman, describió el modelo como el «más capaz y alineado» de la compañía hasta la fecha. («Alineado» significa que está diseñado para seguir la ética humana). Pero «sigue siendo defectuoso, sigue siendo limitado y todavía parece más impresionante en el primer uso que después de pasar más tiempo con él», dijo. escribió en el tuit. No se pudo contactar a ningún representante de OpenAI para obtener nuevos comentarios en el momento de la publicación de este artículo.
Quizás el cambio más significativo es que GPT-4 es «multimodal», lo que significa que funciona tanto con texto como con imágenes. Aunque no puede generar imágenes (al igual que los modelos generativos de IA como DALL-E y Stable Diffusion), puede procesar y responder a las entradas visuales que recibe. Annette Vee, profesora asociada de inglés en la Universidad de Pittsburgh que estudia la intersección de la computación y la escritura, observó una demostración en la que se le dijo al nuevo modelo que identificara qué tenía de divertido una imagen humorística. Ser capaz de hacerlo significa “comprender el contexto en la imagen. Es comprender cómo se compone una imagen y por qué, y conectarla con la comprensión social del lenguaje”, dice. «ChatGPT no pudo hacer eso».
Un dispositivo con la capacidad de analizar y luego describir imágenes podría ser enormemente valioso para las personas ciegas o con discapacidad visual. Por ejemplo, una aplicación móvil llamada Be My Eyes puede describir los objetos que rodean a un usuario, lo que ayuda a las personas con poca o ninguna visión a interpretar su entorno. La aplicación incorporó recientemente GPT-4 en un «voluntario virtual» que, según un declaración en el sitio web de OpenAI, «puede generar el mismo nivel de contexto y comprensión que un voluntario humano».
Pero el análisis de imágenes de GPT-4 va más allá de describir la imagen. En la misma demostración que vio Vee, un representante de OpenAI dibujó una imagen de un sitio web simple y envió el dibujo a GPT-4. A continuación, se le pidió al modelo que escribiera el código necesario para producir dicho sitio web, y lo hizo. “Básicamente se parecía a lo que es la imagen. Era muy, muy simple, pero funcionó bastante bien”, dice Jonathan May, profesor asociado de investigación en la Universidad del Sur de California. “Así que eso fue genial”.
Incluso sin su capacidad multimodal, el nuevo programa supera a sus predecesores en tareas que requieren razonamiento y resolución de problemas. OpenAI dice que ha ejecutado GPT-3.5 y GPT-4 a través de una variedad de pruebas diseñadas para humanos, incluida una simulación del examen de la barra de un abogado, las pruebas SAT y Advanced Placement para estudiantes de secundaria, el GRE para graduados universitarios e incluso un par de los exámenes de sumiller. GPT-4 logró puntajes de nivel humano en muchos de estos puntos de referencia y superó constantemente a su predecesor, aunque no lo hizo todo bien: se desempeñó mal en los exámenes de lengua y literatura inglesa, por ejemplo. Aún así, su amplia capacidad de resolución de problemas podría aplicarse a cualquier cantidad de aplicaciones del mundo real, como administrar un cronograma complejo, encontrar errores en un bloque de código, explicando los matices gramaticales a estudiantes de lenguas extranjeras o identificación de vulnerabilidades de seguridad.
Además, OpenAI afirma que el nuevo modelo puede interpretar y generar bloques de texto más largos: más de 25,000 palabras a la vez. Aunque los modelos anteriores también se usaban para aplicaciones de formato largo, a menudo perdían la noción de lo que estaban hablando. Y la compañía promociona la «creatividad» del nuevo modelo, descrita como su capacidad para producir diferentes tipos de contenido artístico en estilos específicos. En una demostración que comparó cómo GPT-3.5 y GPT-4 imitaron el estilo del autor argentino Jorge Luis Borges en la traducción al inglés, Vee notó que el modelo más reciente produjo un intento más preciso. “Tienes que saber lo suficiente sobre el contexto para poder juzgarlo”, dice ella. “Es posible que un estudiante universitario no entienda por qué es mejor, pero soy profesor de inglés… Si lo entiende desde su propio dominio de conocimiento y es impresionante en su propio dominio de conocimiento, entonces eso es impresionante”.
May también ha probado la creatividad del modelo él mismo. Intentó la tarea lúdica de ordenarle que creara un «backronym» (un acrónimo que se obtiene comenzando con la versión abreviada y trabajando hacia atrás). En este caso, May pidió un nombre lindo para su laboratorio que deletreara «NOMBRE LINDO DEL LABORATORIO» y que también describiera con precisión su campo de investigación. GPT-3.5 no pudo generar una etiqueta relevante, pero GPT-4 tuvo éxito. “Se le ocurrió ‘Comprensión computacional y transformación del análisis del lenguaje expresivo, vinculación de PNL, inteligencia artificial y educación de máquinas’”, dice. “’Machine Education’ no es genial; la parte de ‘inteligencia’ significa que hay una letra extra ahí. Pero, sinceramente, he visto cosas mucho peores”. (Para el contexto, el nombre real de su laboratorio es CUTE LAB NAME, o el Centro de Técnicas Útiles que Mejoran las Aplicaciones del Lenguaje Basadas en Evidencia Natural y Significativa). En otra prueba, la modelo mostró los límites de su creatividad. Cuando May le pidió que escribiera un tipo específico de soneto, solicitó una forma utilizada por el poeta italiano Petrarca, el modelo, que no estaba familiarizado con esa configuración poética, optó por defecto por la forma de soneto preferida por Shakespeare.
Por supuesto, solucionar este problema en particular sería relativamente simple. GPT-4 simplemente necesita aprender una forma poética adicional. De hecho, cuando los humanos incitan al modelo a fallar de esta manera, esto ayuda al desarrollo del programa: puede aprender de todo lo que los probadores no oficiales ingresan al sistema. Al igual que sus predecesores menos fluidos, GPT-4 se entrenó originalmente en grandes franjas de datos, y luego esta capacitación fue refinada por evaluadores humanos. (GPT significa transformador preentrenado generativo). Pero OpenAI ha mantenido en secreto cómo hizo que GPT-4 fuera mejor que GPT-3.5, el modelo que impulsa el popular chatbot ChatGPT de la compañía. Según el papel publicado junto con el lanzamiento del nuevo modelo, “Dado el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene más detalles sobre la arquitectura (incluido el tamaño del modelo), hardware, cómputo de entrenamiento, construcción de conjuntos de datos, método de entrenamiento o similar. ” La falta de transparencia de OpenAI refleja este nuevo entorno competitivo de IA generativa, donde GPT-4 debe competir con programas como el de Google. Bardo y los de Meta Llama. El documento continúa sugiriendo, sin embargo, que la compañía planea eventualmente compartir esos detalles con terceros «que pueden asesorarnos sobre cómo sopesar las consideraciones competitivas y de seguridad… contra el valor científico de una mayor transparencia».
Esas consideraciones de seguridad son importantes porque los chatbots más inteligentes tienen la capacidad de causar daño: sin barreras de seguridad, podrían proporcionarle a un terrorista instrucciones sobre cómo construir una bomba, emitir mensajes amenazantes para una campaña de acoso o proporcionar información errónea a un agente extranjero que intenta influir. una elección Aunque OpenAI ha puesto límites a lo que sus modelos GPT pueden decir para evitar tales escenarios, los probadores determinados han encontrado formas de evitarlos. «Estas cosas son como toros en una tienda de porcelana: son poderosas, pero temerarias», dijo el científico y autor Gary Marcus. Científico americano poco antes del lanzamiento de GPT-4. “No creo [version] cuatro va a cambiar eso”.
Y cuanto más humanos se vuelven estos bots, mejor engañan a las personas para que piensen que hay un agente inteligente detrás de la pantalla de la computadora. “Porque imita [human reasoning] así que bien, a través del lenguaje, creemos eso, pero debajo del capó, no es un razonamiento similar al de los humanos”, advierte Vee. Si esta ilusión engaña a las personas haciéndoles creer que un agente de IA está realizando un razonamiento humano, es posible que confíen más en sus respuestas. Este es un problema importante porque todavía no hay garantía de que esas respuestas sean precisas. “Solo porque estos modelos digan algo, eso no significa que lo que están diciendo sea [true]”, dice mayo. “No hay una base de datos de respuestas de las que extraigan estos modelos”. En cambio, los sistemas como GPT-4 generan una respuesta palabra por palabra, con la siguiente palabra más plausible informada por sus datos de entrenamiento, y esos datos de entrenamiento pueden quedar obsoletos. “Creo que GPT-4 ni siquiera sabe que es GPT-4”, dice. “Le pregunté y me dijo: ‘No, no, no existe el GPT-4. Soy GPT-3’”.
Ahora que se ha lanzado el modelo, muchos investigadores y entusiastas de la IA tienen la oportunidad de probar las fortalezas y debilidades de GPT-4. Los desarrolladores que quieran usarlo en otras aplicaciones pueden solicitar acceso, y cualquiera que quiera “hablar” con el programa deberá suscribirse a ChatGPT Plus. Por $20 al mes, este programa pago permite a los usuarios elegir entre hablar con un chatbot que se ejecuta en GPT-3.5 y uno que se ejecuta en GPT-4.
Tales exploraciones sin duda descubrirán más aplicaciones potenciales y fallas en GPT-4. “La verdadera pregunta debería ser ‘¿Cómo se sentirá la gente al respecto dentro de dos meses, después del shock inicial?’”, dice Marcus. “Parte de mi consejo es: moderemos nuestro entusiasmo inicial al darnos cuenta de que hemos visto esta película antes. Siempre es fácil hacer una demostración de algo; convertirlo en un producto real es difícil. Y si todavía tiene estos problemas (alrededor de alucinaciones, no comprender realmente el mundo físico, el mundo médico, etcétera), eso todavía limitará un poco su utilidad. Y todavía significará que debe prestar mucha atención a cómo se usa y para qué se usa”.