Hablando con el futuro: ChatGPT y la promesa de asistentes personales realmente útiles

Ingeniería
|
Novedades

Posgrados Ingenieria

Hablando con el futuro: ChatGPT y la promesa de asistentes personales realmente útiles

29.03.2023

Autor: Rafael Crescenzi

Los modelos de lenguaje se han vuelto una herramienta muy poderosa y a medida que los asistentes personales basados en IA sean utilizados por el público general, la productividad del trabajo humano podría escalar a niveles impensables hace algunos años.

Se ha dicho hasta el hartazgo: nuestro mundo está siendo forjado por la tecnología, desde la invención de la imprenta hasta la llegada de Internet, cada innovación ha sido un escalón en la evolución de la humanidad. Pero ahora, quizás, estemos asistiendo a una disrupción tecnológica sin precedentes.

Esta revolución está construida sobre una tecnología conocida como redes neuronales artificiales que, en formas mucho más simples, ya eran usadas por Gauss y adoptaron su forma actual a mediados del siglo pasado. Si bien se conocía su potencial, no fue hasta hace algo más de 10 años que empezaron a cobrar notoriedad cuando, habilitadas por la creciente capacidad de cálculo y disponibilidad de datos, fueron usadas para revolucionar el campo de la visión por computadoras; hasta llegar al punto de desarrollar sistemas más precisos que los seres humanos.

Estas redes se caracterizaban no sólo por ser mucho más grandes que las usadas hasta ese momento, sino por tener configuraciones que les permitían procesar información de mayor diversidad, como imágenes y texto, sin necesitar la intervención de humanos expertos en su preprocesamiento. Es decir, en cierta forma, aprendían a realizar ese preprocesamiento por ellas mismas.

A mitad de camino entre aquél hito y la actualidad, se publicó el paper “Attention is all you need”, en el cual se presentaba una nueva configuración de neuronas artificiales, llamada “transformer”, que dio lugar a la ola de algoritmos que ahora conocemos con grandes modelos de lenguaje. Entre ellos, la familia de los GPT (Generative Pre-trained Transformer), desarrollados por OpenAI, que pasaron de 117 millones de parámetros en la primera versión de 2018, hasta los 175 mil millones, en la tercera versión, lanzada en 2020 y que es el corazón de chatGPT.

¿Qué son los grandes modelos de lenguaje?

Nada más que redes neuronales basadas en transformers y entrenadas para predecir la siguiente palabra en una secuencia de texto. Por eso el mote de pre entrenados (Pre trained, la P de GPT): no se les enseñó a encontrar el sentido de una oración, ni a detectar el sentimiento del texto, ni ninguna otra tarea específica.

¿Por qué se hizo así? Por la cantidad de datos. Si el modelo debe encontrar la siguiente palabra de un texto, todos los textos de la historia de la humanidad son datos viables para entrenarlo; mientras que si quisiera entrenarlo para detectar -por ejemplo- sentimientos, sólo serían útiles los textos adecuadamente categorizados (varios órdenes de magnitud menos).

¿Por qué funcionan? Podríamos especular con que el lenguaje codifica el conocimiento humano y el acto de predecir adecuadamente una palabra más, implica entender de alguna manera lo precedente; pero realmente es difícil comprender –al menos para mí- por qué estas redes son tan poderosas. Mucho más fácil es, sin embargo, entender por qué son tan útiles. Para ello, primero hay que señalar que no están limitados a predecir una palabra nada más, puesto que cada palabra que genera puede agregarse al texto original para generar otra más, y luego otra, y así sucesivamente.

Además, muchas veces se puede componer un texto para incitar una respuesta específica. Por ejemplo, si yo escribo (o copio) un largo artículo que contenga información que me interesa; le agrego al final “En resumen:” y le pido una persona que continúe, la mayoría escribiría un resumen de lo anterior. Bueno, pues un modelo de lenguaje hace lo mismo, porque fue entrenado para continuar textos de la misma manera que lo haría un ser humano.

Es así, entonces, que con textos bien confeccionados (popularizados como “promts” por su denominación en inglés) se puede lograr que estas redes exhiban comportamientos mucho más complejos que los enseñados. Si escribo “América fue descubierta por”, va a completar Colón. Si le digo “Este es un sistema de ecuaciones, la solución para x e y es”, no sólo hará el desarrollo matemático, sino que lo explicará en palabras. Si le doy un título y subtitulo, quizás logre que escriba una nota entera.

La guerra por la búsqueda Web y los asistentes personales

Recientemente, viendo su potencial, Microsoft tomó la iniciativa y se aseguró un acuerdo con OpenAI para la utilización chatGPT en Bing; tanto en el lateral de la página de resultados como en un chat independiente, similar a la aplicación original. Por su parte, Google rápidamente anunció un producto análogo, llamado Bardo (Bard); basado en Lambda, aquel modelo que se popularizó el año pasado porque un ingeniero pensó que tenía conciencia.

La tensión es máxima y parecería que asistiremos a una guerra entre los gigantes tecnológicos por el mercado de la búsqueda web. Pero, ¿es en efecto así?

Ciertamente, este tipo de herramientas reemplazaría muchas de las búsquedas que hacemos, pero justamente en los casos donde no nos interesa buscar una página web, sino una respuesta específica. A mi entender, productos como chatGPT no amenazan la cuota de mercado de búsqueda que detenta Google, sino el tamaño del mercado en sí mismo, con un sustituto superador: el asistente personal. Pero uno realmente útil, uno que eclipse a HAL 9000 o haga sentir inseguro a J.A.R.V.I.S.

Esta es una promesa que ya nos hicieron, y nos decepcionaron: Siri tiene más de 10 años, Alexa y el asistente de Google lo siguen de cerca. Pero donde esos productos fallaron, chatGPT parece brillar. No sólo comprende los pedidos que le hacemos con pocas fallas, no sólo da buenas respuestas desde el primer intento, sino que entiende el contexto, pudiendo recibir réplicas y correcciones. Es decir, habilita el real diálogo entre humano y máquina, permitiendo una interacción con la tecnología que, bien implementada, podría revolucionar nuestra productividad.

Y los tiempos para llegar a esa realidad parecen acelerarse, sólo en las últimas semanas Meta AI publicó LLaMA, un modelo de capacidades comparables a GPT-3 pero de código abierto y mocho más rápido y pequeño. Científicos de Stanford crearon Alpaca, un clon de chatGPT logrado a partir de LLaMA con ajustes generados de la propia API de ChatGPT por un costo menor a los 1000 dólares (vs millones que costo entrenar los modelos originales). Y, por supuesto, OpenAI publicó GPT-4, una versión superadora de su modelo estrella, que no sólo lee texto, sino que también entiende imágenes.

Todos esos desarrollos junto con la adopción masiva de las herramientas a través de Bing y Google Search; la incorporación de asistentes virtuales en Office y Workspaces; el desarrollo de Copilot y Copilot X de Github; más la plétora de startups que intentarán posicionarse en ese mercado; no sólo auguran un impacto significativo en la productividad de quienes la usemos, sino una aceleración vertiginosa en la creación y mejora de las propias herramientas.

Esta nota fue escrita por inteligencia humana

Me encantaría seguir la moda del momento y rematar la nota diciendo que fue escrita por AI, pero no es el caso. Eso no quiere decir que no haya tenido su asistencia: usé chatGPT para que me sugiera continuaciones, para romper un poco el bloqueo propio de un escritor bisoño y para mejorar mi gramática. Incluso, le pedí que genere los textos que luego le di a otras redes generativas que pasan de texto a imágenes (DALL-E 2 y Stable Diffusion 2.1), para generar las ilustraciones que acompañan a esta nota. En definitiva, no utilicé IA para reemplazar mi trabajo, sino para hacerlo mucho más rápido y con más calidad.

Sobre el especialista

Rafael Crescenzi es Mag. en Ciencia de Datos, actuario, emprendedor IT, profesor universitario y doctorando en ingeniería. Se desempeña como profesor en la Maestría en Ciencias de Datos de la Facultad de Ingeniería de la Universidad Austral dentro de la materia Laboratorio de Implementación II.

#DataMining #AI #Modelos de Lenguaje #Bing #Microsoft #OpenAI #chatGPT #Google #LaMDA #Bardo