¿Por qué es importante la IA?

La mayoría de las personas que conozco no entienden por qué la IA es tan importante. Está bien, realmente lo entiendo. Podrías pensar que esto es solo cosa de frikis. Créeme, no lo es. Te guste o no, la IA va a cambiar nuestra realidad en un abrir y cerrar de ojos.

Para mí, es el invento más importante de la humanidad.

Soy el tipo de friki que trabaja en un laboratorio de IA. Puedes decir que soy “conocedor”, pero en realidad no lo soy. Aún hay mucho que aprender sobre la IA.

En este artículo, quiero omitir la parte técnica y centrarme en los fundamentos de la IA. Mi objetivo es que incluso mi abuela (que lee este blog) pueda entender de qué estoy hablando.

Para simplificar, estoy usando ChatGPT como ejemplo de un LLM (Modelo de Lenguaje Grande). Hay otros modelos tanto privados como públicos. Hablaré de ellos en publicaciones posteriores.

ChatGPT. ¿Qué hace?

Voy a empezar con algo que asumo que la mayoría de las personas conoce: ChatGPT. Desde su lanzamiento, ha causado una enorme emoción. Conceptualmente, es solo un programa que “genera” lenguaje humano. Tú le “preguntas” algo y él genera palabras para “responder” a tu pregunta. Sencillo, ¿verdad?

Bueno, este programa (llamémoslo “modelo”) ha desbloqueado muchas nuevas posibilidades. Quizás la más adoptada sea el chatbot.

Puedes mantener conversaciones coherentes sobre cualquier cosa. Yo discuto sobre nutrición, filosofía y matemáticas casi todas las semanas. No hay límite, puedes pedirle que escriba un poema, que cree un programa de ejercicio, que te dé recetas de comida, que te ayude con tus deberes, que traduzca textos… Ya te haces una idea.

El hecho de que un solo programa pueda hacer todo eso aún me sorprende. Sin embargo, hasta donde llega, no es perfecto… todavía.

¿Deberíamos confiar en él?

Dada su naturaleza, puedes “pedirle” cualquier cosa a ChatGPT. El modelo simplemente generará las próximas palabras probables. Sin embargo, aquí viene el problema: ¿debemos confiar en sus respuestas?

Generalmente no, no deberíamos. Aunque las respuestas puedan sonar lo suficientemente convincentes, eso no implica que sean verdaderas. En este momento, los modelos sufren de algo llamado “alucinaciones” (básicamente inventar cosas). En los modelos modernos, no es tan frecuente, pero aún así, debes estar atento a eso.

Para protegernos de la desinformación, debemos practicar el pensamiento crítico. En realidad, esto no es nada nuevo. Todos hemos oído millones de veces frases como “no te creas todo lo que lees en Internet”. De hecho, la regla se aplica a todo. Necesitas un cierto nivel de escepticismo sobre lo que oyes o lees. Desafortunadamente, el “pensamiento crítico” es más difícil que nunca y todos parecen haberlo olvidado.

Ejercicio: La próxima vez que estés en una conversación, identifica el origen de tus argumentos. ¿Son originalmente tuyos? ¿Estás repitiendo cosas que escuchaste? ¿Las has reflexionado? ¿Quizás verificado?

Medir qué tan bueno es ChatGPT

Ahora bien, probablemente te estés preguntando: “¿cómo sabemos si realmente es bueno?” ¡Gran pregunta! Así como usamos pruebas para medir qué tan bien están aprendiendo los estudiantes, hacemos lo mismo para la IA. Esto nos ayuda a entender cuán capaces se están volviendo estos sistemas y qué tan rápido están mejorando.

Medir el rendimiento de los LLM es un área de investigación activa. Hay un montón de preguntas abiertas porque no entendemos completamente el rango de tareas que puede realizar un modelo.

Para entender realmente cuánto ha avanzado la IA, echemos un vistazo a algunas pruebas del mundo real. Piensa en estas como “pruebas estandarizadas” para la IA, que miden qué tan bien se desempeñan en varias tareas. Te ahorraré la jerga técnica, pero créeme, estas pruebas son difíciles.

Nota: Para aquellos interesados, he añadido algunas preguntas seleccionadas al final de esta publicación. Intenta resolverlas por tu cuenta… o usa la IA para guiarte.

¿Qué puede hacer ChatGPT? (la parte aterradora)

A continuación, se presentan 4 de los benchmarks más famosos que la IA ha superado recientemente. Exploremos lo que los números nos dicen.

Conocimiento General (prueba MMLU)

Esta prueba cubre todo, desde historia hasta ciencia y derecho.
En 2019, la IA obtuvo alrededor del 32% (imagina sacar un F en tu examen).
En 2023, la última IA obtuvo más del 86% (es como pasar de un F a un A en solo cuatro años).

Conocimiento Médico (prueba MedQA)

Esta se basa en exámenes de licencia médica reales. Cosas difíciles.
En 2022, la IA estaba puntuando alrededor del 33% (apenas aprobando).
Para 2024, alcanzó el 93% (¡mejor que muchos médicos humanos!).

Matemáticas Avanzadas (prueba MATH)

Hablamos de problemas matemáticos complejos, no solo de aritmética básica.
En 2019, la IA obtuvo un miserable 6.9% (básicamente sin idea).
Para 2024, alcanzó casi el 88% (de “las matemáticas son difíciles” a genio matemático).

Ciencia a Nivel Experto (prueba GPQA)

Estas son preguntas tan difíciles que los expertos fuera de su campo solo aciertan el 34%.
A finales de 2022, la IA obtuvo alrededor del 28% (no genial, pero recuerda lo difícil que es esto).
Para 2024, alcanzó el 53.6% (superando a expertos humanos en campos desconocidos).

Notas personales

Esto es la IA, amigos. Recuerden, un “programa” de ordenador resuelve este tipo de problemas expresados en lenguaje natural. Más importante aún, no le enseñamos cómo resolverlos, simplemente lo hace.

¿La parte verdaderamente asombrosa? La mayoría de estas mejoras ocurrieron en solo 1-2 años. Es como ver a un niño pasar de luchar con la suma básica a resolver ecuaciones complejas de la noche a la mañana.

El ritmo al que avanza la IA es más rápido que cualquier cosa que hayamos visto en la historia. Lleva mucho tiempo a los expertos recopilar preguntas que desafíen a los futuros sistemas de IA.

En resumen

Entonces, ¿por qué es tan importante la IA? Bueno, mira lo lejos que hemos llegado en solo unos pocos años. Estos modelos de IA están resolviendo problemas complejos, entendiendo matices del lenguaje e incluso superando a expertos humanos en algunas áreas. No se trata solo de tener un chatbot genial con el que jugar, sino de tener herramientas que pueden revolucionar industrias, acelerar descubrimientos científicos y ayudarnos a afrontar algunos de los mayores desafíos que enfrenta la humanidad. Desde el cuidado de la salud hasta el cambio climático, la IA tiene el potencial de ser un cambio de juego. Y la parte aterradora (o emocionante, según cómo lo mires) es que apenas estamos comenzando.

Espero que a estas alturas entiendas por qué la IA es tan relevante hoy en día. Mientras lees esto, en algún gran servidor, se están entrenando nuevos modelos de IA. Esos nuevos modelos pueden ser increíblemente beneficiosos para resolver problemas que nuestro “cerebro primate” no puede.

Apenas hemos arañado la superficie de lo que la IA puede hacer. En publicaciones futuras, exploraremos más sobre esta nueva tecnología. Ya sea que estés emocionado, aterrorizado o simplemente curioso, hay un mundo entero de maravillas (y desafíos) de IA por explorar. Así que, ¿qué aspecto de la IA te intriga más?

Por ahora, estoy feliz si has entendido cuán engañosamente poderosa es “simplemente generar palabras”.

Gracias por leer.

Referencias (solo en inglés)

Preguntas de prueba de IA seleccionadas

MMLU

Esta es una prueba masiva multitarea que consiste en preguntas de opción múltiple de varias ramas del conocimiento. La prueba abarca materias en las humanidades, ciencias sociales, ciencias duras y otras áreas que son importantes para que algunas personas aprendan. Esto cubre 57 tareas que incluyen matemáticas elementales, historia de EE. UU., informática, derecho y más. Para obtener una alta precisión en esta prueba, los modelos deben poseer amplios conocimientos del mundo y capacidad de resolución de problemas.

Ejemplos de preguntas:

Química Universitaria “El tiempo de correlación rotacional de un objeto esférico de radio r inmerso en un líquido con viscosidad η se da por la ecuación de Stokes: τc = 4πηr3/3kBT. Una molécula pequeña con masa molecular relativa Mr = 100 en agua a 298 K tiene τc = 50 ps. Suponiendo que Mr es proporcional al volumen molecular, estima τc para una pequeña proteína con Mr = 8400.”
Derecho Profesional “Un hombre está sentado en una silla de playa, en un estado meditativo relajado, cuando un camión que acelera en la arena atropelló a un anciano que tomaba el sol. El hombre dijo en voz alta: ‘¡Oh Dios, mira lo que ha hecho ese camionero! ¡El hombre que conducía ese camión iba a más de 100 mph! ¡Alguien que llame al 911!’ Una mujer que estaba sentada en la playa cerca, pero mirando hacia el otro lado, escuchó el grito del hombre. Cuando el caso llega a juicio, ¿permitirá el tribunal que tanto el hombre como la mujer testifiquen sobre lo que el hombre dijo?”
Contabilidad Profesional “Cuando se formó la sociedad AQR, el socio Acre aportó un terreno con un valor de mercado justo de $100,000 y una base fiscal de$ 60,000 a cambio de un tercio de interés en la sociedad. El acuerdo de la sociedad AQR especifica que cada socio compartirá por igual las ganancias y pérdidas de la sociedad. Durante su primer año de operación, AQR vendió el terreno a un tercero no relacionado por $160,000. ¿Cuál es el tratamiento fiscal adecuado de la venta?”

MedQA

Respuesta a preguntas de opción múltiple basadas en los exámenes de licencia médica de EE. UU. (USMLE). El conjunto de datos se recopila de los exámenes de la junta médica profesional.

Ejemplos de preguntas:

“Una mujer de 23 años acude al médico debido a un aumento del dolor y la hinchazón de sus manos y muñecas durante 3 días. No ha podido continuar con sus actividades diarias como escribir o conducir. Ha tenido un sarpullido generalizado no pruriginoso durante 4 días. Tuvo fiebre y una secreción nasal hace una semana que se resolvió con medicamentos de venta libre. Es sexualmente activa con una pareja masculina y usa preservativos de manera inconsistente. Trabaja como auxiliar en un parque de atracciones. Su temperatura es de 37.1 °C (98.8 °F), pulso 90/min, y presión sanguínea 118/72 mm Hg. El examen muestra hinchazón y sensibilidad en las muñecas así como en las articulaciones metacarpofalángicas y interfalángicas proximales. El rango de movimiento en las muñecas está limitado. Se observa un sarpullido macular en un patrón enrejado sobre el tronco y extremidades. El resto del examen no muestra anormalidades. Los estudios de laboratorio, que incluyen la velocidad de sedimentación de los glóbulos rojos y serología de anticuerpos antinucleares y anti-dsDNA, no muestran anormalidades. ¿Cuál de los siguientes es el diagnóstico más probable?”
“Un hombre de 55 años se presenta en el departamento de emergencias con hematemesis que comenzó hace 1 hora pero ha disminuido. Su historia médica reciente es significativa por cirrosis con varices esofágicas conocidas que han sido previamente tratadas. Su temperatura es de 97.5 °F (36.4 °C), presión sanguínea 114/64 mmHg, pulso 130/min, respiraciones 12/min, y saturación de oxígeno al 98% en aire ambiente. Durante el examen físico del paciente, comienza a vomitar nuevamente y su ritmo cardíaco aumenta junto con una presión sanguínea que empeora. Desarrolla cambios en su estado mental y al examinarlo, abre los ojos y flexiona los brazos solo ante un roce en el esternón y balbucea palabras incoherentes. ¿Cuál de los siguientes es el siguiente paso más apropiado en el manejo?”

MATH

MATH es un nuevo conjunto de datos de 12,500 problemas desafiantes de matemáticas de competición. Cada problema en MATH tiene una solución completa paso a paso que se puede utilizar para enseñar a los modelos a generar derivaciones y explicaciones de respuestas.

Ejemplos de preguntas:

Álgebra Intermedia “En la ecuación $w^3+x^3+y^3=z^3$ , $w^3$ , $x^3$ , $y^3$ , y $z^3$ son cubos perfectos positivos distintos y consecutivos listados en orden ascendente. ¿Cuál es el valor mínimo posible de $z$ ?”
Conteo y probabilidad “La contraseña de Bob consiste en un número no negativo de un solo dígito seguido de una letra y otro número no negativo de un solo dígito (que podría ser el mismo que el primero). ¿Cuál es la probabilidad de que la contraseña de Bob consista en un número impar de un solo dígito seguido de una letra y un número positivo de un solo dígito?”

GPQA

GPQA es un conjunto de preguntas de opción múltiple y respuestas de preguntas muy difíciles redactadas y validadas por expertos en biología, física y química. Al intentar preguntas fuera de su propio dominio (por ejemplo, un físico que responde a una pregunta de química), estos expertos solo logran un 34% de precisión, a pesar de pasar más de 30 minutos con acceso total a Google.

Ejemplos de preguntas:

“El universo está lleno del Fondo Cósmico de Microondas. Considera la aniquilación de rayos gamma de alta energía con un fotón del CMB en electrones y positrones, es decir, $\gamma\gamma\rightarrow e^{+}e^{-}$ . ¿A partir de qué energía los rayos gamma tendrían sus vidas limitadas por este proceso? Sabiendo que la energía promedio de un fotón del CMB es de $10^{-3} eV$ .”
“Un haz de luz se propaga a través de un vidrio con índice de refracción n. El vidrio se está moviendo a una velocidad constante v en la misma dirección que el haz y hacia el observador en el laboratorio. ¿Cuál es la velocidad de la luz en el vidrio en relación con el observador en el laboratorio? Toma la velocidad de la luz en el vacío como c=1.”

La naturaleza de la tecnología

Agricultor Social