En los medios

2/02/25

Los secretos que explican el éxito del ChatGPT chino

Emmanuel Iarussi, profesor de la Licenciatura en Tecnología Digital, fue consultado sobre DeepSeek, la nueva tecnología china de Inteligencia Artificial.

Por Pablo Esteban

ChatGPT vs DeepSeek, la nueva batalla high tech. Imagen: AFP

La irrupción de DeepSeek R-1, el bot conversacional chino, hizo temblar Silicon Valley. Fue la manera que tuvo el gigante oriental de decirle a Estados Unidos que la carrera que ambas súper potencias transitan será de largo aliento en el terreno de la IA. Las ventajas del nuevo "juguete", a priori, indican que es de código abierto, con lo cual, cualquiera podría modificarlo para mejorarlo. Al mismo tiempo, es más eficiente y a un menor costo: la inversión representó un 10 por ciento del monto que gastó su competidor. En este marco, ¿qué significa que es de código abierto? ¿Los chinos tienen un espíritu más colaborativo que los estadounidenses? ¿Por qué desde Washington dicen que DeepSeek imitó varias de sus ideas? ¿Qué sucede con los sesgos y por qué al chat no le gusta hablar de Xi Jinping?

DeepSeek --que tiene el logo de una ballenita-- emula muchas de las características de los algoritmos entrenados para conversar que ya inundan el mercado . Solo basta con registrarse para que el asistente ayude a solucionar prácticamente cualquier problema. Escribe poemas y ensayos, responde a problemas matemáticos y a interrogantes complejos. Pero no le pidan que hable sobre Taiwán, Hong Kong ni sobre cómo terminaron las protestas de la Plaza de Tiananmén en 1989. De eso, prefiere no conversar. Estos sesgos también se incorporaron durante el entrenamiento y componen su arquitectura informática.

Lo que sorprende de esta revolución es el vértigo que estimula cada nuevo hito: ChatGPT se popularizó en noviembre de 2022, al volverse accesible al público masivo. A partir de ahí, el oráculo creado por la empresa Open AI dominó un segmento con cada vez más competidores. DeepSeek, compañía de base tecnológica china, fue creada en 2023 y ya bate récords con su nuevo modelo. Se ubica como la app más descargada en tiendas virtuales de China y EEUU. Sus ventajas son dignas de destacar, pero ¿realmente son tan buenas como se venden?

La revolución de la IA obliga a aprender conceptos informáticos que en el pasado solo formaban parte de las mesadas de las facultades de ciencias exactas y de los círculos nerds. DeepSeek se presenta como una opción de código abierto y el común de la gente lo estima como un aspecto positivo. Pero ¿qué es esto exactamente?

Emmanuel Iarussi , investigador del Conicet en el Laboratorio de IA de la Universidad Torcuato Di Tella, explica a Página/12 . “ Se refiere a que los componentes fundamentales del sistema, como su código fuente y la inicialización de las conexiones internas del modelo para que la IA aprenda, están disponibles ”. Y continúa: “ Cualquier persona interesada y con los conocimientos necesarios puede ejecutarlo en su propia computadora, examinar su funcionamiento interno, modificarlo y compartir esas modificaciones con otros si así lo desea. Incluso es posible comercializar dichas modificaciones. Esto es precisamente lo que hizo DeepSeek con su modelo DeepSeek-R1, publicado bajo la licencia MIT, que habilita su uso comercial, modificación, distribución y uso privado”. Sería algo así como compartir la receta del pastel para que todos puedan hacerlo en sus casas e, incluso, habilitar los cambios necesarios según los gustos de cada comensal.

Fernando Schapachnik , doctor en Ciencias de la Computación, investigador del Conicet y director ejecutivo de la Fundación Sadosky, agrega: “Cuando uno habla de un modelo de código abierto, la idea detrás es que cualquiera puede inspeccionarlo y hacer modificaciones. Eso en teoría, porque cuando son sistemas grandes no es para nada fácil; la posibilidad está para los equipos expertos de varias personas ”. Esto es: la puerta de la cocina está abierta, pero no todos pueden entrar. Se necesita dinero y conocimientos, dos componentes nada sencillos de encontrar.

De cualquier manera, la tecnología china se diferencia de ChatGPT, ya que la última versión de código abierto de la empresa norteamericana fue la 2, publicada en 2019. A partir de la 3, especifica Iarussi, Open AI adoptó licencias propietarias que restringen varias de las posibilidades anteriores. “No han publicado el código de los modelos, por lo cual los usuarios no pueden inspeccionar, modificar ni entrenarlos por su cuenta. OpenAI nos ofrece acceso a ChatGPT a través de su plataforma web y bajo términos de uso que regulan lo que podemos hacer con esos modelos ”, destaca el experto.

En este marco, si la empresa china desarrolla una tecnología que todos pueden espiar, imitar y cambiar, ¿su espíritu es más colaborativo? Si así fuera, de hecho, se caería una de las acusaciones preferidas de Estados Unidos: el secretismo oriental, e se vacío que alimentan con conspiraciones que señalan, por ejemplo, que Beijing se quiere quedar con la Luna, o bien, que Wuhan liberó el Sars CoV-2 a propósito.

“No veo para nada un espíritu más colaborativo. Simplemente es una estrategia comercial que tiene que ver con que hay mucha desconfianza sobre los productos chinos. Hay que pensar que estamos en un escenario en que todos son retadores de un producto hegemónico, que es ChatGPT”, opina Schapachnik.

David Sacks, empresario que liderará el Consejo Asesor de criptomonedas designado por Trump, deslizó en televisión que había que controlar lo que sucedió con “los modelos imitadores”, en alusión a que DeepSeek había copiado las coreografías en el diseño del algoritmo de Open AI y se apropió de sus datos. De la misma manera que en la Guerra Fría sucedía con la carrera espacial; solo que ahora, el enemigo tiene los ojos rasgados y ya no toma tanto vodka.

A tono con Schapachnik, Iarussi también cuestiona cierto espíritu colaborativo en DeepSeek: si bien es de código abierto -- compartieron el código para ejecutar el modelo--, no liberaron toda la información que garantizaría de punta a punta la replicabilidad del proceso en cualquier otra computadora del mundo. “Aunque el reporte técnico de DeepSeek-R1 incluye bastante información sobre el proceso de entrenamiento, los desarrolladores no liberaron el código fuente de ese proceso ni tampoco especificaron el conjunto de datos que utilizaron. Un verdadero espíritu colaborativo hubiera garantizado la reproducibilidad de todo el proceso”. De hecho, conocer cómo fue entrenado un modelo de IA es importante para determinar sus verdaderas capacidades, ya que “podría estar inflando artificialmente su rendimiento”, advierte Iarussi.

Basarse en el trabajo que hicieron otros no necesariamente estaría mal. Después de todo, el progreso tecnológico se alcanza cuando cada nuevo desarrollo no tiene que empezar desde cero.

Como se comunicó durante su lanzamiento, la otra ventaja del modelo chino sería su costo de producción. El algoritmo fue entrenado durante 55 días con un presupuesto de 5,57 millones de dólares: el 10 por ciento de lo que costó entrenar a Chat GPT-4.

Quizás en este punto radique la principal novedad. Como el proceso demandó menos días, consumió menos electricidad. En paralelo, utilizó placas de procesamiento gráfico estándar, aunque no especializadas para IA, que igualmente rindieron con éxito. Schapachnik explica lo siguiente: “Para el enorme volumen de cálculos matemáticos que usan estos modelos, se emplea lo que originalmente surgió como placas de video. Con el tiempo, Nvidia fue sacando modelos de microchips cada vez más sofisticados y diseñó uno con mucha capacidad, que se consideraba el más útil para IA. Estados Unidos restringió la venta de estos últimos modelos a China”.

China se impuso a la restricción norteamericana y se las arregló con modelos anteriores, menos potentes para IA. Por eso bajaron las acciones de Nvidia un 13 por ciento y la compañía perdió 400 mil millones de dólares. “Exagerando un poco, lograron algo muy importante con una placa similar a la que cualquiera se podría comprar para mejorar el rendimiento de una computadora para jugar videojuegos”, comenta el director de la Fundación Sadosky. Así, desde DeepSeek consiguieron una optimización en el uso del hardware que no tenía restricciones de importación, es decir, con versiones anteriores a las más potentes que solo se utilizaban en Estados Unidos.

Además de la reducción de costos vinculada a la utilización de componentes con menos capacidades y por eso más baratos, otra de las razones que esbozan desde Open AI para desacreditar el avance oriental es que emplearon la técnica del destilado: dicen que DeepSeek aprendió de ChatGPT y como resultado, tuvo un menor costo computacional.

“Esa afirmación aún no está comprobada, pero pone de manifiesto la necesidad de transparencia en los procesos de entrenamiento y de los datos empleados”, destaca Iarussi. Y expresa: “Hay además algo de ironía en lo que le está pasando a OpenAI, que utilizó sin consentimiento una enorme cantidad de datos para entrenar ChatGPT, pero que ahora no tiene reparo en denunciar a DeepSeek por algo similar”.

Los ritmos de los avances tecnológicos son tan acelerados que todas las semanas la IA parece superarse a sí misma. Los desarrollos se presentan al mundo como un punto de inflexión. Y en algunos aspectos, hay que decir que lo son. Sin embargo, los sesgos también forman parte del paquete y aunque estas inteligencias sean artificiales, son creadas a imagen y semejanza de los seres humanos. DeepSeek recomienda “hablar de otro tema” a quienes pregunten sobre Xi Jinping, Taiwán o Hong Kong.

La competencia adquiere un ritmo de vértigo tal, que el principio maquiavélico de que el fin justifica los medios termina imperando. Así, con tal de presentar un algoritmo más potente y rentable cada vez, nadie se preocupa demasiado por los sesgos, la vulneración de la privacidad y otros riesgos, como la desinformación. Los catadores del progreso, como siempre, son los usuarios.

Martín Liut, compositor, docente e investigador de la Universidad Nacional de Quilmes, comparte las primeras sensaciones en su cuenta de Facebook. “Ahí me metí con la IA china Deepseek, que produce simpatía porque está hecha con dos mangos y gente inteligente que, de rebote, les hizo perder una tonelada de plata a los más ricos del planeta. Al igual que las que ya conocemos, la predisposición del chat es como la de ese alumno que se presenta en marzo, estudió, pero no tanto, aunque está dispuesto siempre, siempre a responderte algo. Entonces manda fruta a lo pavote ”, protesta.

Y continúa: “Lo que sí tiene, al menos en mi campo, es una base de datos de bibliografía en español sobre músicas populares de nuestra región. Sin embargo, cuando le pregunté por bibliografía sobre Charly ¡inventó 10 de los 20 libros! En fin, me parece que, como docentes, tenemos que probar estas herramientas para luego seguir la discusión sobre sus posibles usos, directamente en el aula”, completa Liut.

La humanidad asiste a una carrera tecnológica entre dos imperios, que tienen sus maneras, sus tradiciones e ideologías. No hace falta ponerse del bando de ninguno; pero lo que sí hace falta es dejar de analizar todo lo que aportan en términos de bueno o malo. Su poder es tan grande, que merece una reflexión a la altura.

Escuela de Negocios

¿Por qué en Di Tella?

En los medios

Los secretos que explican el éxito del ChatGPT chino