Loading...

DeepSeek, el modelo chino de inteligencia artificial, tiene un truco para ser mejor que ChatGPT: responde mejor si le ofreces recompensas

Inteligencia artificial

Un estudio publicado revela que DeepSeek-R1 mejora su razonamiento cuando recibe recompensas humanas, aunque este enfoque encarece y limita su desarrollo

Mark Zuckerberg quiere que te olvides del móvil y te pongas las gafas: así son las revolucionarias Meta Ray-Ban Display, con pantalla integrada

Una pantalla de ordenador con las diferentes plataformas de inteligencia artificial que existen actualmente: ChatGPT, DeepSeek, Copilot, Perplexity, Gemini.

Mané Espinosa

El modelo chino de inteligencia artificial DeepSeek-R1 aprende más y mejor cuando recibe ‘recompensas’ por resolver problemas, pero esos estímulos requieren de la intervención humana, por lo que ese enfoque puede resultar costoso y limitar además su capacidad de crecimiento.

Lo ha comprobado un equipo de investigadores y tecnólogos, entre los que figuran responsables de la empresa china que lanzó este modelo abierto de inteligencia artificial, que han analizado sus potencialidades y sus limitaciones; hoy publican los resultados de su trabajo en la revista Nature.

Lee también

David Derrida, VP de producto de TCL y extrabajador de Apple, IBM y Blackberry: “La IA cambiará por completo los dispositivos; serán más inteligentes y hablaremos con ellos libremente”

Pau Roldan

Enseñar a los modelos de inteligencia artificial a razonar de la misma manera que los humanos es un desafío, y los investigadores han corroborado que los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) están demostrando ya ciertas capacidades de razonamiento, aunque ese entrenamiento requiere importantes recursos computacionales.

El modelo DeepSeek-R1 incluye una etapa de entrenamiento adicional bajo supervisión humana para mejorar el proceso de razonamiento, y emplea un sistema de aprendizaje «por refuerzo» en lugar de ejemplos humanos para desarrollar los pasos de razonamiento, lo que según los investigadores y responsables de la empresa reduce los costos y la complejidad del entrenamiento.

FILED - 28 January 2025, Brandenburg, Sieversdorf: The logo of the Chinese AI start-up DeepSeek can be seen on a smartphone in Brandenburg. Photo: Patrick Pleul/dpa

Patrick Pleul/dpa / Europa Press

Limitaciones de la versión actual

Citan también, como una limitación, que hay algunas tareas en las que su modelo no ha mostrado mejoras importantes, como la ingeniería de software, y han incidido en que la investigación futura se debe centrar en mejorar esos procesos de ‘recompensa’ para garantizar la fiabilidad de los razonamientos y de las tareas que realiza esta IA.

Lee también

Sam Altman, CEO de OpenAI: “Estoy preocupado por China, cuentan con un modelo impresionante y pueden actuar más rápido”

Pau Roldan

Los investigadores han demostrado que el modelo obtiene buenos resultados en pruebas de matemáticas, biología, física o química, en concursos de programación, y han concluido que entrenar a la IA a razonar con menos intervención humana es posible, lo que abre la puerta a conseguir modelos capaces de crecer, más potentes y más baratos, aunque todavía quedan muchos retos por resolver.