DeepSeek, el modelo chino de inteligencia artificial, tiene un truco para ser mejor que ChatGPT: responde mejor si le ofreces recompensas
Inteligencia artificial
Un estudio publicado revela que DeepSeek-R1 mejora su razonamiento cuando recibe recompensas humanas, aunque este enfoque encarece y limita su desarrollo
Mark Zuckerberg quiere que te olvides del móvil y te pongas las gafas: así son las revolucionarias Meta Ray-Ban Display, con pantalla integrada
Una pantalla de ordenador con las diferentes plataformas de inteligencia artificial que existen actualmente: ChatGPT, DeepSeek, Copilot, Perplexity, Gemini.
El modelo chino de inteligencia artificial DeepSeek-R1 aprende más y mejor cuando recibe ‘recompensas’ por resolver problemas, pero esos estímulos requieren de la intervención humana, por lo que ese enfoque puede resultar costoso y limitar además su capacidad de crecimiento.
Lo ha comprobado un equipo de investigadores y tecnólogos, entre los que figuran responsables de la empresa china que lanzó este modelo abierto de inteligencia artificial, que han analizado sus potencialidades y sus limitaciones; hoy publican los resultados de su trabajo en la revista Nature.
Enseñar a los modelos de inteligencia artificial a razonar de la misma manera que los humanos es un desafío, y los investigadores han corroborado que los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) están demostrando ya ciertas capacidades de razonamiento, aunque ese entrenamiento requiere importantes recursos computacionales.
El modelo DeepSeek-R1 incluye una etapa de entrenamiento adicional bajo supervisión humana para mejorar el proceso de razonamiento, y emplea un sistema de aprendizaje «por refuerzo» en lugar de ejemplos humanos para desarrollar los pasos de razonamiento, lo que según los investigadores y responsables de la empresa reduce los costos y la complejidad del entrenamiento.
FILED - 28 January 2025, Brandenburg, Sieversdorf: The logo of the Chinese AI start-up DeepSeek can be seen on a smartphone in Brandenburg. Photo: Patrick Pleul/dpa
Limitaciones de la versión actual
Citan también, como una limitación, que hay algunas tareas en las que su modelo no ha mostrado mejoras importantes, como la ingeniería de software, y han incidido en que la investigación futura se debe centrar en mejorar esos procesos de ‘recompensa’ para garantizar la fiabilidad de los razonamientos y de las tareas que realiza esta IA.
Los investigadores han demostrado que el modelo obtiene buenos resultados en pruebas de matemáticas, biología, física o química, en concursos de programación, y han concluido que entrenar a la IA a razonar con menos intervención humana es posible, lo que abre la puerta a conseguir modelos capaces de crecer, más potentes y más baratos, aunque todavía quedan muchos retos por resolver.