ESPECIALES

DeepSeek R1: ¿La inteligencia artificial que acabará con la hegemonía de OpenAI?



Dirección copiada

A pesar de las sanciones sobre chips impuestas por EE. UU., DeepSeek R1 es un modelo de razonamiento capaz de competir en puntos de referencia con OpenAI-O1. Utiliza una arquitectura mixta de expertos (MoE) que reduce significativamente los costos computacionales.

Publicado el 6 de feb de 2025



DeepSeek R1 es un modelo de razonamiento capaz de competir en puntos de referencia con OpenAI-O1

Una nueva estrella brilla en el firmamento de la inteligencia artificial global, y la bandera de las barras y estrellas no ondea en ella. Se trata de DeepSeek, un laboratorio chino de IA que desarrolla modelos avanzados de lenguaje de código abierto.

Fundada en 2023 como parte del fondo cuantitativo High-Flyer, DeepSeek captó rápidamente la atención mundial gracias a sus modelos innovadores. En particular, DeepSeek-R1, lanzado en enero de 2025, sacudió a toda la comunidad de inteligencia artificial y generado una crisis en el sector.

La razón es clara: DeepSeek sostiene que R1 iguala e incluso supera a OpenAI-O1 en varios puntos de referencia clave, pero con un costo significativamente menor. Con este avance, China demuestra su capacidad para sortear las restricciones impuestas por Estados Unidos a la importación de chips, consolidando su liderazgo en el desarrollo de inteligencia artificial.

DeepSeek-R1: características principales

La empresa DeepSeek presentó dos modelos de razonamiento de primera generación: DeepSeek-R1-zero y DeepSeek-R1.

El DeepSeek-R1-zero es un modelo entrenado mediante aprendizaje por refuerzo (RL) a gran escala, sin una fase preliminar de ajustes supervisados (SFT). A pesar de ello, demostró un rendimiento destacado en tareas de razonamiento. Gracias a la implementación del RL, el modelo desarrolló de manera natural una serie de comportamientos avanzados, aunque también enfrenta problemas como repeticiones infinitas, dificultades de legibilidad y mezcla de idiomas.

Para solucionar estos inconvenientes y mejorar aún más su desempeño, DeepSeek lanzó DeepSeek-R1, un modelo que incorpora datos estáticos previos a la fase de aprendizaje por refuerzo. Como resultado, DeepSeek-R1 logró un rendimiento comparable al de OpenAI-O1 en pruebas de matemáticas, programación y razonamiento lógico.

En su compromiso con la comunidad científica, DeepSeek puso a disposición DeepSeek-R1-zero, DeepSeek-R1 y seis modelos adicionales derivados de este último, basados en las arquitecturas de Llama y Qwen.

Uno de estos modelos, el DeepSeek-R1-Distill-QWEN-32B, superó al OpenAI-O1-mini en múltiples pruebas de referencia, estableciendo nuevos estándares de vanguardia en modelos densos.

¿Cómo usar DeepSeek: una guía práctica

Para emplear DeepSeek de manera eficiente, es fundamental seguir una serie de pasos que permiten ejecutar este modelo de inteligencia artificial, ya sea en un entorno local o a través de una interfaz web, según la configuración elegida.

Elección de la versión del modelo

DeepSeek ofrece dos versiones principales: V3 y R1.

  • R1: Es la versión más reciente, con mejoras en rendimiento, funcionalidad avanzada y optimización del modelo.
  • V3: Se trata de una versión anterior, más liviana y adecuada para dispositivos con recursos limitados, aunque con menor capacidad que la R1.

La elección entre ambas versiones dependerá de las necesidades específicas del usuario, la capacidad de procesamiento disponible y las funcionalidades requeridas.


1. Creación de cuenta e inicio de sesión

Si se opta por utilizar DeepSeek a través de la interfaz web, es necesario registrarse en la plataforma creando una cuenta. El acceso puede realizarse mediante correo electrónico o utilizando servicios de terceros, como Google o Apple, si están disponibles.


2. Descarga y configuración de DeepSeek en entorno local

Instalación del entorno de desarrollo

Para ejecutar DeepSeek en un entorno local, es necesario contar con Python y configurar un entorno virtual (por ejemplo, con venv) en la computadora.

Clonación del repositorio

El código fuente de DeepSeek puede descargarse desde su repositorio oficial en GitHub. Para ello, se debe ejecutar el siguiente comando en la terminal:

bashCopiarEditargit clone https://github.com/deepseek-ai/DeepSeek-V3.git

Instalación de dependencias

Una vez descargado el código, es necesario ingresar a la carpeta del proyecto e instalar las dependencias requeridas con el siguiente comando:

bashCopiarEditarpip install -r requirements.txt

3. Ejecución de DeepSeek

Tras configurar el entorno y descargar los archivos necesarios, se puede ejecutar el modelo localmente con el siguiente comando:

bashCopiarEditarpython run_model.py

Si la configuración es correcta, DeepSeek se iniciará y permitirá la interacción con el usuario.


4. Interacción con DeepSeek

El usuario puede ingresar texto o audio, cargar archivos y recibir respuestas o análisis del modelo. Los comandos e instrucciones dependerán del uso específico que se le quiera dar a DeepSeek, ya sea para chat, análisis de contenido u otras funciones.


5. Gestión de la privacidad

Si se ejecuta DeepSeek de manera local, los datos permanecen en el equipo del usuario y no se envían a servidores externos, lo que reduce los riesgos de privacidad. Asimismo, es posible administrar el historial de conversaciones y otra información relevante a través de la configuración de la aplicación.


6. Opciones avanzadas

DeepSeek permite la personalización de la experiencia, con ajustes como la elección del idioma, la velocidad de respuesta y la integración de funciones avanzadas según las necesidades del usuario.

Después del entrenamiento: aprendizaje por refuerzo a gran escala en el modelo base

DeepSeek aplica directamente el aprendizaje por refuerzo (RL) sobre el modelo base, sin depender del ajuste supervisado (SFT) como paso preliminar. Este enfoque permite que el modelo explore la cadena de pensamiento (CoT) para resolver problemas complejos, dando origen a DeepSeek-R1-Zero. Este modelo demostró capacidades avanzadas como la autoverificación, la reflexión y la generación de cadenas de pensamiento extendidas, lo que representa un hito significativo para la comunidad científica.

En particular, esta es la primera investigación abierta que confirma que las habilidades de razonamiento en modelos de lenguaje de gran tamaño (LLM) pueden desarrollarse exclusivamente a través del aprendizaje por refuerzo, sin necesidad de recurrir al ajuste supervisado. Este hallazgo sienta las bases para futuros avances en el campo.

Avances en el desarrollo de DeepSeek-R1

El proyecto contempla dos fases de aprendizaje por refuerzo, destinadas a optimizar los modelos de razonamiento y alinearlos con las preferencias humanas. Además, incorpora dos fases de ajuste supervisado, que funcionan como base para las habilidades tanto de razonamiento como de generación de texto del modelo. Desde DeepSeek consideran que este enfoque representa un aporte clave para la industria en la construcción de modelos más eficientes y sofisticados.

Cómo la arquitectura MoE mejora el rendimiento del Deepseek-R1

Deepseek-R1 incorpora una innovadora arquitectura denominada Mixture of Experts (MoE), que optimiza el uso de sus 671 mil millones de parámetros al activar solo una fracción de ellos durante el procesamiento. Este enfoque reduce drásticamente los costos computacionales, ya que solo 37 mil millones de parámetros entran en acción en cada paso adelante. La implementación de MoE se consolida como un avance clave que impulsa el rendimiento del Deepseek-R1.

Principio de funcionamiento

La arquitectura MoE opera bajo un mecanismo de selección dinámica, en el que se activan exclusivamente los “expertos” más adecuados para cada solicitud. Se asemeja a un equipo de especialistas que intervienen de manera específica según la tarea a resolver.

Optimización computacional

  • Reducción significativa de los costos de procesamiento
  • Mejora en la eficiencia energética
  • Aceleración de los tiempos de respuesta

Rendimiento técnico

  • Incremento de la precisión hasta un 90,2 % en matemáticas
  • Superación de modelos competidores, como el GPT-4
  • Mayor capacidad para gestionar tareas complejas con precisión

Métodos de selección

  • Activación selectiva de expertos en función del contexto
  • Implementación de mecanismos de aprendizaje por refuerzo
  • Adaptación dinámica a distintos tipos de entradas

La arquitectura MoE permite que Deepseek-R1 opere con una eficiencia extraordinaria, optimizando los recursos computacionales sin comprometer su rendimiento.

El modelo fue diseñado para destacar en tareas complejas, como el razonamiento matemático y la generación de código. Para ello, emplea técnicas de aprendizaje por refuerzo (Reinforcement Learning, RL), que le permiten desarrollar habilidades de razonamiento y reflexión autónoma. Esto lo posiciona como un competidor directo de modelos avanzados como OpenAI-O1.

Además, Deepseek-R1 implementa un enfoque basado en cadena de pensamiento (Chain of Thought), similar al utilizado por OpenAI-O1. Este método le permite descomponer problemas en pasos sucesivos, mejorando su capacidad de procesamiento y resolución de tareas.

¿Cómo funciona la cadena de pensamiento?

Un principio fundamental

El modelo descompone los problemas en fases lógicas consecutivas, replicando el razonamiento humano de manera estructurada:

  • Analiza inicialmente el contexto de la solicitud.
  • Divide el problema en subpasos.
  • Procesa gradualmente la información hasta alcanzar la solución final.

Rasgos distintivos

Ventajas técnicas

DeepSeek-R1 gestiona solicitudes complejas a través de un innovador proceso de razonamiento gradual, similar al funcionamiento del cerebro humano. Entre sus principales beneficios se destacan:

  • Resolución eficiente de tareas de alta complejidad.
  • Especial efectividad en matemáticas y programación.
  • Reducción significativa del tiempo de cálculo.

DeepSeek: procesamiento de solicitudes paso a paso

El modelo DeepSeek-R1 aborda consultas complejas mediante una estrategia articulada y metódica:

  • Planifica cada tarea con precisión.
  • Divide los problemas en fases lógicas consecutivas.
  • Simula un proceso de «pensamiento» antes de formular una respuesta.

Enfoque computacional

El modelo opera bajo una arquitectura optimizada que permite:

  • La ejecución de múltiples tareas simultáneamente.
  • Tiempos de procesamiento ligeramente más largos, pero con mayor exactitud.
  • Una mejora sustancial en la fiabilidad y precisión de los contenidos generados.

Desempeño y capacidades

DeepSeek-R1 demostró un rendimiento destacado en diversos ámbitos, en especial en disciplinas STEM, con habilidades sobresalientes en:

  • Matemáticas.
  • Programación.
  • Resolución de problemas complejos.

Restricciones operativas

A pesar de sus avances, el modelo presenta ciertas limitaciones en términos de acceso a información y temáticas sensibles:

  • Bloquea consultas que considera «sensibles».
  • Presenta restricciones en cuestiones políticas.
  • Se niega a responder preguntas sobre figuras específicas, como Xi Jinping.

DeepSeek-R1 representa un avance significativo en el procesamiento de solicitudes complejas, ya que ofrece un enfoque más cercano al razonamiento humano en comparación con modelos anteriores.

Costos y accesibilidad

Uno de los puntos fuertes de DeepSeek-R1 es su accesibilidad económica. La plataforma ofrece tarifas considerablemente más bajas que las de la competencia, con un costo por token aproximadamente 27 veces menor que el de OpenAI.

Además, los usuarios pueden enviar hasta 50 mensajes diarios de manera gratuita. DeepSeek también permite probar sus modelos a través de una aplicación web y versiones móviles sin coste aparente. Se pueden cargar documentos de hasta 100 MB para la extracción de texto, aunque el modo «DeepThink», que potencia sus capacidades de razonamiento, no admite archivos adjuntos.

Opinión de los expertos

Dimitris Papailiopoulos, investigador principal del laboratorio de investigación AI Frontiers de Microsoft, destacó la eficiencia del modelo y su diseño simplificado.

«DeepSeek tiene como objetivo obtener respuestas precisas en lugar de detallar cada paso lógico, lo que reduce significativamente el tiempo de cálculo y mantiene un alto nivel de eficacia», afirmó.

DeepSeek se lanza en seis versiones

DeepSeek presentó seis versiones más pequeñas de su modelo R1, diseñadas para ejecutarse localmente en computadoras portátiles. Según la compañía, una de estas versiones incluso supera al modelo o1-mini de OpenAI en ciertos puntos de referencia.

“DeepSeek replicó en gran medida el o1-mini y lo convirtió en código abierto”, tuiteó el CEO de Perplexity, Aravind Srinivas.

Destilación: modelos más pequeños, pero potentes

El proceso de destilación permite resumir modelos de razonamiento más grandes en versiones más compactas, logrando un mejor rendimiento que aquellos modelos de razonamiento desarrollados a partir de aprendizaje por refuerzo (RL) en estructuras más pequeñas.

El DeepSeek-R1, de código abierto, junto con sus API, estará disponible para la comunidad investigadora, facilitando la extracción y optimización de modelos más reducidos en el futuro.

A partir de los datos de razonamiento generados por DeepSeek-R1, la compañía desarrolló varios modelos densos que ya se utilizan ampliamente en el ámbito de la investigación.

Los resultados de evaluación indican que los modelos destilados más pequeños mantienen un rendimiento sólido en las pruebas de referencia.

DeepSeek liberó para la comunidad distintos puntos de control destilados, con tamaños de 1,5B, 7B, 8B, 14B, 32B y 70B de parámetros, basados en las series Qwen2.5 y Llama3.

Modelo#Total ParamsParámetros #ActivatedLongitud del contextoDescarga
Deepseek-R1-Zero671B37B128 K? Cara abrazada
Deepseek-R1671B37B128 K? Cara abrazada

Modelos de destilación Deepseek-R1

ModeloModelo baseDescarga
Deepseek-R1 Distill-QWEN-1.5BQwen2.5-Math-1.5B? Cara abrazada
Deepseek-R1 destilado-QWEN-7BQwen2.5-Math-7B? Cara abrazada
Deepseek-R1 – Distill-Flame-8BLlama-3.1-8B? Cara abrazada
Deepseek-R1 Distill-QWEN-14BQwen2.5-14B? Cara abrazada
Destilado Deepseek-R1 QWEN-32BQwen2.5-32B? Cara abrazada
Deepseek-R1 Distill-Flame-70BLlama-3.3-70B-Instruct? Cara abrazada

Los modelos DeepSeek-R1-Distill fueron desarrollados a partir de modelos de código abierto, empleando muestras generadas por DeepSeek-R1. La compañía realizó modificaciones en su configuración y en los tokenizadores, optimizando su rendimiento y adaptabilidad.

Deepseek-R1, rendimiento técnico

El modelo demostró amplias capacidades, superando a importantes competidores como:

  • Llama 3.1 de Meta
  • GPT-4o de OpenAI
  • Claude Sonnet 3.5 de Anthropic

En las pruebas de referencia, Deepseek-R1 obtuvo resultados notables:

  • Un 79,8% de éxito en la prueba matemática AIME 2024
  • La puntuación Elo fue de 2.029 en Codeforces, superando el 96,3% de los competidores humanos

Resultados de la evaluación

Clasificación de DeepSeek-R1

En todos los modelos, la longitud máxima de generación se fijó en 32.768 tokens. Para los puntos de referencia que requieren muestreo, se emplean los siguientes parámetros:

Número de respuestas generadas por consulta: 64, utilizadas para estimar el pass@1

Temperatura: 0,6

Valor máximo p: 0,95

CategoríaPunto de referencia (métrico)Claude-3.5 – Soneto 1022GPT-4 o 0513DeepSeek V3OpenAI o1-miniOpenAI o1-1217DeepSeek R1
ArquitecturaMoEMoE
# Parámetros activados37B37B
# Parámetros totales671B671B
InglésMMLU (Pass @1)8.387,288,585,291,890,8
MMLU-Redux (EM)8.988,089.186,792,9
MMLU-Pro (EM)78,072,675,980,384,0
DROP (F1 de 3 disparos)8.383,791,683,990,292.2
IF-Eval (pronta y estricta)86,584.386.184.883.3
GPQA-Diamond (Pase @1)65,049,959,160,075.771,5
SimpleQA (correcto)28.438,224,97,047.030,1
FRAMES (Acc.)72.580,573,376,982,5
Alpaca Eval 2.0 (tasa de victorias en LC)52,051.170.057,887,6
Arena Hard (GPT-4-1106)85,280,485,592,092.3
CódigoLiveCodeBench (Pase @1 -COT)33,834,253,863,465,9
Fuerzas de código (percentil)20,323,658,793,496.696,3
Codeforces (Clasificación)7177591134182020612029
Verificado por SWE (resuelto)50,838,842,041,648,949,2
Aider-Polyglot (Acc.)45.316,049,632.961,753.3
MatemáticasAIME 2024 (Pase @1)16,09.339.263,679,279,8
MATH-500 (Pase @1)78,374,690,290,096,497.3
CNMO 2024 (Pass @1)13.110.843.267.678.8
chinoCLUESC (EM)85.487.990,989.992,8
C-Eval (EM)76.776,086,568.991,8
C-simple (correcto)5.458.768.040,363.7

Evaluación del modelo destilado

ModeloPase AIME 2024 @1AIME 2024 con @64Pase MATH-500 @1GPQA Diamond Pass @1Pase LiveCodeBench @1Calificación de CodeForces
GPT-4o-05139.313.474,649,932.9759
Claude-3.5-Sonnet-102216.026.778,365,038,9717
O1-mini63,680,090,060,053.81820
Vista previa del QWQ-32B44.060,090.654,541,91316
Deepseek-R1-Distill-QWEN-1.5B28,952,783,93.816.9954
Deepseek-R1 destilado-QWEN-7B55,583.392,849,137,61189
Deepseek-R1 Distill-QWEN-14B69,780.093.959,153.11481
Deepseek-R1 Distill-QWEN-32B72,683,394.362,157.21691
Deepseek-R1 – Distill-Flame-8B50,480,089.149,039.61205
Deepseek-R1 Distill-Flame-70B70,086,794,565,257,51633

Innovaciones tecnológicas

Arquitectura avanzada

  • Atención latente de múltiples cabezales (MLA): reduce el consumo de memoria en un 40%.

La atención latente de múltiples cabezales (MLA) es una técnica de atención innovadora que resuelve problemas de memoria en arquitecturas de modelos de lenguaje de gran tamaño.

El MLA se centra en la compresión eficiente de la memoria caché con valores clave (KV) mediante una estrategia de descomposición de rango bajo. El objetivo principal es reducir el consumo de memoria al procesar los tokens.

Componentes clave:

  • Compresión del vector de entrada desde el tamaño original (por ejemplo, 4096) hasta un tamaño latente reducido (por ejemplo, 1024)
  • Proyectar la consulta, la clave y el valor en un espacio vectorial comprimido
  • Uso de matrices de compresión y descompresión

Proceso computacional

  • Proyección latente
    • Entrada vectorial comprimida de pequeño tamaño
    • Crear un vector latente para la consulta, la clave y el valor
  • Gestión de incrustaciones posicionales
    • Uso de incrustaciones de posición giratoria desacopladas (RoPE)
    • Parte específica del vector dedicada a la información posicional

Ventajas clave

  • Reducción de memoria: compresión de caché en KB de hasta un 75%
  • Rendimiento inalterado: manteniendo las capacidades expresivas del modelo
  • Eficiencia computacional: menor sobrecarga de memoria.

Comparación con los métodos tradicionales

MétodoTamaño de caché en KBComplejidad computacional
Atención multicabezal (MHA)AltaEstándar
Atención latente de cabezales múltiples (MLA)BassaIncrementado ligeramente

El MLA representa un enfoque innovador para gestionar modelos de inteligencia artificial cada vez más grandes, optimizando el uso de los recursos computacionales.

  • Aprendizaje reforzado: desarrolla las habilidades de razonamiento de forma autónoma. El modelo se entrenó utilizando técnicas de aprendizaje por refuerzo, similares a las utilizadas por AlphaZero de DeepMind, lo que permitió al sistema mejorar sus habilidades de razonamiento y resolución de problemas sin necesidad de datos supervisados.

Eficiencia y accesibilidad

  • Código abierto con licencia MIT
  • Costes operativos extremadamente bajos: 0,14 dólares por millón de fichas (frente a los 7,50 dólares de OpenAI)
  • Utiliza solo 2000 GPU, en comparación con los 100 000 modelos tradicionales.

Desafíos de entrenamiento

Proceso de formación

  • Capacitación sobre 14.800 millones de fichas con recursos limitados
  • Superar las restricciones de censura gubernamentales
  • Optimización de la eficiencia computacional con un presupuesto inferior a 6 millones de dólares.

¿Cuáles son las aplicaciones prácticas de Deepseek-R1

Deepseek-R1 ofrece varias aplicaciones prácticas innovadoras, que van desde los sectores técnicos hasta los profesionales:

Principales áreas de aplicación

Desarrollo de software

  • Finalización automática del código
  • Resolver problemas de programación
  • Soporte para escribir algoritmos complejos

Resolución de problemas matemáticos

  • Resolver problemas matemáticos avanzados
  • Procesando cálculos complejos
  • Soporte de inferencia lógica

Análisis y razonamiento

  • Elaboración de preguntas lógicas
  • Generar explicaciones detalladas
  • Soporte de decisiones en tiempo real

Ventajas distintivas

Características únicas

  • Los costos operativos se redujeron en un 95%
  • Disponibilidad de una aplicación iOS gratuita
  • Accesibilidad para pequeñas y medianas empresas

Rendimiento

  • Habilidades de razonamiento similares a las de los modelos o1 y o3 de OpenAI
  • Uso generalizado de conjuntos de datos chinos
  • Optimización para hardware simple

Deepseek-R1 representa una evolución significativa en la inteligencia artificial de código abierto, ya que ofrece herramientas avanzadas a precios asequibles.


DeepSeek, los orígenes

Con sede en Hangzhou, DeepSeek fue fundada por High-Flyer, un fondo de cobertura chino que utiliza inteligencia artificial para analizar datos financieros. La transición a la investigación en IA estuvo a cargo de su fundador, Liang Wenfeng, un exestudiante de la Universidad de Zhejiang con formación en ingeniería informática y electrónica, que quería explorar el potencial de la ciencia básica en lugar de centrarse exclusivamente en la rentabilidad financiera inmediata.

DeepSeek está financiada principalmente por High-Flyer y opera de forma independiente de las grandes empresas tecnológicas chinas, como Baidu y Alibaba. Esto permitió a la empresa mantener cierta libertad en la investigación y el desarrollo de sus modelos.

Al igual que Sam Altman de OpenAI, Liang tiene como objetivo desarrollar una inteligencia artificial general (AGI).

Cómo Deepseek-R1 superó las sanciones estadounidenses

El éxito de DeepSeek es aún más notable si se tienen en cuenta las limitaciones a las que se enfrentan las empresas chinas de inteligencia artificial debido a los crecientes controles sobre la exportación de chips por parte de los Estados Unidos. El éxito de DeepSeek demuestra que estas medidas no están funcionando como se esperaba: en lugar de debilitar las capacidades de inteligencia artificial de China, las sanciones parecen empujar a las empresas emergentes a innovar de manera que favorezcan la eficiencia, el intercambio de recursos y la colaboración.

Para crear la R1, DeepSeek tuvo que rediseñar el proceso de formación para reducir el esfuerzo en sus GPU, una variedad lanzada por Nvidia para el mercado chino que tiene un rendimiento limitado a la mitad de la velocidad de sus productos estrella, según Zihan Wang, exempleado de DeepSeek y actualmente estudiante de doctorado en informática en la Universidad Northwestern.

Los investigadores elogiaron a Deepseek-R1 por su capacidad para abordar tareas de razonamiento complejas, especialmente en matemáticas y codificación.

El entrenamiento de modelos de lenguaje de gran escala (LLM) requiere un equipo de investigadores altamente capacitados y una considerable capacidad de procesamiento. La situación se torna aún más compleja debido a los controles que Estados Unidos impone a la exportación de semiconductores avanzados. Sin embargo, la decisión de High-Flyer de incursionar en la inteligencia artificial está directamente relacionada con estas restricciones. Mucho antes de la implementación de las sanciones, Liang adquirió un importante stock de chips Nvidia A100, cuya exportación a China ahora está prohibida.

Se estima que DeepSeek posee entre 10.000 y 50.000 de estos chips. Consciente del potencial que representan para el entrenamiento de IA, Liang impulsó la creación de DeepSeek, que logró combinarlos con chips de menor potencia para desarrollar sus modelos.

En una entrevista concedida en julio de 2024 al medio chino 36Kr, Liang destacó que, además de las sanciones a los chips, las empresas chinas enfrentan otro desafío: la menor eficiencia de sus técnicas de ingeniería en inteligencia artificial. “Nosotros [la mayoría de las empresas chinas] tenemos que consumir el doble de potencia informática para lograr los mismos resultados. Si a eso añadimos las brechas en la eficiencia de los datos, podríamos necesitar hasta cuatro veces más potencia informática. Nuestro objetivo es llenar continuamente estos vacíos”, afirmó.

No obstante, DeepSeek encontró una manera de reducir el uso de memoria y acelerar los cálculos sin sacrificar significativamente la precisión. “Al equipo le encanta convertir un desafío de hardware en una oportunidad de innovación”, asegura Wang.

El propio Liang continúa profundamente involucrado en el proceso de investigación de DeepSeek, realizando experimentos junto a su equipo. “Todo el equipo comparte una cultura colaborativa y una dedicación a la investigación exhaustiva”, subraya Wang.

China ocupa el segundo lugar entre los productores de IA

Además de priorizar la eficiencia, las empresas chinas están adoptando cada vez más los principios del código abierto. Alibaba Cloud lanzó más de 100 nuevos modelos de inteligencia artificial de código abierto, compatibles con 29 idiomas y diseñados para diversas aplicaciones, entre ellas la codificación y las matemáticas. Del mismo modo, empresas emergentes como Minimax y 01.AI puso sus modelos a disposición del público.

Según un libro blanco publicado el año pasado por la Academia China de Tecnología de la Información y las Comunicaciones, un instituto de investigación vinculado al Estado, el número de modelos de IA en todo el mundo alcanzó los 1.328, de los cuales el 36% provienen de China. De este modo, el gigante asiático se posiciona como el segundo mayor contribuyente al desarrollo de la inteligencia artificial, solo por detrás de Estados Unidos.

“El control de exportaciones por parte de Estados Unidos básicamente acorraló a las empresas chinas y las obligó a ser mucho más eficientes con sus limitados recursos de TI”, señala Matt Sheehan, investigador en inteligencia artificial del Carnegie Endowment for International Peace. “Probablemente en el futuro veamos una fuerte consolidación vinculada a la falta de cálculo”.

Es posible que esta tendencia ya haya comenzado. Hace dos semanas, Alibaba Cloud anunció una alianza con la startup 01.AI, fundada por Kai-Fu Lee y con sede en Beijing, con el objetivo de unir equipos de investigación y crear un “laboratorio industrial de modelos grandes”.

“Es eficiente desde el punto de vista energético y es natural que surja una especie de división del trabajo en el sector de la IA”, sostiene Cao, profesor de la Universidad de Tufts. “La rápida evolución de la inteligencia artificial exige agilidad para que las empresas chinas puedan sobrevivir”.

Conclusiones

DeepSeek representa un importante paso adelante en el panorama de la inteligencia artificial, especialmente en el campo de los modelos de lenguaje de código abierto. Al centrarse en la eficiencia, el alto rendimiento y la accesibilidad, podría influir en gran medida en el futuro del desarrollo de la IA tanto en China como a nivel mundial. Sin embargo, es importante tener en cuenta que, al operar en China, DeepSeek debe cumplir con las regulaciones locales en materia de contenido y censura.

Haga clic aquí para obtener más información

Fuente: Ai4business.it, Network Digital360

Artículos relacionados

Artículo 1 de 7