Deepseek está buscando presionar a casa su ventaja. La startup china desencadenó una venta complete de $ 1 billón (aproximadamente Rs. 8,72,00,30 millones de rupias) en mercados de renta variable world el mes pasado con un modelo de razonamiento de IA de precio reducido que superó a muchos competidores occidentales.
Ahora, la empresa con sede en Hangzhou está acelerando el lanzamiento del sucesor al modelo R1 de enero, según tres personas familiarizadas con la compañía.
Deepseek había planeado lanzar R2 a principios de mayo, pero ahora lo quiere lo antes posible, dos de ellos dijeron, sin proporcionar detalles.
La compañía cube que espera que el nuevo modelo produzca una mejor codificación y pueda razonar en idiomas más allá del inglés. Los detalles de la línea de tiempo acelerada para el lanzamiento de R2 no se han informado previamente.
Deepseek no respondió a una solicitud de comentarios para esta historia.
Los rivales todavía están digeriendo las implicaciones de R1, que fue construida con chips Nvidia menos potentes, pero es competitivo con los desarrollados a costos de cientos de miles de millones de dólares por parte de los gigantes tecnológicos estadounidenses.
“El lanzamiento del modelo R2 de Deepseek podría ser un momento essential en la industria de la IA”, dijo Vijayasimha Alilughatta, director de operaciones del proveedor de servicios de tecnología india Zensar. El éxito de Deepseek en la creación de modelos de IA rentables “probablemente estimularía a las empresas de todo el mundo para acelerar sus propios esfuerzos … rompiendo el dominio de los pocos jugadores dominantes en el campo”, dijo.
Es possible que R2 preocupe al gobierno de los Estados Unidos, que ha identificado el liderazgo de la IA como una prioridad nacional. Su lanzamiento puede galvanizar aún más a las autoridades y empresas chinas, de las cuales docenas dicen que han comenzado a integrar modelos Deepseek en sus productos.
Poco se sabe sobre Deepseek, cuyo fundador Liang Wenfeng se convirtió en multimillonario a través de su cuantitativo Fondo de cobertura Excessive-Flyer. Liang, quien fue descrito por un ex empleador como “discreto e introvertido”, no ha hablado con ningún medio desde julio de 2024.
Reuters entrevistó a una docena de ex empleados, así como a los profesionales de fondos de cuantía conocedores sobre las operaciones de Deepseek y su empresa matriz Excessive-Flyer. También revisó los artículos de medios estatales, publicaciones en redes sociales de las empresas y trabajos de investigación que datan de 2019.
Contaban una historia de una empresa que funcionaba más como un laboratorio de investigación que como una empresa con fines de lucro y no fue gravada por las tradiciones jerárquicas de la industria de la tecnología de alta presión de China, incluso cuando se hizo responsable de lo que muchos inversores ven como el último avance de la IA.
Camino diferente
Liang nació en 1985 en una aldea rural en la provincia sur de Guangdong. Más tarde obtuvo títulos de ingeniería de comunicación en la Universidad Elite Zhejiang.
Uno de sus primeros trabajos fue dirigir un departamento de investigación en una empresa de imágenes inteligentes en Shanghai. Su entonces jefe, Zhou Chaoen, le dijo a los medios estatales el 9 de febrero que Liang había contratado ingenieros de algoritmo premiados y operaba con un “estilo de gestión plana”.
En Deepseek y Excessive-Flyer, Liang ha rechazado de manera related las prácticas de los gigantes tecnológicos chinos conocidos por su gestión rígida de arriba hacia abajo, salarios bajos para los empleados jóvenes y “996”, trabajando de 9 a.m. a 9 p.m., seis días a la semana.
Liang abrió su oficina de Beijing a poca distancia de la Universidad de Tsinghua y la Universidad de Pekín, las dos instituciones educativas más prestigiosas de China. Regularmente profundizó en detalles técnicos y estaba feliz de trabajar junto con pasantes de Gen-Z y graduados recientes que comprendían la mayor parte de su fuerza laboral, según dos ex empleados. También describieron que generalmente trabajaba en ocho horas en una atmósfera de colaboración.
“Liang nos dio management y nos trató como expertos. Constantemente hizo preguntas y aprendió junto a nosotros”, dijo el investigador Benjamin Liu, de 26 años, quien dejó la compañía en septiembre. “Deepseek me permitió tomar posesión de partes críticas de la tubería, lo cual fue muy emocionante”.
Liang no respondió a las preguntas enviadas a través de Deepseek.
Mientras Baidu y otros gigantes tecnológicos chinos estaban compitiendo para construir sus versiones orientadas al consumidor de ChatGPT en 2023 y beneficiarse del auge world de IA, Liang dijo a las olas de medios de comunicación china el año pasado que evitó deliberadamente gastar mucho en el desarrollo de aplicaciones, centrándose en la refinación de la calidad del modelo AI.
Tanto Deepseek como Excessive-Flyer son conocidos por pagar generosamente, según tres personas familiarizadas con sus prácticas de compensación. En Excessive-Flyer, no es raro que un científico de datos senior haga que CNY 1.5 millones (aproximadamente Rs. 1.8 lakh) anualmente, mientras que los competidores rara vez pagan más de 800,000, dijo una de las personas, un administrador de fondos cuantitativo rival que conoce a Liang.
La generosidad fue financiada por Excessive-Flyer, que se convirtió en uno de los fondos cuantitativos más exitosos de China e, incluso después de una represión del gobierno contra el sector, aún administra decenas de miles de millones de yuanes, según dos personas en la industria.
Potencia informática
El éxito de Deepseek con un modelo de IA de bajo costo se basa en la inversión de década y sustancial de alta década de alto volante en investigación y poder informático, dijeron tres personas.
El Fondo Quant fue un pionero anterior en el comercio de IA y un alto ejecutivo dijo en 2020 que Excessive-Flyer iba a “todo” en IA al reinvertir el 70 por ciento de sus ingresos, principalmente en la investigación de IA.
Excessive-Flyer gastó CNY 1.200 millones (aproximadamente Rs. 1,441 millones de rupias) en dos grupos de AI de supercomputación en 2020 y 2021. El segundo grupo, Fireplace-Flyer II, estaba compuesto por alrededor de 10,000 chips A100 Nvidia, utilizado para entrenamiento de modelos AI.
Deepseek no se había establecido en ese momento, por lo que la acumulación del poder informático llamó la atención de los reguladores de valores chinos, dijo una persona con conocimiento directo del pensamiento de los funcionarios.
“¿Los reguladores querían saber por qué necesitan tantas papas fritas?” dijo la persona. “¿Cómo iban a usarlo? ¿Qué tipo de impacto tendría ese en el mercado?”
Las autoridades decidieron no intervenir, en un movimiento que resultaría essential para la fortuna de Deepseek: Estados Unidos prohibió la exportación de chips A100 a China en 2022, momento en el que Fireplace-Flyer II ya estaba en funcionamiento.
Beijing ahora celebra a Deepseek, pero le ha dado instrucciones a que no se involucre con los medios sin aprobación, según una persona familiarizada con el pensamiento oficial chino.
Las autoridades le habían pedido a Liang que mantuviera un bajo perfil porque les preocupaba que demasiada publicidad en los medios atraería una atención innecesaria, dijo la persona.
El Ministerio de Gabinete y Comercio de China, así como el regulador de valores de China, no respondió a las solicitudes de comentarios.
Como una de las pocas compañías con un grupo A100 grande, Excessive-Flyer y Deepseek pudieron atraer a algunos de los mejores talentos de investigación de China, dijeron dos ex empleados.
“La ventaja clave de los vastos recursos (informáticos) es que permite la experimentación a gran escala”, dijo Liu, el ex empleado.
Algunos empresarios de IA occidentales, como el CEO de AI de Scale, Alexandr Wang, han afirmado que Deepseek tenía hasta 50,000 chips Nvidia de gama alta que están prohibidas para la exportación a China. No ha producido evidencia de la acusación o ha respondido a las solicitudes de Reuters para proporcionar pruebas.
Deepseek no ha respondido a las afirmaciones de Wang. Dos ex empleados atribuyeron el éxito de la compañía al enfoque de Liang en la arquitectura de IA más rentable.
La startup utilizó técnicas como la mezcla de expertos (MOE) y la atención latente múltiple (MLA), que incurren en costos informáticos mucho más bajos, según muestran sus trabajos de investigación.
La técnica MOE divide un modelo de IA en diferentes áreas de experiencia y activa solo aquellos relacionados con una consulta, en oposición a las arquitecturas más comunes que utilizan todo el modelo.
La arquitectura de MLA permite que un modelo procese diferentes aspectos de una pieza de información simultáneamente, lo que ayuda a detectar detalles clave de manera más efectiva.
Si bien competidores como Mistral de Francia han desarrollado modelos basados en MOE, Deepseek fue la primera firma en depender en gran medida de esta arquitectura al tiempo que logró la paridad con modelos más expensivos.
El precio de Deepseek fue de 20 a 40 veces más barato que lo que Operai cargó por modelos equivalentes, analistas de Bernstein Brokerage estimados a principios de febrero.
Por ahora, los gigantes tecnológicos occidentales y chinos han señalado planes para continuar el gasto pesado de IA, pero el éxito de Deepseek con R1 y su modelo V3 anterior ha llevado a algunos a alterar las estrategias.
Operai redujo los precios este mes, mientras que Géminis de Google ha introducido niveles de acceso con descuento. Desde el lanzamiento de R1, OpenAI también ha lanzado un modelo O3-Mini que se basa en menos potencia informática.
Adnan Masood, del proveedor de servicios tecnológicos de EE. UU., Ust, dijo a Reuters que su laboratorio había ejecutado puntos de referencia que encontraron que R1 a menudo usaba tres veces más tokens o unidades de datos procesadas por el modelo de IA, para razonar como modelo escalado de OpenAI.
Estado abrazo
Incluso antes de que R1 agarró la atención world, hubo señales de que Deepseek había afectado el favor de Beijing. En enero, los medios estatales informaron que Liang asistió a una reunión con el primer ministro chino Li Qiang en Beijing como el representante designado del sector de IA, antes de los líderes de empresas más conocidas.
La fanfarria posterior sobre la competitividad de los costos de sus modelos ha impulsado la creencia de Beijing de que puede superar a los Estados Unidos, con empresas chinas y organismos gubernamentales que adoptan modelos de Squeek a un ritmo que no se ha ofrecido a otras empresas.
Al menos 13 gobiernos de la ciudad china y 10 compañías de energía estatales dicen que han desplegado unsek en sus sistemas, mientras que los gigantes tecnológicos Lenovo, Baidu y Tencent, propietarios de la aplicación de redes sociales más grande de China, WeChat, han integrado los modelos de Deepseek en sus productos.
El líder chino Xi Jinping y Li “han señalado que respaldan a Deepseek”, dijo Alfred Wu, un experto en formulación de políticas chinas en la Escuela de Políticas Públicas Lee Kuan Yew de Singapur. “Ahora todo el mundo lo respalda”.
El abrazo chino se produce a medida que los gobiernos de Corea del Sur a Italia eliminan a Deep Speek de las tiendas de aplicaciones nacionales, citando preocupaciones de privacidad.
“Si Deepseek se convierte en el modelo de IA de AI en las entidades estatales chinas, los reguladores occidentales podrían ver esto como otra razón para aumentar las restricciones a los chips de IA o las colaboraciones de software program”, dijo Stephen Wu, experto en IA y fundador del fondo de cobertura Cartage Capital.
Los límites adicionales en los chips AI avanzados son un desafío que Liang ha reconocido.
“Nuestro problema nunca ha sido financiación”, dijo a Waves en julio. “Es el embargo en chips de alta gama”.
© Thomson Reuters 2025
(Esta historia no ha sido editada por el private de NDTV y se generó automáticamente a partir de un feed sindicado).
Para obtener detalles de los últimos lanzamientos y noticias de Samsung, Xiaomi, Realme, OnePlus, Oppo y otras compañías en el Cell World Congress en Barcelona, visite nuestro centro MWC 2025.