DeepSeek的负担能力是一个神话:革命性的AI实际上花费了16亿美元
DeepSeek的新聊天机器人拥有令人印象深刻的介绍:“嗨,我被创建了,您可以问任何东西,并得到一个甚至可能让您感到惊讶的答案。”这种AI是中国初创公司DeepSeek的产物,已迅速成为主要市场参与者,甚至导致NVIDIA的股价大幅下降。它的成功源于一种独特的建筑和培训方法,并结合了几种创新技术。
多语预测(MTP):与传统的单词预测不同,MTP同时预测多个单词,分析不同的句子以提高准确性和效率。
专家(MOE)的混合:该体系结构利用多个神经网络来处理输入数据,加速AI训练并增强性能。 DeepSeek V3使用256个神经网络,为每个令牌处理任务激活8个。
多头潜在注意力(MLA):这种机制着重于关键的句子元素,反复从文本片段中提取关键细节,以最大程度地减少信息丢失并捕获细微的细微差别。
DeepSeek最初声称使用2048 GPU培训了其强大的DeepSeek V3神经网络,仅需600万美元。但是,半分析显示出更大的基础设施:大约50,000个NVIDIA HOPPER GPU,包括10,000 H800,10,000 H100和其他H20 GPU,分布在多个数据中心。这代表了一笔总额约16亿美元的服务器投资,运营费用估计为9.44亿美元。
DeepSeek是中国对冲基金高飞行员的子公司拥有其数据中心,可完全控制AI模型优化和更快的创新实施。这种自资助的方法提高了灵活性和决策速度。该公司还吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要是从领先的中国大学招募。
尽管DeepSeek最初的600万美元培训成本索赔似乎是不现实的,但仅引用了预培训的GPU使用和排除其他费用,但该公司已在AI开发方面投资了超过5亿美元。它的紧凑结构允许有效的创新实施,与大公司的官僚机构形成鲜明对比。
DeepSeek的成功展示了资金充足的独立AI公司与行业巨头竞争的潜力。尽管其“革命预算”主张被夸大了,但其数十亿美元的投资,技术突破和强大的团队是其成功的不可否认的因素。在考虑竞争对手成本时,对比是显着的。 DeepSeek在R1上花费了500万美元,而Chatgpt4的费用为1亿美元。尽管进行了巨大的投资,但DeepSeek的成本仍大大低于其竞争对手。