代码泄密 DeepSeek下一代“王炸”模型架构曝光
2 天前

DeepSeek-R1发布一周年之际,其新模型“MODEL1”在GitHub代码库中曝光。该模型在FlashMLA优化库的114个文件中出现28次,与现有模型V3.2并列或区分引用。技术分析显示,MODEL1采用全新架构,在键值缓存布局、稀疏性处理及FP8解码等方面进行了优化,或为DeepSeek下一代旗舰模型V4的开发代号,预计最快2月发布。