DeepSeek新模型MODEL1曝光 代码预示新架构
4 天前

1月21日消息,DeepSeek-R1发布一周年之际,新模型MODEL1曝光。DeepSeek在GitHub更新了FlashMLA代码,在114个文件中有28处提及MODEL1,该模型与V32不同。已知V32为DeepSeek-V3.2,MODEL1或为新架构,代码差异主要体现在KV缓存布局、稀疏性处理和FP8解码方面,内存优化上有多处不同。