您当前的位置:首页 > 教育

Kimi如何避免服务宕机?郑纬民院士揭秘:以存换算

2024-12-12 16:37:46 来源:快讯网 编辑:张亚
摘要: 12月12日下午消息,在2024大模型技术与应用创新论坛上,中国工程院院士、清华大学计算机系教授郑纬民在分享中提及了月之暗面kimi对话AI产品避免大量用户涌入导致服务宕机背后

 12月12日下午消息,在2024大模型技术与应用创新论坛上,中国工程院院士、清华大学计算机系教授郑纬民在分享中提及了月之暗面kimi对话AI产品避免大量用户涌入导致服务宕机背后的技术原理——以存换算。据郑纬民介绍,保障kimi对话AI流畅运行背后的大模型推理框架,名为Mooncake,是一项叫做清华大学与月之暗面共同研发的推理系统方案。郑纬民指出,Kimi研发遵循的基本原则是:数据更多、模型更大、更长的上下文窗口,肯定会带来更好的效果。因为kimi支持200万字的上下文,效果很好,很多人都喜欢用它。但是,在Kimi推出初期,遇到访问过大服务宕机采用的应对策略便是买算力卡,但买了五次卡还是死机,并不能彻底解决问题。其背后的原因是,更高的推理负载意味着要买更多的推理卡,但推理卡多了存储器也会不够,用的人多了,问题也就大了。据郑纬民介绍,最后月之暗面与清华大学开发了Mooncake技术框架,通过将不同用户与Kimi对话的公共内容提炼出来,存储下来,遇到下次用户再提问的时候直接读取回复,减少了每次用户提问都要重新生成的过程,节省了许多算力卡,之后Mooncake就没有再死过机。“把存储器好好用,也可以省很多卡。”郑纬民表示。(新浪科技


本文地址:https://www.xwkx.net/jiaoyu/188845.html - 转载请保留原文链接。
免责声明:本文转载上述内容出于传递更多信息之目的,不代表本网的观点和立场,故本网对其真实性不负责,也不构成任何其他建议; 本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。
热门推荐
Copyright © 2009 - 2023 www.xwkx.net关于我们 | 广告服务 | 内容申诉 | 联系我们 | 京ICP备18022098号