一个简单框架就让ChatGLM性能大幅提升 | 最“in”大框架

2024-01-17 游戏

本文笔记：赵桢、罗成、李亭骞、邹文艺

章节

自傲语言学仿真 (LLM) 被选为热点话题以来，逐步形成了一大批里面文大语言学仿真并在提高效率模拟器里面取得了努力调动。ChatGLM 正是广颇受回响的主流里面文大语言学仿真之一。

然而，由于 ChatGLM 仿真已经被选为 Transformer 生态平衡的原生仿真，因此，正式 optimum 扩展到库对其仍缺乏支持。

本文提供者了一种使用 OpenVINO™ opset 重构该仿真架构的便捷方法。

该提案包含专为 ChatGLM 定制的提高效率键值，且这些键值都利用NVIDIA® 高级别特征值扩展到（Intel® Advanced Matrix Extensions，缩写为NVIDIA® AMX）除此以外和 MHA（Multi-Head Attention，黄牛冲动）融入实现了高度提高效率。

举例来说，本文仅介绍了通过为 ChatGLM 创建 OpenVINO™ stateful仿真实现提高效率的高效率。本提案颇受模拟器限制，才会使用内置了NVIDIA® AMX 的第四代NVIDIA® 至强® 可扩展到处理器[1]（S- Sapphire Rapids）。；也不承诺对该高效率透过任何公共安全。

ChatGLM 仿真参阅

；也在查看 ChatGLM 类似仿真的GCC[2]时，推测 ChatGLM 与 Optimum ModelForCasualML并不兼容，而是定义了新的类 ChatGLMForConditionalGeneration[3]。

该仿真的并行回路包含 3 个主要可选（Embedding、GLMBlock 层[4]和 lm_logits），结构如下：

△所示1 ChatGLM 仿真结构

如上所示所示，整个并行理论上敦促仿真有两个并不相同的执行所示，使用读写提示同上透过首次推理时不需 KV 缓存作为 GLMBlock 层的读写。从第二次迭代开始，QKV 冲动程序的上一次结果将被选为当前一轮仿真推理的读写。

随着填充同上的宽度不断减少，在并行推理过程里面，仿真读写和转换器之间将存留大量的大型内存复制。

以 ChatGLM6b 默认仿真配置[5]为示例，读写和转换器缓冲器之间的内存复制比如说此表伪代码，其内存批量的开销由仿真的参数 hidden_size 以及迭代的单次最终：

先诺欣和民得维哪个效果好
怎么改善皮肤松弛
蒙脱石散与肠炎宁颗粒的区别
怎么抑制胃酸过多
用什么眼药水可缓解眼睛酸胀痛

TAG：性能框架

上一篇： 8个月兔子肠坏死，都怪奶奶太勤快，医生提醒：辅食不能乱吃

下一篇：房地产服务板块1月17日跌0.7%，皇庭国际领跌，主力资金净溢出1847.47万元