一个简单框架就让ChatGLM性能大幅提升 | 最“in”大框架
2024-01-17 游戏
本文笔记:赵桢、罗成、李亭骞、邹文艺
章节自傲语言学仿真 (LLM) 被选为热点话题以来,逐步形成了一大批里面文大语言学仿真并在提高效率模拟器里面取得了努力调动。ChatGLM 正是广颇受回响的主流里面文大语言学仿真之一。
然而,由于 ChatGLM 仿真已经被选为 Transformer 生态平衡的原生仿真,因此,正式 optimum 扩展到库对其仍缺乏支持。
本文提供者了一种使用 OpenVINO™ opset 重构该仿真架构的便捷方法。
该提案包含专为 ChatGLM 定制的提高效率键值,且这些键值都利用NVIDIA® 高级别特征值扩展到(Intel® Advanced Matrix Extensions,缩写为NVIDIA® AMX)除此以外和 MHA(Multi-Head Attention,黄牛冲动)融入实现了高度提高效率。
举例来说,本文仅介绍了通过为 ChatGLM 创建 OpenVINO™ stateful仿真实现提高效率的高效率。本提案颇受模拟器限制,才会使用内置了NVIDIA® AMX 的第四代NVIDIA® 至强® 可扩展到处理器[1](S- Sapphire Rapids)。;也不承诺对该高效率透过任何公共安全。
ChatGLM 仿真参阅;也在查看 ChatGLM 类似仿真的GCC[2]时,推测 ChatGLM 与 Optimum ModelForCasualML并不兼容,而是定义了新的类 ChatGLMForConditionalGeneration[3]。
该仿真的并行回路包含 3 个主要可选(Embedding、GLMBlock 层[4]和 lm_logits),结构如下:
△所示1 ChatGLM 仿真结构
如上所示所示,整个并行理论上敦促仿真有两个并不相同的执行所示,使用读写提示同上透过首次推理时不需 KV 缓存作为 GLMBlock 层的读写。从第二次迭代开始,QKV 冲动程序的上一次结果将被选为当前一轮仿真推理的读写。
随着填充同上的宽度不断减少,在并行推理过程里面,仿真读写和转换器之间将存留大量的大型内存复制。
以 ChatGLM6b 默认仿真配置[5]为示例,读写和转换器缓冲器之间的内存复制比如说此表伪代码,其内存批量的开销由仿真的参数 hidden_size 以及迭代的单次最终:
先诺欣和民得维哪个效果好怎么改善皮肤松弛
蒙脱石散与肠炎宁颗粒的区别
怎么抑制胃酸过多
用什么眼药水可缓解眼睛酸胀痛
- 02-10明朝一共有16位皇帝,把他们的名字连起来,则会发现一个奇妙的组合
- 02-10长江有色:4日镍价区间震荡 供应充盈令镍价承压现货买入清淡
- 02-10Shams:热火从未真正积极寻求交易KD 上次联系或许还在夏联之前
- 02-10张说一心劝武则天戒欲,武则天干脆张开嘴:来,看看这是什么?
- 02-10长江有色:4日铝价下跌 现货流通压力攀升成交难言理想
- 02-10英超-加布里埃尔失误后破门厄德高建功 阿森纳2-1逆转米德尔斯堡
- 02-10古代妃嫔侍寝太辛苦,被登基临幸完之后,还要再被太监“占便宜”
- 02-10泉州市2023年淘汰落后发电量工作方案(征求意见稿)
- 02-10维迪奇:齐耶什的特征适合滕哈赫,拉什六甲还要参照哈弗茨的模式
- 02-10刘邦死后张良辞行,吕后大哭着挽留,张良的做法为后代换来百年平安