飞桨框架进阶3.0！“大模子训推一体”等五大新本性赋能千万开发者

发布日期：2024-08-16 13:13 点击次数：98

　　深度学习框架看成基础软件，不仅促进了深度学习工夫的马上跳跃，更为东谈主工智能工夫的芜俚应用铺设了坚实的基础。飞桨看成中国首个自主研发、功能丰富、开源洞开的深度学习平台，厚爱发布了3.0版块，具备动静合伙自动并行、编译器自动优化、大模子多硬件适配、大模子训推一体等中枢工夫，撑握大模子效果更好，性能更优。

　　据先容，飞桨框架 3.0 还为大模子硬件适配提供了功能完善、低资本的有计算，开荒了面向硬件厂商的代码合入、握续集成、模子纪念测试等研发基础标准，为硬件适配提供了全套保险。

　　飞桨3.0版带来了全新的体验

　　动静合伙等四大本性，可大幅量入计出开发和查验资本

　　飞桨将为开发者提供一个“动静合伙、训推一体、自动并行、自动优化、芜俚硬件适配”的深度学习框架。飞桨框架 3.0 版块应时而生，延续了2.x 版块动静合伙、训推一体的联想理念，其开发接口全面兼容2.x 版块。这意味着，使用2.x 版块开发的代码，在绝大巨额情况下无需修改，即可径直在3.0版块上运行。谛视推出了动静合伙自动并行、编译器自动优化、大模子训推一体、大模子多硬件适配四大新本性。这些本性在飞桨框架2.6版块或更早版块时就也曾运行开发，当前已达到外部可试用的阶段。这些新本性在使用体验、性能、二次开发便利度以及硬件适配才气等方面带来了显耀教悔，飞桨厚爱发布3.0版块。此版块包含了对框架2.x 版块部分已有功能的雠校，况兼在不使用新本性的情况下，发扬练习褂讪。

　　在开发接口之下，飞桨框架不错分辨为4个端倪：示意层、转化层、算子层和适配层。飞桨3.0版块架构全新要紧升级，主要包含高扩张中间示意 PIR，通过打造全架构合伙的中间示意，放浪框架层各模块壁垒，教悔飞桨在科学狡计、编译优化、大模子畛域的后劲；神经集结编译器自动优化，通过自动交融和计谋调优，大幅教悔模子端到端发扬；自动并行，裁汰大模子场景模子开发和性能优化的资本，大幅教悔大模子场景的用户体验。

　　飞桨框架 3.0 架构图

　　动静合伙自动并行这一功能大幅度裁汰了产业开发和查验的资本。用户只需在单卡基础上进行极少的张量切分标志，飞桨框架便会自动完因素布式切分信息的推导，并添加通讯算子以确保逻辑的正确性。同期，把柄模子结构和集群信息，汇注显存和转化层的优化，飞桨能自动寻找最高效的分散式并行计谋，从而大幅裁汰搀和并行查验的开发资本，使开发者省略更专注于模子和算法的变调。

　　飞桨提供了PatternRewriter 和 Declarative Rewrite Rule（简称 DRR）这两种 Pass 开发机制，兼顾了自界说的活泼性与开发的易用性。禁受三段式的 Pass 开发方式，使开发者省略愈加专注于 Pass 逻辑的贬责，而无需关爱底层IR的细节。运用 PIR 的 Pass 开发机制，竣事了 Pass 开发资本裁汰58%；应用于推理场景，超越84%的模子推理加快超10%。

　　大模子训推一体化大幅教悔服从

　　编译器自动优化功能显耀裁汰了性能优化的资本。飞桨的编译器禁受与框架一体化的联想，省略支握生成式模子、科学狡计模子等多种模子的高效查验与可变方法推理，为狡计活泼性与高性能之间提供了精良的均衡点。通过算子的自动交融和代码生成工夫，Llama2和 Stable Diffusion 等生成式模子的推感性能得回了超越30%的教悔。

　　大模子训推一体本性为产业提供了极致的开发体验。它使查验和推理的才气省略相互复用，珺牛配资为大模子的全经由提供了合伙的开发体验和极致的查验服从。通过动转静的使命，查验和推理的使命得以无缝不绝。在 RLHF（东谈主类响应强化学习）查验过程中的生成狡计不错复用推理优化，竣事2.1倍的加快。同期，推理量化场景复用查验的分散式自动并行计谋，服从教悔了3.8倍。

　　大模子训推一体化教悔查验场景服从

　　飞桨的攻击特点之一是适配异构多芯并充分开释硬件潜能。在接入机制上，飞桨提供了精真金不怕火高效的轮廓接口和基础算子体系，裁汰了适配资本。在运行机制上，它优化了转化编排和存储分享等机制，教悔了转化服从。从算子内核角度，飞桨提供了编译器自动交融调优有计算，以教悔端到端的性能。同期，飞桨还为新硬件厂商开荒了代码合入、握续集成、模子纪念测试等研发基础标准。这些机制保险了新硬件被纳入飞桨的正常发版体系中，用户无需编译即可径直装配试用。飞桨这种功能完善、低资本接入的机制诱骗了硬件厂商共同为飞桨孝敬了3456个PR，共包含25000多个 commits。

　　借助神经集结编译器工夫，飞桨3.0性能大幅教悔

　　飞桨3.0有多神奇，咱们借助一个实例来展示一下，以 Llama 模子中浅近使用的 RMS Normalization （Root Mean Square Layer Normalization）为例，其狡计公式相对喜闻乐见。

　　狡计公式

　　假定咱们需淌若竣事 RMS Normalization 的狡计，最浅易的主义是，咱们不错使用飞桨框架提供的张量运算开发接口，调用平方、乞降、除法、开根号等操作来完成，代码如下：

　　飞桨解题代码

　　上述代码开发浅易，可是性能较差，且显存占比较多；开发者不错进行 FusedRMSNorm 的竣事，可是关于开发者条款更高，资本也更高。

　　借助神经集结编译器工夫，咱们省略在保管高度活泼性和易用性的基础上，竣事性能的显耀教悔。以下 A100平台上 RMSNorm 算子的性能测试规则等于一个明证：相较于禁受 Python 开发接口组合竣事的方式，经过编译优化后的算子运行速率教悔了 4 倍；即便与手动算子交融的方式比拟，也竣事了 14%的性能教悔。这一规则充分展示了飞桨框架在活泼性与性能之间寻找到的理思均衡点。

　　为此，飞桨把神经集结编译器工夫看成一个攻击的研发所在，底下是飞桨编译器的举座架构图。

　　飞桨编译器举座架构图

　　在生成式诳言语模子 Llama 和文生图模子 Stable Diffusion 上的实验规则线路，通过使用编译器的优化工夫，相较于未禁受手动性能优化的基础版块，推理速率分别竣事了 36%和 30%的教悔。

　　飞桨框架3.0工夫公开课已开讲

　　当前，飞桨的新一代框架 3.0-Beta 版块已面向开发者洞开，况兼整个的开发接口跟2.0整个兼容，接待精深的开发者去使用和响应。

　　当今飞桨框架3.0工夫公开课已在7月30日厚爱开讲，中枢工程师团队倾囊相授，岂论是思潜入了解框架工夫，照旧但愿探索产业落地实践，齐能在课上找到谜底。报名课程：赶赴飞桨AI Studio，搜索飞桨框架3.0全面领路学习课程。这个夏天，飞桨与你一齐执桨造浪！

让建站和SEO变得简单

飞桨框架进阶3.0！“大模子训推一体”等五大新本性赋能千万开发者

热点资讯

相关资讯