DeepRec Extension 有效地解決了企業(yè)級(jí)場(chǎng)景大規(guī)模稀疏模型訓(xùn)練中的難點(diǎn)。隨著業(yè)務(wù)發(fā)展,模型尺寸增長(zhǎng)到百 GB / TB 量級(jí),分布式訓(xùn)練往往會(huì)遇到分布式建模接口復(fù)雜、資源預(yù)估困難且無(wú)法彈性、分布式容錯(cuò)機(jī)制過(guò)于簡(jiǎn)單和分布式環(huán)境復(fù)雜等問(wèn)題,阻礙大尺寸模型高效、穩(wěn)定地完成訓(xùn)練。DeepRec Extension 提供易用、高效、高性價(jià)比的框架,使得模型能夠便捷地在分布式環(huán)境中運(yùn)行,切實(shí)解決上述問(wèn)題。
DeepRec Extension 設(shè)計(jì)思路及整體架構(gòu)
DeepRec Extension 推出分布式訓(xùn)練資源預(yù)估、自動(dòng)彈性訓(xùn)練、資源/計(jì)算圖監(jiān)控、自動(dòng)備份容錯(cuò)等功能,有效降低了大規(guī)模稀疏模型訓(xùn)練的技術(shù)門檻和成本,同時(shí)提升了分布式訓(xùn)練的效率和穩(wěn)定性。DeepRec Extension 簡(jiǎn)化分布式訓(xùn)練的工作流程,保障用戶聚焦于模型的構(gòu)建階段,更加專注于模型本身的創(chuàng)新與優(yōu)化,無(wú)需關(guān)注繁瑣的底層架構(gòu)配置。在性能提升方面,資源預(yù)估以及自動(dòng)彈性訓(xùn)練為用戶節(jié)約 20% ~ 60% 資源,在穩(wěn)定性方面,PS 發(fā)生異常后,模型 E2E 訓(xùn)練吞吐提升 10%。
一直以來(lái),大規(guī)模稀疏模型分布式訓(xùn)練是備受關(guān)注的話題,阿里云人工智能平臺(tái)PAI正式將 DeepRec Extension 開(kāi)源,與AI開(kāi)發(fā)者共同打造更快更好的分布式訓(xùn)練框架,全面助力AI大模型發(fā)展!
開(kāi)源地址:https://github.com/DeepRec-AI/extension