當(dāng)前,大模型發(fā)展重心正從“訓(xùn)練”轉(zhuǎn)向“推理”,基于超節(jié)點(diǎn)形態(tài)的云上推理成為趨勢(shì),超節(jié)點(diǎn)推理性能成為產(chǎn)業(yè)界核心關(guān)注點(diǎn)。近期,中國(guó)電信研究院聯(lián)合廣東公司、華為公司基于昇騰384超節(jié)點(diǎn)系統(tǒng),依托研究院自研“翼芯”智算測(cè)試與適配優(yōu)化平臺(tái),開(kāi)展了面向不同場(chǎng)景的大模型推理性能測(cè)試與調(diào)優(yōu)。經(jīng)系統(tǒng)優(yōu)化,各場(chǎng)景推理性能均大幅提升,其中DeepSeek 671B滿血版模型在超節(jié)點(diǎn)部署,單卡推理吞吐性能2122 Tokens/s,創(chuàng)下國(guó)內(nèi)新紀(jì)錄。
超節(jié)點(diǎn)是采用高速互連技術(shù)將多臺(tái)服務(wù)器內(nèi)的AI芯片緊密耦合形成的大型算力單元,需要對(duì)不同業(yè)務(wù)場(chǎng)景的資源配置和并發(fā)策略靈活設(shè)置才能最大限度發(fā)揮系統(tǒng)性能。
本次優(yōu)化完成了“翼芯”平臺(tái)和昇騰超節(jié)點(diǎn)的對(duì)接,針對(duì)13項(xiàng)基準(zhǔn)性能、6類典型場(chǎng)景,以及5類典型資源配置,開(kāi)展了推理性能自動(dòng)化測(cè)試與系統(tǒng)級(jí)調(diào)優(yōu)?!耙硇尽逼脚_(tái)按照業(yè)務(wù)模型,分別配置超節(jié)點(diǎn)Prefill池和Decode池的資源數(shù)量、推理實(shí)例數(shù)量和并行策略,通過(guò)測(cè)試快速反饋性能指標(biāo)并進(jìn)行實(shí)時(shí)策略調(diào)整,同時(shí)配合算子融合替換、KV Cache優(yōu)化、集合通信優(yōu)化、服務(wù)調(diào)度優(yōu)化等手段,不斷優(yōu)化P池和D池吞吐性能使其達(dá)到最大平衡。
結(jié)果表明,面向DeepSeek 671B滿血版模型的超節(jié)點(diǎn)優(yōu)化方案,多種場(chǎng)景下單卡吞吐性能較優(yōu)化前有2.5至4.3倍提升,其中272卡配置(128卡P池、144卡D池)是系統(tǒng)性能最大平衡點(diǎn),在TTFT為1.28s、TPOT為50ms的服務(wù)質(zhì)量保證下,系統(tǒng)單卡吞吐達(dá)到2122 Tokens/s,較前期業(yè)界最佳優(yōu)化性能提升9.2%。該技術(shù)驗(yàn)證充分彰顯了中國(guó)電信在超節(jié)點(diǎn)上的系統(tǒng)優(yōu)化能力——能根據(jù)客戶業(yè)務(wù)需求靈活配置云上節(jié)點(diǎn)資源,提供高性價(jià)比推理算力,有效服務(wù)于復(fù)雜推理、多智能體協(xié)同等新場(chǎng)景。
未來(lái),中國(guó)電信將開(kāi)展更廣泛場(chǎng)景、更多類型的超節(jié)點(diǎn)形態(tài)技術(shù)研究和優(yōu)化驗(yàn)證,不斷推動(dòng)國(guó)產(chǎn)智算基礎(chǔ)設(shè)施技術(shù)創(chuàng)新。