9月4日,“天翼云息壤——大模型訓推一體化服務能力升級”線上發(fā)布會成功舉辦。會上,息壤平臺訓推服務能力重磅升級,新增閉源、多模態(tài)基座大模型以及數據集,支持萬卡規(guī)模訓練,訓練穩(wěn)定性再次提升,新增體驗空間,為基礎大模型訓練、行業(yè)大模型訓推提供一站式解決方案。天翼云多位專家與合作伙伴代表發(fā)表精彩演講,共探人工智能大模型的發(fā)展趨勢與挑戰(zhàn),并對平臺升級后的能力與優(yōu)勢,以及在醫(yī)療領域的賦能實踐進行了深度解讀。
平臺全新升級 提供穩(wěn)定高效的大模型訓推一體化服務
我國大模型已進入快速發(fā)展階段,但大模型的研發(fā)與推廣仍然面臨一定的壓力和挑戰(zhàn),呈現出“基礎豐富,應用不足”的特點。一方面,大模型的訓練和應用需要大量的高質量數據,當前我國數據資源有限且分散,導致模型訓練效果并不理想;另一方面,模型的參數量和計算復雜度持續(xù)增加,對算力的需求以幾何級數增長。行業(yè)亟需更加高效、集約化的智算平臺的支撐,以驅動國產大模型高質量發(fā)展與產業(yè)化應用。
天翼云智算產品線總監(jiān)張安發(fā)表示,升級后的平臺專為應對大參數大模型、行業(yè)模型應用所帶來的挑戰(zhàn)而設計,它提供了一個全棧式的服務,旨在簡化大模型從訓練到部署的整個流程。平臺新增了開閉源大模型、多模態(tài)大模型,供用戶靈活選擇,模型數量處于國內領先水平;新增上線專業(yè)的大模型數據集,用戶可直接將數據用于大模型訓練、推理任務中,實現了算法、算力、數據三要素的融合;新增體驗中心,用戶可直接在線互動體驗;打造了全鏈路故障感知和恢復、全鏈路日志監(jiān)控工具,突破斷點續(xù)訓等核心技術,使全鏈路監(jiān)控訓練更穩(wěn)定。
隨著模型參數量從千億邁向萬億,大模型對底層算力的訴求進一步升級,萬卡甚至超萬卡集群已經成為大模型產業(yè)發(fā)展的剛需,同時對訓練穩(wěn)定性要求極高。根據公開報道,Llama3.1-405B原生訓練耗時持續(xù)54天,累計發(fā)生419次故障,平均每3小時產生一次。天翼云智算產品線專家范順國介紹,天翼云訓推服務平臺是國內首個實現公有云國產化萬卡訓練的平臺,能夠為萬億參數級別大模型訓練提供一體化方案。天翼云在北京萬卡池完成了Llama3-405B(4000億參數)大模型的訓練,700億參數模型Llama2-70B在萬卡規(guī)模下順利拉起并完成訓練,MFU達到43% ,在業(yè)界達到了領先水平。天翼云優(yōu)化斷點續(xù)訓技術,在Llama2-70B模型訓練中,實現秒級故障檢測,分鐘級定位并處理故障,分鐘級訓練恢復,這一性能已達到行業(yè)前沿水平。
此外,基于平臺能力,天翼云聯合伙伴上線了魔樂(Modelers)開發(fā)者社區(qū),通過整合優(yōu)質中文AI資源、提供極致易用的工具鏈,以及國產化算力使能,端到端支持AI應用開發(fā)全流程,助力孵化國產原生模型。
三種交付形態(tài)+兩大應用場景 助力企業(yè)加速AI應用落地
AI技術加速融入各行各業(yè),大模型的應用前景也愈加廣闊。天翼云息壤一體化智算服務平臺從行業(yè)及客戶需求出發(fā),在技術與能力的不斷迭代升級中使能企業(yè)制勝AI時代。
天翼云智算產品線專家夏曼雪對平臺功能進行了詳細演示。平臺支持公有云、混合云和輕量化三種交付形態(tài)。其中,公有云版本即開即用、計費靈活,支持按卡時計費、包周期計費;混合云版本支持千卡規(guī)模的私有化項目交付;輕量化版本支持天翼云A100云主機、H800/A100/A800/A10裸金屬服務器、物理機等硬件形態(tài)交付部署,靈活便捷。
場景應用方面,平臺主要面向兩類客戶場景。一是具備深厚行業(yè)知識、擁有自主數據的行業(yè)客戶,如政務、金融機構、汽車、媒體、旅游等行業(yè)。依托零代碼平臺和豐富的開閉源大模型,客戶無需掌握算法編程即可完成模型的調優(yōu)和API調用,從而加速大模型從概念到落地的進程。二是擁有很強的算法能力,但在智算集群的管理運維方面經驗不足的大模型廠商。平臺為這類用戶提供專業(yè)的開發(fā)和運維工具,實現大規(guī)模分布式訓練和斷點續(xù)訓能力,在保障穩(wěn)定性的同時,通過構建AI加速引擎助力用戶提升算力利用率。
目前,天翼云已服務多個客戶的訓推場景,助力行業(yè)大模型訓推更便捷、更高效、更穩(wěn)定安全。中國中醫(yī)科學院中醫(yī)藥信息研究所(簡稱“中醫(yī)藥信息研究所”)所長特聘助理朱彥分享了與天翼云合作開展中醫(yī)藥大模型的探究與實踐,通過與天翼云合作,中醫(yī)藥信息研究所獲得了更加穩(wěn)定和高效的計算支持。借助天翼云大模型學習機,搭建低代碼服務平臺,中醫(yī)藥信息研究所高效完成了文獻和臨床數據的治理工作,包括自動抽取、標準化等任務。此外,在中醫(yī)垂類大模型的微調、應用發(fā)布方面,平臺將提供算法支持和模型優(yōu)化工具,幫助客戶充分挖掘中醫(yī)藥數據的內在價值。雙方合作與探索,不僅進一步加速了中醫(yī)大模型的研究和應用,以及中醫(yī)藥的現代化進程,也將為全球健康事業(yè)的發(fā)展作出重要貢獻。
伴隨以大模型為核心的人工智能技術的快速發(fā)展,各行各業(yè)正經歷著一場前所未有的智能化轉型浪潮。作為云服務國家隊,天翼云將持續(xù)聚焦人工智能場景進行技術創(chuàng)新,積極加碼布局智算基礎設施,賦能企業(yè)跑出“AI加速度”,攜手合作伙伴共同推動經濟社會智能化水平邁向新高度。