china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關(guān)注微信公眾號
移動(dòng)端
創(chuàng)頭條企服版APP

百川智能發(fā)布超千億大模型Baichuan 3,中文評測超越GPT-4

31732
2024-01-29 14:08 搶發(fā)第一評

1月29日,百川智能發(fā)布超千億參數(shù)的大語言模型Baichuan 3。在多個(gè)權(quán)威通用能力評測如CMMLU、GAOKAO和AGI-Eval中,Baichuan 3都展現(xiàn)了出色的能力,尤其在中文任務(wù)上更是超越了GPT-4。而在數(shù)學(xué)和代碼專項(xiàng)評測如MATH、HumanEval和MBPP中同樣表現(xiàn)出色,證明了Baichuan 3在自然語言處理和代碼生成領(lǐng)域的強(qiáng)大實(shí)力。

不僅如此,其在對邏輯推理能力及專業(yè)性要求極高的MCMLE、MedExam、CMExam等權(quán)威醫(yī)療評測上的中文效果同樣超過了GPT-4,是中文醫(yī)療任務(wù)表現(xiàn)最佳的大模型。Baichuan 3還突破“迭代式強(qiáng)化學(xué)習(xí)”技術(shù),進(jìn)一步提升了語義理解和生成能力,在詩詞創(chuàng)作的格式、韻律、表意等方面表現(xiàn)優(yōu)異,領(lǐng)先于其他大模型。

鏈接:https://www.baichuan-ai.com/?

-1-

基礎(chǔ)能力全面提升,多項(xiàng)權(quán)威評測中文任務(wù)成績超越GPT-4

Baichuan 3在多個(gè)英文評測中表現(xiàn)出色,達(dá)到接近GPT-4的水平。而在CMMLU、GAOKAO、HumanEval和MBPP等多個(gè)中文評測榜單上,更是超越GPT-4展現(xiàn)了其在中文任務(wù)上的優(yōu)勢。

圖片2.png
?

圖片3.png?

此外,在MT-Bench、IFEval等對齊榜單的評測中,Baichuan 3超越了GPT-3.5、Claude等大模型,處于行業(yè)領(lǐng)先水平。

圖片4.png?

與百億、幾百億級別參數(shù)模型訓(xùn)練不同,超千億參數(shù)模型在訓(xùn)練過程中對高質(zhì)量數(shù)據(jù),訓(xùn)練穩(wěn)定性、訓(xùn)練效率的要求都高出幾個(gè)量級。為更好解決相關(guān)問題,百川智能在訓(xùn)練過程中針對性地提出了“動(dòng)態(tài)數(shù)據(jù)選擇”、“重要度保持”以及“異步CheckPoint存儲(chǔ)”等多種創(chuàng)新技術(shù)手段及方案,有效提升了Baicuan 3的各項(xiàng)能力。

高質(zhì)量數(shù)據(jù)方面,傳統(tǒng)的數(shù)據(jù)篩選依靠人工定義,通過濾重篩選、質(zhì)量打分、Textbook篩選等方法過濾數(shù)據(jù)。而百川智能認(rèn)為,數(shù)據(jù)的優(yōu)化和采樣是一個(gè)動(dòng)態(tài)過程,應(yīng)該隨著模型本身的訓(xùn)練過程優(yōu)化,而非單純依靠人工先驗(yàn)進(jìn)行數(shù)據(jù)的采樣和篩選。為全面提升數(shù)據(jù)質(zhì)量,百川智能設(shè)計(jì)了一套基于因果采樣的動(dòng)態(tài)訓(xùn)練數(shù)據(jù)選擇方案,該方案能夠在模型訓(xùn)練過程中動(dòng)態(tài)地選擇訓(xùn)練數(shù)據(jù),極大提升數(shù)據(jù)質(zhì)量。

訓(xùn)練穩(wěn)定性方面,超千億參數(shù)的模型由于參數(shù)量巨大,訓(xùn)練過程中經(jīng)常會(huì)出現(xiàn)梯度爆炸、loss跑飛、模型不收斂等問題。對此,百川智能提出了“重要度保持”(Salience-Consistency)的漸進(jìn)式初始化方法,用以保證模型訓(xùn)練初期的穩(wěn)定性。并且優(yōu)化了模型訓(xùn)練過程的監(jiān)控方案,在梯度、Loss等指標(biāo)上引入了參數(shù)“有效秩”的方法來提早發(fā)現(xiàn)訓(xùn)練過程中的問題,極大加速對訓(xùn)練問題的定位,確保了最后模型的收斂效果。此外,為了確保在數(shù)千張GPU上高效且穩(wěn)定地訓(xùn)練超千億參數(shù)模型,百川智能同步優(yōu)化了模型的訓(xùn)練穩(wěn)定性和訓(xùn)練框架,并采用“異步CheckPoint存儲(chǔ)”機(jī)制,可以無性能損失地加大存儲(chǔ)的頻率,減少機(jī)器故障對訓(xùn)練任務(wù)的影響,使Baichuan 3的穩(wěn)定訓(xùn)練時(shí)間達(dá)到一個(gè)月以上,故障恢復(fù)時(shí)間不超過10分鐘。

訓(xùn)練效率方面,百川智能針對超千億參數(shù)模型的并行訓(xùn)練問題進(jìn)行了一系列優(yōu)化,如高度優(yōu)化的RoPE, SwiGLU計(jì)算算子;在數(shù)據(jù)并行中實(shí)現(xiàn)參數(shù)通信與計(jì)算的重疊,以及在序列并行中實(shí)現(xiàn)激活值通信與計(jì)算的重疊,從而有效降低了通信時(shí)間的比重;在流水并行中引入了將激活值卸載至GPU的技術(shù),解決了流水并行中顯存占用不均的問題,減少了流水并行的分段數(shù)量并顯著降低了空泡率。通過這些技術(shù)創(chuàng)新,Baichuan 3的訓(xùn)練框架在性能方面相比業(yè)界主流框架提升超過30%。

-2-

醫(yī)療數(shù)據(jù)集Token數(shù)超千億,醫(yī)療能力逼近GPT-4

大模型醫(yī)療背后蘊(yùn)含著巨大的社會(huì)價(jià)值和產(chǎn)業(yè)價(jià)值,從疾病的診斷、治療到患者護(hù)理與藥物研發(fā),大模型不僅能夠幫助醫(yī)生提高診療效率和質(zhì)量,幫助患者獲得更好的服務(wù)和體驗(yàn),還能幫助社會(huì)降低醫(yī)療成本和風(fēng)險(xiǎn),助力醫(yī)療資源實(shí)現(xiàn)普惠和平權(quán)。并且醫(yī)療問題專業(yè)性強(qiáng)、知識更新速度快、準(zhǔn)確性要求高、個(gè)體差異大,能充體現(xiàn)大模型的各項(xiàng)能力,被百川智能稱為“大模型皇冠上的明珠”。因此,諸如OpenAI、谷歌等頭部大模型企業(yè)都將醫(yī)療作為模型的重點(diǎn)訓(xùn)練方向和性能評價(jià)的重要體系。ChatGPT早在2023年2月便已通過了美國醫(yī)學(xué)執(zhí)照考試(USMLE),顯示出其在醫(yī)學(xué)領(lǐng)域的強(qiáng)大能力。而谷歌對醫(yī)療領(lǐng)域的重視更甚,基于PaLM模型打造了醫(yī)療大模型Med-PaLM,迭代后的Med-PaLM 2在醫(yī)學(xué)考試 MedQA中的成績超過80分,達(dá)到了專家水平。

在醫(yī)療領(lǐng)域,大模型的全能特性發(fā)揮著至關(guān)重要的作用。首先,其多模態(tài)學(xué)習(xí)能力能夠整合文本、影像、聲音等多種類型的醫(yī)療數(shù)據(jù),提供更全面、準(zhǔn)確的分析和診斷。其次,大模型的深層推理能力有助于復(fù)雜醫(yī)療決策的制定。此外,穩(wěn)定的性能和知識更新能力確保了醫(yī)療建議的可靠性和時(shí)效性。同時(shí),大模型的語言理解和生成能力使其能夠處理專業(yè)術(shù)語和復(fù)雜句式。最后,模式識別與學(xué)習(xí)能力在大模型中的應(yīng)用,使其能夠從復(fù)雜的醫(yī)療數(shù)據(jù)中學(xué)習(xí)和識別出重要的模式和特征。所以,大模型想要在醫(yī)療領(lǐng)域擁有良好效果并不容易,既需要豐富的醫(yī)療知識、合適的Prompt,還需要模型本身具備過硬的邏輯推理能力。

為了給Baichuan3注入豐富的醫(yī)療知識,百川智能在模型預(yù)訓(xùn)練階段構(gòu)建了超過千億Token的醫(yī)療數(shù)據(jù)集,包括醫(yī)學(xué)研究文獻(xiàn)、真實(shí)的電子病歷資料、醫(yī)學(xué)領(lǐng)域的專業(yè)書籍和知識庫資源、針對醫(yī)療問題的問答資料等。該數(shù)據(jù)集涵蓋了從理論到實(shí)際操作,從基礎(chǔ)理論到臨床應(yīng)用等各個(gè)方面的醫(yī)學(xué)知識,確保了模型在醫(yī)療領(lǐng)域的專業(yè)度和知識深度。

針對醫(yī)療知識激發(fā)的問題,百川智能在推理階段針對Prompt做了系統(tǒng)性的研究和調(diào)優(yōu),通過準(zhǔn)確的描述任務(wù)、恰當(dāng)?shù)氖纠龢颖具x擇,讓模型輸出更加準(zhǔn)確以及符合邏輯的推理步驟,最終不僅提升了Baichuan 3在多項(xiàng)醫(yī)療考試上的成績,并且在真實(shí)的醫(yī)療問答場景下也能給用戶提供更精準(zhǔn)、細(xì)致的反饋。

邏輯推理方面,Baichuan 3在數(shù)學(xué)和代碼等多個(gè)權(quán)威評測上中文任務(wù)超越GPT-4的優(yōu)異成績,已經(jīng)充分證明了其強(qiáng)大的基礎(chǔ)邏輯推理能力。在擁有豐富高質(zhì)量專業(yè)醫(yī)療知識,并能通過調(diào)優(yōu)后的Prompt對這些知識進(jìn)行充分激發(fā)的基礎(chǔ)上,結(jié)合超千億參數(shù)的推理能力,Baichuan 3在醫(yī)療領(lǐng)域的任務(wù)效果提升顯著,在各類中英文醫(yī)療測試中的成績提升了2到14個(gè)百分點(diǎn)。

Baichuan 3在多個(gè)權(quán)威醫(yī)療評測任務(wù)中表現(xiàn)優(yōu)異,不僅MCMLE、MedExam、CMExam等中文醫(yī)療任務(wù)的評測成績超過GPT-4,USMLE、MedMCQA等英文醫(yī)療任務(wù)的評測成績也逼近了GPT-4的水準(zhǔn),是醫(yī)療能力最強(qiáng)的中文大模型。

圖片5.png?

-3-

突破“迭代式強(qiáng)化學(xué)習(xí)”技術(shù),創(chuàng)作精準(zhǔn)度大幅提升

語義理解和文本生成,作為大模型最基礎(chǔ)的底層能力,是其他能力的支柱。為提升這兩項(xiàng)能力,業(yè)界進(jìn)行了大量探索和實(shí)踐,OpenAI、Google以及Anthropic等引入的RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))和RLAIF(基于AI反饋的強(qiáng)化學(xué)習(xí))便是其中的關(guān)鍵技術(shù)。

基于強(qiáng)化學(xué)習(xí)對齊后的模型不僅可以更精準(zhǔn)地理解用戶指令,尤其是多約束以及多輪對話下的指令,還能進(jìn)一步提升生成內(nèi)容的質(zhì)量。但是在大模型中充分發(fā)揮強(qiáng)化學(xué)習(xí)的作用不僅需要穩(wěn)定且高效的強(qiáng)化學(xué)習(xí)訓(xùn)練框架和高質(zhì)量的優(yōu)質(zhì)偏序數(shù)據(jù),還需要在“探索與利用”兩者間進(jìn)行平衡,實(shí)現(xiàn)模型能力持續(xù)爬坡。

對于以上問題,百川智能進(jìn)行了深入研究,并給出了針對性的解決方案。強(qiáng)化學(xué)習(xí)訓(xùn)練框架方面,百川智能自研了訓(xùn)練推理雙引擎融合、多模型并行調(diào)度的PPO訓(xùn)練框架,能夠很好支持超千億模型的高效訓(xùn)練,訓(xùn)練效率相比業(yè)界主流框架提升400%。偏序數(shù)據(jù)方面,百川智能創(chuàng)新性的采用了RLHF與RLAIF結(jié)合的方式來生成高質(zhì)量優(yōu)質(zhì)偏序數(shù)據(jù),在數(shù)據(jù)質(zhì)量和數(shù)據(jù)成本之間獲得了更好的平衡。在此基礎(chǔ)上,對于“探索與利用”這一根本挑戰(zhàn),百川智能通過PPO探索空間與Reward Model評價(jià)空間的同步升級,實(shí)現(xiàn)“迭代式強(qiáng)化學(xué)習(xí)”(iterative RLHF&RLAIF)。基于強(qiáng)化學(xué)習(xí)的版本爬坡,可以在SFT的基礎(chǔ)上進(jìn)一步發(fā)揮底座模型的潛力,讓Baichuan 3的語義理解和生成創(chuàng)作能力大幅提升。

以文本創(chuàng)作中最具挑戰(zhàn)的唐詩宋詞為例,作為中國傳統(tǒng)文化的瑰寶,詩詞不僅在格式、平仄、對偶、韻律等方面均有著嚴(yán)格的約束條件,并且內(nèi)容高度凝練、寓意深遠(yuǎn)。如果僅通過SFT的微調(diào)學(xué)習(xí),一方面高質(zhì)量詩詞的創(chuàng)作數(shù)據(jù)需要極高的專家成本,另一方面不能在平仄、對偶、韻律等多個(gè)方面實(shí)現(xiàn)較好的約束理解和遵循。此外,傳統(tǒng)的單次RLHF范式在唐詩宋詞面前也遇到極大挑戰(zhàn),PPO在訓(xùn)練過程中生成的Response有可能超出Reward Model的評價(jià)范圍導(dǎo)致“探索”的過程失控。

Baichuan 3結(jié)合“RLHF&RLAIF”以及迭代式強(qiáng)化學(xué)習(xí)的方法,讓大模型的詩詞創(chuàng)作能力達(dá)到全新高度。可用性相比當(dāng)前業(yè)界最好的模型水平提升達(dá)500%,文采遠(yuǎn)超GPT-4。對于宋詞這種格式多變,結(jié)構(gòu)深細(xì)、韻律豐富的高難度文體,生成的內(nèi)容亦能工整對仗、韻腳和諧。其精準(zhǔn)、深厚的創(chuàng)作功底,將讓每個(gè)人都能夠輕松創(chuàng)作出詠物、寄思的五言律詩、七言絕句,寫下的言志、抒情的“沁園春”、“定風(fēng)波”,這不僅可以提升大眾的人文素養(yǎng),還能助力中華傳統(tǒng)文化在大模型時(shí)代真正地“活”起來。

圖片6.png?

圖片7.png?

作為參數(shù)規(guī)模超過千億的大語言模型,Baichuan 3不僅英文效果達(dá)到接近GPT-4的水平,還在多項(xiàng)通用中文任務(wù)的表現(xiàn)上實(shí)現(xiàn)了對GPT-4的超越,是百川智能的全新里程碑。Baichuan 3全面的通用能力以及在醫(yī)療領(lǐng)域的強(qiáng)大表現(xiàn),將為百川智能打造“超級應(yīng)用”,把大模型技術(shù)落地到諸多復(fù)雜應(yīng)用場景提供有力支撐。

聲明:本文由創(chuàng)頭條企業(yè)號發(fā)布,依據(jù)企業(yè)號用戶協(xié)議,該企業(yè)號為文章的真實(shí)性和準(zhǔn)確性負(fù)責(zé)。創(chuàng)頭條作為品牌傳播平臺,只為傳播效果負(fù)責(zé),在文章不存在違反法律規(guī)定的情況下,不繼續(xù)承擔(dān)甄別文章內(nèi)容和觀點(diǎn)的義務(wù)。
您閱讀這篇文章花了0
轉(zhuǎn)發(fā)這篇文章只需要1秒鐘
喜歡這篇 16
評論一下 0
凱派爾知識產(chǎn)權(quán)全新業(yè)務(wù)全面上線
相關(guān)文章
評論
登錄后發(fā)表評論
凱派爾知識產(chǎn)權(quán)全新業(yè)務(wù)全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創(chuàng)服務(wù)
歷史搜索 清空

Tel:18514777506

關(guān)注微信公眾號

創(chuàng)頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
欧美日韩亚洲综合在线 欧美亚洲特黄一级| 亚洲欧美日韩在线不卡| 亚洲猫色日本管| 色呦呦一区二区三区| 日韩一区二区电影网| 亚洲美女在线一区| 91久久精品午夜一区二区| 欧美精品乱码久久久久久按摩 | 亚洲视频1区2区| 91丨porny丨首页| 国产成人精品免费| 在线视频欧美精品| 中文字幕的久久| 精品一区二区国语对白| 91精品国产欧美日韩| 亚洲一区二区三区四区的| 成人aa视频在线观看| 久久精品一区二区| 久久99精品国产麻豆不卡| 欧美高清视频在线高清观看mv色露露十八| 国产精品家庭影院| 国产aⅴ精品一区二区三区色成熟| 欧美r级电影在线观看| 日韩精品免费专区| 欧美日韩电影一区| 亚洲国产欧美日韩另类综合| 在线看一区二区| 亚洲欧美另类小说| 97精品视频在线观看自产线路二| 中文字幕精品—区二区四季| 国产成人亚洲综合a∨猫咪| 精品国产91亚洲一区二区三区婷婷| 日韩一区欧美二区| 欧美另类变人与禽xxxxx| 五月婷婷欧美视频| 在线不卡免费欧美| 日本不卡不码高清免费观看| 欧美一区二区三区免费视频| 日本特黄久久久高潮| 日韩一区国产二区欧美三区| 蜜桃视频免费观看一区| 日韩精品中文字幕在线不卡尤物| 久久9热精品视频| 精品少妇一区二区三区日产乱码 | 精品少妇一区二区| 麻豆成人久久精品二区三区红| 日韩一区二区三区四区| 久久国产精品无码网站| 久久一夜天堂av一区二区三区| 国产精品伊人色| 国产精品久久久久一区二区三区| 成人禁用看黄a在线| 国产精品女人毛片| 色婷婷一区二区三区四区| 一区二区三区四区精品在线视频| 欧美在线免费视屏| 日韩精品一级中文字幕精品视频免费观看| 91精品啪在线观看国产60岁| 蜜桃精品在线观看| 国产三级精品三级| 91免费小视频| 五月婷婷欧美视频| 精品国产3级a| av中文字幕一区| 亚洲一区二区三区四区中文字幕| 在线成人午夜影院| 极品少妇xxxx精品少妇偷拍| 国产精品沙发午睡系列990531| 色婷婷av一区| 麻豆国产精品视频| 国产精品午夜电影| 欧美亚州韩日在线看免费版国语版| 日本中文在线一区| 国产欧美视频一区二区| 91麻豆高清视频| 日韩成人午夜精品| 亚洲国产精华液网站w| 欧美在线短视频| 久久99国产精品尤物| 欧美国产精品劲爆| 欧美亚一区二区| 国产一区二区免费看| 一区在线中文字幕| 欧美一区二区三区公司| 国产精品资源在线| 亚洲精品视频观看| 欧美va在线播放| 色偷偷久久人人79超碰人人澡| 日韩 欧美一区二区三区| 国产欧美日韩久久| 欧美视频中文字幕| 国内精品不卡在线| 亚洲欧美另类图片小说| 欧美不卡一区二区| 日本精品视频一区二区三区| 激情成人综合网| 一区二区三区精品久久久| 精品国产乱码久久久久久夜甘婷婷 | 亚洲成a人片在线不卡一二三区| 精品日韩欧美在线| 日本精品裸体写真集在线观看| 久久99久国产精品黄毛片色诱| 亚洲视频一二区| 欧美成人女星排名| 91久久精品一区二区三| 国产一区二区三区| 亚洲第一主播视频| 欧美国产一区在线| 欧美一二三区在线观看| 91黄色免费网站| 国产成人精品午夜视频免费| 五月开心婷婷久久| 一区在线中文字幕| 久久五月婷婷丁香社区| 欧美剧在线免费观看网站| 成人黄色av网站在线| 另类调教123区| 亚洲妇女屁股眼交7| 中文字幕一区二区三区色视频| 欧美成人综合网站| 欧美日韩成人综合在线一区二区 | 久久精品亚洲国产奇米99| 欧美日本高清视频在线观看| 成人国产一区二区三区精品| 老司机精品视频在线| 亚洲自拍偷拍麻豆| 国产精品久久久久久久久久免费看| 日韩欧美中文字幕一区| 欧美日韩高清一区二区不卡| 91一区二区三区在线播放| 国产一区二区三区免费观看| 日韩av不卡一区二区| 亚洲国产精品一区二区www| 国产精品福利一区| 久久婷婷一区二区三区| 欧美一区二区啪啪| 欧美日韩高清一区二区三区| 色综合天天综合网天天看片| 国产白丝精品91爽爽久久| 久久国产精品99久久人人澡| 天天av天天翘天天综合网色鬼国产 | 中文字幕第一区综合| 精品久久一区二区| 91精品国产综合久久久久久漫画| 欧美亚洲国产怡红院影院| 91色综合久久久久婷婷| 成人av高清在线| 盗摄精品av一区二区三区| 国产一区二区91| 国产自产v一区二区三区c| 久久精品理论片| 捆绑调教美女网站视频一区| 免费在线观看一区| 日韩在线一区二区三区| 三级在线观看一区二区| 肉肉av福利一精品导航| 日韩国产成人精品| 全国精品久久少妇| 美女诱惑一区二区| 久久精品国产色蜜蜜麻豆| 蜜乳av一区二区| 久久99精品国产麻豆不卡| 精品在线免费视频| 九九**精品视频免费播放| 国产在线视频一区二区三区| 国产一区二区不卡老阿姨| 国产精品77777| 国产不卡在线一区| 不卡的av网站| av在线一区二区三区| 91网站在线播放| 欧美综合亚洲图片综合区| 欧美日韩在线播放一区| 91精品中文字幕一区二区三区| 日韩欧美一级在线播放| 精品久久久久av影院| 久久久久国产精品人| 国产精品毛片高清在线完整版| 中文字幕一区二区视频| 一区二区三区四区激情| 亚洲.国产.中文慕字在线| 青青草成人在线观看| 国模少妇一区二区三区| 成人污视频在线观看| 色婷婷av一区二区| 欧美日韩激情一区二区三区| 91精品国产入口| 久久久久久麻豆| 亚洲三级在线免费| 亚洲一区二区在线免费观看视频 | 99久久久久免费精品国产| 色先锋资源久久综合| 欧美精品 国产精品| 精品成人一区二区| 国产精品久久久久影院老司 | 在线精品视频免费播放| 欧美日韩精品欧美日韩精品一综合| 日韩一区二区三区精品视频| 久久久久国产精品免费免费搜索| 国产精品福利在线播放|