DAV首頁(yè)

數字音視工程網(wǎng)

微信公眾號

手機DAV

熱門(mén)搜索：

技術(shù)風(fēng)向標

我的位置：

新華社研究院大模型體驗報告3.0：訊飛星火蟬聯(lián)冠軍，基礎能力、智商、工具效能均最強

來(lái)源：科大訊飛編輯：章俊雅 2023-11-22 09:24:06 加入收藏

新華社研究院中國企業(yè)發(fā)展研究中心最近發(fā)布的年度第三份關(guān)于大模型的評測報告——人工智能大模型體驗報告3.0（下文簡(jiǎn)稱(chēng)《報告》）評測結果顯示，由科大訊飛研...

　　新華社研究院中國企業(yè)發(fā)展研究中心最近發(fā)布的年度第三份關(guān)于大模型的評測報告——人工智能大模型體驗報告3.0（下文簡(jiǎn)稱(chēng)《報告》）評測結果顯示，由科大訊飛研發(fā)的訊飛星火認知大模型獲得1775最高分蟬聯(lián)冠軍，并獲得基礎能力指數、智商指數、工具提效指數三項評測指標第一。緊隨其后的是商湯的商量大模型和智譜的AI-ChatGLM大模型。

　　新華社研究院：

　　科大訊飛在大模型技術(shù)領(lǐng)域積淀深厚

　　本次報告與之前的評測體系相比，在評估維度、主客觀(guān)融合、指標與市場(chǎng)異動(dòng)匹配等方面都進(jìn)行了升級。比如，在1000道題里面選擇400道題進(jìn)行實(shí)際問(wèn)答測試，在原來(lái)對大模型產(chǎn)品的實(shí)際表現評測基礎上增加了對廠(chǎng)商技術(shù)實(shí)力和未來(lái)發(fā)展潛力的維度評測等。

　　《報告》測評選取了訊飛星火、商湯商量、智譜AI-ChatGLM、瀾舟科技孟子、360智腦、字節跳動(dòng)豆包、阿里通義千問(wèn)、騰訊混元、昆侖萬(wàn)維天工和中科聞歌雅意等10家最新版本國產(chǎn)主流大模型產(chǎn)品。

　　《報告》以“技術(shù)實(shí)力”和“發(fā)展潛力”為坐標系，其中，“技術(shù)實(shí)力”包括平臺性能、安全性能、模型可解釋性、實(shí)時(shí)性能四大二級指標和易用性等七大三級指標，“發(fā)展潛力”包括社會(huì )認可度、創(chuàng )新能力、市場(chǎng)前景三大二級指標和用戶(hù)接受度等五大三級指標，由此得出主流大模型綜合指數3.0，結果顯示，訊飛星火等3家大模型在“技術(shù)實(shí)力”和“發(fā)展潛力”上都處于第一象限，屬于大模型領(lǐng)域的“未來(lái)領(lǐng)袖”。

　　大模型廠(chǎng)商在技術(shù)實(shí)力上呈現出百家爭鳴的態(tài)勢，每個(gè)廠(chǎng)商都努力在模型的算法、架構、性能等各方面尋求突破，《報告》認為，“科大訊飛依賴(lài)其在語(yǔ)音技術(shù)領(lǐng)域的長(cháng)期積累，為大模型注入了豐富的語(yǔ)音交互能力”。綜合“技術(shù)實(shí)力”和“發(fā)展潛力”，《報告》實(shí)際評測結果認為，“科大訊飛再次表現亮眼，這再次證明了科大訊飛在大模型技術(shù)領(lǐng)域積淀深厚”。

　　打造每個(gè)人的AI助手，工具提效指數再奪冠

　　今年下半年以來(lái)，“百模大戰”已從“拼技術(shù)”轉向“拼應用”的轉折點(diǎn)，應用為王成為行業(yè)共識。

　　《報告》對主流大模型的產(chǎn)品，從基礎能力、智商、情商和工具提效四大維度進(jìn)行測試，結果顯示，科大訊飛獲得1775分，總分第一且基礎能力、智商、工具提效三項指數均獲第一。 今年8月份，在《人工智能大模型體驗報告2.0》中，訊飛星火獲得總分第一、智商和工具提效兩項指數第一。

　　“假如我是一個(gè)5歲的兒童，請向我解釋為什么星星會(huì )發(fā)光。”面對這樣的基礎能力測試，訊飛星火將星星比喻成“天空的小蠟燭”，用非常簡(jiǎn)單的幾句話(huà)讓5歲孩子“一聽(tīng)就懂”?！秷蟾妗吩u價(jià)訊飛星火在基礎能力上的總體表現，“能夠準確理解指令，并且能夠生成圖像”。

　　在智商指數方面，一個(gè)有關(guān)專(zhuān)業(yè)心理學(xué)的單選題擺在大模型面前，結果顯示，訊飛星火在回答基本正確的同時(shí)能夠理解指令，不給出多余的回答。

　　在《報告》的四大評測維度中，“工具提效指數”直指落地應用，通過(guò)“在不同專(zhuān)業(yè)技能場(chǎng)景下評測模型均能一定程度上提升問(wèn)題分析和解決水平，以及大綱羅列的速度”，來(lái)檢驗大模型是否真正“好用”。

　　《報告》提出一道醫療問(wèn)題進(jìn)行測試：“猴痘會(huì )通過(guò)什么途徑傳播?目前的治療方法是什么?”，結果訊飛星火非常簡(jiǎn)潔列出3個(gè)傳播途徑及治療方法建議，以472分獲得第一。

　　上個(gè)月剛結束的訊飛星火認知大模型V3.0發(fā)布會(huì )上，訊飛星火的“工具屬性”全面落地，人們在不同的場(chǎng)景都能感受到“AI助手”無(wú)處不在：當你身體不舒服，搭載訊飛星火醫療大模型的“訊飛曉醫 ”APP進(jìn)行癥狀自查，“就醫攻略”一目了然;寫(xiě)程序想提升效率，iFlyCode2.0智能編程助手可以馬上幫你寫(xiě)出一個(gè)從0到1的小應用;寫(xiě)郵件文書(shū)太繁瑣，下載一個(gè)有1200萬(wàn)粉絲的“訊飛星火”APP，里面就有注入“靈魂”、具有人設的星火友伴，可以馬上學(xué)習你的文風(fēng)為你寫(xiě)作……就在剛剛過(guò)去的“雙11”，訊飛AI硬件銷(xiāo)售額同比增長(cháng)126%，科大訊飛AI學(xué)習機等多個(gè)智能硬件獲得天貓和京東7個(gè)品類(lèi)銷(xiāo)售冠軍，用戶(hù)直接為AI助手的價(jià)值真金白銀買(mǎi)單，訊飛星火賦能人們生活和工作的各種產(chǎn)品，已實(shí)實(shí)在在讓每一個(gè)普通人有著(zhù)越來(lái)越強烈的“體感”。

　　從C到B，實(shí)現國產(chǎn)大模型“安全可控”

　　Gartner發(fā)布的2024年十大戰略技術(shù)趨勢顯示，生成式AI 的全民化有可能實(shí)現各種任務(wù)的自動(dòng)化，從而提高生產(chǎn)力，降低成本并提供新的增長(cháng)機會(huì )。隨著(zhù)生成式AI平臺在全球范圍內不斷普及，全球組織和員工將迎來(lái)生產(chǎn)力躍遷。Gartner預測，到2026年，80%以上的企業(yè)將接入生成式AI或大模型。

　　從對個(gè)體的實(shí)用到對行業(yè)的賦能，《報告》認為，大模型技術(shù)在C端場(chǎng)景應用落地越來(lái)越多，在B端賦能千行百業(yè)的產(chǎn)業(yè)價(jià)值需進(jìn)一步挖掘。

　　《報告》將科大訊飛納入優(yōu)秀案例之列，《報告》認為，“為了保證算力安全，訊飛和華為強強聯(lián)合，把自身?yè)碛械淖匝写竽Ｐ陀柧毱脚_，具備訓練和數據閉環(huán)全流程設計、大模型訓練和推理一體化設計、大規模異構算力兼容、支持混合云架構易拓展等優(yōu)勢和華為基于昇騰AI基礎軟硬件的高算力AI 芯片、高性能算子庫、多卡高速互聯(lián)、分布式存儲等優(yōu)勢結合起來(lái)，打造出了面向超大規模大模型的訓練國產(chǎn)算力集群，保證了人工智能大模型的算力安全和發(fā)展自主。同時(shí)，訊飛星火形成了立體化的‘內容安全’保障機制，解決了內容安全方面的問(wèn)題。”

　　在實(shí)踐成效方面，《報告》認為，“在訊飛保障內容，華為保障算力的前提下，訊飛聯(lián)合華為推出了國產(chǎn)軟硬件一體化的私有專(zhuān)屬大模型解決方案‘星火一體機’，它就好像一個(gè)人工智能大模型的服務(wù)器，開(kāi)箱就可以立即提供從底層算力、AI框架、訓練算法、推理能力、應用成效等全棧AI能力，讓企業(yè)可以在這個(gè)‘一體機’上，獨家打造屬于自己的專(zhuān)屬私有化大模型”。

　　人工智能大模型的發(fā)展任重道遠，《報告》期待，未來(lái)人工智能大模型能夠推動(dòng)數字經(jīng)濟和產(chǎn)業(yè)經(jīng)濟深度融合，牽起新一輪技術(shù)革命，為社會(huì )經(jīng)濟發(fā)展提供源源不斷的科技動(dòng)力。

免責聲明：本文來(lái)源于科大訊飛，本文僅代表作者個(gè)人觀(guān)點(diǎn)，本站不作任何保證和承諾，若有任何疑問(wèn)，請與本文作者聯(lián)系或有侵權行為聯(lián)系本站刪除。

掃一掃關(guān)注數字音視工程網(wǎng)公眾號

評論comment

推薦閱讀recommend

《赳赳大秦》全球首演 | 德國Kling&Freitag（K&F）音響震撼打造文旅扛鼎之作
查看詳情
4K超高清顯示新時(shí)代，揭秘Mini COB智慧屏十大頂尖熱門(mén)之選！
查看詳情
晶大科技COB封裝LED顯示系統點(diǎn)亮煙臺市公安局會(huì )議報告廳！
查看詳情
【案例】- West Park 高中邁向網(wǎng)絡(luò )化的未來(lái)
查看詳情

国产av福利久久精品can动漫|2021精品国产自在现线|亚洲无线观看国产高清|欧洲人妻丰满av无码久久不卡|欧美情侣性视频