
作者|楊文
來源 |?AI先鋒官
9月7日下午,中關村智用人工智能研究院(以下簡稱“智用研究院”)在北京舉辦了大模型評測技術研討會。中國中小企業國際合作協會企業技術能力評價專委會、朝陽區人工智能應用聯合會、西安交大人機所、阿里達摩院、360人工智能研究院、華為、曙光、智譜華章、可之科技、中科極限元、中國電信、河南投資集團、創興動力、朝科創等單位的專家參加了此次研討會。
智用研究院院長孫明俊表示:“組織大模型評測的目標是為了解決眾多垂類行業用戶對于大模型能力和特點的認知需求,建立一套具有中國特色、由豐富行業場景引導的評測體系,對大模型的垂直行業應用能力進行技術評判,推動產業的健康發展?!?/strong>

目前,市場上常見的大模型評測模式主要有做題打分、以GPT-4為基準、競技場模式、針對單項能力的評測等。這些評測模式涉及到大模型的效果評價、客觀評價、主觀評價。那么,如何將客觀評價和主觀評價進行有機協同就需要進一步思考。
因此,在研討會上,與會代表圍繞如何建立一套客觀、公正的大模型評測體系展開,就大模型的評測目標、指標、方法、數據安全、隱私保護等問題進行了全面討論。
智用研究院首席研究員錢雨表示:“生成式大語言模型的效果評價一直以來都是困擾自然語言處理領域的重要問題之一。目前市場上陸續出現了C-Eval、CMMLU、M3KE、SuperCLUE、FlagEva等針對AI大模型評測的新工具。然而,現在的AI大模型與以往NLU類模型不同的是覆蓋面更廣,市面上這些評測方法能否全面系統地進行評測尚且值得探究?!?/p>

“目前大模型分為通用大模型和行業大模型,究竟是要針對通用大模型還是行業大模型做評測也值得思考。”西安交大人機所教授丁寧認為,“做行業垂類大模型的評測很有價值,難度也很高?!?/p>

經過與會代表的充分討論,評測工作將主要關注大模型基于通用能力所擁有的垂直行業應用能力,并就評測主題內容、數據集來源、評測維度、評價方法和技巧等方面達成一致,全力實行小步搶跑,加快推出大模型評測的階段性成果。
除此之外,研討會上還成立了大模型評測工作組。技術組組長由西安交大人機所教授丁寧擔任,成員單位包括西安交大人機所等;組織組組長由智用研究院首席研究員錢雨擔任,副組長由創興動力集團董事長兼CEO陳志剛擔任,成員單位包括智用研究院、中國中小企業國際合作協會企業技術能力評價專委會、創興動力、朝科創等。

接下來,智用研究院將繼續組織相關會議,以形成最專業科學的大模型評測方法,并計劃于10月份對大模型評測體系進行重磅發布。
中關村智用人工智能研究院(簡稱“智用研究院”)是在北京市科委、中關村管委會指導下,由百度、小米、曠視和一流科技聯合發起創辦的民辦非企業機構,致力于推進各行各業智能化進程。
智用研究院通過對復雜系統決策、復雜信息推理、技術研判、復雜系統綜合應用等能力體系的研究,建立了人工智能產業信任機制和數字化轉型基礎設施,并打造出智算云平臺、行業大模型、邊緣計算服器等智能化基座。除此之外,還通過標準研究和檢測認證能力建設、行業智能化創新課題研究、技術產品轉化、人才培訓及投融資服務等手段,實現了高新技術從原始創新到落地應用協同推進的閉環支撐,大力推進智能化技術在實體經濟中的廣泛應用。
創興動力集團是國內領先的創新創業服務機構之一,擁有創新孵化載體、企業賦能加速、數字化、資訊、政策及產業服務等業務板塊。在AI方面,公司今年的算力運營服務發展迅速,同時推出了AI大模型應用精選與評測產品“AI先鋒官”,形成移動網站、微信小程序、微信公眾號等產品和傳播矩陣。截至目前,“AI先鋒官”通過跟蹤行業前沿資訊、專家專訪、精選評測70余款大模型應用產品及直播,成為行業人士聚集社區之一。
?.END.