北理工團隊在大語言模型輕量化、價值觀對齊和推理優(yōu)化及應用方面取得重要進展
發(fā)布日期:2026-04-17 供稿:計算機學院 宋大偉 攝影:計算機學院
編輯:林婷 審核:周連景 閱讀次數:

近日,北京理工大學計算機學院宋大為教授團隊大語言模型蒸餾、價值觀對齊、檢索增強和推理優(yōu)化、以及機器翻譯和情感分析等下游應用方面取得一系列重要進展,繼2025年獲頂級國際會議ACL2025(CCF-A類)“杰出論文獎”之后,又有4篇論文被ACL2026接收。
ACL(Annual Meeting of the Association for Computational Linguistics)是人工智能、計算語言學及自然語言處理相關領域的CCF A類頂級國際學術會議。ACL2025于2025年7月27日至8月1日在奧地利維也納召開,團隊博士生張辰的論文“Towards the Law of Capacity Gap in Distilling Language Models”獲得“杰出論文獎”。該論文首次提出了大模型蒸餾的教師-學生容量差異定律,揭示了對于給定規(guī)模的學生模型,其最優(yōu)教師模型規(guī)模與學生規(guī)模之間近似呈線性比例關系,通過應用該定律蒸餾出的3B模型,在標準基準上性能優(yōu)于當時的同規(guī)?;€模型,建立了新的計算-性能帕累托前沿。論文鏈接:https://aclanthology.org/2025.acl-long.1097.pdf

ACL2026將于7月2日至7月7日在美國加利福尼亞洲圣迭戈舉辦,本次會議main conference錄用率為19%,findings的錄用率為18%。團隊碩士畢業(yè)生李澤林、博士生田炎智(與計算機學院郭宇航博士共同指導)、隨藝和孟令昂的4篇論文被錄用。錄用論文工作簡介如下。
論文1:Reward Alignment Optimization: A Direct Point-wise Alignment Approach(Main)
作者:Zelin Li,Jia Leng,Dawei Song,Yangen Hu
論文概述:本論文針對大語言模型價值觀直接對齊算法核心問題,提出RAO(Reward Alignment Optimization)方法,引入一致通用前綴將歸一化項轉化成可計算項,無需引入額外計算和有偏估計即可實現逐點對齊優(yōu)化。RAO利用顯式獎勵模型對回復進行標注,通過逐點MSE損失將獎勵信息直接蒸餾到策略模型中,充分利用跨提示詞的獎勵信息,并且解耦了傳統(tǒng)對齊目標。實驗表明,RAO在多個代表性基座大模型上全面超越DPO、SimPO、RLHF等基線。
論文代碼:https://github.com/Vespertinus9/RAO

論文2:Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation (Main)
作者:Yanzhi Tian,Cunxiang Wang,Zeming Liu,Heyan Huang,Wenbo Yu,Dawei Song,Jie Tang,Yuhang Guo
論文概述:本工作針對傳統(tǒng)機器翻譯指標(如BLEU)以及LLM-as-a-Judge難以準確評估非直譯領域機器翻譯質量的問題,提出了支持調用搜索工具的Agent-as-a-Judge評估框架RATE。該框架通過一個執(zhí)行自我反思循環(huán)的核心智能體,根據待評估翻譯特點選擇性地調用3個子智能體:搜索智能體、評估智能體和比較智能體,構建了首個針對非直譯領域翻譯質量評估的meta-evaluation數據集MENT。實驗結果表示,RATE在非直譯領域翻譯質量評估中有更高的準確性。
論文鏈接:https://arxiv.org/abs/2601.07338
代碼鏈接:https://github.com/BITHLP/RATE

論文3:Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning(Findings)
作者:Yi Sui, Chaozhuo Li, Dawei Song
論文概述:針對大模型在長鏈式推理中普遍存在的“過度推理”與效率低下問題,提出了STACK框架,從細粒度的“狀態(tài)感知”視角出發(fā),通過引入基于局部信息熵的猶豫狀態(tài)檢測,在不確定性較高時觸發(fā)知識引導的對比解碼以糾正推理方向,在高置信但冗長時采用自提示壓縮以去除冗余,同時結合基于答案分布收斂的信息增益早停機制,避免無效的重復驗證步驟。實驗結果表明,STACK在多個數學推理基準上顯著優(yōu)于現有方法,實現了準確性與效率之間的更優(yōu)平衡。
論文鏈接:https://arxiv.org/abs/2604.09150

論文4:Beyond Polarity: Continuous Affect-Enhanced Multimodal Aspect-Based Sentiment Classification (Findings)
作者:Ling-Ang Meng, Tianyu Zhao, Dawei Song, Jingxu Cao, Youhui Zuo
論文概述:現有方面級多模態(tài)情感分析(MABSA)方法多依賴離散情感極性與通用視覺特征表示,導致在復雜語境下的情感推理能力受限。本文基于心理學中的 Valence–Arousal–Dominance(VAD)情感空間提出VADE框架,將情感建模拓展為連續(xù)情感驅動的多模態(tài)推理機制。通過構建情感增強數據集對CLIP視覺編碼器進行微調,提升了視覺模態(tài)對情感線索的表達能力,并聯合建模文本、圖像與連續(xù)情感特征,實現精細化情感推理。實驗結果表明,VADE在系列基準數據集上優(yōu)于現有方法,驗證了連續(xù)情感建模與基于情感感知的視覺表示的有效性。
代碼鏈接:https://github.com/Maydayflower/VADE

附個人簡介:
宋大為,教授,主要研究方向包括量子認知計算、情感計算、大語言模型、信息檢索等,先后主持歐盟、英國和中國等國家級課題近20項,已發(fā)表學術論文270余篇,獲得IBM創(chuàng)新成就獎、ACM SIGIR ICTIR2011最佳論文獎、ECIR2011最佳短論文獎、ACM SIGIR ICTIR2019最佳論文提名獎、NLPCC2022最佳論文獎、ACL2025杰出論文獎等。
郭宇航,博士,主要研究方向為自然語言處理,包括大語言模型智能體、語音與圖像機器翻譯、多模態(tài)信息處理、模型編輯等。主持國家自然科學基金青年項目,參與多項國家重點研發(fā)和國自然聯合基金項目。獲國際機器翻譯評測第一名3次,在AAAI、ACL等頂級會議發(fā)表多篇論文。
分享到:
