一本道乐园AV&538精品视频一区二区海的天&刘亦菲搜索结果 -第1页- 日本成人高清&日日爱妃无码&艳妇荡乳豪肉av无码&BT五月亚洲啪啪综合激情&国产91www&97人人摸超碰&歐美黃色免費播放器&波多在线一区&校园春色人妻交换&老A影视爽爽淫人网站

首頁/科研成果

北理工團隊在大語言模型輕量化、價值觀對齊和推理優(yōu)化及應用方面取得重要進展

發(fā)布日期：2026-04-17 供稿：計算機學院宋大偉攝影：計算機學院

編輯：林婷審核：周連景閱讀次數：

近日，北京理工大學計算機學院宋大為教授團隊大語言模型蒸餾、價值觀對齊、檢索增強和推理優(yōu)化、以及機器翻譯和情感分析等下游應用方面取得一系列重要進展，繼2025年獲頂級國際會議ACL2025（CCF-A類）“杰出論文獎”之后，又有4篇論文被ACL2026接收。

ACL（Annual Meeting of the Association for Computational Linguistics）是人工智能、計算語言學及自然語言處理相關領域的CCF A類頂級國際學術會議。ACL2025于2025年7月27日至8月1日在奧地利維也納召開，團隊博士生張辰的論文“Towards the Law of Capacity Gap in Distilling Language Models”獲得“杰出論文獎”。該論文首次提出了大模型蒸餾的教師-學生容量差異定律，揭示了對于給定規(guī)模的學生模型，其最優(yōu)教師模型規(guī)模與學生規(guī)模之間近似呈線性比例關系，通過應用該定律蒸餾出的3B模型，在標準基準上性能優(yōu)于當時的同規(guī)?；€模型，建立了新的計算-性能帕累托前沿。論文鏈接：https://aclanthology.org/2025.acl-long.1097.pdf

ACL2026將于7月2日至7月7日在美國加利福尼亞洲圣迭戈舉辦，本次會議main conference錄用率為19%，findings的錄用率為18%。團隊碩士畢業(yè)生李澤林、博士生田炎智（與計算機學院郭宇航博士共同指導）、隨藝和孟令昂的4篇論文被錄用。錄用論文工作簡介如下。

論文1：Reward Alignment Optimization: A Direct Point-wise Alignment Approach（Main）

作者：Zelin Li，Jia Leng，Dawei Song，Yangen Hu

論文概述：本論文針對大語言模型價值觀直接對齊算法核心問題，提出RAO（Reward Alignment Optimization）方法，引入一致通用前綴將歸一化項轉化成可計算項，無需引入額外計算和有偏估計即可實現逐點對齊優(yōu)化。RAO利用顯式獎勵模型對回復進行標注，通過逐點MSE損失將獎勵信息直接蒸餾到策略模型中，充分利用跨提示詞的獎勵信息，并且解耦了傳統(tǒng)對齊目標。實驗表明，RAO在多個代表性基座大模型上全面超越DPO、SimPO、RLHF等基線。

論文代碼：https://github.com/Vespertinus9/RAO

論文2：Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation （Main）

作者：Yanzhi Tian，Cunxiang Wang，Zeming Liu，Heyan Huang，Wenbo Yu，Dawei Song，Jie Tang，Yuhang Guo

論文概述：本工作針對傳統(tǒng)機器翻譯指標（如BLEU）以及LLM-as-a-Judge難以準確評估非直譯領域機器翻譯質量的問題，提出了支持調用搜索工具的Agent-as-a-Judge評估框架RATE。該框架通過一個執(zhí)行自我反思循環(huán)的核心智能體，根據待評估翻譯特點選擇性地調用3個子智能體：搜索智能體、評估智能體和比較智能體，構建了首個針對非直譯領域翻譯質量評估的meta-evaluation數據集MENT。實驗結果表示，RATE在非直譯領域翻譯質量評估中有更高的準確性。

論文鏈接：https://arxiv.org/abs/2601.07338

代碼鏈接：https://github.com/BITHLP/RATE

論文3：Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning（Findings）

作者：Yi Sui, Chaozhuo Li, Dawei Song

論文概述：針對大模型在長鏈式推理中普遍存在的“過度推理”與效率低下問題，提出了STACK框架，從細粒度的“狀態(tài)感知”視角出發(fā)，通過引入基于局部信息熵的猶豫狀態(tài)檢測，在不確定性較高時觸發(fā)知識引導的對比解碼以糾正推理方向，在高置信但冗長時采用自提示壓縮以去除冗余，同時結合基于答案分布收斂的信息增益早停機制，避免無效的重復驗證步驟。實驗結果表明，STACK在多個數學推理基準上顯著優(yōu)于現有方法，實現了準確性與效率之間的更優(yōu)平衡。

論文鏈接：https://arxiv.org/abs/2604.09150

論文4：Beyond Polarity: Continuous Affect-Enhanced Multimodal Aspect-Based Sentiment Classification （Findings）

作者：Ling-Ang Meng, Tianyu Zhao, Dawei Song, Jingxu Cao, Youhui Zuo

論文概述：現有方面級多模態(tài)情感分析（MABSA）方法多依賴離散情感極性與通用視覺特征表示，導致在復雜語境下的情感推理能力受限。本文基于心理學中的 Valence–Arousal–Dominance（VAD）情感空間提出VADE框架，將情感建模拓展為連續(xù)情感驅動的多模態(tài)推理機制。通過構建情感增強數據集對CLIP視覺編碼器進行微調，提升了視覺模態(tài)對情感線索的表達能力，并聯合建模文本、圖像與連續(xù)情感特征，實現精細化情感推理。實驗結果表明，VADE在系列基準數據集上優(yōu)于現有方法，驗證了連續(xù)情感建模與基于情感感知的視覺表示的有效性。

代碼鏈接：https://github.com/Maydayflower/VADE

附個人簡介：

宋大為，教授，主要研究方向包括量子認知計算、情感計算、大語言模型、信息檢索等，先后主持歐盟、英國和中國等國家級課題近20項，已發(fā)表學術論文270余篇，獲得IBM創(chuàng)新成就獎、ACM SIGIR ICTIR2011最佳論文獎、ECIR2011最佳短論文獎、ACM SIGIR ICTIR2019最佳論文提名獎、NLPCC2022最佳論文獎、ACL2025杰出論文獎等。

郭宇航，博士，主要研究方向為自然語言處理，包括大語言模型智能體、語音與圖像機器翻譯、多模態(tài)信息處理、模型編輯等。主持國家自然科學基金青年項目，參與多項國家重點研發(fā)和國自然聯合基金項目。獲國際機器翻譯評測第一名3次，在AAAI、ACL等頂級會議發(fā)表多篇論文。

最新新聞

<ul id="0e2a2"><tbody id="0e2a2"></tbody></ul>

<th id="0e2a2"></th>

<ul id="0e2a2"></ul>

<strike id="0e2a2"><menu id="0e2a2"></menu></strike>