亚洲精品国产自产拍在线观看_欧洲亚洲国产日韩综合一区_午夜亚洲精品在线视频免费观看_日韩在线观看欧美尤物_亚洲AV成人无码一二三久久_国产精品无码中出在线_麻豆精品一区二区综合A∨_成年男女免费视频网站慢动作_377p人体大尺度啪啪_另类亚洲欧美偷拍

  • 大模型破譯甲骨文創(chuàng)下新SOTA!復(fù)旦團隊推出新框架

      發(fā)布時間:2025-09-08 08:21:16   作者:玩站小弟   我要評論
    ?????? 本文敘述皆有官方信源,為了讀者有更好體驗放在了。

    復(fù)旦大學(xué)團隊 投稿量子位 | 公眾號 QbitAI

    讓大模型破譯從未見過的甲骨文,準確率拿下新SOTA!

    來自復(fù)旦大學(xué)的研究人員提出了一種基于部首和象形分析的可解釋甲骨文破譯框架——

    不僅在公開基準數(shù)據(jù)集HUST-OBC和EV-OBC上,達到最先進的Top-10識別準確率以及優(yōu)異的零樣本破譯能力。

    而且面對未破譯甲骨文,所提方法也能夠輸出可解釋性的分析文本,從而為考古破譯工作提供潛在幫助。

    事實上,作為最古老的成熟文字系統(tǒng),甲骨文長期以來因其稀有性、抽象性和象形多樣性,給考古破譯工作帶來了重大挑戰(zhàn)。

    當(dāng)前基于深度學(xué)習(xí)的方法在甲骨文破譯任務(wù)上取得了令人鼓舞的進展,但現(xiàn)有方法往往忽視了甲骨文字形與語義之間的復(fù)雜關(guān)聯(lián)。

    這導(dǎo)致了有限的泛化能力和可解釋性,尤其是在處理零樣本場景和未破譯的甲骨文時。

    為此,本文提出了一種基于大型視覺語言模型的可解釋甲骨文破譯方法,該方法通過聯(lián)合部首分析與象形語義理解,彌合了甲骨文字形與語意之間的鴻溝。

    下面具體來看——

    首個象形解析甲骨文破譯數(shù)據(jù)集

    概括而言,團隊提出了一種漸進式訓(xùn)練策略,引導(dǎo)模型從部首識別和部首分析,過渡到象形分析,最后進行部首-象形交互分析,從而實現(xiàn)從字形到字意的推理。

    論文還設(shè)計了基于分析結(jié)果的“部首-象形雙重匹配機制”,顯著提升了模型的零樣本破譯性能。

    為便于模型訓(xùn)練,論文提出了包含47,157個漢字的象形破譯甲骨文數(shù)據(jù)集,其中部分漢字具有相應(yīng)甲骨文圖像和古代字體圖像,所有漢字都具備現(xiàn)代楷書圖像、部首分析和象形分析標注。

    先說數(shù)據(jù)集。

    盡管現(xiàn)有視覺語言大模型在多種任務(wù)上表現(xiàn)優(yōu)異,但仍難以直接應(yīng)用于甲骨文破譯任務(wù)。

    為解決這一挑戰(zhàn),論文提出了象形破譯甲骨文(PD-OBS)數(shù)據(jù)集,用于訓(xùn)練具備甲骨文象形分析能力的視覺語言大模型,這對甲骨文破譯任務(wù)具有重要意義。

    PD-OBS數(shù)據(jù)集共包含47,157個漢字。其中,3173個漢字與從公開的HUST-OBC和EVOBC數(shù)據(jù)集收集的甲骨文圖像相關(guān)聯(lián);10,968個漢字提供了來自字形庫的古代隸書圖像;所有漢字均配有來自《漢典》的現(xiàn)代楷書圖像。

    除圖像數(shù)據(jù)外,每個漢字均通過文本形式標注了部首分析和象形分析,這兩者均與漢字的語義含義密切相關(guān)。

    標注過程分為三個階段,如圖1所示。

    首先,通過漢典從《說文解字》(一部古代漢語詞典)中檢索每個漢字的部首標簽、定義及解釋。

    其次,將獲取的部首標簽及其解釋與每個漢字的現(xiàn)代、古代字體和甲骨文圖像關(guān)聯(lián)。接著,利用GPT-4.1基于參考的字形圖像豐富部首標簽,并總結(jié)分析內(nèi)容。

    最后,通過GPT-4.1進行自我檢查和人工修正來確保數(shù)據(jù)集的整體質(zhì)量。

    基于部首和象形分析的可解釋甲骨文破譯視覺語言大模型

    1、模型整體結(jié)構(gòu)

    整體框架基于Qwen2.5-VL-7B構(gòu)建,共享相同的視覺編碼器和大型語言模型(LLM)。

    如圖2所示,研究人員引入了一個空間patch合并模塊作為視覺適配器,以及一個分類器來預(yù)測部首標簽,并且還提出了部首LoRA和象形LoRA模塊來分析相應(yīng)的信息。

    此外,研究人員設(shè)計了一種漸進式訓(xùn)練方法,從部首識別開始,接著進行部首和象形分析,最終實現(xiàn)聯(lián)合分析,以逐步引導(dǎo)模型完成甲骨文破譯任務(wù)。

    還提出了一個新穎的部首-象形雙重匹配機制,以從數(shù)據(jù)庫中選擇最合適的字符。

    2、部首識別

    在本階段,研究人員的目標是將視覺編碼器適配于甲骨文的獨特視覺風(fēng)格,并預(yù)測用于下游推理的關(guān)鍵信息——部首標簽。

    為此,團隊設(shè)計了一個空間patch合并模塊作為視覺適配器,該適配器將高維視覺特征壓縮并聚合為預(yù)設(shè)維度的特征向量,作為甲骨文的抽象表示。

    此外,研究人員基于歐式距離設(shè)計了一個三元組損失函數(shù),以明確提升不同部首特征向量之間的區(qū)分度。

    具體而言,團隊實施了一種采樣策略,確保每個批次中每個部首類別至少包含兩個樣本。

    在訓(xùn)練過程中,對于批次中的每個樣本,將它的特征向量Vn 指定為錨點,然后選擇一個正樣本(即具有相同根部標簽的樣本)和一個負樣本(即具有不同根部標簽的樣本)。

    三元組損失如下:

    關(guān)于分類器,研究人員使用交叉熵損失來優(yōu)化它。因此,本階段的整個損失函數(shù)可以表示如下:

    3、部首-象形聯(lián)合分析

    為了在甲骨文中實現(xiàn)字形與意義的關(guān)聯(lián),研究人員設(shè)計了一個漸進式的字形分析過程,以促進破譯任務(wù)的完成。

    在甲骨文和古代漢字中,部首通常決定了字的基本語義,如圖3中的Q1&A1所示。

    因此,團隊利用PD-OBS數(shù)據(jù)集構(gòu)建的大量部首分析問答對對模型進行部首分析能力的訓(xùn)練。

    接下來引導(dǎo)模型對整個字符進行象形分析,以分析字形蘊含的語意,如圖3中的Q2&A2所示。

    最后,研究人員設(shè)計了一個聯(lián)合分析步驟,以解決僅憑象形分析可能無法直接預(yù)測正確對應(yīng)現(xiàn)代漢字的情況。此步驟通過部首分析的結(jié)果指導(dǎo)象形分析,從而獲得更準確的漢字含義,如圖3中的Q3&A3所示。此階段通過交叉熵損失來優(yōu)化模型。

    以下為部首-象形聯(lián)合分析示意圖:

    4、部首-象形雙重匹配機制

    經(jīng)過前兩個階段后,團隊為每個測試字符生成了四個中間結(jié)果:預(yù)測的部首標簽、部首分析、象形分析以及聯(lián)合分析結(jié)果。

    研究人員提出了一種基于詞典的雙重匹配機制用于破譯。給定來自PD-OBS數(shù)據(jù)集的候選詞典D,該機制的工作流程如下:

    首先,根據(jù)預(yù)測的部首標過濾候選項,然后根據(jù)象形分析之間的語義相似性選擇前k個條目。

    其次,將預(yù)測的部首分析與部首信息增強的象形分析結(jié)果進行拼接,并通過相似性進行排序。

    最后,將這些候選集合并并重新排序,以獲得前k個現(xiàn)代漢字作為破譯結(jié)果。

    所有步驟和符號在圖4中詳細說明。

    值得注意的是,團隊采用匹配機制而非直接輸出破譯結(jié)果,這有助于緩解模型在零樣本設(shè)置下因訓(xùn)練數(shù)據(jù)中缺乏此類甲骨文而導(dǎo)致的泛化能力不足問題,以及未破譯甲骨文帶來的影響。

    以下為部首象形雙重匹配算法:

    實驗結(jié)果

    1、驗證集和零樣本設(shè)定下的破譯

    研究人員在HUST-OBC和EV-OBC數(shù)據(jù)集上對所提方法和現(xiàn)有方法進行了評估,從每個數(shù)據(jù)集中選取200個字符類別作為零樣本測試集。

    剩余數(shù)據(jù)以9:1的比例隨機劃分為訓(xùn)練集和驗證集,以評估新框架及現(xiàn)有方法的甲骨文識別能力。

    與先前研究一致,團隊采用Top-1和Top-10準確率作為評估指標,該指標通常用于各類分類任務(wù)。

    為了系統(tǒng)地評估新方法在甲骨文破譯中的有效性,團隊在兩個基準數(shù)據(jù)集HUST-OBC和EV-OBC進行了全面比較,分別在驗證集和零樣本設(shè)置下進行,如表1所示。

    注意,每個單元格分別顯示Top-1(左)和Top-10(右)的準確率(%)。最佳結(jié)果和次佳結(jié)果分別以粗體和下劃線標注。

    團隊采用InceptionV3、ViT和PyGT作為基于分類模型的代表方法,以及OBSD和BBDM作為基于擴散模型的代表方法。由于缺乏開源實現(xiàn)和數(shù)據(jù)集設(shè)置的不一致,現(xiàn)有基于組成式的方法目前未被納入比較方法。

    作為替代,研究人員納入了強大的商用LVLM,GPT-4.1 和 Qwen-VL-Max用于比較。

    相比之下,商用LVLM 在兩種設(shè)置下表現(xiàn)不佳,Top-1 準確率始終低于6%,這說明了其理解古代文字視覺結(jié)構(gòu)的能力受限。

    在驗證集上,盡管新方法的Top-1 準確率略低于最佳分類模型基線(如PyGT),但它實現(xiàn)了最高的Top-10準確率,展示了生成高質(zhì)量候選項的優(yōu)越能力,并提供了更大的實際用途。

    在更具挑戰(zhàn)性的零樣本場景中,新方法表現(xiàn)出顯著的優(yōu)異性能:

    在Top-1準確率方面仍具競爭力,并在Top-10準確率方面顯著超越所有方法,在HUST-OBC數(shù)據(jù)集上比第二好的方法高出26.2%,在EV-OBC數(shù)據(jù)集上則高出13.6%。

    這些結(jié)果證實了新方法在未見過的甲骨文上的強泛化能力和可遷移性,突顯了其在考古研究中輔助識別未破譯甲骨文方面的潛在價值。

    2、破譯的可解釋性評估

    為了定量評估新方法生成的部首分析和象形分析的準確率,研究人員采用BERT-Score來衡量Top-1輸出與字典D中真實分析標注之間的相似性。

    團隊還評估了其他大型視覺語言模型,包括GPT-4.1、Qwen-VL-Max和Qwen2.5-VL-7B,并比較了它們在HUST-OBC和EVOBC數(shù)據(jù)集的驗證集和零樣本測試集的平均BERT-Score。

    如表2所示,新方法在驗證集和零樣本設(shè)置下,分別平均比最先進的LVLM模型GPT-4.1高出21.60%和12.95%,在兩個數(shù)據(jù)集上。

    這一結(jié)果表明,新框架生成的分析結(jié)果更加可靠。

    下表為,不同方法在驗證集上獲得的Bert-Score(%)。Valid.和S分別表示驗證集和零樣本測試集。

    3、消融實驗

    為了評估設(shè)計的部首識別階段的有效性,研究人員以Qwen2.5-VL-7B的原始視覺編碼器作為基線,并分別集成部首識別模塊以及基于LoRA的識別方法。

    其識別準確率在HUST-OBS數(shù)據(jù)集上進行了驗證,并包含驗證集和零樣本設(shè)置。

    新方法在基線視覺編碼器上引入了空間補丁合并和損失函數(shù)Ltrip,分別在驗證集和零樣本設(shè)置下實現(xiàn)了0.9%和1.2%的準確率提升。

    基于LoRA的識別方法將識別階段與部首分析過程合并,并采用基于LoRA的微調(diào)進行訓(xùn)練。

    實驗結(jié)果表明,該方法導(dǎo)致部首識別準確率顯著下降,從而在部首分析中引入大量錯誤,因此研究人員在框架中將部首識別保留為獨立階段。

    下表為,關(guān)于部首識別的消融實驗結(jié)果:

    為了驗證團隊提出的模塊和策略的有效性,他們以Qwen2.5-VL-7B作為基線,并逐步添加每個組件以形成最終模型。

    在驗證集和零樣本設(shè)置下的Top-1和Top-10性能如表4所示。

    結(jié)果表明,LoRA微調(diào)(+LoRA)在驗證集上實現(xiàn)了基本的破譯能力,但在零樣本場景下仍缺乏泛化能力。

    引入部首-象形互分析與部首識別后,模型在驗證集上的準確率持續(xù)提升,但零樣本能力的提升仍非常有限。

    主要原因在于通過LoRA基于監(jiān)督式微調(diào)訓(xùn)練的模型缺乏足夠的泛化能力,常無法生成罕見字符——這是零樣本場景中的常見挑戰(zhàn)。

    為解決此問題,團隊引入了部首-象形雙匹配機制,以替代直接預(yù)測。

    該策略不僅顯著提升了模型的零樣本性能,還增強了甲骨文中與語義無關(guān)的部首的魯棒性,確保了解碼結(jié)果的可靠性和可驗證性。

    4、定性實驗

    圖5展示了新方法以及OBSD方法在三種設(shè)置下的定性結(jié)果:驗證集、零樣本和未破譯的甲骨文。

    如圖所示,團隊的模型在驗證集上展現(xiàn)出強大的識別能力,并在零樣本設(shè)置下對未見過的甲骨文也具有良好的泛化能力。

    更值得注意的是,對于人類專家尚未破譯的字符,模型能夠生成語義上合理的預(yù)測,并附帶可解釋的分析。

    其設(shè)計的部首-象形相互分析在其中發(fā)揮了關(guān)鍵作用:部首分析追溯部首的結(jié)構(gòu)起源,并解釋其在當(dāng)前字符形式中的象征功能。

    同時,象形形式分析基于字符的整體形狀和隱含意義,提供了一個整體的視覺-語義映射。

    這些互補的分析共同形成了一條雙重推理路徑,提升了模型生成語義基礎(chǔ)且可解釋輸出的能力,即使對于尚未破譯的字符也是如此。

    下表為, 破譯結(jié)果和可解釋性過程展示:

    小結(jié)一下,在本研究中,團隊提出了一種基于部首和象形分析的可解釋甲骨文破譯框架。

    該框架通過三個階段將字形與意義相連:部首識別與分析、象形分析以及相互分析。

    借助提出的部首-象形雙重匹配機制,其模型可根據(jù)分析結(jié)果從字典中篩選出合適的破譯候選集,取代直接輸出破譯結(jié)果,從而實現(xiàn)更優(yōu)的零樣本性能。

    此外,生成的文本分析可作為可解釋內(nèi)容,為未破譯的甲骨文字符提供參考,因此在考古應(yīng)用中具有巨大潛力。

    為支持訓(xùn)練,他們構(gòu)建了PD-OBS數(shù)據(jù)集,包含47,157個注釋有甲骨文圖像和象形文字分析文本的漢字,為未來研究提供了寶貴資源。

    實驗結(jié)果表明,其方法在破譯準確性、泛化能力和可解釋性方面均表現(xiàn)出強勁性能。

    論文地址:https://arxiv.org/abs/2508.10113項目地址:https://github.com/PKXX1943/PD-OBS