{"id":"https://openalex.org/W7156867690","doi":"https://doi.org/10.48550/arxiv.2604.23318","title":"Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance","display_name":"Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance","publication_year":2026,"publication_date":"2026-04-25","ids":{"openalex":"https://openalex.org/W7156867690","doi":"https://doi.org/10.48550/arxiv.2604.23318"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.23318","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.23318","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.23318","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5134820396","display_name":"Xinzhu Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Xinzhu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134779509","display_name":"Wei He","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"He, Wei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124752219","display_name":"Huichuan Fan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Fan, Huichuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124814744","display_name":"Wenzhe Niu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Niu, Wenzhe","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134819630","display_name":"Zhongxiang Sun","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sun, Zhongxiang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134783549","display_name":"Xuanru Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Xuanru","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5123019324","display_name":"Jiuchong Gao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gao, Jiuchong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5122996256","display_name":"Jinghua Hao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hao, Jinghua","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5028060197","display_name":"Renqing He","orcid":"https://orcid.org/0000-0001-7788-7584"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"He, Renqing","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5134804403","display_name":"Weijie Yu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yu, Weijie","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":10,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.43700000643730164,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.43700000643730164,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.07569999992847443,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.043699998408555984,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/correctness","display_name":"Correctness","score":0.7384999990463257},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.5767999887466431},{"id":"https://openalex.org/keywords/quality","display_name":"Quality (philosophy)","score":0.5175999999046326},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.4717999994754791},{"id":"https://openalex.org/keywords/divergence","display_name":"Divergence (linguistics)","score":0.436599999666214},{"id":"https://openalex.org/keywords/verifiable-secret-sharing","display_name":"Verifiable secret sharing","score":0.41429999470710754},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.3675000071525574}],"concepts":[{"id":"https://openalex.org/C55439883","wikidata":"https://www.wikidata.org/wiki/Q360812","display_name":"Correctness","level":2,"score":0.7384999990463257},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6521999835968018},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.5767999887466431},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.5175999999046326},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.4717999994754791},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.46380001306533813},{"id":"https://openalex.org/C207390915","wikidata":"https://www.wikidata.org/wiki/Q1230525","display_name":"Divergence (linguistics)","level":2,"score":0.436599999666214},{"id":"https://openalex.org/C85847156","wikidata":"https://www.wikidata.org/wiki/Q59015987","display_name":"Verifiable secret sharing","level":3,"score":0.41429999470710754},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.3675000071525574},{"id":"https://openalex.org/C2778755073","wikidata":"https://www.wikidata.org/wiki/Q10858537","display_name":"Scale (ratio)","level":2,"score":0.3301999866962433},{"id":"https://openalex.org/C142853389","wikidata":"https://www.wikidata.org/wiki/Q744778","display_name":"Association (psychology)","level":2,"score":0.323199987411499},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.32030001282691956},{"id":"https://openalex.org/C171752962","wikidata":"https://www.wikidata.org/wiki/Q255166","display_name":"Kullback\u2013Leibler divergence","level":2,"score":0.3005000054836273},{"id":"https://openalex.org/C2779843651","wikidata":"https://www.wikidata.org/wiki/Q7390335","display_name":"SIGNAL (programming language)","level":2,"score":0.29829999804496765},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.28139999508857727},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.2806999981403351},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.2712000012397766},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.2703999876976013},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.2558000087738037}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.23318","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.23318","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.23318","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.23318","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.5570089817047119}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Group":[0],"Relative":[1],"Policy":[2],"Optimization":[3],"(GRPO)":[4],"performs":[5],"coarse-grained":[6],"credit":[7,118],"assignment":[8],"in":[9,24,66],"reinforcement":[10],"learning":[11],"with":[12,124],"verifiable":[13],"rewards":[14],"(RLVR)":[15],"by":[16,152,167],"assigning":[17],"the":[18,73,144,187,201],"same":[19],"advantage":[20],"to":[21,172,200,224],"all":[22],"tokens":[23,179],"a":[25,49,113,125],"rollout.":[26],"Process":[27],"reward":[28,41,227,235],"models":[29],"can":[30,57,110],"provide":[31],"finer-grained":[32],"supervision,":[33],"but":[34],"they":[35],"require":[36],"step-level":[37],"annotation":[38,233],"or":[39,234],"additional":[40,194,232],"modeling.":[42],"We":[43,120],"show":[44,215],"that":[45,56,106],"hidden-state":[46,107],"distributions":[47,80],"contain":[48],"useful":[50],"signal":[51,115],"for":[52,116],"local":[53,91],"reasoning":[54,92,208],"quality":[55,93],"be":[58],"extracted":[59],"using":[60,168],"only":[61,197],"outcome-level":[62],"correctness":[63],"labels":[64],"available":[65],"RLVR.":[67],"Specifically,":[68],"within":[69,102],"each":[70],"GRPO":[71,166,219],"group,":[72],"Wasserstein":[74,138,170],"distance":[75],"between":[76],"span-level":[77,169],"hidden":[78,181],"state":[79,159],"of":[81],"correct":[82],"and":[83,101,196,210,220],"incorrect":[84],"rollouts":[85],"increases":[86],"around":[87],"regions":[88],"where":[89],"their":[90],"diverges.":[94],"This":[95],"association":[96],"holds":[97],"both":[98],"across":[99],"examples":[100],"individual":[103],"trajectories,":[104],"suggesting":[105],"distributional":[108,146],"divergence":[109],"serve":[111],"as":[112],"self-supervision":[114],"fine-grained":[117],"assignment.":[119],"formalize":[121],"this":[122,153],"observation":[123],"separation":[126],"theorem":[127],"showing":[128],"that,":[129],"under":[130],"mild":[131],"structural":[132],"assumptions,":[133],"post-divergence":[134],"spans":[135,142],"have":[136],"larger":[137],"distances":[139,171],"than":[140],"pre-divergence":[141],"whenever":[143],"population-level":[145],"gap":[147],"exceeds":[148],"finite-sample":[149],"noise.":[150],"Motivated":[151],"result,":[154],"we":[155],"propose":[156],"\\textbf{S}pan-level":[157],"\\textbf{H}idden":[158],"\\textbf{E}nabled":[160],"\\textbf{A}dvantage":[161],"\\textbf{R}eweighting":[162],"(SHEAR),":[163],"which":[164],"modifies":[165],"scale":[173],"token-level":[174],"advantages,":[175],"amplifying":[176],"updates":[177],"on":[178,205],"whose":[180],"states":[182],"are":[183],"more":[184],"separated":[185],"from":[186],"opposing":[188],"group.":[189],"The":[190],"method":[191],"requires":[192],"no":[193,231],"model":[195,236],"minimal":[198],"changes":[199],"training":[202],"pipeline.":[203],"Experiments":[204],"five":[206,211],"mathematical":[207],"benchmarks":[209,214],"code":[212],"generation":[213],"improvements":[216],"over":[217],"standard":[218],"strong":[221],"performance":[222],"relative":[223],"supervised":[225],"process":[226],"models,":[228],"while":[229],"requiring":[230],"training.":[237]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-04-29T00:00:00"}