{"id":"https://openalex.org/W7161703809","doi":"https://doi.org/10.48550/arxiv.2605.17877","title":"PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization","display_name":"PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization","publication_year":2026,"publication_date":"2026-05-18","ids":{"openalex":"https://openalex.org/W7161703809","doi":"https://doi.org/10.48550/arxiv.2605.17877"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.17877","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.17877","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.17877","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5136489815","display_name":"Wonjoong Kim","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kim, Wonjoong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136481558","display_name":"Yeonjun In","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"In, Yeonjun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136454347","display_name":"Sangwu Park","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Park, Sangwu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136478550","display_name":"Dongha Lee","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lee, Dongha","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5136491959","display_name":"Chanyoung Park","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Park, Chanyoung","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.629800021648407,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.629800021648407,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.10610000044107437,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.03350000083446503,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/correctness","display_name":"Correctness","score":0.7807999849319458},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.656000018119812},{"id":"https://openalex.org/keywords/coherence","display_name":"Coherence (philosophical gambling strategy)","score":0.5730000138282776},{"id":"https://openalex.org/keywords/outcome","display_name":"Outcome (game theory)","score":0.5688999891281128},{"id":"https://openalex.org/keywords/prefix","display_name":"Prefix","score":0.5210000276565552},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.3725999891757965},{"id":"https://openalex.org/keywords/internal-model","display_name":"Internal model","score":0.37209999561309814}],"concepts":[{"id":"https://openalex.org/C55439883","wikidata":"https://www.wikidata.org/wiki/Q360812","display_name":"Correctness","level":2,"score":0.7807999849319458},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6869999766349792},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.656000018119812},{"id":"https://openalex.org/C2781181686","wikidata":"https://www.wikidata.org/wiki/Q4226068","display_name":"Coherence (philosophical gambling strategy)","level":2,"score":0.5730000138282776},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.5688999891281128},{"id":"https://openalex.org/C141603448","wikidata":"https://www.wikidata.org/wiki/Q134830","display_name":"Prefix","level":2,"score":0.5210000276565552},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.3725999891757965},{"id":"https://openalex.org/C28427503","wikidata":"https://www.wikidata.org/wiki/Q13580300","display_name":"Internal model","level":3,"score":0.37209999561309814},{"id":"https://openalex.org/C2775936607","wikidata":"https://www.wikidata.org/wiki/Q466845","display_name":"Tracking (education)","level":2,"score":0.3628999888896942},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.32690000534057617},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.32679998874664307},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.32510000467300415},{"id":"https://openalex.org/C158600405","wikidata":"https://www.wikidata.org/wiki/Q5054566","display_name":"Causal inference","level":2,"score":0.31790000200271606},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.30709999799728394},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.2883000075817108},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.2881999909877777},{"id":"https://openalex.org/C112930515","wikidata":"https://www.wikidata.org/wiki/Q4389547","display_name":"Risk analysis (engineering)","level":1,"score":0.2854999899864197},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.27379998564720154},{"id":"https://openalex.org/C18762648","wikidata":"https://www.wikidata.org/wiki/Q42213","display_name":"Work (physics)","level":2,"score":0.2644999921321869}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.17877","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.17877","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.17877","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.17877","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"A":[0],"significant":[1,69],"hurdle":[2],"for":[3,204],"current":[4],"LLMs":[5],"is":[6],"the":[7,129,156,187],"execution":[8],"of":[9,95],"complex,":[10],"multi-stage":[11],"tasks.":[12],"Group":[13],"Relative":[14],"Policy":[15],"Optimization":[16],"(GRPO)":[17],"has":[18],"been":[19],"emerging":[20],"as":[21,42,87],"a":[22,88,161,165,172],"leading":[23],"choice,":[24],"but":[25,144],"its":[26],"reliance":[27],"on":[28,146,150,190],"sparse":[29],"outcome":[30],"rewards":[31,60],"severely":[32,122],"limits":[33],"credit":[34],"assignment":[35],"across":[36],"intermediate":[37],"steps.":[38],"Existing":[39],"remedies":[40],"such":[41],"running":[43],"full":[44],"rollouts":[45],"to":[46,142],"assign":[47],"step-level":[48,89,201],"advantages,":[49],"calling":[50],"external":[51,208],"LLM":[52,81],"judges":[53],"at":[54,65,98,195],"each":[55],"step,":[56],"or":[57,71,213],"computing":[58],"intrinsic":[59],"that":[61,76,111,184],"require":[62],"ground-truth":[63,211],"answers":[64],"every":[66],"evaluation":[67],"introduce":[68],"costs":[70],"practical":[72],"constraints.":[73],"We":[74],"hypothesize":[75],"internal":[77],"correctness":[78],"probing":[79,102],"over":[80],"hidden":[82],"states":[83],"can":[84],"be":[85],"repurposed":[86],"reward":[90,202],"signal,":[91],"potentially":[92],"addressing":[93],"all":[94],"these":[96],"limitations":[97],"once.":[99],"However,":[100],"existing":[101],"research":[103],"assumes":[104],"clean":[105,147],"inputs,":[106],"and":[107,171],"we":[108,154],"first":[109],"show":[110,183],"this":[112,151],"assumption":[113],"breaks":[114],"down":[115],"in":[116],"multi-step":[117],"settings:":[118],"hidden-state":[119,167],"probes":[120],"degrade":[121],"under":[123],"prefix":[124,132],"contamination":[125,143],"tracking":[126],"coherence":[127],"with":[128,164],"(possibly":[130],"corrupted)":[131],"rather":[133],"than":[134],"grounded":[135,179],"correctness,":[136],"while":[137,193],"attention-based":[138,174],"features":[139],"remain":[140],"robust":[141],"underperform":[145],"prefixes.":[148],"Building":[149],"complementary":[152],"relationship,":[153],"propose":[155],"Prefix-Aware":[157],"Internal":[158],"Reward":[159],"(PAIR),":[160],"two-stage":[162],"model":[163,209],"frozen":[166],"probe":[168],"estimating":[169],"belief-consistency":[170],"lightweight":[173],"head":[175],"correcting":[176],"it":[177],"toward":[178],"correctness.":[180],"Experimental":[181],"results":[182],"PAIR":[185],"achieves":[186],"highest":[188],"AUROC":[189],"contaminated":[191],"trajectories":[192],"operating":[194],"negligible":[196],"inference":[197],"cost,":[198],"enabling":[199],"dense":[200],"signals":[203],"GRPO":[205],"training":[206],"without":[207],"calls,":[210],"dependencies,":[212],"full-trajectory":[214],"rollouts.":[215]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-20T00:00:00"}