{"id":"https://openalex.org/W7138920087","doi":"https://doi.org/10.48550/arxiv.2603.17145","title":"REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge","display_name":"REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge","publication_year":2026,"publication_date":"2026-03-17","ids":{"openalex":"https://openalex.org/W7138920087","doi":"https://doi.org/10.48550/arxiv.2603.17145"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.17145","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.17145","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.17145","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5070817221","display_name":"Yasi Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Zhang, Yasi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130083478","display_name":"Tianyu Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Tianyu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129924460","display_name":"Mingyuan Zhou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhou, Mingyuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5089517213","display_name":"Oscar Leong","orcid":"https://orcid.org/0000-0003-1737-3981"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Leong, Oscar","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129778225","display_name":"Ying Nian Wu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wu, Ying Nian","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5122200868","display_name":"Michal Lukasik","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lukasik, Michal","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5070817221"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.3050999939441681,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.3050999939441681,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11636","display_name":"Artificial Intelligence in Healthcare and Education","score":0.13680000603199005,"subfield":{"id":"https://openalex.org/subfields/2718","display_name":"Health Informatics"},"field":{"id":"https://openalex.org/fields/27","display_name":"Medicine"},"domain":{"id":"https://openalex.org/domains/4","display_name":"Health Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.094200000166893,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8050000071525574},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.6341000199317932},{"id":"https://openalex.org/keywords/regression","display_name":"Regression","score":0.5394999980926514},{"id":"https://openalex.org/keywords/bridge","display_name":"Bridge (graph theory)","score":0.5091000199317932},{"id":"https://openalex.org/keywords/ground-truth","display_name":"Ground truth","score":0.4927000105381012},{"id":"https://openalex.org/keywords/ordinal-regression","display_name":"Ordinal regression","score":0.40689998865127563},{"id":"https://openalex.org/keywords/supervised-learning","display_name":"Supervised learning","score":0.40290001034736633},{"id":"https://openalex.org/keywords/regression-analysis","display_name":"Regression analysis","score":0.39559999108314514},{"id":"https://openalex.org/keywords/correlation","display_name":"Correlation","score":0.38420000672340393}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8050000071525574},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6657999753952026},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6491000056266785},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.6341000199317932},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.607200026512146},{"id":"https://openalex.org/C83546350","wikidata":"https://www.wikidata.org/wiki/Q1139051","display_name":"Regression","level":2,"score":0.5394999980926514},{"id":"https://openalex.org/C100776233","wikidata":"https://www.wikidata.org/wiki/Q2532492","display_name":"Bridge (graph theory)","level":2,"score":0.5091000199317932},{"id":"https://openalex.org/C146849305","wikidata":"https://www.wikidata.org/wiki/Q370766","display_name":"Ground truth","level":2,"score":0.4927000105381012},{"id":"https://openalex.org/C110313322","wikidata":"https://www.wikidata.org/wiki/Q7100793","display_name":"Ordinal regression","level":2,"score":0.40689998865127563},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.40290001034736633},{"id":"https://openalex.org/C152877465","wikidata":"https://www.wikidata.org/wiki/Q208042","display_name":"Regression analysis","level":2,"score":0.39559999108314514},{"id":"https://openalex.org/C117220453","wikidata":"https://www.wikidata.org/wiki/Q5172842","display_name":"Correlation","level":2,"score":0.38420000672340393},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.3817000091075897},{"id":"https://openalex.org/C42058472","wikidata":"https://www.wikidata.org/wiki/Q810214","display_name":"Base (topology)","level":2,"score":0.37549999356269836},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.3727000057697296},{"id":"https://openalex.org/C66905080","wikidata":"https://www.wikidata.org/wiki/Q17005494","display_name":"Binary classification","level":3,"score":0.3709999918937683},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.3677000105381012},{"id":"https://openalex.org/C48372109","wikidata":"https://www.wikidata.org/wiki/Q3913","display_name":"Binary number","level":2,"score":0.36010000109672546},{"id":"https://openalex.org/C48921125","wikidata":"https://www.wikidata.org/wiki/Q10861030","display_name":"Linear regression","level":2,"score":0.31790000200271606},{"id":"https://openalex.org/C2778334786","wikidata":"https://www.wikidata.org/wiki/Q1586270","display_name":"Variation (astronomy)","level":2,"score":0.2842000126838684},{"id":"https://openalex.org/C2776502983","wikidata":"https://www.wikidata.org/wiki/Q690182","display_name":"Contrast (vision)","level":2,"score":0.28299999237060547},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.26249998807907104},{"id":"https://openalex.org/C45804977","wikidata":"https://www.wikidata.org/wiki/Q7239673","display_name":"Predictive modelling","level":2,"score":0.260699987411499},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.2551000118255615},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.25360000133514404},{"id":"https://openalex.org/C4554734","wikidata":"https://www.wikidata.org/wiki/Q593744","display_name":"Knowledge base","level":2,"score":0.25110000371932983}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.17145","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.17145","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.17145","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.17145","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Large":[0],"language":[1],"models":[2],"(LLMs)":[3],"are":[4,70],"increasingly":[5],"deployed":[6],"as":[7,20],"automated":[8],"evaluators":[9],"that":[10,51,118,173],"assign":[11],"numeric":[12],"scores":[13],"to":[14,49,73,80,100,107,170],"model":[15,167],"outputs,":[16],"a":[17,95],"paradigm":[18],"known":[19],"LLM-as-a-Judge.":[21],"However,":[22],"standard":[23,127,182],"Reinforcement":[24,93],"Learning":[25],"(RL)":[26],"methods":[27],"typically":[28],"rely":[29],"on":[30,189],"binary":[31],"rewards":[32],"(e.g.,":[33],"0-1":[34],"accuracy),":[35],"thereby":[36],"ignoring":[37],"the":[38,61,119,136,161,206,212,218],"ordinal":[39],"structure":[40],"inherent":[41],"in":[42],"regression":[43,102,120,223],"tasks;":[44],"for":[45,110,228],"instance,":[46],"they":[47],"fail":[48],"recognize":[50],"predicting":[52,58],"4":[53],"is":[54,64,117,122],"significantly":[55,186],"better":[56,187],"than":[57],"1":[59],"when":[60],"ground":[62],"truth":[63],"5.":[65],"Conversely,":[66],"existing":[67],"regression-aware":[68,157,178],"approaches":[69],"often":[71],"confined":[72],"Supervised":[74],"Fine-Tuning":[75],"(SFT),":[76],"limiting":[77],"their":[78],"ability":[79],"explore":[81],"optimal":[82,109],"reasoning":[83],"paths.":[84],"To":[85,131],"bridge":[86],"this":[87],"gap,":[88],"we":[89,134,195],"propose":[90],"\\textbf{REAL}":[91],"(\\underline{RE}gression-\\underline{A}ware":[92],"\\underline{L}earning),":[94],"principled":[96],"RL":[97,183,226],"framework":[98],"designed":[99],"optimize":[101],"rewards,":[103],"and":[104,155,181,201,209],"also":[105],"proven":[106],"be":[108],"correlation":[111,204],"metrics.":[112],"A":[113],"key":[114],"technical":[115],"challenge":[116],"objective":[121],"explicitly":[123],"policy-dependent,":[124],"thus":[125],"invalidating":[126],"policy":[128,138],"gradient":[129,139],"methods.":[130],"address":[132],"this,":[133],"employ":[135],"generalized":[137],"estimator,":[140],"which":[141],"naturally":[142],"decomposes":[143],"optimization":[144],"into":[145,225],"two":[146],"complementary":[147],"components:":[148],"(1)":[149],"exploration":[150,227],"over":[151,205,211],"Chain-of-Thought":[152],"(CoT)":[153],"trajectory,":[154],"(2)":[156],"prediction":[158],"refinement":[159],"of":[160,198,221],"final":[162],"score.":[163],"Extensive":[164],"experiments":[165],"across":[166],"scales":[168],"(8B":[169],"32B)":[171],"demonstrate":[172],"REAL":[174],"consistently":[175],"outperforms":[176],"both":[177],"SFT":[179,207],"baselines":[180],"methods,":[184],"exhibiting":[185],"generalization":[188],"out-of-domain":[190],"benchmarks.":[191],"On":[192],"Qwen3-32B":[193],"specifically,":[194],"achieve":[196],"gains":[197],"+8.40":[199],"Pearson":[200],"+7.20":[202],"Spearman":[203],"baseline,":[208],"+18.30/+11.20":[210],"base":[213],"model.":[214],"These":[215],"findings":[216],"highlight":[217],"critical":[219],"value":[220],"integrating":[222],"objectives":[224],"accurate":[229],"LLM":[230],"evaluation.":[231]},"counts_by_year":[],"updated_date":"2026-05-05T08:41:31.759640","created_date":"2026-03-20T00:00:00"}