{"id":"https://openalex.org/W7135089296","doi":"https://doi.org/10.48550/arxiv.2603.10535","title":"Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning","display_name":"Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning","publication_year":2026,"publication_date":"2026-03-11","ids":{"openalex":"https://openalex.org/W7135089296","doi":"https://doi.org/10.48550/arxiv.2603.10535"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.10535","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.10535","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.10535","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5009277091","display_name":"Zichao Li","orcid":"https://orcid.org/0000-0003-2582-3006"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Li, Zichao","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128906481","display_name":"Jie Lou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lou, Jie","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128823566","display_name":"Fangchen Dong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Dong, Fangchen","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128888287","display_name":"Zhiyuan Fan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Fan, Zhiyuan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128893346","display_name":"Mengjie Ren","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ren, Mengjie","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128843862","display_name":"Hongyu Lin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lin, Hongyu","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128843916","display_name":"Xianpei Han","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Han, Xianpei","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103145743","display_name":"Debing Zhang","orcid":"https://orcid.org/0000-0003-4048-0531"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Debing","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128886336","display_name":"Le Sun","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sun, Le","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128823183","display_name":"Yaojie Lu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lu, Yaojie","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5128866421","display_name":"Xing Yu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yu, Xing","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":11,"corresponding_author_ids":["https://openalex.org/A5009277091"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8618999719619751,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8618999719619751,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.027699999511241913,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.01209999993443489,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/generality","display_name":"Generality","score":0.7851999998092651},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7350999712944031},{"id":"https://openalex.org/keywords/lossless-compression","display_name":"Lossless compression","score":0.605400025844574},{"id":"https://openalex.org/keywords/multiplicative-function","display_name":"Multiplicative function","score":0.5893999934196472},{"id":"https://openalex.org/keywords/heuristic","display_name":"Heuristic","score":0.4587000012397766},{"id":"https://openalex.org/keywords/inflation","display_name":"Inflation (cosmology)","score":0.42480000853538513},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.41600000858306885},{"id":"https://openalex.org/keywords/binary-number","display_name":"Binary number","score":0.40070000290870667}],"concepts":[{"id":"https://openalex.org/C2780767217","wikidata":"https://www.wikidata.org/wiki/Q5532421","display_name":"Generality","level":2,"score":0.7851999998092651},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7350999712944031},{"id":"https://openalex.org/C81081738","wikidata":"https://www.wikidata.org/wiki/Q55542","display_name":"Lossless compression","level":3,"score":0.605400025844574},{"id":"https://openalex.org/C42747912","wikidata":"https://www.wikidata.org/wiki/Q1048447","display_name":"Multiplicative function","level":2,"score":0.5893999934196472},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5414000153541565},{"id":"https://openalex.org/C173801870","wikidata":"https://www.wikidata.org/wiki/Q201413","display_name":"Heuristic","level":2,"score":0.4587000012397766},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.44449999928474426},{"id":"https://openalex.org/C200941418","wikidata":"https://www.wikidata.org/wiki/Q273508","display_name":"Inflation (cosmology)","level":2,"score":0.42480000853538513},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.41600000858306885},{"id":"https://openalex.org/C48372109","wikidata":"https://www.wikidata.org/wiki/Q3913","display_name":"Binary number","level":2,"score":0.40070000290870667},{"id":"https://openalex.org/C149782125","wikidata":"https://www.wikidata.org/wiki/Q160039","display_name":"Econometrics","level":1,"score":0.38260000944137573},{"id":"https://openalex.org/C127705205","wikidata":"https://www.wikidata.org/wiki/Q5748245","display_name":"Heuristics","level":2,"score":0.37790000438690186},{"id":"https://openalex.org/C100776233","wikidata":"https://www.wikidata.org/wiki/Q2532492","display_name":"Bridge (graph theory)","level":2,"score":0.36579999327659607},{"id":"https://openalex.org/C2776135515","wikidata":"https://www.wikidata.org/wiki/Q17143721","display_name":"Regularization (linguistics)","level":2,"score":0.3467000126838684},{"id":"https://openalex.org/C2781311116","wikidata":"https://www.wikidata.org/wiki/Q83306","display_name":"Group (periodic table)","level":2,"score":0.32839998602867126},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.32089999318122864},{"id":"https://openalex.org/C2779268580","wikidata":"https://www.wikidata.org/wiki/Q3447087","display_name":"Allowance (engineering)","level":2,"score":0.2994999885559082},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.29490000009536743},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2879999876022339},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.2800999879837036},{"id":"https://openalex.org/C112313634","wikidata":"https://www.wikidata.org/wiki/Q7886648","display_name":"Complement (music)","level":5,"score":0.27889999747276306},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.2689000070095062},{"id":"https://openalex.org/C126780896","wikidata":"https://www.wikidata.org/wiki/Q899871","display_name":"Distortion (music)","level":4,"score":0.2669000029563904},{"id":"https://openalex.org/C2778585151","wikidata":"https://www.wikidata.org/wiki/Q5282225","display_name":"Dishonesty","level":2,"score":0.2556000053882599},{"id":"https://openalex.org/C2779127903","wikidata":"https://www.wikidata.org/wiki/Q6510194","display_name":"Learning rule","level":3,"score":0.250900000333786}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.10535","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.10535","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.10535","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.10535","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Decent work and economic growth","id":"https://metadata.un.org/sdg/8","score":0.45689675211906433}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1],"significantly":[2,133],"enhances":[3],"LLM":[4],"capabilities":[5],"but":[6],"suffers":[7],"from":[8],"a":[9,32,42,74,80],"critical":[10],"issue:":[11],"length":[12,71,102,135],"inflation,":[13,136],"where":[14],"models":[15],"adopt":[16],"verbosity":[17],"or":[18],"inefficient":[19],"reasoning":[20],"to":[21,27,104,129],"maximize":[22],"rewards.":[23],"Prior":[24],"approaches":[25],"struggle":[26],"address":[28],"this":[29,60],"challenge":[30],"in":[31],"general":[33],"and":[34,83,96,107,119,125],"lossless":[35,90],"manner,":[36],"primarily":[37],"because":[38],"additive":[39],"penalties":[40],"introduce":[41],"compensatory":[43],"effect":[44],"that":[45],"creates":[46],"optimization":[47],"shortcuts,":[48],"while":[49,132],"heuristic":[50],"gating":[51,85],"strategies":[52],"lack":[53],"generality":[54],"beyond":[55],"binary":[56],"feedback.":[57],"To":[58,87],"bridge":[59],"gap,":[61],"we":[62,92],"present":[63],"Group":[64],"Relative":[65],"Reward":[66],"Rescaling":[67],"(GR$^3$),":[68],"which":[69,99],"reframes":[70],"control":[72],"as":[73],"multiplicative":[75],"rescaling":[76],"paradigm,":[77],"effectively":[78],"establishing":[79],"generalized,":[81],"continuous,":[82],"reward-dependent":[84],"mechanism.":[86],"further":[88],"ensure":[89],"optimization,":[91],"incorporate":[93],"group-relative":[94],"regularization":[95],"advantage-aware":[97],"calibration,":[98],"dynamically":[100],"adapt":[101],"budgets":[103],"instance":[105],"difficulty":[106],"preserve":[108],"the":[109],"advantage":[110],"signal":[111],"of":[112],"high-quality":[113],"trajectories.":[114],"Empirically,":[115],"across":[116],"both":[117],"RLHF":[118],"RLVR":[120],"settings,":[121],"GR$^3$~maintains":[122],"training":[123],"dynamics":[124],"downstream":[126],"performance":[127],"comparable":[128],"standard":[130],"GRPO":[131],"mitigating":[134],"outperforming":[137],"state-of-the-art":[138],"length-regularized":[139],"baselines.":[140]},"counts_by_year":[],"updated_date":"2026-03-13T14:25:03.468858","created_date":"2026-03-13T00:00:00"}