{"id":"https://openalex.org/W7158220025","doi":"https://doi.org/10.48550/arxiv.2604.25872","title":"When Errors Can Be Beneficial: A Categorization of Imperfect Rewards for Policy Gradient","display_name":"When Errors Can Be Beneficial: A Categorization of Imperfect Rewards for Policy Gradient","publication_year":2026,"publication_date":"2026-04-28","ids":{"openalex":"https://openalex.org/W7158220025","doi":"https://doi.org/10.48550/arxiv.2604.25872"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.25872","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.25872","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.25872","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5134867558","display_name":"Shuning Shang","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Shang, Shuning","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134843174","display_name":"Hubert Strauss","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Strauss, Hubert","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134864461","display_name":"Stanley Wei","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wei, Stanley","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134866043","display_name":"Sanjeev Arora","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Arora, Sanjeev","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5030945372","display_name":"Noam Razin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Razin, Noam","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5134867558"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12535","display_name":"Machine Learning and Data Classification","score":0.12070000171661377,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12535","display_name":"Machine Learning and Data Classification","score":0.12070000171661377,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.09939999878406525,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10883","display_name":"Ethics and Social Impacts of AI","score":0.07020000368356705,"subfield":{"id":"https://openalex.org/subfields/3311","display_name":"Safety Research"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/categorization","display_name":"Categorization","score":0.6632999777793884},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6409000158309937},{"id":"https://openalex.org/keywords/imperfect","display_name":"Imperfect","score":0.6272000074386597},{"id":"https://openalex.org/keywords/ground-truth","display_name":"Ground truth","score":0.5507000088691711},{"id":"https://openalex.org/keywords/proxy","display_name":"Proxy (statistics)","score":0.5296000242233276},{"id":"https://openalex.org/keywords/ranking","display_name":"Ranking (information retrieval)","score":0.4185999929904938}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6707000136375427},{"id":"https://openalex.org/C94124525","wikidata":"https://www.wikidata.org/wiki/Q912550","display_name":"Categorization","level":2,"score":0.6632999777793884},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6409000158309937},{"id":"https://openalex.org/C2780310539","wikidata":"https://www.wikidata.org/wiki/Q12547192","display_name":"Imperfect","level":2,"score":0.6272000074386597},{"id":"https://openalex.org/C146849305","wikidata":"https://www.wikidata.org/wiki/Q370766","display_name":"Ground truth","level":2,"score":0.5507000088691711},{"id":"https://openalex.org/C2780148112","wikidata":"https://www.wikidata.org/wiki/Q1432581","display_name":"Proxy (statistics)","level":2,"score":0.5296000242233276},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5001999735832214},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.48350000381469727},{"id":"https://openalex.org/C189430467","wikidata":"https://www.wikidata.org/wiki/Q7293293","display_name":"Ranking (information retrieval)","level":2,"score":0.4185999929904938},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.37869998812675476},{"id":"https://openalex.org/C2776459999","wikidata":"https://www.wikidata.org/wiki/Q2119376","display_name":"Fidelity","level":2,"score":0.3637999892234802},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.3564999997615814},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.3271999955177307},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.31369999051094055}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.25872","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.25872","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.25872","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.25872","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Training":[0],"language":[1,163],"models":[2],"via":[3],"reinforcement":[4,128],"learning":[5,129,212],"often":[6],"relies":[7],"on":[8,79,204],"imperfect":[9],"proxy":[10,32,199],"rewards,":[11,33],"since":[12],"ground":[13,56,83,114],"truth":[14,57,84,115],"rewards":[15,40],"that":[16,50,89,140,194],"precisely":[17],"define":[18],"the":[19,29,55,80,106,143,159,195,208],"intended":[20],"behavior":[21],"are":[22,58],"rarely":[23],"available.":[24],"Standard":[25],"metrics":[26,139,154],"for":[27,127,142,179],"assessing":[28],"quality":[30],"of":[31,123,145,161,197],"such":[34],"as":[35,41,95],"ranking":[36,151],"accuracy,":[37,152],"treat":[38],"incorrect":[39],"strictly":[42],"harmful.":[43],"In":[44],"this":[45],"work,":[46],"however,":[47],"we":[48,71,134,176],"highlight":[49],"not":[51],"all":[52],"deviations":[53],"from":[54,108,130],"equal.":[59],"By":[60],"theoretically":[61],"analyzing":[62],"which":[63],"outputs":[64,111],"attract":[65],"probability":[66],"during":[67],"policy":[68,107,210],"gradient":[69],"optimization,":[70],"categorize":[72],"reward":[73,90,136,146,173,180,200],"errors":[74],"according":[75],"to":[76,149],"their":[77],"effect":[78],"increase":[81],"in":[82,170,182],"reward.":[85,116],"The":[86],"analysis":[87],"establishes":[88],"errors,":[91],"though":[92],"conventionally":[93],"viewed":[94],"harmful,":[96],"can":[97],"also":[98],"be":[99],"benign":[100],"or":[101],"even":[102],"beneficial":[103],"by":[104],"preventing":[105],"stalling":[109],"around":[110],"with":[112,158,184,207],"mediocre":[113],"We":[117],"then":[118],"present":[119],"two":[120],"practical":[121],"implications":[122],"our":[124,191],"theory.":[125],"First,":[126],"human":[131],"feedback":[132],"(RLHF),":[133],"develop":[135],"model":[137,164],"evaluation":[138],"account":[141],"harmfulness":[144],"errors.":[147],"Compared":[148],"standard":[150],"these":[153],"typically":[155],"correlate":[156],"better":[157],"performance":[160],"a":[162,198],"after":[165],"RLHF,":[166],"yet":[167],"gaps":[168],"remain":[169],"robustly":[171],"evaluating":[172],"models.":[174],"Second,":[175],"provide":[177],"insights":[178],"design":[181],"settings":[183],"verifiable":[185],"rewards.":[186],"A":[187],"key":[188],"theme":[189],"underlying":[190],"results":[192],"is":[193],"effectiveness":[196],"function":[201],"depends":[202],"heavily":[203],"its":[205],"interaction":[206],"initial":[209],"and":[211],"algorithm.":[213]},"counts_by_year":[],"updated_date":"2026-04-30T06:11:10.768123","created_date":"2026-04-30T00:00:00"}