{"id":"https://openalex.org/W4414359220","doi":"https://doi.org/10.24963/ijcai.2025/1199","title":"Reward Models in Deep Reinforcement Learning: A Survey","display_name":"Reward Models in Deep Reinforcement Learning: A Survey","publication_year":2025,"publication_date":"2025-09-01","ids":{"openalex":"https://openalex.org/W4414359220","doi":"https://doi.org/10.24963/ijcai.2025/1199"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2025/1199","is_oa":false,"landing_page_url":"https://doi.org/10.24963/ijcai.2025/1199","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5110365337","display_name":"Rui Yu","orcid":"https://orcid.org/0000-0001-8500-0955"},"institutions":[{"id":"https://openalex.org/I881766915","display_name":"Nanjing University","ror":"https://ror.org/01rxvg760","country_code":"CN","type":"education","lineage":["https://openalex.org/I881766915"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Rui Yu","raw_affiliation_strings":["Nanjing University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University","institution_ids":["https://openalex.org/I881766915"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5104271834","display_name":"Shicheng Wan","orcid":null},"institutions":[{"id":"https://openalex.org/I881766915","display_name":"Nanjing University","ror":"https://ror.org/01rxvg760","country_code":"CN","type":"education","lineage":["https://openalex.org/I881766915"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Shenghua Wan","raw_affiliation_strings":["Nanjing University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University","institution_ids":["https://openalex.org/I881766915"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5104133006","display_name":"Yucen Wang","orcid":null},"institutions":[{"id":"https://openalex.org/I881766915","display_name":"Nanjing University","ror":"https://ror.org/01rxvg760","country_code":"CN","type":"education","lineage":["https://openalex.org/I881766915"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yucen Wang","raw_affiliation_strings":["Nanjing University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University","institution_ids":["https://openalex.org/I881766915"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5105346359","display_name":"Chen-Xiao Gao","orcid":null},"institutions":[{"id":"https://openalex.org/I881766915","display_name":"Nanjing University","ror":"https://ror.org/01rxvg760","country_code":"CN","type":"education","lineage":["https://openalex.org/I881766915"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Chen-Xiao Gao","raw_affiliation_strings":["Nanjing University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University","institution_ids":["https://openalex.org/I881766915"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5046938347","display_name":"Le Gan","orcid":"https://orcid.org/0000-0002-8260-6932"},"institutions":[{"id":"https://openalex.org/I881766915","display_name":"Nanjing University","ror":"https://ror.org/01rxvg760","country_code":"CN","type":"education","lineage":["https://openalex.org/I881766915"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Le Gan","raw_affiliation_strings":["Nanjing University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University","institution_ids":["https://openalex.org/I881766915"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5035138959","display_name":"Zongzhang Zhang","orcid":"https://orcid.org/0000-0002-9238-4747"},"institutions":[{"id":"https://openalex.org/I881766915","display_name":"Nanjing University","ror":"https://ror.org/01rxvg760","country_code":"CN","type":"education","lineage":["https://openalex.org/I881766915"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zongzhang Zhang","raw_affiliation_strings":["Nanjing University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University","institution_ids":["https://openalex.org/I881766915"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5073912249","display_name":"De\u2010Chuan Zhan","orcid":"https://orcid.org/0000-0002-3533-2078"},"institutions":[{"id":"https://openalex.org/I881766915","display_name":"Nanjing University","ror":"https://ror.org/01rxvg760","country_code":"CN","type":"education","lineage":["https://openalex.org/I881766915"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"De-Chuan Zhan","raw_affiliation_strings":["Nanjing University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University","institution_ids":["https://openalex.org/I881766915"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I881766915"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":7,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"10807","last_page":"10816"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6960999965667725,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6960999965667725,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7616999745368958},{"id":"https://openalex.org/keywords/reward-system","display_name":"Reward system","score":0.6284999847412109},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.586899995803833},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.37630000710487366},{"id":"https://openalex.org/keywords/policy-learning","display_name":"Policy learning","score":0.3262999951839447}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7616999745368958},{"id":"https://openalex.org/C143661069","wikidata":"https://www.wikidata.org/wiki/Q670713","display_name":"Reward system","level":2,"score":0.6284999847412109},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.586899995803833},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5586000084877014},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.40950000286102295},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.37630000710487366},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.35740000009536743},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.3262999951839447},{"id":"https://openalex.org/C180747234","wikidata":"https://www.wikidata.org/wiki/Q23373","display_name":"Cognitive psychology","level":1,"score":0.2913999855518341},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.2754000127315521},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.2709999978542328},{"id":"https://openalex.org/C2522767166","wikidata":"https://www.wikidata.org/wiki/Q2374463","display_name":"Data science","level":1,"score":0.26159998774528503}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.24963/ijcai.2025/1199","is_oa":false,"landing_page_url":"https://doi.org/10.24963/ijcai.2025/1199","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0,77],"reinforcement":[1],"learning":[2,125],"(RL),":[3],"agents":[4],"continually":[5],"interact":[6],"with":[7,68],"the":[8,12,29,35,38,44,69,90,97,118,120,123,168],"environment":[9],"and":[10,54,99,122,140,164],"use":[11],"feedback":[13],"to":[14],"refine":[15],"their":[16],"behavior.":[17],"To":[18],"guide":[19],"policy":[20,75],"optimization,":[21],"reward":[22,61,86,102,111,124,137,145,156,175],"models":[23,62,176],"are":[24],"introduced":[25],"as":[26],"proxies":[27],"of":[28,85,109,135,170,174],"desired":[30],"objectives,":[31],"such":[32],"that":[33,63],"when":[34],"agent":[36],"maximizes":[37],"accumulated":[39],"reward,":[40],"it":[41],"also":[42,73],"fulfills":[43],"task":[45],"designer's":[46],"intentions.":[47],"Recently,":[48],"significant":[49],"attention":[50],"from":[51],"both":[52,162],"academic":[53],"industrial":[55],"researchers":[56],"has":[57],"focused":[58],"on":[59,117,128],"developing":[60],"not":[64],"only":[65],"align":[66],"closely":[67],"true":[70],"objectives":[71],"but":[72],"facilitate":[74],"optimization.":[76],"this":[78,129,159],"survey,":[79],"we":[80,105,131,148],"provide":[81],"a":[82,171],"comprehensive":[83],"review":[84,141,173],"modeling":[87,112,138],"techniques":[88,139],"within":[89],"RL":[91],"literature.":[92,179],"We":[93],"begin":[94],"by":[95,150],"outlining":[96],"background":[98],"preliminaries":[100],"in":[101,155,177],"modeling.":[103,157],"Next,":[104],"present":[106],"an":[107],"overview":[108],"recent":[110],"approaches,":[113],"categorizing":[114],"them":[115],"based":[116],"source,":[119],"mechanism,":[121],"paradigm.":[126],"Building":[127],"understanding,":[130],"discuss":[132],"various":[133],"applications":[134],"these":[136],"methods":[142],"for":[143],"evaluating":[144],"models.":[146],"Finally,":[147],"conclude":[149],"highlighting":[151],"promising":[152],"research":[153],"directions":[154],"Altogether,":[158],"survey":[160],"includes":[161],"established":[163],"emerging":[165],"methods,":[166],"filling":[167],"vacancy":[169],"systematic":[172],"current":[178]},"counts_by_year":[{"year":2026,"cited_by_count":6},{"year":2025,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}