{"id":"https://openalex.org/W4416749538","doi":"https://doi.org/10.1109/iros60139.2025.11247039","title":"Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning","display_name":"Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning","publication_year":2025,"publication_date":"2025-10-19","ids":{"openalex":"https://openalex.org/W4416749538","doi":"https://doi.org/10.1109/iros60139.2025.11247039"},"language":null,"primary_location":{"id":"doi:10.1109/iros60139.2025.11247039","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros60139.2025.11247039","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5030960095","display_name":"Linji Wang","orcid":null},"institutions":[{"id":"https://openalex.org/I162714631","display_name":"George Mason University","ror":"https://ror.org/02jqj7156","country_code":"US","type":"education","lineage":["https://openalex.org/I162714631"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Linji Wang","raw_affiliation_strings":["George Mason University,Department of Computer Science"],"affiliations":[{"raw_affiliation_string":"George Mason University,Department of Computer Science","institution_ids":["https://openalex.org/I162714631"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5025292786","display_name":"Tong Xu","orcid":"https://orcid.org/0000-0003-4246-5386"},"institutions":[{"id":"https://openalex.org/I162714631","display_name":"George Mason University","ror":"https://ror.org/02jqj7156","country_code":"US","type":"education","lineage":["https://openalex.org/I162714631"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Tong Xu","raw_affiliation_strings":["George Mason University,Department of Computer Science"],"affiliations":[{"raw_affiliation_string":"George Mason University,Department of Computer Science","institution_ids":["https://openalex.org/I162714631"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5057817693","display_name":"Yuanjie Lu","orcid":null},"institutions":[{"id":"https://openalex.org/I162714631","display_name":"George Mason University","ror":"https://ror.org/02jqj7156","country_code":"US","type":"education","lineage":["https://openalex.org/I162714631"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Yuanjie Lu","raw_affiliation_strings":["George Mason University,Department of Computer Science"],"affiliations":[{"raw_affiliation_string":"George Mason University,Department of Computer Science","institution_ids":["https://openalex.org/I162714631"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5017662025","display_name":"Xuesu Xiao","orcid":"https://orcid.org/0000-0001-5151-2186"},"institutions":[{"id":"https://openalex.org/I162714631","display_name":"George Mason University","ror":"https://ror.org/02jqj7156","country_code":"US","type":"education","lineage":["https://openalex.org/I162714631"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Xuesu Xiao","raw_affiliation_strings":["George Mason University,Department of Computer Science"],"affiliations":[{"raw_affiliation_string":"George Mason University,Department of Computer Science","institution_ids":["https://openalex.org/I162714631"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5030960095"],"corresponding_institution_ids":["https://openalex.org/I162714631"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.20556395,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"15262","last_page":"15267"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.3418000042438507,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.3418000042438507,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11099","display_name":"Autonomous Vehicle Technology and Safety","score":0.219200000166893,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10709","display_name":"Social Robot Interaction and HRI","score":0.11010000109672546,"subfield":{"id":"https://openalex.org/subfields/3207","display_name":"Social Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.8343999981880188},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6376000046730042},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.5692999958992004},{"id":"https://openalex.org/keywords/training","display_name":"Training (meteorology)","score":0.558899998664856},{"id":"https://openalex.org/keywords/adaptation","display_name":"Adaptation (eye)","score":0.5408999919891357},{"id":"https://openalex.org/keywords/stability","display_name":"Stability (learning theory)","score":0.4771000146865845}],"concepts":[{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.8343999981880188},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.7627000212669373},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6376000046730042},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6014999747276306},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.5692999958992004},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.558899998664856},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.5408999919891357},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.4771000146865845},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3846000134944916},{"id":"https://openalex.org/C145460709","wikidata":"https://www.wikidata.org/wiki/Q859951","display_name":"Human\u2013robot interaction","level":3,"score":0.3610000014305115},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.31200000643730164},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.30979999899864197},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.29739999771118164},{"id":"https://openalex.org/C16345878","wikidata":"https://www.wikidata.org/wiki/Q107472979","display_name":"Orientation (vector space)","level":2,"score":0.2935999929904938},{"id":"https://openalex.org/C19966478","wikidata":"https://www.wikidata.org/wiki/Q4810574","display_name":"Mobile robot","level":3,"score":0.27000001072883606},{"id":"https://openalex.org/C199505168","wikidata":"https://www.wikidata.org/wiki/Q3267529","display_name":"Evolutionary robotics","level":3,"score":0.25119999051094055}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/iros60139.2025.11247039","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros60139.2025.11247039","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":16,"referenced_works":["https://openalex.org/W2164424353","https://openalex.org/W2296073425","https://openalex.org/W2584986912","https://openalex.org/W2911087563","https://openalex.org/W2951360122","https://openalex.org/W2968917487","https://openalex.org/W3122878979","https://openalex.org/W3208248092","https://openalex.org/W4311167248","https://openalex.org/W4383108450","https://openalex.org/W4389610617","https://openalex.org/W4389667747","https://openalex.org/W4401415990","https://openalex.org/W4402402308","https://openalex.org/W4404953712","https://openalex.org/W4409494252"],"related_works":[],"abstract_inverted_index":{"Robotics":[0],"Reinforcement":[1],"Learning":[2],"(RL)":[3],"often":[4],"relies":[5],"on":[6,84,108,122],"carefully":[7],"engineered":[8],"auxiliary":[9,29,66,80,92],"rewards":[10,30,131],"to":[11,17,45,89,100,179],"supplement":[12],"sparse":[13],"primary":[14,103],"learning":[15],"objectives":[16],"compensate":[18],"for":[19,69,170],"the":[20,46,75,85,102],"lack":[21],"of":[22],"large-scale,":[23],"real-world,":[24],"trial-and-error":[25],"data.":[26],"While":[27],"these":[28],"accelerate":[31],"learning,":[32],"they":[33],"require":[34,95],"significant":[35],"engineering":[36],"effort,":[37],"may":[38],"introduce":[39,56],"human":[40],"biases,":[41],"and":[42,118,138,148,173],"cannot":[43],"adapt":[44],"robot\u2019s":[47],"evolving":[48,87],"capabilities":[49,88],"during":[50],"training.":[51],"In":[52,126],"this":[53],"paper,":[54],"we":[55],"Reward":[57],"Training":[58],"Wheels":[59],"(RTW),":[60],"a":[61,162],"teacher-student":[62],"framework":[63],"that":[64],"automates":[65],"reward":[67,81,93],"adaptation":[68],"robotics":[70],"RL.":[71],"To":[72],"be":[73],"specific,":[74],"RTW":[76,107,128],"teacher":[77],"dynamically":[78],"adjusts":[79],"weights":[82],"based":[83],"student\u2019s":[86],"determine":[90],"which":[91],"aspects":[94],"more":[96],"or":[97],"less":[98],"emphasis":[99],"improve":[101],"objective.":[104],"We":[105],"demonstrate":[106],"two":[109],"challenging":[110,124],"robot":[111,155],"tasks:":[112],"navigation":[113,135],"in":[114,134,182],"highly":[115],"constrained":[116],"spaces":[117],"off-road":[119,140],"vehicle":[120,175],"mobility":[121,141],"vertically":[123],"terrain.":[125],"simulation,":[127],"outperforms":[129],"expert-designed":[130,171],"by":[132,143],"2.35%":[133],"success":[136,164],"rate":[137,165],"improves":[139],"performance":[142],"122.62%,":[144],"while":[145],"achieving":[146,161],"35%":[147],"3X":[149],"faster":[150],"training":[151],"efficiency,":[152],"respectively.":[153],"Physical":[154],"experiments":[156],"further":[157],"validate":[158],"RTW\u2019s":[159],"effectiveness,":[160],"perfect":[163],"(5/5":[166],"trials":[167],"vs.":[168],"2/5":[169],"rewards)":[172],"improving":[174],"stability":[176],"with":[177],"up":[178],"47.4%":[180],"reduction":[181],"orientation":[183],"angles.":[184]},"counts_by_year":[],"updated_date":"2026-03-07T16:01:11.037858","created_date":"2025-11-28T00:00:00"}