{"id":"https://openalex.org/W7162539550","doi":"https://doi.org/10.48550/arxiv.2605.26478","title":"Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient","display_name":"Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient","publication_year":2026,"publication_date":"2026-05-26","ids":{"openalex":"https://openalex.org/W7162539550","doi":"https://doi.org/10.48550/arxiv.2605.26478"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.26478","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.26478","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.26478","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5137135923","display_name":"Haoxiang You","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"You, Haoxiang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137156178","display_name":"Yilang Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Yilang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137106821","display_name":"Davis Zong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zong, Davis","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137177658","display_name":"Qian Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Qian","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5121917897","display_name":"Teeratham Vitchutripop","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Vitchutripop, Teeratham","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137143623","display_name":"Qi Wang","orcid":"https://orcid.org/0000-0001-7084-1428"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Qi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5006252401","display_name":"Daniel Rakita","orcid":"https://orcid.org/0000-0001-6292-8515"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Rakita, Daniel","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5062827877","display_name":"Ian Abraham","orcid":"https://orcid.org/0000-0003-0299-1760"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Abraham, Ian","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":8,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.3944000005722046,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.3944000005722046,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.2946000099182129,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10812","display_name":"Human Pose and Action Recognition","score":0.04230000078678131,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.613099992275238},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.6032999753952026},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.4968000054359436},{"id":"https://openalex.org/keywords/suite","display_name":"Suite","score":0.39910000562667847},{"id":"https://openalex.org/keywords/baseline","display_name":"Baseline (sea)","score":0.38119998574256897},{"id":"https://openalex.org/keywords/train","display_name":"Train","score":0.34779998660087585},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.33899998664855957},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.32850000262260437}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6608999967575073},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.613099992275238},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.6032999753952026},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.541700005531311},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.4968000054359436},{"id":"https://openalex.org/C79581498","wikidata":"https://www.wikidata.org/wiki/Q1367530","display_name":"Suite","level":2,"score":0.39910000562667847},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.38119998574256897},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.3483999967575073},{"id":"https://openalex.org/C190839683","wikidata":"https://www.wikidata.org/wiki/Q2448197","display_name":"Train","level":2,"score":0.34779998660087585},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3434000015258789},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.33899998664855957},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.32850000262260437},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.32429999113082886},{"id":"https://openalex.org/C8272713","wikidata":"https://www.wikidata.org/wiki/Q176737","display_name":"Stochastic process","level":2,"score":0.31310001015663147},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.29899999499320984},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.28949999809265137},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.2888999879360199},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.27379998564720154},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.27230000495910645},{"id":"https://openalex.org/C115680565","wikidata":"https://www.wikidata.org/wiki/Q5977448","display_name":"Gradient method","level":2,"score":0.262800008058548},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.25360000133514404},{"id":"https://openalex.org/C150415221","wikidata":"https://www.wikidata.org/wiki/Q40687","display_name":"Robotic arm","level":2,"score":0.250900000333786},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.25049999356269836}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.26478","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.26478","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.26478","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.26478","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"We":[0],"present":[1],"the":[2],"stochastic":[3],"decoupled":[4],"policy":[5,35],"gradient":[6],"(SDPG),":[7],"a":[8,23,27,80],"lightweight":[9],"visual":[10,58,84],"reinforcement":[11],"learning":[12],"(RL)":[13],"method":[14],"that":[15],"trains":[16],"diverse":[17],"visuomotor":[18],"control":[19],"policies":[20],"end-to-end":[21],"within":[22],"few":[24],"hours":[25],"on":[26,97],"single":[28],"NVIDIA":[29],"RTX":[30],"4080":[31],"GPU.":[32],"SDPG":[33,61],"estimates":[34],"gradients":[36],"via":[37],"random":[38],"perturbations":[39],"of":[40,45,82],"trajectory":[41],"rollouts,":[42],"requiring":[43],"orders":[44],"magnitude":[46],"fewer":[47],"batch-rendered":[48],"environments":[49],"and":[50,54,71,92],"substantially":[51],"reducing":[52],"compute":[53],"memory":[55,69],"overhead.":[56],"On":[57],"MuJoCo":[59],"benchmarks,":[60],"consistently":[62],"outperforms":[63],"baseline":[64],"methods":[65],"in":[66],"training":[67],"time,":[68],"usage,":[70],"rewards.":[72],"Finally,":[73],"to":[74],"support":[75],"future":[76],"research,":[77],"we":[78],"introduce":[79],"suite":[81],"realistic":[83],"robotics":[85],"benchmarks":[86],"spanning":[87],"dexterous":[88],"manipulation,":[89],"challenging":[90],"locomotion,":[91],"demonstrate":[93],"effective":[94],"sim-to-real":[95],"transfer":[96],"physical":[98],"hardware.":[99]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-28T00:00:00"}