{"id":"https://openalex.org/W7147268403","doi":"https://doi.org/10.48550/arxiv.2603.28971","title":"A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic","display_name":"A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic","publication_year":2026,"publication_date":"2026-03-30","ids":{"openalex":"https://openalex.org/W7147268403","doi":"https://doi.org/10.48550/arxiv.2603.28971"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.28971","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.28971","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.28971","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5123003920","display_name":"Chengyang Gu","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Gu, Chengyang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103268754","display_name":"Yuxin Pan","orcid":"https://orcid.org/0000-0001-6904-6195"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Pan, Yuxin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132619800","display_name":"Hui Xiong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xiong, Hui","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5132553192","display_name":"Yize Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Yize","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5123003920"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.641700029373169,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.641700029373169,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.11190000176429749,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11206","display_name":"Model Reduction and Neural Networks","score":0.053599998354911804,"subfield":{"id":"https://openalex.org/subfields/3109","display_name":"Statistical and Nonlinear Physics"},"field":{"id":"https://openalex.org/fields/31","display_name":"Physics and Astronomy"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7842000126838684},{"id":"https://openalex.org/keywords/hamiltonian","display_name":"Hamiltonian (control theory)","score":0.5638999938964844},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.5230000019073486},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.5011000037193298},{"id":"https://openalex.org/keywords/pontryagins-minimum-principle","display_name":"Pontryagin's minimum principle","score":0.49070000648498535},{"id":"https://openalex.org/keywords/control-theory","display_name":"Control theory (sociology)","score":0.43650001287460327},{"id":"https://openalex.org/keywords/optimal-control","display_name":"Optimal control","score":0.4284000098705292},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.3961000144481659}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7842000126838684},{"id":"https://openalex.org/C130787639","wikidata":"https://www.wikidata.org/wiki/Q5645293","display_name":"Hamiltonian (control theory)","level":2,"score":0.5638999938964844},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5295000076293945},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.5230000019073486},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5123000144958496},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.5011000037193298},{"id":"https://openalex.org/C141803461","wikidata":"https://www.wikidata.org/wiki/Q3491629","display_name":"Pontryagin's minimum principle","level":3,"score":0.49070000648498535},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.44350001215934753},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.43650001287460327},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.4284000098705292},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.3961000144481659},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.3885999917984009},{"id":"https://openalex.org/C28761237","wikidata":"https://www.wikidata.org/wiki/Q7805321","display_name":"Time horizon","level":2,"score":0.3569999933242798},{"id":"https://openalex.org/C155512373","wikidata":"https://www.wikidata.org/wiki/Q287450","display_name":"Residual","level":2,"score":0.35589998960494995},{"id":"https://openalex.org/C26955809","wikidata":"https://www.wikidata.org/wiki/Q10167591","display_name":"Initial value problem","level":2,"score":0.3093999922275543},{"id":"https://openalex.org/C57945734","wikidata":"https://www.wikidata.org/wiki/Q7977941","display_name":"Weak convergence","level":3,"score":0.3077000081539154},{"id":"https://openalex.org/C21200559","wikidata":"https://www.wikidata.org/wiki/Q7451068","display_name":"Sensitivity (control systems)","level":2,"score":0.3052000105381012},{"id":"https://openalex.org/C136864674","wikidata":"https://www.wikidata.org/wiki/Q477921","display_name":"Hamiltonian mechanics","level":3,"score":0.2944999933242798},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.2872999906539917},{"id":"https://openalex.org/C57869625","wikidata":"https://www.wikidata.org/wiki/Q1783502","display_name":"Rate of convergence","level":3,"score":0.27129998803138733},{"id":"https://openalex.org/C157709441","wikidata":"https://www.wikidata.org/wiki/Q1411887","display_name":"Uniform convergence","level":3,"score":0.2671000063419342},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.25589999556541443},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.2556000053882599}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.28971","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.28971","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.28971","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.28971","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.5757355690002441,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Model-based":[0],"reinforcement":[1],"learning":[2,81],"(MBRL)":[3],"improves":[4],"sample":[5,161],"efficiency":[6],"by":[7,26,62,82],"leveraging":[8],"learned":[9,90],"dynamics":[10,91],"models":[11],"for":[12,94],"policy":[13],"optimization.":[14],"However,":[15],"the":[16,63,89],"effectiveness":[17],"of":[18],"methods":[19],"such":[20,37],"as":[21,38],"actor-critic":[22],"is":[23],"often":[24],"limited":[25,150],"compounding":[27],"model":[28,59,105],"errors,":[29],"which":[30],"degrade":[31],"long-horizon":[32],"value":[33,79,99],"estimation.":[34],"Existing":[35],"approaches,":[36],"Model-Based":[39],"Value":[40],"Expansion":[41],"(MVE),":[42],"partially":[43],"mitigate":[44],"this":[45],"issue":[46],"through":[47],"multi-step":[48],"rollouts,":[49],"but":[50],"remain":[51],"sensitive":[52],"to":[53,104,139],"rollout":[54],"horizon":[55],"selection":[56],"and":[57,92,120,129,137],"residual":[58],"bias.":[60],"Motivated":[61],"Pontryagin":[64],"Maximum":[65],"Principle":[66],"(PMP),":[67],"we":[68],"propose":[69],"Hamiltonian":[70,86],"Actor-Critic":[71],"(HAC),":[72],"a":[73,85],"model-based":[74],"approach":[75],"that":[76,125],"eliminates":[77],"explicit":[78],"function":[80],"directly":[83],"optimizing":[84],"defined":[87],"over":[88],"reward":[93],"deterministic":[95],"systems.":[96],"By":[97],"avoiding":[98],"approximation,":[100],"HAC":[101,126,152],"reduces":[102],"sensitivity":[103],"errors":[106],"while":[107],"admitting":[108],"convergence":[109,135],"guarantees.":[110],"Extensive":[111],"experiments":[112],"on":[113],"continuous":[114],"control":[115,133],"benchmarks,":[116],"in":[117,132],"both":[118],"online":[119],"offline":[121,147],"RL":[122],"settings,":[123],"demonstrate":[124],"outperforms":[127],"model-free":[128],"MVE-based":[130],"baselines":[131],"performance,":[134],"speed,":[136],"robustness":[138],"distributional":[140],"shift,":[141],"including":[142],"out-of-distribution":[143],"(OOD)":[144],"scenarios.":[145],"In":[146],"settings":[148],"with":[149],"data,":[151],"matches":[153],"or":[154],"exceeds":[155],"state-of-the-art":[156],"methods,":[157],"highlighting":[158],"its":[159],"strong":[160],"efficiency.":[162]},"counts_by_year":[],"updated_date":"2026-04-02T13:53:19.096889","created_date":"2026-04-02T00:00:00"}