{"id":"https://openalex.org/W7148313924","doi":"https://doi.org/10.48550/arxiv.2604.00433","title":"Internal State-Based Policy Gradient Methods for Partially Observable Markov Potential Games","display_name":"Internal State-Based Policy Gradient Methods for Partially Observable Markov Potential Games","publication_year":2026,"publication_date":"2026-04-01","ids":{"openalex":"https://openalex.org/W7148313924","doi":"https://doi.org/10.48550/arxiv.2604.00433"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.00433","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.00433","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.00433","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5132760446","display_name":"Wonseok Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Yang, Wonseok","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5035207859","display_name":"Thinh T. Doan","orcid":"https://orcid.org/0000-0001-5135-3429"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Doan, Thinh T.","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5132760446"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8989999890327454,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8989999890327454,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.06440000236034393,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.004100000020116568,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/observable","display_name":"Observable","score":0.6973999738693237},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.6725000143051147},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.6090999841690063},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.5503000020980835},{"id":"https://openalex.org/keywords/partially-observable-markov-decision-process","display_name":"Partially observable Markov decision process","score":0.49300000071525574},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.47269999980926514},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.47130000591278076},{"id":"https://openalex.org/keywords/upper-and-lower-bounds","display_name":"Upper and lower bounds","score":0.4544000029563904}],"concepts":[{"id":"https://openalex.org/C32848918","wikidata":"https://www.wikidata.org/wiki/Q845789","display_name":"Observable","level":2,"score":0.6973999738693237},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.6725000143051147},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.6090999841690063},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.5503000020980835},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5120999813079834},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5080999732017517},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.49300000071525574},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.47269999980926514},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.47130000591278076},{"id":"https://openalex.org/C77553402","wikidata":"https://www.wikidata.org/wiki/Q13222579","display_name":"Upper and lower bounds","level":2,"score":0.4544000029563904},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.427700012922287},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.40549999475479126},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.3873000144958496},{"id":"https://openalex.org/C46814582","wikidata":"https://www.wikidata.org/wiki/Q23389","display_name":"Nash equilibrium","level":2,"score":0.3330000042915344},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.3328000009059906},{"id":"https://openalex.org/C106666656","wikidata":"https://www.wikidata.org/wiki/Q6771323","display_name":"Markov kernel","level":5,"score":0.33079999685287476},{"id":"https://openalex.org/C54907487","wikidata":"https://www.wikidata.org/wiki/Q7915688","display_name":"Variable-order Markov model","level":4,"score":0.3255000114440918},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.3237000107765198},{"id":"https://openalex.org/C189973286","wikidata":"https://www.wikidata.org/wiki/Q176695","display_name":"Markov property","level":4,"score":0.32019999623298645},{"id":"https://openalex.org/C2778079155","wikidata":"https://www.wikidata.org/wiki/Q288500","display_name":"Potential game","level":3,"score":0.31529998779296875},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3075999915599823},{"id":"https://openalex.org/C176248197","wikidata":"https://www.wikidata.org/wiki/Q458526","display_name":"Probably approximately correct learning","level":4,"score":0.2849999964237213},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.2770000100135803},{"id":"https://openalex.org/C115680565","wikidata":"https://www.wikidata.org/wiki/Q5977448","display_name":"Gradient method","level":2,"score":0.2694999873638153},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.251800000667572}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.00433","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.00433","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.00433","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.00433","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.6873786449432373,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"This":[0],"letter":[1],"studies":[2],"multi-agent":[3],"reinforcement":[4],"learning":[5],"in":[6,120,153],"partially":[7,139],"observable":[8,140],"Markov":[9,89,122],"potential":[10,90,123],"games.":[11],"Solving":[12],"this":[13,103],"problem":[14],"is":[15,95,164],"challenging":[16],"due":[17],"to":[18,29,44,54,83,96,156],"partial":[19],"observability,":[20],"decentralized":[21],"information,":[22,65],"and":[23,50,125],"the":[24,31,37,88,130,144,157,161],"curse":[25],"of":[26,87,132],"dimensionality.":[27],"First,":[28],"address":[30],"first":[32],"two":[33,110],"challenges,":[34],"we":[35,57],"leverage":[36],"common":[38],"information":[39],"framework,":[40],"which":[41],"allows":[42],"agents":[43],"act":[45],"based":[46],"on":[47],"both":[48],"shared":[49],"local":[51],"information.":[52],"Second,":[53],"ensure":[55],"tractability,":[56],"study":[58],"an":[59,76,126],"internal":[60,77],"state":[61],"that":[62,117,143],"compresses":[63],"accumulated":[64],"preventing":[66],"it":[67],"from":[68],"growing":[69],"unboundedly":[70],"over":[71],"time.":[72],"We":[73],"then":[74],"implement":[75],"state-based":[78],"natural":[79],"policy":[80],"gradient":[81],"method":[82,146],"find":[84],"Nash":[85],"equilibria":[86],"game.":[91],"Our":[92,105],"main":[93],"contribution":[94],"establish":[97],"a":[98,113],"non-asymptotic":[99],"convergence":[100],"bound":[101,107],"for":[102],"method.":[104],"theoretical":[106],"decomposes":[108],"into":[109],"interpretable":[111],"components:":[112],"statistical":[114],"error":[115,128],"term":[116],"also":[118],"arises":[119],"standard":[121],"games,":[124],"approximation":[127],"capturing":[129],"use":[131],"finite-state":[133,148],"controllers.":[134],"Finally,":[135],"simulations":[136],"across":[137],"multiple":[138],"environments":[141],"demonstrate":[142],"proposed":[145],"using":[147],"controllers":[149],"achieves":[150],"consistent":[151],"improvements":[152],"performance":[154],"compared":[155],"setting":[158],"where":[159],"only":[160],"current":[162],"observation":[163],"used.":[165]},"counts_by_year":[],"updated_date":"2026-04-03T16:44:17.987007","created_date":"2026-04-03T00:00:00"}