{"id":"https://openalex.org/W4312315130","doi":"https://doi.org/10.1109/ijcnn55064.2022.9892747","title":"Learning in Bi-level Markov Games","display_name":"Learning in Bi-level Markov Games","publication_year":2022,"publication_date":"2022-07-18","ids":{"openalex":"https://openalex.org/W4312315130","doi":"https://doi.org/10.1109/ijcnn55064.2022.9892747"},"language":"en","primary_location":{"id":"doi:10.1109/ijcnn55064.2022.9892747","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn55064.2022.9892747","pdf_url":null,"source":{"id":"https://openalex.org/S4363607707","display_name":"2022 International Joint Conference on Neural Networks (IJCNN)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5027592774","display_name":"Linghui Meng","orcid":"https://orcid.org/0000-0002-5826-8072"},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]},{"id":"https://openalex.org/I4210094879","display_name":"Shandong Institute of Automation","ror":"https://ror.org/00qdtba35","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210094879","https://openalex.org/I4210142748"]},{"id":"https://openalex.org/I4210100255","display_name":"Beijing Academy of Artificial Intelligence","ror":"https://ror.org/016a74861","country_code":"CN","type":"other","lineage":["https://openalex.org/I4210100255"]},{"id":"https://openalex.org/I4210165038","display_name":"University of Chinese Academy of Sciences","ror":"https://ror.org/05qbk4x57","country_code":"CN","type":"education","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210165038"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Linghui Meng","raw_affiliation_strings":["Institute of Automation, Chinese Academy of Sciences,Beijing,China","Institute of Automation, Chinese Academy of Sciences, Beijing, China","School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences,Beijing,China","institution_ids":["https://openalex.org/I4210094879","https://openalex.org/I19820366"]},{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210094879","https://openalex.org/I19820366"]},{"raw_affiliation_string":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210100255","https://openalex.org/I4210165038"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5076546255","display_name":"Jingqing Ruan","orcid":"https://orcid.org/0000-0002-4857-9053"},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]},{"id":"https://openalex.org/I4210094879","display_name":"Shandong Institute of Automation","ror":"https://ror.org/00qdtba35","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210094879","https://openalex.org/I4210142748"]},{"id":"https://openalex.org/I4210100255","display_name":"Beijing Academy of Artificial Intelligence","ror":"https://ror.org/016a74861","country_code":"CN","type":"other","lineage":["https://openalex.org/I4210100255"]},{"id":"https://openalex.org/I4210165038","display_name":"University of Chinese Academy of Sciences","ror":"https://ror.org/05qbk4x57","country_code":"CN","type":"education","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210165038"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jingqing Ruan","raw_affiliation_strings":["Institute of Automation, Chinese Academy of Sciences,Beijing,China","Institute of Automation, Chinese Academy of Sciences, Beijing, China","School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences,Beijing,China","institution_ids":["https://openalex.org/I4210094879","https://openalex.org/I19820366"]},{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210094879","https://openalex.org/I19820366"]},{"raw_affiliation_string":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210100255","https://openalex.org/I4210165038"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101684094","display_name":"Dengpeng Xing","orcid":"https://orcid.org/0000-0002-8251-9118"},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]},{"id":"https://openalex.org/I4210094879","display_name":"Shandong Institute of Automation","ror":"https://ror.org/00qdtba35","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210094879","https://openalex.org/I4210142748"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Dengpeng Xing","raw_affiliation_strings":["Institute of Automation, Chinese Academy of Sciences,Beijing,China","Institute of Automation, Chinese Academy of Sciences, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences,Beijing,China","institution_ids":["https://openalex.org/I4210094879","https://openalex.org/I19820366"]},{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210094879","https://openalex.org/I19820366"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5062895972","display_name":"Bo Xu","orcid":"https://orcid.org/0000-0001-5453-978X"},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]},{"id":"https://openalex.org/I4210094879","display_name":"Shandong Institute of Automation","ror":"https://ror.org/00qdtba35","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210094879","https://openalex.org/I4210142748"]},{"id":"https://openalex.org/I4210100255","display_name":"Beijing Academy of Artificial Intelligence","ror":"https://ror.org/016a74861","country_code":"CN","type":"other","lineage":["https://openalex.org/I4210100255"]},{"id":"https://openalex.org/I4210165038","display_name":"University of Chinese Academy of Sciences","ror":"https://ror.org/05qbk4x57","country_code":"CN","type":"education","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210165038"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Bo Xu","raw_affiliation_strings":["Institute of Automation, Chinese Academy of Sciences,Beijing,China","School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China","Institute of Automation, Chinese Academy of Sciences, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences,Beijing,China","institution_ids":["https://openalex.org/I4210094879","https://openalex.org/I19820366"]},{"raw_affiliation_string":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210100255","https://openalex.org/I4210165038"]},{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210094879","https://openalex.org/I19820366"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.3114,"has_fulltext":false,"cited_by_count":3,"citation_normalized_percentile":{"value":0.52377418,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9897000193595886,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.965399980545044,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6495506167411804},{"id":"https://openalex.org/keywords/stackelberg-competition","display_name":"Stackelberg competition","score":0.6481480002403259},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6391414999961853},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.4833188056945801},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.4756735861301422},{"id":"https://openalex.org/keywords/football","display_name":"Football","score":0.46906614303588867},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4097539782524109},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.39779767394065857},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.33013916015625},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.28439176082611084},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.17188075184822083},{"id":"https://openalex.org/keywords/mathematical-economics","display_name":"Mathematical economics","score":0.16364946961402893}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6495506167411804},{"id":"https://openalex.org/C199510392","wikidata":"https://www.wikidata.org/wiki/Q1184602","display_name":"Stackelberg competition","level":2,"score":0.6481480002403259},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6391414999961853},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.4833188056945801},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.4756735861301422},{"id":"https://openalex.org/C2778444522","wikidata":"https://www.wikidata.org/wiki/Q1081491","display_name":"Football","level":2,"score":0.46906614303588867},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4097539782524109},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.39779767394065857},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.33013916015625},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.28439176082611084},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.17188075184822083},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.16364946961402893},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn55064.2022.9892747","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn55064.2022.9892747","pdf_url":null,"source":{"id":"https://openalex.org/S4363607707","display_name":"2022 International Joint Conference on Neural Networks (IJCNN)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G8294312625","display_name":null,"funder_award_id":"XDA27030300","funder_id":"https://openalex.org/F4320321133","funder_display_name":"Chinese Academy of Sciences"}],"funders":[{"id":"https://openalex.org/F4320321133","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":45,"referenced_works":["https://openalex.org/W586722081","https://openalex.org/W1502765764","https://openalex.org/W1542941925","https://openalex.org/W1990676004","https://openalex.org/W1992149319","https://openalex.org/W2408827998","https://openalex.org/W2417280899","https://openalex.org/W2617547828","https://openalex.org/W2727450595","https://openalex.org/W2749807327","https://openalex.org/W2807741983","https://openalex.org/W2949604932","https://openalex.org/W2949963774","https://openalex.org/W2950614095","https://openalex.org/W2953444180","https://openalex.org/W2962686687","https://openalex.org/W2963761387","https://openalex.org/W2964118262","https://openalex.org/W2987204115","https://openalex.org/W2997072274","https://openalex.org/W2997502221","https://openalex.org/W3035723062","https://openalex.org/W3046288222","https://openalex.org/W3089778445","https://openalex.org/W3093963693","https://openalex.org/W4236123449","https://openalex.org/W4287998569","https://openalex.org/W4295352814","https://openalex.org/W4295598622","https://openalex.org/W4299802797","https://openalex.org/W6738796088","https://openalex.org/W6743756900","https://openalex.org/W6749304979","https://openalex.org/W6751720535","https://openalex.org/W6752089545","https://openalex.org/W6752380930","https://openalex.org/W6758714175","https://openalex.org/W6759871227","https://openalex.org/W6762491519","https://openalex.org/W6765166828","https://openalex.org/W6771399092","https://openalex.org/W6779984877","https://openalex.org/W6781750019","https://openalex.org/W6783196708","https://openalex.org/W6784178060"],"related_works":["https://openalex.org/W4400868993","https://openalex.org/W3096874164","https://openalex.org/W1985560493","https://openalex.org/W2937181779","https://openalex.org/W2386410636","https://openalex.org/W2357975469","https://openalex.org/W2145363145","https://openalex.org/W1626977535","https://openalex.org/W2341346307","https://openalex.org/W3168977894"],"abstract_inverted_index":{"Although":[0],"multi-agent":[1],"reinforcement":[2],"learning":[3,127],"(MARL)":[4],"has":[5],"demonstrated":[6],"remarkable":[7],"progress":[8],"in":[9,60,108,183],"tackling":[10],"sophisticated":[11],"cooperative":[12],"tasks,":[13],"the":[14,23,36,40,43,50,62,65,68,73,78,96,100,104,111,117,138],"assumption":[15,37],"that":[16,157,176],"agents":[17],"take":[18],"simultaneous":[19],"actions":[20],"still":[21],"limits":[22],"applicability":[24],"of":[25,42,67,140,149,185],"MARL":[26,162],"for":[27],"many":[28],"real-world":[29],"problems.":[30],"In":[31],"this":[32],"work,":[33],"we":[34,123,144],"relax":[35],"by":[38,52],"proposing":[39],"framework":[41],"bi-level":[44],"Markov":[45],"game":[46],"(BMG).":[47],"BMG":[48,142,178],"breaks":[49],"simultaneity":[51],"assigning":[53],"two":[54,83],"players":[55],"with":[56,110,129],"a":[57,147],"leader-follower":[58],"relationship":[59],"which":[61],"leader":[63],"considers":[64],"policy":[66],"follower":[69],"who":[70],"is":[71],"taking":[72],"best":[74],"response":[75],"based":[76],"on":[77,146],"leader's":[79],"actions.":[80],"We":[81],"propose":[82],"provably":[84],"convergent":[85],"algorithms":[86],"to":[87,115,160,166],"solve":[88],"BMG:":[89],"BMG-1":[90,109],"and":[91,132,155,171,188],"BMG-2.":[92],"The":[93],"former":[94],"uses":[95],"standard":[97],"Q-learning,":[98],"while":[99],"latter":[101],"relieves":[102],"solving":[103],"local":[105],"Stackelberg":[106],"equilibrium":[107],"further":[112],"two-step":[113],"transition":[114],"estimate":[116],"state":[118],"value.":[119],"For":[120],"both":[121,130],"methods,":[122],"consider":[124],"temporal":[125],"difference":[126],"techniques":[128],"tabular":[131],"neural":[133],"network":[134],"representations.":[135],"To":[136],"verify":[137],"effectiveness":[139],"our":[141,177],"framework,":[143],"test":[145],"series":[148],"games,":[150],"including":[151],"Seeker,":[152,168],"Cooperative":[153,169],"Navigation,":[154,170],"Football,":[156],"are":[158],"challenging":[159,165],"existing":[161],"solvers":[163],"find":[164],"solve:":[167],"Football.":[172],"Experimental":[173],"results":[174],"show":[175],"methods":[179],"achieve":[180],"competitive":[181],"advantages":[182],"terms":[184],"better":[186],"performance":[187],"lower":[189],"variance.":[190]},"counts_by_year":[{"year":2024,"cited_by_count":2},{"year":2023,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}