{"id":"https://openalex.org/W3035478219","doi":"https://doi.org/10.24963/ijcai.2020/58","title":"Modelling Bounded Rationality in Multi-Agent Interactions by Generalized Recursive Reasoning","display_name":"Modelling Bounded Rationality in Multi-Agent Interactions by Generalized Recursive Reasoning","publication_year":2020,"publication_date":"2020-07-01","ids":{"openalex":"https://openalex.org/W3035478219","doi":"https://doi.org/10.24963/ijcai.2020/58","mag":"3035478219"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2020/58","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2020/58","pdf_url":"https://www.ijcai.org/proceedings/2020/0058.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"preprint","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://www.ijcai.org/proceedings/2020/0058.pdf","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101647485","display_name":"Ying Wen","orcid":"https://orcid.org/0000-0002-6974-5110"},"institutions":[{"id":"https://openalex.org/I45129253","display_name":"University College London","ror":"https://ror.org/02jx3x895","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I45129253"]}],"countries":["GB"],"is_corresponding":true,"raw_author_name":"Ying Wen","raw_affiliation_strings":["University College London"],"affiliations":[{"raw_affiliation_string":"University College London","institution_ids":["https://openalex.org/I45129253"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5090073634","display_name":"Yaodong Yang","orcid":"https://orcid.org/0000-0001-8132-5613"},"institutions":[{"id":"https://openalex.org/I4210160618","display_name":"Huawei Technologies (United Kingdom)","ror":"https://ror.org/056gzgs71","country_code":"GB","type":"company","lineage":["https://openalex.org/I2250955327","https://openalex.org/I4210160618"]},{"id":"https://openalex.org/I45129253","display_name":"University College London","ror":"https://ror.org/02jx3x895","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I45129253"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Yaodong Yang","raw_affiliation_strings":["Huawei R&D UK","University College London","Huawei Research & Development U.K"],"affiliations":[{"raw_affiliation_string":"Huawei R&D UK","institution_ids":["https://openalex.org/I4210160618"]},{"raw_affiliation_string":"University College London","institution_ids":["https://openalex.org/I45129253"]},{"raw_affiliation_string":"Huawei Research & Development U.K","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100384727","display_name":"Jun Wang","orcid":"https://orcid.org/0000-0002-4021-4228"},"institutions":[{"id":"https://openalex.org/I45129253","display_name":"University College London","ror":"https://ror.org/02jx3x895","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I45129253"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Jun Wang","raw_affiliation_strings":["University College London"],"affiliations":[{"raw_affiliation_string":"University College London","institution_ids":["https://openalex.org/I45129253"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5101647485"],"corresponding_institution_ids":["https://openalex.org/I45129253"],"apc_list":null,"apc_paid":null,"fwci":2.3318,"has_fulltext":false,"cited_by_count":30,"citation_normalized_percentile":{"value":0.90653189,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":89,"max":99},"biblio":{"volume":null,"issue":null,"first_page":"414","last_page":"421"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10646","display_name":"Experimental Behavioral Economics Studies","score":0.9861000180244446,"subfield":{"id":"https://openalex.org/subfields/3311","display_name":"Safety Research"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11031","display_name":"Game Theory and Applications","score":0.9799000024795532,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6975239515304565},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.5420447587966919},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5272568464279175},{"id":"https://openalex.org/keywords/bounded-rationality","display_name":"Bounded rationality","score":0.5145070552825928},{"id":"https://openalex.org/keywords/solver","display_name":"Solver","score":0.5081555843353271},{"id":"https://openalex.org/keywords/variety","display_name":"Variety (cybernetics)","score":0.5050542950630188},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.4519965946674347},{"id":"https://openalex.org/keywords/property","display_name":"Property (philosophy)","score":0.4512532949447632},{"id":"https://openalex.org/keywords/rationality","display_name":"Rationality","score":0.4297623932361603},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.3961847424507141},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.39472877979278564},{"id":"https://openalex.org/keywords/theoretical-computer-science","display_name":"Theoretical computer science","score":0.382628858089447},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.20253145694732666}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6975239515304565},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.5420447587966919},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5272568464279175},{"id":"https://openalex.org/C58694771","wikidata":"https://www.wikidata.org/wiki/Q814385","display_name":"Bounded rationality","level":2,"score":0.5145070552825928},{"id":"https://openalex.org/C2778770139","wikidata":"https://www.wikidata.org/wiki/Q1966904","display_name":"Solver","level":2,"score":0.5081555843353271},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.5050542950630188},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.4519965946674347},{"id":"https://openalex.org/C189950617","wikidata":"https://www.wikidata.org/wiki/Q937228","display_name":"Property (philosophy)","level":2,"score":0.4512532949447632},{"id":"https://openalex.org/C201717286","wikidata":"https://www.wikidata.org/wiki/Q938185","display_name":"Rationality","level":2,"score":0.4297623932361603},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3961847424507141},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.39472877979278564},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.382628858089447},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.20253145694732666},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C205649164","wikidata":"https://www.wikidata.org/wiki/Q1071","display_name":"Geography","level":0,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.0},{"id":"https://openalex.org/C13280743","wikidata":"https://www.wikidata.org/wiki/Q131089","display_name":"Geodesy","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.24963/ijcai.2020/58","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2020/58","pdf_url":"https://www.ijcai.org/proceedings/2020/0058.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.24963/ijcai.2020/58","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2020/58","pdf_url":"https://www.ijcai.org/proceedings/2020/0058.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.8199999928474426,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W3035478219.pdf","grobid_xml":"https://content.openalex.org/works/W3035478219.grobid-xml"},"referenced_works_count":30,"referenced_works":["https://openalex.org/W643973177","https://openalex.org/W1987467632","https://openalex.org/W2050787672","https://openalex.org/W2103561211","https://openalex.org/W2104602264","https://openalex.org/W2114765979","https://openalex.org/W2149551746","https://openalex.org/W2211766770","https://openalex.org/W2264897026","https://openalex.org/W2475089067","https://openalex.org/W2511837229","https://openalex.org/W2604283518","https://openalex.org/W2758442112","https://openalex.org/W2781726626","https://openalex.org/W2785315072","https://openalex.org/W2797062887","https://openalex.org/W2798511001","https://openalex.org/W2799151646","https://openalex.org/W2803005587","https://openalex.org/W2946045694","https://openalex.org/W2949561945","https://openalex.org/W2950397026","https://openalex.org/W2963390138","https://openalex.org/W2963864421","https://openalex.org/W3099134564","https://openalex.org/W3101380508","https://openalex.org/W3125094881","https://openalex.org/W4299802797","https://openalex.org/W4362203700","https://openalex.org/W4402607318"],"related_works":["https://openalex.org/W4388260134","https://openalex.org/W2351341309","https://openalex.org/W2359095791","https://openalex.org/W2364973163","https://openalex.org/W2370332065","https://openalex.org/W2489352369","https://openalex.org/W2801172480","https://openalex.org/W4297440579","https://openalex.org/W187959850","https://openalex.org/W4300099835"],"abstract_inverted_index":{"Though":[0],"limited":[1],"in":[2,126],"real-world":[3],"decision":[4,31],"making,":[5],"most":[6],"multi-agent":[7],"reinforcement":[8],"learning":[9],"(MARL)":[10],"models":[11,98],"assume":[12],"perfectly":[13],"rational":[14],"agents":[15,48,58,69],"--":[16],"a":[17,43,104,113,123,141],"property":[18,121],"hardly":[19],"met":[20],"due":[21],"to":[22,46,59,70,73,122,165],"individual's":[23],"cognitive":[24],"limitation":[25],"and/or":[26],"the":[27,30,85,90,101,109,133,150,155,171,175],"tractability":[28],"of":[29,53,63,93,103,143],"problem.":[32],"In":[33],"this":[34],"paper,":[35],"we":[36,88,111,136,147],"introduce":[37],"generalized":[38],"recursive":[39],"reasoning":[40],"(GR2)":[41],"as":[42],"novel":[44],"framework":[45,56,92],"model":[47],"with":[49],"different":[50],"\\emph{hierarchical}":[51],"levels":[52,62],"rationality;":[54],"our":[55,138],"enables":[57],"exhibit":[60],"varying":[61],"``thinking''":[64],"ability":[65],"thereby":[66],"allowing":[67],"higher-level":[68],"best":[71],"respond":[72],"various":[74],"less":[75],"sophisticated":[76],"learners.":[77],"We":[78],"contribute":[79],"both":[80],"theoretically":[81],"and":[82,99,117,159,174],"empirically.":[83],"On":[84,132],"theory":[86],"side,":[87,135],"devise":[89],"hierarchical":[91,151],"GR2":[94],"through":[95,129],"probabilistic":[96],"graphical":[97],"prove":[100],"existence":[102],"perfect":[105],"Bayesian":[106],"equilibrium.":[107],"Within":[108],"GR2,":[110],"propose":[112],"practical":[114],"actor-critic":[115],"solver,":[116],"demonstrate":[118,161],"its":[119],"convergent":[120],"stationary":[124],"point":[125],"two-player":[127],"games":[128,173],"Lyapunov":[130],"analysis.":[131],"empirical":[134],"validate":[137],"findings":[139],"on":[140,154,170],"variety":[142],"MARL":[144],"benchmarks.":[145],"Precisely,":[146],"first":[148],"illustrate":[149],"thinking":[152],"process":[153],"Keynes":[156],"Beauty":[157],"Contest,":[158],"then":[160],"significant":[162],"improvements":[163],"compared":[164],"state-of-the-art":[166],"opponent":[167],"modeling":[168],"baselines":[169],"normal-form":[172],"cooperative":[176],"navigation":[177],"benchmark.":[178]},"counts_by_year":[{"year":2026,"cited_by_count":2},{"year":2025,"cited_by_count":4},{"year":2024,"cited_by_count":7},{"year":2023,"cited_by_count":8},{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":7},{"year":2020,"cited_by_count":1}],"updated_date":"2026-03-12T08:34:05.389933","created_date":"2025-10-10T00:00:00"}