{"id":"https://openalex.org/W2964204672","doi":"https://doi.org/10.1109/iros.2017.8206001","title":"Learning for multi-robot cooperation in partially observable stochastic environments with macro-actions","display_name":"Learning for multi-robot cooperation in partially observable stochastic environments with macro-actions","publication_year":2017,"publication_date":"2017-09-01","ids":{"openalex":"https://openalex.org/W2964204672","doi":"https://doi.org/10.1109/iros.2017.8206001","mag":"2964204672"},"language":"en","primary_location":{"id":"doi:10.1109/iros.2017.8206001","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros.2017.8206001","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"http://hdl.handle.net/1721.1/114739","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100348892","display_name":"Miao Liu","orcid":"https://orcid.org/0009-0004-5086-7443"},"institutions":[{"id":"https://openalex.org/I4210114115","display_name":"IBM Research - Thomas J. Watson Research Center","ror":"https://ror.org/0265w5591","country_code":"US","type":"facility","lineage":["https://openalex.org/I1341412227","https://openalex.org/I4210114115"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Miao Liu","raw_affiliation_strings":["IBM T. J. Watson Research Center, Yorktown Heights, NY, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IBM T. J. Watson Research Center, Yorktown Heights, NY, USA","institution_ids":["https://openalex.org/I4210114115"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5003427578","display_name":"Kavinayan Sivakumar","orcid":null},"institutions":[{"id":"https://openalex.org/I20089843","display_name":"Princeton University","ror":"https://ror.org/00hx57361","country_code":"US","type":"education","lineage":["https://openalex.org/I20089843"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Kavinayan Sivakumar","raw_affiliation_strings":["Department of Electrical Engineering, Princeton University, Princeton, NJ, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Electrical Engineering, Princeton University, Princeton, NJ, USA","institution_ids":["https://openalex.org/I20089843"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5052169592","display_name":"Shayegan Omidshafiei","orcid":"https://orcid.org/0000-0001-7758-1454"},"institutions":[{"id":"https://openalex.org/I63966007","display_name":"Massachusetts Institute of Technology","ror":"https://ror.org/042nb2s44","country_code":"US","type":"education","lineage":["https://openalex.org/I63966007"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Shayegan Omidshafiei","raw_affiliation_strings":["Laboratory of Information and Decision Systems, Massachusetts Institute of Technology, Cambridge, MA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Laboratory of Information and Decision Systems, Massachusetts Institute of Technology, Cambridge, MA, USA","institution_ids":["https://openalex.org/I63966007"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5033129735","display_name":"Christopher Amato","orcid":"https://orcid.org/0000-0002-6786-7384"},"institutions":[{"id":"https://openalex.org/I12912129","display_name":"Northeastern University","ror":"https://ror.org/04t5xt781","country_code":"US","type":"education","lineage":["https://openalex.org/I12912129"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Christopher Amato","raw_affiliation_strings":["College of Computer and Information Science, Northeastern University, Boston, MA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"College of Computer and Information Science, Northeastern University, Boston, MA, USA","institution_ids":["https://openalex.org/I12912129"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5011665886","display_name":"Jonathan P. How","orcid":"https://orcid.org/0000-0001-8576-1930"},"institutions":[{"id":"https://openalex.org/I63966007","display_name":"Massachusetts Institute of Technology","ror":"https://ror.org/042nb2s44","country_code":"US","type":"education","lineage":["https://openalex.org/I63966007"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Jonathan P. How","raw_affiliation_strings":["Laboratory of Information and Decision Systems, Massachusetts Institute of Technology, Cambridge, MA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Laboratory of Information and Decision Systems, Massachusetts Institute of Technology, Cambridge, MA, USA","institution_ids":["https://openalex.org/I63966007"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":22,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1853","last_page":"1860"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11303","display_name":"Bayesian Modeling and Causal Inference","score":0.9927999973297119,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.9584000110626221,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7817238569259644},{"id":"https://openalex.org/keywords/partially-observable-markov-decision-process","display_name":"Partially observable Markov decision process","score":0.7133709192276001},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.6942309737205505},{"id":"https://openalex.org/keywords/observable","display_name":"Observable","score":0.6565101146697998},{"id":"https://openalex.org/keywords/asynchronous-communication","display_name":"Asynchronous communication","score":0.6408992409706116},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.6044857501983643},{"id":"https://openalex.org/keywords/macro","display_name":"Macro","score":0.5548527836799622},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.5448191165924072},{"id":"https://openalex.org/keywords/a-priori-and-a-posteriori","display_name":"A priori and a posteriori","score":0.5271391868591309},{"id":"https://openalex.org/keywords/maximization","display_name":"Maximization","score":0.44657766819000244},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.39438360929489136},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.393635630607605},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.3845859467983246},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.36142683029174805},{"id":"https://openalex.org/keywords/distributed-computing","display_name":"Distributed computing","score":0.322475790977478},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.2731434404850006},{"id":"https://openalex.org/keywords/markov-model","display_name":"Markov model","score":0.2002323567867279}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7817238569259644},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.7133709192276001},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.6942309737205505},{"id":"https://openalex.org/C32848918","wikidata":"https://www.wikidata.org/wiki/Q845789","display_name":"Observable","level":2,"score":0.6565101146697998},{"id":"https://openalex.org/C151319957","wikidata":"https://www.wikidata.org/wiki/Q752739","display_name":"Asynchronous communication","level":2,"score":0.6408992409706116},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.6044857501983643},{"id":"https://openalex.org/C166955791","wikidata":"https://www.wikidata.org/wiki/Q629579","display_name":"Macro","level":2,"score":0.5548527836799622},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.5448191165924072},{"id":"https://openalex.org/C75553542","wikidata":"https://www.wikidata.org/wiki/Q178161","display_name":"A priori and a posteriori","level":2,"score":0.5271391868591309},{"id":"https://openalex.org/C2776330181","wikidata":"https://www.wikidata.org/wiki/Q18358244","display_name":"Maximization","level":2,"score":0.44657766819000244},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.39438360929489136},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.393635630607605},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.3845859467983246},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.36142683029174805},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.322475790977478},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2731434404850006},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.2002323567867279},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C1276947","wikidata":"https://www.wikidata.org/wiki/Q333","display_name":"Astronomy","level":1,"score":0.0},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/iros.2017.8206001","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros.2017.8206001","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"},{"id":"pmh:oai:dspace.mit.edu:1721.1/114739","is_oa":true,"landing_page_url":"http://hdl.handle.net/1721.1/114739","pdf_url":null,"source":{"id":"https://openalex.org/S4306400425","display_name":"DSpace@MIT (Massachusetts Institute of Technology)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I63966007","host_organization_name":"Massachusetts Institute of Technology","host_organization_lineage":["https://openalex.org/I63966007"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by-nc-sa","license_id":"https://openalex.org/licenses/cc-by-nc-sa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"arXiv","raw_type":"http://purl.org/eprint/type/ConferencePaper"}],"best_oa_location":{"id":"pmh:oai:dspace.mit.edu:1721.1/114739","is_oa":true,"landing_page_url":"http://hdl.handle.net/1721.1/114739","pdf_url":null,"source":{"id":"https://openalex.org/S4306400425","display_name":"DSpace@MIT (Massachusetts Institute of Technology)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I63966007","host_organization_name":"Massachusetts Institute of Technology","host_organization_lineage":["https://openalex.org/I63966007"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by-nc-sa","license_id":"https://openalex.org/licenses/cc-by-nc-sa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"arXiv","raw_type":"http://purl.org/eprint/type/ConferencePaper"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.4099999964237213,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":38,"referenced_works":["https://openalex.org/W29703438","https://openalex.org/W772397958","https://openalex.org/W1182044309","https://openalex.org/W1518078339","https://openalex.org/W1523114496","https://openalex.org/W1578877007","https://openalex.org/W1605376211","https://openalex.org/W1670739992","https://openalex.org/W1886379263","https://openalex.org/W1936503582","https://openalex.org/W2088956500","https://openalex.org/W2091482777","https://openalex.org/W2106948551","https://openalex.org/W2109910161","https://openalex.org/W2142424817","https://openalex.org/W2142544818","https://openalex.org/W2142943472","https://openalex.org/W2146399771","https://openalex.org/W2148194450","https://openalex.org/W2168359464","https://openalex.org/W2290743114","https://openalex.org/W2294192315","https://openalex.org/W2408811396","https://openalex.org/W2484293036","https://openalex.org/W2520157010","https://openalex.org/W2560463511","https://openalex.org/W2747213132","https://openalex.org/W2798766537","https://openalex.org/W2901136733","https://openalex.org/W4285719527","https://openalex.org/W6601181163","https://openalex.org/W6622433990","https://openalex.org/W6631233670","https://openalex.org/W6634407010","https://openalex.org/W6640725322","https://openalex.org/W6697106730","https://openalex.org/W6727007750","https://openalex.org/W6756486208"],"related_works":["https://openalex.org/W2999848267","https://openalex.org/W2096013579","https://openalex.org/W52153049","https://openalex.org/W1760611253","https://openalex.org/W1589140671","https://openalex.org/W1515117609","https://openalex.org/W4323315247","https://openalex.org/W131709709","https://openalex.org/W2294884454","https://openalex.org/W3169161914"],"abstract_inverted_index":{"This":[0,101],"paper":[1],"presents":[2],"a":[3,26,56,59,89,169,177],"data-driven":[4],"approach":[5],"for":[6,29],"multi-robot":[7,149],"coordination":[8],"in":[9,176],"partially-observable":[10],"domains":[11,154],"based":[12,111],"on":[13,159],"Decentralized":[14],"Partially":[15],"Observable":[16],"Markov":[17],"Decision":[18],"Processes":[19],"(Dec-POMDPs)":[20],"and":[21,36,41,79,95,125,151,156],"macro-actions":[22],"(MAs).":[23],"Dec-POMDPs":[24],"provide":[25],"general":[27],"framework":[28],"cooperative":[30],"sequential":[31],"decision":[32],"making":[33],"under":[34],"uncertainty":[35],"MAs":[37],"allow":[38],"temporally":[39],"extended":[40],"asynchronous":[42],"action":[43],"execution.":[44],"To":[45],"date,":[46],"most":[47],"methods":[48,68],"assume":[49],"the":[50,130,140,163],"underlying":[51],"Dec-POMDP":[52],"model":[53],"is":[54,62,132],"known":[55],"priori":[57],"or":[58],"full":[60],"simulator":[61],"available":[63],"during":[64],"planning":[65,98],"time.":[66],"Previous":[67],"which":[69],"aim":[70],"to":[71,81,115,134,161,174],"address":[72],"these":[73,104],"issues":[74],"suffer":[75],"from":[76],"local":[77],"optimality":[78],"sensitivity":[80],"initial":[82],"conditions.":[83],"Additionally,":[84],"few":[85],"hardware":[86,160],"demonstrations":[87],"involving":[88],"large":[90],"team":[91,170],"of":[92,148,171],"heterogeneous":[93],"robots":[94,173],"with":[96],"long":[97],"horizons":[99],"exist.":[100],"work":[102],"addresses":[103],"gaps":[105],"by":[106],"proposing":[107],"an":[108],"iterative":[109],"sampling":[110],"Expectation-Maximization":[112],"algorithm":[113,131],"(iSEM)":[114],"learn":[116],"polices":[117],"using":[118],"only":[119],"trajectory":[120],"data":[121],"containing":[122],"observations,":[123],"MAs,":[124],"rewards.":[126],"Our":[127],"experiments":[128],"show":[129],"able":[133],"achieve":[135],"better":[136],"solution":[137],"quality":[138],"than":[139],"state-of-the-art":[141],"learning-based":[142],"methods.":[143],"We":[144],"implement":[145],"two":[146],"variants":[147],"Search":[150],"Rescue":[152],"(SAR)":[153],"(with":[155],"without":[157],"obstacles)":[158],"demonstrate":[162],"learned":[164],"policies":[165],"can":[166],"effectively":[167],"control":[168],"distributed":[172],"cooperate":[175],"partially":[178],"observable":[179],"stochastic":[180],"environment.":[181]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2023,"cited_by_count":3},{"year":2022,"cited_by_count":2},{"year":2021,"cited_by_count":3},{"year":2020,"cited_by_count":4},{"year":2019,"cited_by_count":5},{"year":2018,"cited_by_count":4}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}