{"id":"https://openalex.org/W3131063630","doi":"https://doi.org/10.1109/iros45743.2020.9341696","title":"Tensor Action Spaces for Multi-agent Robot Transfer Learning","display_name":"Tensor Action Spaces for Multi-agent Robot Transfer Learning","publication_year":2020,"publication_date":"2020-10-24","ids":{"openalex":"https://openalex.org/W3131063630","doi":"https://doi.org/10.1109/iros45743.2020.9341696","mag":"3131063630"},"language":"en","primary_location":{"id":"doi:10.1109/iros45743.2020.9341696","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros45743.2020.9341696","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5005267157","display_name":"Devin Schwab","orcid":"https://orcid.org/0000-0003-0172-9744"},"institutions":[{"id":"https://openalex.org/I74973139","display_name":"Carnegie Mellon University","ror":"https://ror.org/05x2bcf33","country_code":"US","type":"education","lineage":["https://openalex.org/I74973139"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Devin Schwab","raw_affiliation_strings":["Carnegie Mellon University, Pittsburgh, PA, USA"],"affiliations":[{"raw_affiliation_string":"Carnegie Mellon University, Pittsburgh, PA, USA","institution_ids":["https://openalex.org/I74973139"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101638642","display_name":"Yifeng Zhu","orcid":"https://orcid.org/0000-0003-2580-5748"},"institutions":[{"id":"https://openalex.org/I86519309","display_name":"The University of Texas at Austin","ror":"https://ror.org/00hj54h04","country_code":"US","type":"education","lineage":["https://openalex.org/I86519309"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Yifeng Zhu","raw_affiliation_strings":["University of Texas, Austin, Austin, TX, USA"],"affiliations":[{"raw_affiliation_string":"University of Texas, Austin, Austin, TX, USA","institution_ids":["https://openalex.org/I86519309"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5088276691","display_name":"Manuela Veloso","orcid":"https://orcid.org/0000-0001-6738-238X"},"institutions":[{"id":"https://openalex.org/I74973139","display_name":"Carnegie Mellon University","ror":"https://ror.org/05x2bcf33","country_code":"US","type":"education","lineage":["https://openalex.org/I74973139"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Manuela Veloso","raw_affiliation_strings":["Carnegie Mellon University, Pittsburgh, PA, USA"],"affiliations":[{"raw_affiliation_string":"Carnegie Mellon University, Pittsburgh, PA, USA","institution_ids":["https://openalex.org/I74973139"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5005267157"],"corresponding_institution_ids":["https://openalex.org/I74973139"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":2,"citation_normalized_percentile":{"value":0.20531842,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":95},"biblio":{"volume":null,"issue":null,"first_page":"5380","last_page":"5386"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12303","display_name":"Tensor decomposition and applications","score":0.965399980545044,"subfield":{"id":"https://openalex.org/subfields/2605","display_name":"Computational Mathematics"},"field":{"id":"https://openalex.org/fields/26","display_name":"Mathematics"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9598000049591064,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.764499306678772},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7626473903656006},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.640972375869751},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.5279312133789062},{"id":"https://openalex.org/keywords/tensor","display_name":"Tensor (intrinsic definition)","score":0.526879608631134},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.49100688099861145},{"id":"https://openalex.org/keywords/transfer-of-learning","display_name":"Transfer of learning","score":0.4706417918205261},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.4605196714401245},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.45080631971359253},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4493168890476227},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.34668970108032227},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.3253137469291687}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.764499306678772},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7626473903656006},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.640972375869751},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.5279312133789062},{"id":"https://openalex.org/C155281189","wikidata":"https://www.wikidata.org/wiki/Q3518150","display_name":"Tensor (intrinsic definition)","level":2,"score":0.526879608631134},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.49100688099861145},{"id":"https://openalex.org/C150899416","wikidata":"https://www.wikidata.org/wiki/Q1820378","display_name":"Transfer of learning","level":2,"score":0.4706417918205261},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.4605196714401245},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.45080631971359253},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4493168890476227},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.34668970108032227},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3253137469291687},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C202444582","wikidata":"https://www.wikidata.org/wiki/Q837863","display_name":"Pure mathematics","level":1,"score":0.0},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/iros45743.2020.9341696","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros45743.2020.9341696","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":32,"referenced_works":["https://openalex.org/W1457482454","https://openalex.org/W1757796397","https://openalex.org/W1903029394","https://openalex.org/W2121696237","https://openalex.org/W2145339207","https://openalex.org/W2155968351","https://openalex.org/W2173248099","https://openalex.org/W2173564293","https://openalex.org/W2257979135","https://openalex.org/W2575472443","https://openalex.org/W2746553466","https://openalex.org/W2766447205","https://openalex.org/W2772709170","https://openalex.org/W2808414353","https://openalex.org/W2951799221","https://openalex.org/W2963616477","https://openalex.org/W2963864421","https://openalex.org/W2964043796","https://openalex.org/W2964338167","https://openalex.org/W2990747716","https://openalex.org/W3003293872","https://openalex.org/W4298857966","https://openalex.org/W6628598448","https://openalex.org/W6637967152","https://openalex.org/W6678250138","https://openalex.org/W6684921986","https://openalex.org/W6685444567","https://openalex.org/W6691861496","https://openalex.org/W6692846177","https://openalex.org/W6713411898","https://openalex.org/W6746177919","https://openalex.org/W6752133560"],"related_works":["https://openalex.org/W3096874164","https://openalex.org/W2937181779","https://openalex.org/W2386410636","https://openalex.org/W1985560493","https://openalex.org/W2357975469","https://openalex.org/W2145363145","https://openalex.org/W1626977535","https://openalex.org/W2341346307","https://openalex.org/W3168977894","https://openalex.org/W187740018"],"abstract_inverted_index":{"We":[0,97,122,155],"explore":[1],"using":[2],"reinforcement":[3],"learning":[4,13,236],"on":[5],"single":[6],"and":[7,33,45,50,60,105,147,153,167,199,233],"multi-agent":[8],"systems":[9],"such":[10,63,211],"that":[11,64,101,125,158,188],"after":[12],"is":[14,70,132],"finished":[15],"we":[16,39,76,186,213],"can":[17,113,193,214],"apply":[18],"a":[19,54,78,129,222],"policy":[20,131,138,232],"zero-shot":[21,65],"to":[22,42,83,134,172,196,206,230],"new":[23],"environment":[24,145,168,226],"sizes,":[25],"as":[26,28,91],"well":[27,85],"different":[29],"number":[30,150],"of":[31,53,128,137,151,175,219],"agents":[32,152],"entities.":[34,154],"Building":[35],"off":[36],"previous":[37,74],"work,":[38,75],"show":[40,98,124,157],"how":[41],"map":[43],"back":[44],"forth":[46],"between":[47],"the":[48,87,92,110,126,135,143,159,173,182,231],"state":[49,104],"action":[51,106],"space":[52,107],"standard":[55],"Markov":[56],"Decision":[57],"Process":[58],"(MDP)":[59],"multi-dimensional":[61],"tensors":[62],"transfer":[66,162],"in":[67,73,119,142,181,221],"these":[68],"cases":[69],"possible.":[71],"Like":[72],"use":[77],"special":[79],"network":[80],"architecture":[81,112],"designed":[82],"work":[84],"with":[86,109,148,203,227],"tensor":[88,103],"representation,":[89],"known":[90],"Fully":[93],"Convolutional":[94],"Q-Network":[95],"(FCQN).":[96],"simulation":[99,190,208],"results":[100],"this":[102],"combined":[108],"FCQN":[111],"learn":[114],"faster":[115],"than":[116],"traditional":[117],"representations":[118],"our":[120,189,207],"environments.":[121,184],"also":[123,156],"performance":[127,136,163,174,205],"transferred":[130,183],"comparable":[133,171,204],"trained":[139,191],"from":[140,177],"scratch":[141,178],"modified":[144,149],"sizes":[146,166,169],"zero-":[160],"shot":[161],"across":[164],"team":[165],"remains":[170],"training":[176],"specific":[179],"policies":[180,192,212],"Finally,":[185],"demonstrate":[187],"be":[194],"applied":[195],"real":[197,200],"robots":[198,220],"sensor":[201],"data":[202],"results.":[209],"Using":[210],"run":[215],"variable":[216,223],"sized":[217,224],"teams":[218],"operating":[225],"no":[228,234],"changes":[229],"additional":[235],"necessary.":[237]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":1}],"updated_date":"2025-11-14T23:14:49.485078","created_date":"2025-10-10T00:00:00"}