{"id":"https://openalex.org/W3012936348","doi":"https://doi.org/10.23919/acc45564.2020.9147901","title":"Exchangeable Input Representations for Reinforcement Learning","display_name":"Exchangeable Input Representations for Reinforcement Learning","publication_year":2020,"publication_date":"2020-07-01","ids":{"openalex":"https://openalex.org/W3012936348","doi":"https://doi.org/10.23919/acc45564.2020.9147901","mag":"3012936348"},"language":"en","primary_location":{"id":"doi:10.23919/acc45564.2020.9147901","is_oa":false,"landing_page_url":"https://doi.org/10.23919/acc45564.2020.9147901","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 American Control Conference (ACC)","raw_type":"proceedings-article"},"type":"preprint","indexed_in":["arxiv","crossref","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2003.09022","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5061364633","display_name":"John Mern","orcid":"https://orcid.org/0000-0003-0269-2496"},"institutions":[{"id":"https://openalex.org/I97018004","display_name":"Stanford University","ror":"https://ror.org/00f54p054","country_code":"US","type":"education","lineage":["https://openalex.org/I97018004"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"John Mern","raw_affiliation_strings":["Stanford University, Stanford, California","Stanford University ()"],"affiliations":[{"raw_affiliation_string":"Stanford University, Stanford, California","institution_ids":["https://openalex.org/I97018004"]},{"raw_affiliation_string":"Stanford University ()","institution_ids":["https://openalex.org/I97018004"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5080725225","display_name":"Dorsa Sadigh","orcid":"https://orcid.org/0000-0002-7802-9183"},"institutions":[{"id":"https://openalex.org/I97018004","display_name":"Stanford University","ror":"https://ror.org/00f54p054","country_code":"US","type":"education","lineage":["https://openalex.org/I97018004"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Dorsa Sadigh","raw_affiliation_strings":["Stanford University, Stanford, California","Stanford University ()"],"affiliations":[{"raw_affiliation_string":"Stanford University, Stanford, California","institution_ids":["https://openalex.org/I97018004"]},{"raw_affiliation_string":"Stanford University ()","institution_ids":["https://openalex.org/I97018004"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5068326377","display_name":"Mykel J. Kochenderfer","orcid":"https://orcid.org/0000-0002-7238-9663"},"institutions":[{"id":"https://openalex.org/I97018004","display_name":"Stanford University","ror":"https://ror.org/00f54p054","country_code":"US","type":"education","lineage":["https://openalex.org/I97018004"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Mykel J. Kochenderfer","raw_affiliation_strings":["Stanford University, Stanford, California","Stanford University ()"],"affiliations":[{"raw_affiliation_string":"Stanford University, Stanford, California","institution_ids":["https://openalex.org/I97018004"]},{"raw_affiliation_string":"Stanford University ()","institution_ids":["https://openalex.org/I97018004"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5061364633"],"corresponding_institution_ids":["https://openalex.org/I97018004"],"apc_list":null,"apc_paid":null,"fwci":0.14685955,"has_fulltext":true,"cited_by_count":1,"citation_normalized_percentile":{"value":0.51533895,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":null,"issue":null,"first_page":"3971","last_page":"3976"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.9975000023841858,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.9943000078201294,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8534809947013855},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.7617464065551758},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6682272553443909},{"id":"https://openalex.org/keywords/invariant","display_name":"Invariant (physics)","score":0.6465397477149963},{"id":"https://openalex.org/keywords/variety","display_name":"Variety (cybernetics)","score":0.5889787077903748},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5731311440467834},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5627177357673645},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.5270189046859741},{"id":"https://openalex.org/keywords/space","display_name":"Space (punctuation)","score":0.5183266401290894},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.49897265434265137},{"id":"https://openalex.org/keywords/variable","display_name":"Variable (mathematics)","score":0.48993462324142456},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4241589903831482},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.23790240287780762}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8534809947013855},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.7617464065551758},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6682272553443909},{"id":"https://openalex.org/C190470478","wikidata":"https://www.wikidata.org/wiki/Q2370229","display_name":"Invariant (physics)","level":2,"score":0.6465397477149963},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.5889787077903748},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5731311440467834},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5627177357673645},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.5270189046859741},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.5183266401290894},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.49897265434265137},{"id":"https://openalex.org/C182365436","wikidata":"https://www.wikidata.org/wiki/Q50701","display_name":"Variable (mathematics)","level":2,"score":0.48993462324142456},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4241589903831482},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.23790240287780762},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C43617362","wikidata":"https://www.wikidata.org/wiki/Q170050","display_name":"Chromatography","level":1,"score":0.0},{"id":"https://openalex.org/C37914503","wikidata":"https://www.wikidata.org/wiki/Q156495","display_name":"Mathematical physics","level":1,"score":0.0},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.0}],"mesh":[],"locations_count":4,"locations":[{"id":"doi:10.23919/acc45564.2020.9147901","is_oa":false,"landing_page_url":"https://doi.org/10.23919/acc45564.2020.9147901","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 American Control Conference (ACC)","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:2003.09022","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2003.09022","pdf_url":"https://arxiv.org/pdf/2003.09022","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"text"},{"id":"mag:3012936348","is_oa":true,"landing_page_url":"http://export.arxiv.org/pdf/2003.09022","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"arXiv (Cornell University)","raw_type":null},{"id":"doi:10.48550/arxiv.2003.09022","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2003.09022","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2003.09022","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2003.09022","pdf_url":"https://arxiv.org/pdf/2003.09022","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"text"},"sustainable_development_goals":[{"display_name":"No poverty","score":0.5899999737739563,"id":"https://metadata.un.org/sdg/1"}],"awards":[],"funders":[],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W3012936348.pdf","grobid_xml":"https://content.openalex.org/works/W3012936348.grobid-xml"},"referenced_works_count":31,"referenced_works":["https://openalex.org/W186800770","https://openalex.org/W603908379","https://openalex.org/W1514535095","https://openalex.org/W1757796397","https://openalex.org/W1902237438","https://openalex.org/W2101355568","https://openalex.org/W2468354762","https://openalex.org/W2548322271","https://openalex.org/W2736601468","https://openalex.org/W2753798143","https://openalex.org/W2766447205","https://openalex.org/W2782656435","https://openalex.org/W2945709907","https://openalex.org/W2950178297","https://openalex.org/W2963184621","https://openalex.org/W2963260084","https://openalex.org/W2963403868","https://openalex.org/W3032554070","https://openalex.org/W6607578298","https://openalex.org/W6618372016","https://openalex.org/W6627932998","https://openalex.org/W6630875275","https://openalex.org/W6637967152","https://openalex.org/W6696324988","https://openalex.org/W6719911377","https://openalex.org/W6739901393","https://openalex.org/W6741002519","https://openalex.org/W6744580074","https://openalex.org/W6748089505","https://openalex.org/W6763091767","https://openalex.org/W6770566355"],"related_works":["https://openalex.org/W3046086792","https://openalex.org/W3120402410","https://openalex.org/W3108819287","https://openalex.org/W100525821","https://openalex.org/W3109468383","https://openalex.org/W1500126690","https://openalex.org/W3181753487","https://openalex.org/W3034531178","https://openalex.org/W3125556910","https://openalex.org/W2172099713","https://openalex.org/W3169596881","https://openalex.org/W2683470288","https://openalex.org/W2997063223","https://openalex.org/W2947229285","https://openalex.org/W2952079278","https://openalex.org/W3206491550","https://openalex.org/W2755393088","https://openalex.org/W1493147646","https://openalex.org/W2911682288","https://openalex.org/W2894384847"],"abstract_inverted_index":{"Poor":[0],"sample":[1,82],"efficiency":[2,83],"is":[3,31,50,67],"a":[4,51,89],"major":[5],"limitation":[6],"of":[7,53,58,75,91],"deep":[8],"reinforcement":[9],"learning":[10],"in":[11,45,81],"many":[12],"domains.":[13],"This":[14],"work":[15],"presents":[16],"an":[17,26,46],"attention-based":[18],"method":[19,66],"to":[20,35,69,100],"project":[21],"neural":[22],"network":[23],"inputs":[24,57,71],"into":[25],"efficient":[27],"representation":[28,43,97],"space":[29,48],"that":[30,40,49,64,95,103],"invariant":[32],"under":[33],"changes":[34],"input":[36,47],"ordering.":[37],"We":[38,61,93],"show":[39,63,94],"our":[41,65,96],"proposed":[42],"results":[44],"factor":[52],"$m!$":[54],"smaller":[55],"for":[56,84],"$m$":[59],"objects.":[60,76],"also":[62],"able":[68],"represent":[70],"over":[72],"variable":[73],"numbers":[74],"Our":[77],"experiments":[78],"demonstrate":[79],"improvements":[80],"policy":[85],"gradient":[86],"methods":[87],"on":[88],"variety":[90],"tasks.":[92],"allows":[98],"us":[99],"solve":[101],"problems":[102],"are":[104],"otherwise":[105],"intractable":[106],"when":[107],"using":[108],"na\u00efve":[109],"approaches.":[110]},"counts_by_year":[{"year":2022,"cited_by_count":1}],"updated_date":"2026-02-09T09:26:11.010843","created_date":"2025-10-10T00:00:00"}