{"id":"https://openalex.org/W3110876951","doi":"https://doi.org/10.1145/3459637.3482357","title":"Jointly-Learned State-Action Embedding for Efficient Reinforcement Learning","display_name":"Jointly-Learned State-Action Embedding for Efficient Reinforcement Learning","publication_year":2021,"publication_date":"2021-10-26","ids":{"openalex":"https://openalex.org/W3110876951","doi":"https://doi.org/10.1145/3459637.3482357","mag":"3110876951"},"language":"en","primary_location":{"id":"doi:10.1145/3459637.3482357","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3459637.3482357","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 30th ACM International Conference on Information &amp; Knowledge Management","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["arxiv","crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2010.04444","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5079959028","display_name":"Paul J. Pritz","orcid":null},"institutions":[{"id":"https://openalex.org/I47508984","display_name":"Imperial College London","ror":"https://ror.org/041kmwe10","country_code":"GB","type":"education","lineage":["https://openalex.org/I47508984"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Paul J. Pritz","raw_affiliation_strings":["Imperial College London, London, United Kingdom"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Imperial College London, London, United Kingdom","institution_ids":["https://openalex.org/I47508984"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5035843722","display_name":"Liang Ma","orcid":"https://orcid.org/0000-0003-4228-258X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liang Ma","raw_affiliation_strings":["Dataminr, New York, NY, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Dataminr, New York, NY, USA","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5020917506","display_name":"Kin K. Leung","orcid":"https://orcid.org/0000-0002-3860-6257"},"institutions":[{"id":"https://openalex.org/I47508984","display_name":"Imperial College London","ror":"https://ror.org/041kmwe10","country_code":"GB","type":"education","lineage":["https://openalex.org/I47508984"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Kin K. Leung","raw_affiliation_strings":["Imperial College London, London, United Kingdom"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Imperial College London, London, United Kingdom","institution_ids":["https://openalex.org/I47508984"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":6,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10603","display_name":"Smart Grid Energy Management","score":0.9786999821662903,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9488000273704529,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.9001969695091248},{"id":"https://openalex.org/keywords/embedding","display_name":"Embedding","score":0.7730193138122559},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7291859984397888},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.7170236706733704},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.6057131886482239},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5754233002662659},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.5532813668251038},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.3933987021446228},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.12392666935920715},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.07436320185661316}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.9001969695091248},{"id":"https://openalex.org/C41608201","wikidata":"https://www.wikidata.org/wiki/Q980509","display_name":"Embedding","level":2,"score":0.7730193138122559},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7291859984397888},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.7170236706733704},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.6057131886482239},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5754233002662659},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.5532813668251038},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3933987021446228},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.12392666935920715},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.07436320185661316},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1145/3459637.3482357","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3459637.3482357","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 30th ACM International Conference on Information &amp; Knowledge Management","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:2010.04444","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2010.04444","pdf_url":"https://arxiv.org/pdf/2010.04444","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2010.04444","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2010.04444","pdf_url":"https://arxiv.org/pdf/2010.04444","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[{"score":0.4300000071525574,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":51,"referenced_works":["https://openalex.org/W1591992921","https://openalex.org/W1614298861","https://openalex.org/W1757796397","https://openalex.org/W1934909785","https://openalex.org/W2058735307","https://openalex.org/W2138108551","https://openalex.org/W2145339207","https://openalex.org/W2145805610","https://openalex.org/W2158782408","https://openalex.org/W2164858444","https://openalex.org/W2183243664","https://openalex.org/W2188233853","https://openalex.org/W2215378786","https://openalex.org/W2397240726","https://openalex.org/W2546571074","https://openalex.org/W2568646110","https://openalex.org/W2570734388","https://openalex.org/W2617816519","https://openalex.org/W2731083990","https://openalex.org/W2736601468","https://openalex.org/W2781726626","https://openalex.org/W2790924949","https://openalex.org/W2795843265","https://openalex.org/W2890208753","https://openalex.org/W2898273872","https://openalex.org/W2902391430","https://openalex.org/W2920362155","https://openalex.org/W2949801941","https://openalex.org/W2950521938","https://openalex.org/W2950577311","https://openalex.org/W2953072278","https://openalex.org/W2953132212","https://openalex.org/W2963488340","https://openalex.org/W2964158321","https://openalex.org/W2964332824","https://openalex.org/W2969520741","https://openalex.org/W2981211936","https://openalex.org/W2997101648","https://openalex.org/W3036185205","https://openalex.org/W3092161856","https://openalex.org/W3098826995","https://openalex.org/W3105635884","https://openalex.org/W3121933628","https://openalex.org/W3122690883","https://openalex.org/W3125947392","https://openalex.org/W4287660295","https://openalex.org/W4288614963","https://openalex.org/W4293517721","https://openalex.org/W4297786749","https://openalex.org/W4298857966","https://openalex.org/W4394672593"],"related_works":["https://openalex.org/W2081900870","https://openalex.org/W4306904969","https://openalex.org/W3162204513","https://openalex.org/W2138720691","https://openalex.org/W4362501864","https://openalex.org/W4380318855","https://openalex.org/W2031695474","https://openalex.org/W2024136090","https://openalex.org/W2586732548","https://openalex.org/W3049728571"],"abstract_inverted_index":{"While":[0],"reinforcement":[1,25,85,114],"learning":[2,26,86,101],"has":[3,38],"achieved":[4],"considerable":[5],"successes":[6],"in":[7,120,174,196],"recent":[8],"years,":[9],"state-of-the-art":[10,194],"models":[11,195],"are":[12],"often":[13],"still":[14],"limited":[15],"by":[16,171],"the":[17,35,46,63,76,80,132,156,175],"size":[18],"of":[19,31,48,82,110,131,179],"state":[20,32],"and":[21,34,52,91,105,112,123,139,141,169,187],"action":[22],"spaces.":[23,177],"Model-free":[24],"approaches":[27,56],"use":[28,128],"some":[29],"form":[30],"representations":[33,158],"latest":[36],"work":[37],"explored":[39],"embedding":[40,176],"techniques":[41],"for":[42,79,99,103,137],"actions,":[43,61],"both":[44,121,167,197],"with":[45,200],"aim":[47],"achieving":[49],"better":[50,164],"generalization":[51,165],"applicability.":[53],"However,":[54],"these":[55,148],"consider":[57],"only":[58],"states":[59,90,104,138,168],"or":[60],"ignoring":[62],"interaction":[64],"between":[65],"them":[66],"when":[67],"generating":[68],"embedded":[69,89,157],"representations.":[70],"In":[71,153],"this":[72,154],"work,":[73],"we":[74,127],"establish":[75],"theoretical":[77],"foundations":[78],"validity":[81],"training":[83],"a":[84,96,129,143,151],"agent":[87],"using":[88],"actions.":[92],"We":[93],"then":[94],"propose":[95],"new":[97],"approach":[98,162,181],"jointly":[100],"embeddings":[102,136],"actions":[106,140,170],"that":[107,146],"combines":[108],"aspects":[109],"model-free":[111],"model-based":[113],"learning,":[115],"which":[116],"can":[117],"be":[118],"applied":[119],"discrete":[122],"continuous":[124],"domains.":[125],"Specifically,":[126],"model":[130],"environment":[133],"to":[134,149],"obtain":[135],"present":[142],"generic":[144],"architecture":[145],"leverages":[147],"learn":[150],"policy.":[152],"way,":[155],"obtained":[159],"via":[160],"our":[161,180],"enable":[163],"over":[166],"capturing":[172],"similarities":[173],"Evaluations":[178],"on":[182],"several":[183],"gaming,":[184],"robotic":[185],"control,":[186],"recommender":[188],"systems":[189],"show":[190],"it":[191],"significantly":[192],"outperforms":[193],"discrete/continuous":[198],"domains":[199],"large":[201],"state/action":[202],"spaces,":[203],"thus":[204],"confirming":[205],"its":[206],"efficacy.":[207]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":2},{"year":2023,"cited_by_count":2},{"year":2021,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}