{"id":"https://openalex.org/W3042064451","doi":"https://doi.org/10.24963/ijcai.2020/748","title":"Generalized Representation Learning Methods for Deep Reinforcement Learning","display_name":"Generalized Representation Learning Methods for Deep Reinforcement Learning","publication_year":2020,"publication_date":"2020-07-01","ids":{"openalex":"https://openalex.org/W3042064451","doi":"https://doi.org/10.24963/ijcai.2020/748","mag":"3042064451"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2020/748","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2020/748","pdf_url":"https://www.ijcai.org/proceedings/2020/0748.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://www.ijcai.org/proceedings/2020/0748.pdf","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5112318879","display_name":"Hanhua Zhu","orcid":null},"institutions":[{"id":"https://openalex.org/I74801974","display_name":"The University of Tokyo","ror":"https://ror.org/057zh3y96","country_code":"JP","type":"education","lineage":["https://openalex.org/I74801974"]}],"countries":["JP"],"is_corresponding":true,"raw_author_name":"Hanhua Zhu","raw_affiliation_strings":["The University of Tokyo","GSII, The University of Tokyo, Japan"],"affiliations":[{"raw_affiliation_string":"The University of Tokyo","institution_ids":["https://openalex.org/I74801974"]},{"raw_affiliation_string":"GSII, The University of Tokyo, Japan","institution_ids":["https://openalex.org/I74801974"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5112318879"],"corresponding_institution_ids":["https://openalex.org/I74801974"],"apc_list":null,"apc_paid":null,"fwci":0.1326,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.53330608,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":null,"issue":null,"first_page":"5216","last_page":"5217"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11975","display_name":"Evolutionary Algorithms and Applications","score":0.9965999722480774,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9926000237464905,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.9385669231414795},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6984182596206665},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.671270489692688},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.662040650844574},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.515130877494812},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.5012936592102051},{"id":"https://openalex.org/keywords/state-space","display_name":"State space","score":0.48938196897506714},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.46216273307800293},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.42820096015930176},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.16470319032669067},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.0987057089805603},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.0815979540348053},{"id":"https://openalex.org/keywords/statistics","display_name":"Statistics","score":0.06442534923553467}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.9385669231414795},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6984182596206665},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.671270489692688},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.662040650844574},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.515130877494812},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.5012936592102051},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.48938196897506714},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.46216273307800293},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.42820096015930176},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.16470319032669067},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.0987057089805603},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.0815979540348053},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.06442534923553467},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0},{"id":"https://openalex.org/C43617362","wikidata":"https://www.wikidata.org/wiki/Q170050","display_name":"Chromatography","level":1,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C66938386","wikidata":"https://www.wikidata.org/wiki/Q633538","display_name":"Structural engineering","level":1,"score":0.0},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.24963/ijcai.2020/748","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2020/748","pdf_url":"https://www.ijcai.org/proceedings/2020/0748.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.24963/ijcai.2020/748","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2020/748","pdf_url":"https://www.ijcai.org/proceedings/2020/0748.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W3042064451.pdf","grobid_xml":"https://content.openalex.org/works/W3042064451.grobid-xml"},"referenced_works_count":9,"referenced_works":["https://openalex.org/W2145339207","https://openalex.org/W2823112946","https://openalex.org/W2889347284","https://openalex.org/W2963074410","https://openalex.org/W2963495494","https://openalex.org/W2964342357","https://openalex.org/W2998825830","https://openalex.org/W4288294128","https://openalex.org/W4297797010"],"related_works":["https://openalex.org/W4310083477","https://openalex.org/W4225571923","https://openalex.org/W3212257828","https://openalex.org/W2999580272","https://openalex.org/W4297873223","https://openalex.org/W3009457412","https://openalex.org/W2350784623","https://openalex.org/W2126211886","https://openalex.org/W2579634771","https://openalex.org/W2034019356"],"abstract_inverted_index":{"Deep":[0],"reinforcement":[1,9],"learning":[2,10,29],"(DRL)":[3],"increases":[4],"the":[5,63],"successful":[6],"applications":[7],"of":[8,53,58,65],"(RL)":[11],"techniques":[12],"but":[13],"also":[14],"brings":[15],"challenges":[16],"such":[17],"as":[18],"low":[19],"sample":[20,51],"efficiency.":[21],"In":[22],"this":[23],"work,":[24],"I":[25,44],"propose":[26],"generalized":[27],"representation":[28],"methods":[30,48],"to":[31],"obtain":[32],"compact":[33],"state":[34,59],"space":[35],"suitable":[36],"for":[37],"RL":[38,54],"from":[39],"a":[40],"raw":[41],"observation":[42],"state.":[43],"expect":[45],"my":[46],"new":[47],"will":[49],"increase":[50],"efficiency":[52],"by":[55],"understandable":[56],"representations":[57],"and":[60],"therefore":[61],"improve":[62],"performance":[64],"RL.":[66]},"counts_by_year":[{"year":2022,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}