{"id":"https://openalex.org/W4390660424","doi":"https://doi.org/10.1109/tnnls.2023.3344880","title":"Compact Goal Representation Learning via Information Bottleneck in Goal-Conditioned Reinforcement Learning","display_name":"Compact Goal Representation Learning via Information Bottleneck in Goal-Conditioned Reinforcement Learning","publication_year":2024,"publication_date":"2024-01-08","ids":{"openalex":"https://openalex.org/W4390660424","doi":"https://doi.org/10.1109/tnnls.2023.3344880","pmid":"https://pubmed.ncbi.nlm.nih.gov/38190683"},"language":"en","primary_location":{"id":"doi:10.1109/tnnls.2023.3344880","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tnnls.2023.3344880","pdf_url":null,"source":{"id":"https://openalex.org/S4210175523","display_name":"IEEE Transactions on Neural Networks and Learning Systems","issn_l":"2162-237X","issn":["2162-237X","2162-2388"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Neural Networks and Learning Systems","raw_type":"journal-article"},"type":"article","indexed_in":["crossref","pubmed"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5083589564","display_name":"Qiming Zou","orcid":"https://orcid.org/0000-0001-6683-0056"},"institutions":[{"id":"https://openalex.org/I135598925","display_name":"Kyushu University","ror":"https://ror.org/00p4k0j84","country_code":"JP","type":"education","lineage":["https://openalex.org/I135598925"]}],"countries":["JP"],"is_corresponding":true,"raw_author_name":"Qiming Zou","raw_affiliation_strings":["Graduate School of Systems Life Sciences, Kyushu University, Fukuoka, Japan"],"affiliations":[{"raw_affiliation_string":"Graduate School of Systems Life Sciences, Kyushu University, Fukuoka, Japan","institution_ids":["https://openalex.org/I135598925"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5049568882","display_name":"Einoshin Suzuki","orcid":"https://orcid.org/0000-0001-7743-6177"},"institutions":[{"id":"https://openalex.org/I135598925","display_name":"Kyushu University","ror":"https://ror.org/00p4k0j84","country_code":"JP","type":"education","lineage":["https://openalex.org/I135598925"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Einoshin Suzuki","raw_affiliation_strings":["Graduate School and Faculty of Information Science and Electrical Engineering, Kyushu University, Fukuoka, Japan"],"affiliations":[{"raw_affiliation_string":"Graduate School and Faculty of Information Science and Electrical Engineering, Kyushu University, Fukuoka, Japan","institution_ids":["https://openalex.org/I135598925"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5083589564"],"corresponding_institution_ids":["https://openalex.org/I135598925"],"apc_list":null,"apc_paid":null,"fwci":0.7301,"has_fulltext":false,"cited_by_count":2,"citation_normalized_percentile":{"value":0.7248175,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":95},"biblio":{"volume":"36","issue":"2","first_page":"2368","last_page":"2381"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9984999895095825,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9984999895095825,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.9911999702453613,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9739000201225281,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8506598472595215},{"id":"https://openalex.org/keywords/information-bottleneck-method","display_name":"Information bottleneck method","score":0.8028696775436401},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7384488582611084},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6795573830604553},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6076215505599976},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.5975762605667114},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.5572527050971985},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.5449683666229248},{"id":"https://openalex.org/keywords/overfitting","display_name":"Overfitting","score":0.5209295153617859},{"id":"https://openalex.org/keywords/bottleneck","display_name":"Bottleneck","score":0.48935407400131226},{"id":"https://openalex.org/keywords/multi-task-learning","display_name":"Multi-task learning","score":0.4520053267478943},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.11978206038475037},{"id":"https://openalex.org/keywords/mutual-information","display_name":"Mutual information","score":0.11014711856842041},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.10115766525268555}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8506598472595215},{"id":"https://openalex.org/C60008888","wikidata":"https://www.wikidata.org/wiki/Q6031013","display_name":"Information bottleneck method","level":3,"score":0.8028696775436401},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7384488582611084},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6795573830604553},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6076215505599976},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.5975762605667114},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5572527050971985},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.5449683666229248},{"id":"https://openalex.org/C22019652","wikidata":"https://www.wikidata.org/wiki/Q331309","display_name":"Overfitting","level":3,"score":0.5209295153617859},{"id":"https://openalex.org/C2780513914","wikidata":"https://www.wikidata.org/wiki/Q18210350","display_name":"Bottleneck","level":2,"score":0.48935407400131226},{"id":"https://openalex.org/C28006648","wikidata":"https://www.wikidata.org/wiki/Q6934509","display_name":"Multi-task learning","level":3,"score":0.4520053267478943},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.11978206038475037},{"id":"https://openalex.org/C152139883","wikidata":"https://www.wikidata.org/wiki/Q252973","display_name":"Mutual information","level":2,"score":0.11014711856842041},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.10115766525268555},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C187736073","wikidata":"https://www.wikidata.org/wiki/Q2920921","display_name":"Management","level":1,"score":0.0},{"id":"https://openalex.org/C149635348","wikidata":"https://www.wikidata.org/wiki/Q193040","display_name":"Embedded system","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0}],"mesh":[{"descriptor_ui":"D000069550","descriptor_name":"Machine Learning","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D000069550","descriptor_name":"Machine Learning","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D000069550","descriptor_name":"Machine Learning","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D000465","descriptor_name":"Algorithms","qualifier_ui":null,"qualifier_name":null,"is_major_topic":false},{"descriptor_ui":"D000465","descriptor_name":"Algorithms","qualifier_ui":null,"qualifier_name":null,"is_major_topic":false},{"descriptor_ui":"D000465","descriptor_name":"Algorithms","qualifier_ui":null,"qualifier_name":null,"is_major_topic":false},{"descriptor_ui":"D006040","descriptor_name":"Goals","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D006040","descriptor_name":"Goals","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D006040","descriptor_name":"Goals","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D006801","descriptor_name":"Humans","qualifier_ui":null,"qualifier_name":null,"is_major_topic":false},{"descriptor_ui":"D006801","descriptor_name":"Humans","qualifier_ui":null,"qualifier_name":null,"is_major_topic":false},{"descriptor_ui":"D006801","descriptor_name":"Humans","qualifier_ui":null,"qualifier_name":null,"is_major_topic":false},{"descriptor_ui":"D012054","descriptor_name":"Reinforcement, Psychology","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D012054","descriptor_name":"Reinforcement, Psychology","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D012054","descriptor_name":"Reinforcement, Psychology","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D012201","descriptor_name":"Reward","qualifier_ui":null,"qualifier_name":null,"is_major_topic":false},{"descriptor_ui":"D012201","descriptor_name":"Reward","qualifier_ui":null,"qualifier_name":null,"is_major_topic":false},{"descriptor_ui":"D012201","descriptor_name":"Reward","qualifier_ui":null,"qualifier_name":null,"is_major_topic":false},{"descriptor_ui":"D016571","descriptor_name":"Neural Networks, Computer","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D016571","descriptor_name":"Neural Networks, Computer","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true},{"descriptor_ui":"D016571","descriptor_name":"Neural Networks, Computer","qualifier_ui":null,"qualifier_name":null,"is_major_topic":true}],"locations_count":2,"locations":[{"id":"doi:10.1109/tnnls.2023.3344880","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tnnls.2023.3344880","pdf_url":null,"source":{"id":"https://openalex.org/S4210175523","display_name":"IEEE Transactions on Neural Networks and Learning Systems","issn_l":"2162-237X","issn":["2162-237X","2162-2388"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Neural Networks and Learning Systems","raw_type":"journal-article"},{"id":"pmid:38190683","is_oa":false,"landing_page_url":"https://pubmed.ncbi.nlm.nih.gov/38190683","pdf_url":null,"source":{"id":"https://openalex.org/S4306525036","display_name":"PubMed","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I1299303238","host_organization_name":"National Institutes of Health","host_organization_lineage":["https://openalex.org/I1299303238"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE transactions on neural networks and learning systems","raw_type":null}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G5516505452","display_name":null,"funder_award_id":"202008050300","funder_id":"https://openalex.org/F4320322725","funder_display_name":"China Scholarship Council"}],"funders":[{"id":"https://openalex.org/F4320322725","display_name":"China Scholarship Council","ror":"https://ror.org/04atp4p48"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":53,"referenced_works":["https://openalex.org/W2089468765","https://openalex.org/W2123469175","https://openalex.org/W2145339207","https://openalex.org/W2160747081","https://openalex.org/W2593769898","https://openalex.org/W2842511635","https://openalex.org/W2962887844","https://openalex.org/W2963800628","https://openalex.org/W2964184826","https://openalex.org/W2967853831","https://openalex.org/W2970641574","https://openalex.org/W3011120880","https://openalex.org/W3035725276","https://openalex.org/W3040427614","https://openalex.org/W3113270693","https://openalex.org/W3134939669","https://openalex.org/W4205820560","https://openalex.org/W4214717370","https://openalex.org/W4285601030","https://openalex.org/W4293872189","https://openalex.org/W4297808394","https://openalex.org/W4385245566","https://openalex.org/W6616173779","https://openalex.org/W6635701881","https://openalex.org/W6637108112","https://openalex.org/W6640963894","https://openalex.org/W6683535230","https://openalex.org/W6712173889","https://openalex.org/W6729906282","https://openalex.org/W6740801417","https://openalex.org/W6748599296","https://openalex.org/W6753060773","https://openalex.org/W6758714319","https://openalex.org/W6760560886","https://openalex.org/W6767047803","https://openalex.org/W6767141496","https://openalex.org/W6769035977","https://openalex.org/W6773246137","https://openalex.org/W6773447848","https://openalex.org/W6774784542","https://openalex.org/W6775686901","https://openalex.org/W6776867236","https://openalex.org/W6776901495","https://openalex.org/W6779160628","https://openalex.org/W6779265984","https://openalex.org/W6779715229","https://openalex.org/W6779827379","https://openalex.org/W6780523241","https://openalex.org/W6790878036","https://openalex.org/W6800456564","https://openalex.org/W6802648193","https://openalex.org/W6810313676","https://openalex.org/W6810906561"],"related_works":["https://openalex.org/W4401325445","https://openalex.org/W2622284819","https://openalex.org/W1504394672","https://openalex.org/W3089381707","https://openalex.org/W4285254085","https://openalex.org/W3034190530","https://openalex.org/W2741297526","https://openalex.org/W4295728955","https://openalex.org/W3129794609","https://openalex.org/W2949033103"],"abstract_inverted_index":{"We":[0,176],"propose":[1],"an":[2],"Information":[3],"bottleneck":[4],"(IB)":[5],"for":[6,14,31],"Goal":[7],"representation":[8,60,121],"learning":[9,18,98,127],"(InfoGoal),":[10],"a":[11,23,116,144,156],"self-supervised":[12,126],"method":[13,187],"generalizable":[15],"goal-conditioned":[16,77],"reinforcement":[17],"(RL).":[19],"Goal-conditioned":[20],"RL":[21],"learns":[22,115],"policy":[24,37,153,195],"from":[25],"reward":[26,101],"signals":[27],"to":[28,54,71,82,138,154],"predict":[29],"actions":[30],"reaching":[32,202],"desired":[33,163],"goals.":[34,57,205],"However,":[35,75],"the":[36,40,45,84,94,104,133,162,198],"would":[38],"overfit":[39],"task-irrelevant":[41,67,90],"information":[42,64,68,88,91,107,111,136,141],"contained":[43],"in":[44,76,192],"goal":[46,59,120,164],"and":[47,65,89,96,103,118,124,171,182,185,197],"may":[48],"be":[49,166],"falsely":[50],"or":[51],"ineffectively":[52],"generalized":[53],"reach":[55],"other":[56],"A":[58],"containing":[61],"sufficient":[62,119],"task-relevant":[63,87,106,148],"minimum":[66,117],"is":[69,80],"guaranteed":[70],"reduce":[72],"generalization":[73],"errors.":[74],"RL,":[78],"it":[79],"difficult":[81],"balance":[83],"tradeoff":[85],"between":[86],"because":[92],"of":[93,135,147,194,201],"sparse":[95],"delayed":[97],"signals,":[99,102],"i.e.,":[100],"inevitable":[105],"sacrifice":[108,146],"caused":[109],"by":[110],"compression.":[112],"Our":[113],"InfoGoal":[114,130,151],"with":[122,143,168],"dense":[123],"immediate":[125],"signals.":[128],"Meanwhile,":[129],"adaptively":[131],"adjusts":[132],"weight":[134],"minimization":[137],"achieve":[139],"maximum":[140],"compression":[142],"reasonable":[145],"information.":[149],"Consequently,":[150],"enables":[152],"generate":[155],"targeted":[157],"trajectory":[158],"toward":[159],"states":[160],"where":[161],"can":[165],"found":[167],"high":[169],"probability":[170],"broadly":[172],"explores":[173],"those":[174],"states.":[175],"conduct":[177],"experiments":[178],"on":[179],"both":[180],"simulated":[181],"real-world":[183],"tasks,":[184],"our":[186],"significantly":[188],"outperforms":[189],"baseline":[190],"methods":[191],"terms":[193],"optimality":[196],"success":[199],"rate":[200],"unseen":[203],"test":[204],"Video":[206],"demos":[207],"are":[208],"available":[209],"at":[210],"infogoal.github.io.":[211]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}