{"id":"https://openalex.org/W3080610253","doi":"https://doi.org/10.1145/3394486.3406484","title":"Learning by Exploration","display_name":"Learning by Exploration","publication_year":2020,"publication_date":"2020-08-20","ids":{"openalex":"https://openalex.org/W3080610253","doi":"https://doi.org/10.1145/3394486.3406484","mag":"3080610253"},"language":"en","primary_location":{"id":"doi:10.1145/3394486.3406484","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3394486.3406484","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery &amp; Data Mining","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101992274","display_name":"Qingyun Wu","orcid":"https://orcid.org/0000-0003-1008-516X"},"institutions":[{"id":"https://openalex.org/I51556381","display_name":"University of Virginia","ror":"https://ror.org/0153tk833","country_code":"US","type":"education","lineage":["https://openalex.org/I51556381"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Qingyun Wu","raw_affiliation_strings":["University of Virginia, Charlottesville, VA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Virginia, Charlottesville, VA, USA","institution_ids":["https://openalex.org/I51556381"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5062299183","display_name":"Huazheng Wang","orcid":"https://orcid.org/0000-0003-3918-6925"},"institutions":[{"id":"https://openalex.org/I51556381","display_name":"University of Virginia","ror":"https://ror.org/0153tk833","country_code":"US","type":"education","lineage":["https://openalex.org/I51556381"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Huazheng Wang","raw_affiliation_strings":["University of Virginia, Charlottesville, VA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Virginia, Charlottesville, VA, USA","institution_ids":["https://openalex.org/I51556381"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5085094109","display_name":"Hongning Wang","orcid":"https://orcid.org/0000-0002-6524-9195"},"institutions":[{"id":"https://openalex.org/I51556381","display_name":"University of Virginia","ror":"https://ror.org/0153tk833","country_code":"US","type":"education","lineage":["https://openalex.org/I51556381"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Hongning Wang","raw_affiliation_strings":["University of Virginia, Charlottesville, VA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Virginia, Charlottesville, VA, USA","institution_ids":["https://openalex.org/I51556381"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I51556381"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":2,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"3575","last_page":"3576"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9887999892234802,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.988099992275238,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7438031435012817},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5509296655654907},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.5378574132919312},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.4917934238910675},{"id":"https://openalex.org/keywords/error-driven-learning","display_name":"Error-driven learning","score":0.46865788102149963},{"id":"https://openalex.org/keywords/robot-learning","display_name":"Robot learning","score":0.461052805185318},{"id":"https://openalex.org/keywords/theme","display_name":"Theme (computing)","score":0.4602048099040985},{"id":"https://openalex.org/keywords/active-learning","display_name":"Active learning (machine learning)","score":0.4600411057472229},{"id":"https://openalex.org/keywords/synchronous-learning","display_name":"Synchronous learning","score":0.4239274859428406},{"id":"https://openalex.org/keywords/proactive-learning","display_name":"Proactive learning","score":0.42105424404144287},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.3636215329170227},{"id":"https://openalex.org/keywords/cooperative-learning","display_name":"Cooperative learning","score":0.21118876338005066},{"id":"https://openalex.org/keywords/teaching-method","display_name":"Teaching method","score":0.12915807962417603},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.1250913441181183},{"id":"https://openalex.org/keywords/mathematics-education","display_name":"Mathematics education","score":0.12485337257385254},{"id":"https://openalex.org/keywords/world-wide-web","display_name":"World Wide Web","score":0.10367584228515625},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.09264284372329712},{"id":"https://openalex.org/keywords/mobile-robot","display_name":"Mobile robot","score":0.0712505578994751}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7438031435012817},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5509296655654907},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.5378574132919312},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.4917934238910675},{"id":"https://openalex.org/C47932503","wikidata":"https://www.wikidata.org/wiki/Q5395689","display_name":"Error-driven learning","level":3,"score":0.46865788102149963},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.461052805185318},{"id":"https://openalex.org/C33566652","wikidata":"https://www.wikidata.org/wiki/Q1065927","display_name":"Theme (computing)","level":2,"score":0.4602048099040985},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.4600411057472229},{"id":"https://openalex.org/C19122763","wikidata":"https://www.wikidata.org/wiki/Q7662215","display_name":"Synchronous learning","level":4,"score":0.4239274859428406},{"id":"https://openalex.org/C12298181","wikidata":"https://www.wikidata.org/wiki/Q7246814","display_name":"Proactive learning","level":5,"score":0.42105424404144287},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.3636215329170227},{"id":"https://openalex.org/C51672120","wikidata":"https://www.wikidata.org/wiki/Q303446","display_name":"Cooperative learning","level":3,"score":0.21118876338005066},{"id":"https://openalex.org/C88610354","wikidata":"https://www.wikidata.org/wiki/Q1813494","display_name":"Teaching method","level":2,"score":0.12915807962417603},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.1250913441181183},{"id":"https://openalex.org/C145420912","wikidata":"https://www.wikidata.org/wiki/Q853077","display_name":"Mathematics education","level":1,"score":0.12485337257385254},{"id":"https://openalex.org/C136764020","wikidata":"https://www.wikidata.org/wiki/Q466","display_name":"World Wide Web","level":1,"score":0.10367584228515625},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.09264284372329712},{"id":"https://openalex.org/C19966478","wikidata":"https://www.wikidata.org/wiki/Q4810574","display_name":"Mobile robot","level":3,"score":0.0712505578994751},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3394486.3406484","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3394486.3406484","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery &amp; Data Mining","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":27,"referenced_works":["https://openalex.org/W1981276685","https://openalex.org/W2108114251","https://openalex.org/W2112420033","https://openalex.org/W2119738618","https://openalex.org/W2158319693","https://openalex.org/W2166253248","https://openalex.org/W2340290367","https://openalex.org/W2396394641","https://openalex.org/W2532022121","https://openalex.org/W2559655401","https://openalex.org/W2740396279","https://openalex.org/W2742393003","https://openalex.org/W2890884856","https://openalex.org/W2901116712","https://openalex.org/W2907316685","https://openalex.org/W2912801008","https://openalex.org/W2914791924","https://openalex.org/W2948795993","https://openalex.org/W2962818688","https://openalex.org/W2963175521","https://openalex.org/W2970728282","https://openalex.org/W3103259151","https://openalex.org/W3104197989","https://openalex.org/W4214717370","https://openalex.org/W6638827766","https://openalex.org/W6681980189","https://openalex.org/W7075680496"],"related_works":["https://openalex.org/W2183624479","https://openalex.org/W2963630606","https://openalex.org/W2968510402","https://openalex.org/W2188406770","https://openalex.org/W2953859282","https://openalex.org/W2094878326","https://openalex.org/W4240014626","https://openalex.org/W2544636753","https://openalex.org/W2157937759","https://openalex.org/W44959635"],"abstract_inverted_index":{"Learning":[0],"is":[1,56],"a":[2,29],"predominant":[3],"theme":[4],"for":[5],"any":[6],"intelligent":[7],"system,":[8],"humans,":[9],"or":[10],"machines.":[11],"Moving":[12],"beyond":[13],"the":[14,40,50,57,67],"classical":[15],"paradigm":[16],"of":[17],"learning":[18,25,43,51,64,74],"from":[19,26,39],"past":[20],"experience,":[21],"e.g.,":[22],"offline":[23],"supervised":[24],"given":[27],"labels,":[28],"learner":[30],"needs":[31],"to":[32,37],"actively":[33],"collect":[34],"exploratory":[35],"feedback":[36],"learn":[38],"unknowns,":[41],"i.e.,":[42],"through":[44],"exploration.":[45],"This":[46],"tutorial":[47],"will":[48],"introduce":[49],"by":[52],"exploration":[53],"paradigm,":[54],"which":[55],"key":[58],"ingredient":[59],"in":[60],"many":[61],"interactive":[62],"online":[63],"problems,":[65],"including":[66],"multi-armed":[68],"bandit":[69],"and,":[70],"more":[71],"generally,":[72],"reinforcement":[73],"problems.":[75]},"counts_by_year":[{"year":2023,"cited_by_count":1},{"year":2021,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}