{"id":"https://openalex.org/W4389665813","doi":"https://doi.org/10.1109/iros55552.2023.10342114","title":"On-Robot Bayesian Reinforcement Learning for POMDPs","display_name":"On-Robot Bayesian Reinforcement Learning for POMDPs","publication_year":2023,"publication_date":"2023-10-01","ids":{"openalex":"https://openalex.org/W4389665813","doi":"https://doi.org/10.1109/iros55552.2023.10342114"},"language":"en","primary_location":{"id":"doi:10.1109/iros55552.2023.10342114","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/iros55552.2023.10342114","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5088039595","display_name":"Hai V. Nguyen","orcid":"https://orcid.org/0000-0002-2578-170X"},"institutions":[{"id":"https://openalex.org/I12912129","display_name":"Northeastern University","ror":"https://ror.org/04t5xt781","country_code":"US","type":"education","lineage":["https://openalex.org/I12912129"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Hai Nguyen","raw_affiliation_strings":["Khoury College of Computer Sciences, Northeastern University,Boston,MA,USA,02115"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Khoury College of Computer Sciences, Northeastern University,Boston,MA,USA,02115","institution_ids":["https://openalex.org/I12912129"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5077099438","display_name":"Sammie Katt","orcid":null},"institutions":[{"id":"https://openalex.org/I12912129","display_name":"Northeastern University","ror":"https://ror.org/04t5xt781","country_code":"US","type":"education","lineage":["https://openalex.org/I12912129"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Sammie Katt","raw_affiliation_strings":["Khoury College of Computer Sciences, Northeastern University,Boston,MA,USA,02115"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Khoury College of Computer Sciences, Northeastern University,Boston,MA,USA,02115","institution_ids":["https://openalex.org/I12912129"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100680014","display_name":"Yuchen Xiao","orcid":"https://orcid.org/0000-0003-3844-0952"},"institutions":[{"id":"https://openalex.org/I12912129","display_name":"Northeastern University","ror":"https://ror.org/04t5xt781","country_code":"US","type":"education","lineage":["https://openalex.org/I12912129"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Yuchen Xiao","raw_affiliation_strings":["Khoury College of Computer Sciences, Northeastern University,Boston,MA,USA,02115"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Khoury College of Computer Sciences, Northeastern University,Boston,MA,USA,02115","institution_ids":["https://openalex.org/I12912129"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5033129735","display_name":"Christopher Amato","orcid":"https://orcid.org/0000-0002-6786-7384"},"institutions":[{"id":"https://openalex.org/I12912129","display_name":"Northeastern University","ror":"https://ror.org/04t5xt781","country_code":"US","type":"education","lineage":["https://openalex.org/I12912129"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Christopher Amato","raw_affiliation_strings":["Khoury College of Computer Sciences, Northeastern University,Boston,MA,USA,02115"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Khoury College of Computer Sciences, Northeastern University,Boston,MA,USA,02115","institution_ids":["https://openalex.org/I12912129"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I12912129"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":"12","issue":null,"first_page":"9480","last_page":"9487"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12814","display_name":"Gaussian Processes and Bayesian Inference","score":0.9972000122070312,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9919000267982483,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7709922194480896},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.701819658279419},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.697375476360321},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6774412989616394},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.6248194575309753},{"id":"https://openalex.org/keywords/exploit","display_name":"Exploit","score":0.6089985370635986},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.5443512797355652},{"id":"https://openalex.org/keywords/bayesian-inference","display_name":"Bayesian inference","score":0.5381990075111389},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.5068464875221252},{"id":"https://openalex.org/keywords/particle-filter","display_name":"Particle filter","score":0.46441715955734253},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.45930537581443787},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.45628461241722107},{"id":"https://openalex.org/keywords/tree","display_name":"Tree (set theory)","score":0.43633586168289185}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7709922194480896},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.701819658279419},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.697375476360321},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6774412989616394},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6248194575309753},{"id":"https://openalex.org/C165696696","wikidata":"https://www.wikidata.org/wiki/Q11287","display_name":"Exploit","level":2,"score":0.6089985370635986},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.5443512797355652},{"id":"https://openalex.org/C160234255","wikidata":"https://www.wikidata.org/wiki/Q812535","display_name":"Bayesian inference","level":3,"score":0.5381990075111389},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.5068464875221252},{"id":"https://openalex.org/C52421305","wikidata":"https://www.wikidata.org/wiki/Q1151499","display_name":"Particle filter","level":3,"score":0.46441715955734253},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.45930537581443787},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.45628461241722107},{"id":"https://openalex.org/C113174947","wikidata":"https://www.wikidata.org/wiki/Q2859736","display_name":"Tree (set theory)","level":2,"score":0.43633586168289185},{"id":"https://openalex.org/C157286648","wikidata":"https://www.wikidata.org/wiki/Q846780","display_name":"Kalman filter","level":2,"score":0.0},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C43617362","wikidata":"https://www.wikidata.org/wiki/Q170050","display_name":"Chromatography","level":1,"score":0.0},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/iros55552.2023.10342114","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/iros55552.2023.10342114","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":40,"referenced_works":["https://openalex.org/W41554520","https://openalex.org/W1598140581","https://openalex.org/W1994616650","https://openalex.org/W2095705004","https://openalex.org/W2110762409","https://openalex.org/W2145339207","https://openalex.org/W2151210636","https://openalex.org/W2157439141","https://openalex.org/W2168359464","https://openalex.org/W2171084228","https://openalex.org/W2294827575","https://openalex.org/W2575705757","https://openalex.org/W2736601468","https://openalex.org/W2761873684","https://openalex.org/W2767050701","https://openalex.org/W2938421504","https://openalex.org/W2963614114","https://openalex.org/W2995546843","https://openalex.org/W3004707083","https://openalex.org/W3032916997","https://openalex.org/W3101442004","https://openalex.org/W3122690883","https://openalex.org/W4221161303","https://openalex.org/W4283721947","https://openalex.org/W4287553323","https://openalex.org/W4297808394","https://openalex.org/W4385430550","https://openalex.org/W6617145748","https://openalex.org/W6674330103","https://openalex.org/W6677939520","https://openalex.org/W6682314434","https://openalex.org/W6683073854","https://openalex.org/W6684973485","https://openalex.org/W6684985892","https://openalex.org/W6692846177","https://openalex.org/W6742007199","https://openalex.org/W6756486208","https://openalex.org/W6763736700","https://openalex.org/W6810937945","https://openalex.org/W6839015768"],"related_works":["https://openalex.org/W17155033","https://openalex.org/W3207760230","https://openalex.org/W1496222301","https://openalex.org/W1590307681","https://openalex.org/W2536018345","https://openalex.org/W4312814274","https://openalex.org/W4285370786","https://openalex.org/W2296488620","https://openalex.org/W2358353312","https://openalex.org/W2353836703"],"abstract_inverted_index":{"Robot":[0],"learning":[1,36,172],"is":[2,49,198],"often":[3],"difficult":[4],"due":[5,65],"to":[6,39,45,66,140],"the":[7,58,67,77,107,117,142,162],"expense":[8],"of":[9,17,60,69,161,190,195],"gathering":[10],"data.":[11],"The":[12],"need":[13],"for":[14,85,92,148],"large":[15],"amounts":[16],"data":[18],"can,":[19,147],"and":[20,27,43,114,136,155],"should,":[21],"be":[22],"tackled":[23],"with":[24,178],"effective":[25],"algorithms":[26],"leveraging":[28],"expert":[29,71],"information":[30],"on":[31,132],"robot":[32,153],"dynamics.":[33],"Bayesian":[34,121],"reinforcement":[35],"(BRL),":[37],"thanks":[38],"its":[40,167],"sample":[41],"efficiency":[42,168],"ability":[44],"exploit":[46],"prior":[47],"knowledge,":[48],"uniquely":[50],"positioned":[51],"as":[52,73,75],"such":[53],"a":[54,89,102,111,120,126,188],"solution":[55,129],"method.":[56],"Unfortunately,":[57],"application":[59],"BRL":[61,84],"has":[62],"been":[63],"limited":[64],"difficulties":[68],"representing":[70],"knowledge":[72,100],"well":[74],"solving":[76],"subsequent":[78],"inference":[79],"problem.":[80],"This":[81,145],"paper":[82],"advances":[83],"robotics":[86],"by":[87,169],"proposing":[88],"specialized":[90,139],"framework":[91],"physical":[93],"systems.":[94],"In":[95],"particular,":[96],"we":[97],"capture":[98],"this":[99],"in":[101,110,119,173],"factored":[103],"representation,":[104],"then":[105,124],"demonstrate":[106,166],"posterior":[108],"factorizes":[109],"similar":[112],"shape,":[113],"ultimately":[115],"formalize":[116],"model":[118],"framework.":[122],"We":[123,164],"introduce":[125],"sample-based":[127],"online":[128],"method,":[130],"based":[131],"Monte-Carlo":[133],"tree":[134],"search":[135],"particle":[137],"filtering,":[138],"solve":[141],"resulting":[143],"model.":[144],"approach":[146],"example,":[149],"utilize":[150],"typical":[151],"low-level":[152],"simulators":[154],"handle":[156],"uncertainty":[157,179],"over":[158],"unknown":[159],"dynamics":[160],"environment.":[163],"empirically":[165],"performing":[170],"on-robot":[171],"two":[174],"human-robot":[175],"interaction":[176],"tasks":[177],"about":[180],"human":[181],"behavior,":[182],"achieving":[183],"near-optimal":[184],"performance":[185],"after":[186],"only":[187],"handful":[189],"real-world":[191],"episodes.":[192],"A":[193],"video":[194],"learned":[196],"policies":[197],"at":[199],"https://youtu.be/H9xp60ngOes.":[200]},"counts_by_year":[{"year":2024,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}