{"id":"https://openalex.org/W4416677504","doi":"https://doi.org/10.1109/sbr/wre66973.2025.11249666","title":"Teaching Continuous Action Space Reinforcement Learning with a Mobile Robot","display_name":"Teaching Continuous Action Space Reinforcement Learning with a Mobile Robot","publication_year":2025,"publication_date":"2025-10-13","ids":{"openalex":"https://openalex.org/W4416677504","doi":"https://doi.org/10.1109/sbr/wre66973.2025.11249666"},"language":null,"primary_location":{"id":"doi:10.1109/sbr/wre66973.2025.11249666","is_oa":false,"landing_page_url":"https://doi.org/10.1109/sbr/wre66973.2025.11249666","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 Brazilian Symposium on Robotics (SBR) and 2025 Workshop on Robotics in Education (WRE)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5013146542","display_name":"Thiago Martins","orcid":"https://orcid.org/0000-0002-3655-2777"},"institutions":[{"id":"https://openalex.org/I2799978770","display_name":"X-Fab (Germany)","ror":"https://ror.org/030bh9196","country_code":"DE","type":"company","lineage":["https://openalex.org/I2799978770"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Thiago Martins","raw_affiliation_strings":["Escola Polit&#x00E9;cnica da Universidade de S&#x00E3;o Paulo,Depto. de Eng. Mecatr&#x00FA;nica e de Sist. Mec&#x00E2;nicos,S&#x00E3;o Paulo,Brazil"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Escola Polit&#x00E9;cnica da Universidade de S&#x00E3;o Paulo,Depto. de Eng. Mecatr&#x00FA;nica e de Sist. Mec&#x00E2;nicos,S&#x00E3;o Paulo,Brazil","institution_ids":["https://openalex.org/I2799978770"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5023680314","display_name":"Larissa Driemeier","orcid":"https://orcid.org/0000-0002-3947-0590"},"institutions":[{"id":"https://openalex.org/I2799978770","display_name":"X-Fab (Germany)","ror":"https://ror.org/030bh9196","country_code":"DE","type":"company","lineage":["https://openalex.org/I2799978770"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Larissa Driemeier","raw_affiliation_strings":["Escola Polit&#x00E9;cnica da Universidade de S&#x00E3;o Paulo,Depto. de Eng. Mecatr&#x00FA;nica e de Sist. Mec&#x00E2;nicos,S&#x00E3;o Paulo,Brazil"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Escola Polit&#x00E9;cnica da Universidade de S&#x00E3;o Paulo,Depto. de Eng. Mecatr&#x00FA;nica e de Sist. Mec&#x00E2;nicos,S&#x00E3;o Paulo,Brazil","institution_ids":["https://openalex.org/I2799978770"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.17320412,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"320","last_page":"325"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8709999918937683,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8709999918937683,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.053199999034404755,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10586","display_name":"Robotic Path Planning Algorithms","score":0.006099999882280827,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8281999826431274},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.7387999892234802},{"id":"https://openalex.org/keywords/robot-learning","display_name":"Robot learning","score":0.6097000241279602},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.5685999989509583},{"id":"https://openalex.org/keywords/mobile-robot","display_name":"Mobile robot","score":0.5365999937057495},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.5224000215530396},{"id":"https://openalex.org/keywords/state-space","display_name":"State space","score":0.4196999967098236},{"id":"https://openalex.org/keywords/space","display_name":"Space (punctuation)","score":0.3991999924182892}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8281999826431274},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.7389000058174133},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.7387999892234802},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.6097000241279602},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.59170001745224},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.5685999989509583},{"id":"https://openalex.org/C19966478","wikidata":"https://www.wikidata.org/wiki/Q4810574","display_name":"Mobile robot","level":3,"score":0.5365999937057495},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.5224000215530396},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.42660000920295715},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.4196999967098236},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.3991999924182892},{"id":"https://openalex.org/C145460709","wikidata":"https://www.wikidata.org/wiki/Q859951","display_name":"Human\u2013robot interaction","level":3,"score":0.34369999170303345},{"id":"https://openalex.org/C183759332","wikidata":"https://www.wikidata.org/wiki/Q343680","display_name":"Action learning","level":4,"score":0.33219999074935913},{"id":"https://openalex.org/C192327766","wikidata":"https://www.wikidata.org/wiki/Q1038799","display_name":"Cognitive robotics","level":3,"score":0.3303999900817871},{"id":"https://openalex.org/C16345878","wikidata":"https://www.wikidata.org/wiki/Q107472979","display_name":"Orientation (vector space)","level":2,"score":0.31529998779296875},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.30140000581741333},{"id":"https://openalex.org/C65401140","wikidata":"https://www.wikidata.org/wiki/Q7353385","display_name":"Robot control","level":4,"score":0.2944999933242798},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.2784000039100647},{"id":"https://openalex.org/C186967261","wikidata":"https://www.wikidata.org/wiki/Q5082128","display_name":"Mobile device","level":2,"score":0.26600000262260437},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.2653999924659729},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.2630999982357025},{"id":"https://openalex.org/C60692881","wikidata":"https://www.wikidata.org/wiki/Q584529","display_name":"Humanoid robot","level":3,"score":0.2574999928474426},{"id":"https://openalex.org/C19766214","wikidata":"https://www.wikidata.org/wiki/Q4880688","display_name":"Behavior-based robotics","level":4,"score":0.2572000026702881}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/sbr/wre66973.2025.11249666","is_oa":false,"landing_page_url":"https://doi.org/10.1109/sbr/wre66973.2025.11249666","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 Brazilian Symposium on Robotics (SBR) and 2025 Workshop on Robotics in Education (WRE)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":5,"referenced_works":["https://openalex.org/W4200129022","https://openalex.org/W4214486317","https://openalex.org/W4293863115","https://openalex.org/W4362722548","https://openalex.org/W4408689473"],"related_works":[],"abstract_inverted_index":{"This":[0,100],"paper":[1],"presents":[2],"a":[3,14,35,70,76,97],"teaching":[4,106],"framework":[5],"that":[6],"integrates":[7],"continuous":[8,58],"action":[9,61],"space":[10],"reinforcement":[11,107],"learning":[12,19,91,108],"with":[13,30,74],"mobile":[15],"robotics":[16,39,114],"platform.":[17],"Reinforcement":[18],"(RL)":[20],"enables":[21],"agents":[22],"to":[23,57,86,96],"learn":[24],"optimal":[25],"decision-making":[26],"policies":[27],"through":[28],"interaction":[29],"their":[31],"environment,":[32],"making":[33],"it":[34],"natural":[36],"fit":[37],"for":[38,48,113],"applications.":[40,115],"The":[41],"study":[42,101],"examines":[43],"the":[44,94],"challenges":[45],"and":[46,54,60,67,79,89,110],"solutions":[47],"applying":[49],"RL":[50],"algorithms,":[51],"specifically":[52],"SARSA":[53],"Actor-Critic":[55],"methods,":[56],"state":[59],"spaces.":[62],"These":[63],"methods":[64],"are":[65],"implemented":[66],"compared":[68],"on":[69],"differential-drive":[71],"robot":[72],"tasked":[73],"maintaining":[75],"specific":[77],"orientation":[78],"position.":[80],"A":[81],"virtual":[82],"model":[83],"is":[84],"utilized":[85],"facilitate":[87],"safe":[88],"efficient":[90],"before":[92],"deploying":[93],"algorithms":[95],"physical":[98],"robot.":[99],"provides":[102],"practical":[103],"insights":[104],"into":[105],"concepts":[109],"leveraging":[111],"them":[112]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-11-25T00:00:00"}