{"id":"https://openalex.org/W7130604842","doi":"https://doi.org/10.1109/ssrr68451.2025.11391300","title":"Filtering Human Demonstration Datasets to Improve Policy Learning for Robotic Manipulation","display_name":"Filtering Human Demonstration Datasets to Improve Policy Learning for Robotic Manipulation","publication_year":2025,"publication_date":"2025-10-29","ids":{"openalex":"https://openalex.org/W7130604842","doi":"https://doi.org/10.1109/ssrr68451.2025.11391300"},"language":null,"primary_location":{"id":"doi:10.1109/ssrr68451.2025.11391300","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ssrr68451.2025.11391300","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Symposium on Safety Security Rescue Robotics (SSRR)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5126413133","display_name":"Yixin Deng","orcid":null},"institutions":[{"id":"https://openalex.org/I100930933","display_name":"University College Dublin","ror":"https://ror.org/05m7pjf47","country_code":"IE","type":"education","lineage":["https://openalex.org/I100930933"]}],"countries":["IE"],"is_corresponding":true,"raw_author_name":"Yixin Deng","raw_affiliation_strings":["University College Dublin,School of Electrical and Electronic Engineering,Dublin,Ireland"],"affiliations":[{"raw_affiliation_string":"University College Dublin,School of Electrical and Electronic Engineering,Dublin,Ireland","institution_ids":["https://openalex.org/I100930933"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126423054","display_name":"Keru Wang","orcid":null},"institutions":[{"id":"https://openalex.org/I100930933","display_name":"University College Dublin","ror":"https://ror.org/05m7pjf47","country_code":"IE","type":"education","lineage":["https://openalex.org/I100930933"]}],"countries":["IE"],"is_corresponding":false,"raw_author_name":"Keru Wang","raw_affiliation_strings":["University College Dublin,School of Electrical and Electronic Engineering,Dublin,Ireland"],"affiliations":[{"raw_affiliation_string":"University College Dublin,School of Electrical and Electronic Engineering,Dublin,Ireland","institution_ids":["https://openalex.org/I100930933"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5126426396","display_name":"Stephen J. Redmond","orcid":null},"institutions":[{"id":"https://openalex.org/I100930933","display_name":"University College Dublin","ror":"https://ror.org/05m7pjf47","country_code":"IE","type":"education","lineage":["https://openalex.org/I100930933"]}],"countries":["IE"],"is_corresponding":false,"raw_author_name":"Stephen J. Redmond","raw_affiliation_strings":["University College Dublin,School of Electrical and Electronic Engineering,Dublin,Ireland"],"affiliations":[{"raw_affiliation_string":"University College Dublin,School of Electrical and Electronic Engineering,Dublin,Ireland","institution_ids":["https://openalex.org/I100930933"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5126413133"],"corresponding_institution_ids":["https://openalex.org/I100930933"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.89247043,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"96","last_page":"101"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6007999777793884,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6007999777793884,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.20659999549388885,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.030500000342726707,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6183000206947327},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5616999864578247},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.5160999894142151},{"id":"https://openalex.org/keywords/field","display_name":"Field (mathematics)","score":0.51419997215271},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.49939998984336853},{"id":"https://openalex.org/keywords/cluster-analysis","display_name":"Cluster analysis","score":0.4399999976158142},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.3885999917984009},{"id":"https://openalex.org/keywords/quality","display_name":"Quality (philosophy)","score":0.3625999987125397}],"concepts":[{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6575999855995178},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6467000246047974},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6183000206947327},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5616999864578247},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.5160999894142151},{"id":"https://openalex.org/C9652623","wikidata":"https://www.wikidata.org/wiki/Q190109","display_name":"Field (mathematics)","level":2,"score":0.51419997215271},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.49939998984336853},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.499099999666214},{"id":"https://openalex.org/C73555534","wikidata":"https://www.wikidata.org/wiki/Q622825","display_name":"Cluster analysis","level":2,"score":0.4399999976158142},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.3885999917984009},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.3625999987125397},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.35260000824928284},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.35249999165534973},{"id":"https://openalex.org/C145460709","wikidata":"https://www.wikidata.org/wiki/Q859951","display_name":"Human\u2013robot interaction","level":3,"score":0.3472000062465668},{"id":"https://openalex.org/C2781238097","wikidata":"https://www.wikidata.org/wiki/Q175026","display_name":"Object (grammar)","level":2,"score":0.30880001187324524},{"id":"https://openalex.org/C2780735816","wikidata":"https://www.wikidata.org/wiki/Q28324931","display_name":"Incremental learning","level":2,"score":0.290800005197525},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.2906999886035919},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.28769999742507935},{"id":"https://openalex.org/C2780626000","wikidata":"https://www.wikidata.org/wiki/Q5936775","display_name":"Human-in-the-loop","level":2,"score":0.27559998631477356},{"id":"https://openalex.org/C2776151529","wikidata":"https://www.wikidata.org/wiki/Q3045304","display_name":"Object detection","level":3,"score":0.27300000190734863},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.27230000495910645},{"id":"https://openalex.org/C58328972","wikidata":"https://www.wikidata.org/wiki/Q184609","display_name":"Expert system","level":2,"score":0.2529999911785126}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ssrr68451.2025.11391300","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ssrr68451.2025.11391300","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Symposium on Safety Security Rescue Robotics (SSRR)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.592559278011322,"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":10,"referenced_works":["https://openalex.org/W1986014385","https://openalex.org/W2150593711","https://openalex.org/W2151942633","https://openalex.org/W2158782408","https://openalex.org/W2209913494","https://openalex.org/W2944851425","https://openalex.org/W2965215408","https://openalex.org/W3090369311","https://openalex.org/W4240805545","https://openalex.org/W4385245566"],"related_works":[],"abstract_inverted_index":{"Control":[0],"policies":[1,170],"that":[2,64,155],"can":[3,8],"generate":[4],"complex":[5],"robot":[6,137],"behaviors":[7],"be":[9],"learned":[10,54],"from":[11,35,68],"human":[12,36,101],"demonstrations;":[13],"this":[14],"is":[15,120,196],"especially":[16],"useful":[17],"for":[18,72,114],"learning":[19,62,161,164],"dexterous":[20],"object":[21],"manipulation":[22],"tasks":[23,141],"common":[24],"to":[25,94,122,143,166],"field":[26,144],"and":[27,126,145,152,162],"rescue":[28,146],"robotics":[29],"applications.":[30],"However,":[31],"training":[32],"data":[33],"collected":[34],"demonstrators":[37],"often":[38],"exhibit":[39],"significant":[40],"variations":[41],"in":[42,80,100,130,180],"quality,":[43],"with":[44,111,171],"poor":[45],"quality":[46,115],"demonstrations":[47],"potentially":[48],"compromising":[49],"the":[50,53,84,92,133,186],"performance":[51],"of":[52,86,178],"policy.":[55],"This":[56],"paper":[57],"introduces":[58],"a":[59,69],"novel":[60],"semi-supervised":[61,112],"framework":[63,106],"filters":[65],"high-quality":[66],"trajectories":[67],"mixed-quality":[70],"dataset":[71],"policy":[73],"learning.":[74],"Our":[75,104],"method":[76,157],"addresses":[77],"two":[78],"challenges":[79],"autonomous":[81],"robotics:":[82],"making":[83],"most":[85],"limited":[87],"expert":[88,102],"demonstration":[89],"data,":[90,173],"and;":[91],"need":[93],"capture":[95,123],"non-Markovian":[96],"decision-making":[97],"characteristics":[98],"inherent":[99],"behavior.":[103],"proposed":[105],"leverages":[107],"task-specific":[108],"pre-training":[109],"combined":[110],"clustering":[113],"discrimination.":[116],"A":[117],"transformer":[118],"architecture":[119],"used":[121],"temporal":[124],"dependencies":[125],"task":[127,181],"context.":[128],"Experiments":[129],"simulation":[131],"using":[132],"Franka":[134],"Emika":[135],"Panda":[136],"arm":[138],"performing":[139],"generic":[140],"relevant":[142],"robotics,":[147],"such":[148],"as":[149],"lifting,":[150],"transporting,":[151],"placing,":[153],"show":[154],"our":[156],"enables":[158],"subsequent":[159],"imitation":[160],"reinforcement":[163],"algorithms":[165],"learn":[167],"better":[168],"control":[169],"less":[172],"yielding":[174],"an":[175],"average":[176],"improvement":[177],"4.8%":[179],"completion":[182],"success":[183],"rate":[184],"across":[185],"Lift,":[187],"CanPickPlace,":[188],"SquareNuts":[189],"Robomimic":[190],"benchmarks":[191],"tasks.":[192],"The":[193],"project":[194],"page":[195],"available":[197],"at":[198],"https://github.com/RedmondLabUCD/Filtering-Human-Demonstration-Datasets-to-Improve-Policy-Learning-for-Robotic-Manipulation.":[199]},"counts_by_year":[],"updated_date":"2026-02-23T20:09:44.859080","created_date":"2026-02-20T00:00:00"}