{"id":"https://openalex.org/W7151606593","doi":"https://doi.org/10.48550/arxiv.2604.04225","title":"Learning from Imperfect Demonstrations via Temporal Behavior Tree-Guided Trajectory Repair","display_name":"Learning from Imperfect Demonstrations via Temporal Behavior Tree-Guided Trajectory Repair","publication_year":2026,"publication_date":"2026-04-05","ids":{"openalex":"https://openalex.org/W7151606593","doi":"https://doi.org/10.48550/arxiv.2604.04225"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.04225","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.04225","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.04225","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5010006741","display_name":"Aniruddh G. Puranic","orcid":"https://orcid.org/0000-0003-0010-9789"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Puranic, Aniruddh G.","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5077768481","display_name":"Sebastian Schirmer","orcid":"https://orcid.org/0000-0002-4596-2479"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Schirmer, Sebastian","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5044395526","display_name":"John S. Baras","orcid":"https://orcid.org/0000-0002-4955-8561"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Baras, John S.","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5086742095","display_name":"C\u0103lin Belta","orcid":"https://orcid.org/0000-0002-7141-2657"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Belta, Calin","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5010006741"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7114999890327454,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7114999890327454,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10586","display_name":"Robotic Path Planning Algorithms","score":0.04769999906420708,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.04360000044107437,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7466999888420105},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.7142000198364258},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.546999990940094},{"id":"https://openalex.org/keywords/imperfect","display_name":"Imperfect","score":0.5455999970436096},{"id":"https://openalex.org/keywords/kinematics","display_name":"Kinematics","score":0.5299000144004822},{"id":"https://openalex.org/keywords/temporal-logic","display_name":"Temporal logic","score":0.4909999966621399},{"id":"https://openalex.org/keywords/signal","display_name":"SIGNAL (programming language)","score":0.48829999566078186},{"id":"https://openalex.org/keywords/tree","display_name":"Tree (set theory)","score":0.4684000015258789},{"id":"https://openalex.org/keywords/state-space","display_name":"State space","score":0.4512999951839447}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7466999888420105},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.7142000198364258},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.659500002861023},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6161999702453613},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.546999990940094},{"id":"https://openalex.org/C2780310539","wikidata":"https://www.wikidata.org/wiki/Q12547192","display_name":"Imperfect","level":2,"score":0.5455999970436096},{"id":"https://openalex.org/C39920418","wikidata":"https://www.wikidata.org/wiki/Q11476","display_name":"Kinematics","level":2,"score":0.5299000144004822},{"id":"https://openalex.org/C25016198","wikidata":"https://www.wikidata.org/wiki/Q781833","display_name":"Temporal logic","level":2,"score":0.4909999966621399},{"id":"https://openalex.org/C2779843651","wikidata":"https://www.wikidata.org/wiki/Q7390335","display_name":"SIGNAL (programming language)","level":2,"score":0.48829999566078186},{"id":"https://openalex.org/C113174947","wikidata":"https://www.wikidata.org/wiki/Q2859736","display_name":"Tree (set theory)","level":2,"score":0.4684000015258789},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.4512999951839447},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.42640000581741333},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.40709999203681946},{"id":"https://openalex.org/C126388530","wikidata":"https://www.wikidata.org/wiki/Q1131737","display_name":"Imitation","level":2,"score":0.39309999346733093},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.36309999227523804},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.3456999957561493},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.3407999873161316},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.31279999017715454},{"id":"https://openalex.org/C3018134525","wikidata":"https://www.wikidata.org/wiki/Q2501541","display_name":"Control signal","level":3,"score":0.30149999260902405},{"id":"https://openalex.org/C19966478","wikidata":"https://www.wikidata.org/wiki/Q4810574","display_name":"Mobile robot","level":3,"score":0.29429998993873596},{"id":"https://openalex.org/C6683253","wikidata":"https://www.wikidata.org/wiki/Q7075535","display_name":"Obstacle avoidance","level":4,"score":0.2874999940395355},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.2874999940395355},{"id":"https://openalex.org/C2776937971","wikidata":"https://www.wikidata.org/wiki/Q4384217","display_name":"Heading (navigation)","level":2,"score":0.2791000008583069},{"id":"https://openalex.org/C2775960376","wikidata":"https://www.wikidata.org/wiki/Q1435859","display_name":"Grippers","level":2,"score":0.2709999978542328},{"id":"https://openalex.org/C133731056","wikidata":"https://www.wikidata.org/wiki/Q4917288","display_name":"Control engineering","level":1,"score":0.26820001006126404},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.26499998569488525},{"id":"https://openalex.org/C17500928","wikidata":"https://www.wikidata.org/wiki/Q959968","display_name":"Control system","level":2,"score":0.25369998812675476},{"id":"https://openalex.org/C81074085","wikidata":"https://www.wikidata.org/wiki/Q366872","display_name":"Motion planning","level":3,"score":0.2533999979496002},{"id":"https://openalex.org/C2778029271","wikidata":"https://www.wikidata.org/wiki/Q5421931","display_name":"Extension (predicate logic)","level":2,"score":0.2508000135421753}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.04225","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.04225","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.04225","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.04225","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Learning":[0],"robot":[1,153],"control":[2],"policies":[3],"from":[4],"demonstrations":[5,66,159],"is":[6,13,88],"a":[7,33,69,72,85],"powerful":[8],"paradigm,":[9],"yet":[10],"real-world":[11],"data":[12],"often":[14],"suboptimal,":[15],"noisy,":[16],"or":[17],"otherwise":[18],"imperfect,":[19],"posing":[20],"significant":[21],"challenges":[22],"for":[23,109,151],"imitation":[24],"and":[25,92,141,144],"reinforcement":[26,110],"learning.":[27,64],"In":[28],"this":[29,135],"work,":[30],"we":[31],"present":[32],"formal":[34,82],"framework":[35,136],"that":[36,67,87,104],"leverages":[37],"Temporal":[38,46],"Behavior":[39,50],"Trees":[40],"(TBT),":[41],"an":[42],"extension":[43],"of":[44,118,125,134],"Signal":[45],"Logic":[47],"(STL)":[48],"with":[49],"Tree":[51],"semantics,":[52],"to":[53,58,79,100],"repair":[54,74],"suboptimal":[55],"trajectories":[56,96],"prior":[57],"their":[59],"use":[60],"in":[61,155],"downstream":[62],"policy":[63],"Given":[65],"violate":[68],"TBT":[70],"specification,":[71],"model-based":[73],"algorithm":[75],"corrects":[76],"trajectory":[77],"segments":[78],"satisfy":[80],"the":[81,106,113,119,126,132],"constraints,":[83],"yielding":[84],"dataset":[86],"both":[89],"logically":[90],"consistent":[91],"interpretable.":[93],"The":[94],"repaired":[95],"are":[97],"then":[98],"used":[99],"extract":[101],"potential":[102,150],"functions":[103],"shape":[105],"reward":[107],"signal":[108],"learning,":[111],"guiding":[112],"agent":[114],"toward":[115],"task-consistent":[116],"regions":[117],"state":[120],"space":[121],"without":[122],"requiring":[123],"knowledge":[124],"agent's":[127],"kinematic":[128],"model.":[129],"We":[130],"demonstrate":[131],"effectiveness":[133],"on":[137],"discrete":[138],"grid-world":[139],"navigation":[140],"continuous":[142],"single":[143],"multi-agent":[145],"reach-avoid":[146],"tasks,":[147],"highlighting":[148],"its":[149],"data-efficient":[152],"learning":[154],"settings":[156],"where":[157],"high-quality":[158],"cannot":[160],"be":[161],"assumed.":[162]},"counts_by_year":[],"updated_date":"2026-04-08T06:07:18.267832","created_date":"2026-04-08T00:00:00"}