{"id":"https://openalex.org/W4416750291","doi":"https://doi.org/10.1109/iros60139.2025.11247358","title":"DNAct: Diffusion Guided Multi-Task 3D Policy Learning","display_name":"DNAct: Diffusion Guided Multi-Task 3D Policy Learning","publication_year":2025,"publication_date":"2025-10-19","ids":{"openalex":"https://openalex.org/W4416750291","doi":"https://doi.org/10.1109/iros60139.2025.11247358"},"language":null,"primary_location":{"id":"doi:10.1109/iros60139.2025.11247358","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros60139.2025.11247358","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100462454","display_name":"Ge Yan","orcid":"https://orcid.org/0000-0002-5955-8258"},"institutions":[{"id":"https://openalex.org/I2800935791","display_name":"UC San Diego Health System","ror":"https://ror.org/01kbfgm16","country_code":"US","type":"healthcare","lineage":["https://openalex.org/I2800935791"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Ge Yan","raw_affiliation_strings":["UC San Diego"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"UC San Diego","institution_ids":["https://openalex.org/I2800935791"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5012390038","display_name":"Yueh-Hua Wu","orcid":null},"institutions":[{"id":"https://openalex.org/I2800935791","display_name":"UC San Diego Health System","ror":"https://ror.org/01kbfgm16","country_code":"US","type":"healthcare","lineage":["https://openalex.org/I2800935791"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Yueh-Hua Wu","raw_affiliation_strings":["UC San Diego"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"UC San Diego","institution_ids":["https://openalex.org/I2800935791"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100424282","display_name":"Xiaolong Wang","orcid":"https://orcid.org/0009-0002-6933-0203"},"institutions":[{"id":"https://openalex.org/I2800935791","display_name":"UC San Diego Health System","ror":"https://ror.org/01kbfgm16","country_code":"US","type":"healthcare","lineage":["https://openalex.org/I2800935791"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Xiaolong Wang","raw_affiliation_strings":["UC San Diego"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"UC San Diego","institution_ids":["https://openalex.org/I2800935791"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I2800935791"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":5,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"9464","last_page":"9471"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.4361000061035156,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.4361000061035156,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.1404999941587448,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.1386999934911728,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/rendering","display_name":"Rendering (computer graphics)","score":0.682699978351593},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.5903000235557556},{"id":"https://openalex.org/keywords/generalizability-theory","display_name":"Generalizability theory","score":0.5641000270843506},{"id":"https://openalex.org/keywords/semantics","display_name":"Semantics (computer science)","score":0.3799000084400177},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.37959998846054077},{"id":"https://openalex.org/keywords/exploit","display_name":"Exploit","score":0.3391000032424927}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7537000179290771},{"id":"https://openalex.org/C205711294","wikidata":"https://www.wikidata.org/wiki/Q176953","display_name":"Rendering (computer graphics)","level":2,"score":0.682699978351593},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6784999966621399},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.5903000235557556},{"id":"https://openalex.org/C27158222","wikidata":"https://www.wikidata.org/wiki/Q5532422","display_name":"Generalizability theory","level":2,"score":0.5641000270843506},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4106000065803528},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.3799000084400177},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.37959998846054077},{"id":"https://openalex.org/C165696696","wikidata":"https://www.wikidata.org/wiki/Q11287","display_name":"Exploit","level":2,"score":0.3391000032424927},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.33550000190734863},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.2985000014305115},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.2912999987602234},{"id":"https://openalex.org/C2776459999","wikidata":"https://www.wikidata.org/wiki/Q2119376","display_name":"Fidelity","level":2,"score":0.2824999988079071},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.27079999446868896},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.2671999931335449},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.25760000944137573}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/iros60139.2025.11247358","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros60139.2025.11247358","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":27,"referenced_works":["https://openalex.org/W1985238052","https://openalex.org/W2963627347","https://openalex.org/W2963926543","https://openalex.org/W2964157221","https://openalex.org/W2986303149","https://openalex.org/W2990974996","https://openalex.org/W3007769740","https://openalex.org/W3037767967","https://openalex.org/W3090814639","https://openalex.org/W3174849255","https://openalex.org/W3174865552","https://openalex.org/W3175388581","https://openalex.org/W3186630079","https://openalex.org/W3196466825","https://openalex.org/W3199614037","https://openalex.org/W3203583526","https://openalex.org/W4200150166","https://openalex.org/W4214628039","https://openalex.org/W4312421337","https://openalex.org/W4312933868","https://openalex.org/W4312978380","https://openalex.org/W4319300261","https://openalex.org/W4328007461","https://openalex.org/W4383109488","https://openalex.org/W4385403811","https://openalex.org/W4385430679","https://openalex.org/W4386075980"],"related_works":[],"abstract_inverted_index":{"This":[0],"paper":[1],"presents":[2],"DNAct,":[3],"a":[4,27,55,60,86,94],"language-conditioned":[5],"multi-task":[6,29,106,145],"policy":[7,30],"framework":[8],"that":[9,99],"integrates":[10],"neural":[11,40],"rendering":[12,41],"pre-training":[13,35],"and":[14,80,96,128,133],"diffusion":[15,90,118],"training":[16,91],"to":[17,42,54,92],"enforce":[18],"multi-modality":[19,103],"learning":[20],"in":[21,104,152],"action":[22,111],"sequence":[23],"spaces.":[24],"To":[25],"learn":[26,93],"generalizable":[28],"with":[31,148],"few":[32],"demonstrations,":[33],"the":[34,65,101,105,110,117,120,131,134,137],"phase":[36],"of":[37,124,136],"DNAct":[38,140],"leverages":[39],"distill":[43],"2D":[44],"semantic":[45,62],"features":[46],"from":[47,113],"foundation":[48],"models":[49],"such":[50],"as":[51],"Stable":[52],"Diffusion":[53],"3D":[56,78],"space,":[57],"which":[58],"provides":[59],"comprehensive":[61],"understanding":[63],"regarding":[64],"scene.":[66],"Consequently,":[67],"it":[68],"allows":[69],"various":[70],"applications":[71],"for":[72],"challenging":[73],"robotic":[74],"tasks":[75,115],"requiring":[76],"rich":[77],"semantics":[79],"accurate":[81],"geometry.":[82],"Furthermore,":[83],"we":[84],"introduce":[85],"novel":[87],"approach":[88],"utilizing":[89],"vision":[95],"language":[97],"feature":[98],"encapsulates":[100],"inherent":[102],"demonstrations.":[107],"By":[108],"reconstructing":[109],"sequences":[112],"different":[114,126],"via":[116],"process,":[119],"model":[121],"is":[122],"capable":[123],"distinguishing":[125],"modalities":[127],"thus":[129],"improving":[130],"robustness":[132],"generalizability":[135],"learned":[138],"representation.":[139],"significantly":[141],"surpasses":[142],"SOTA":[143],"NeRF-based":[144],"manipulation":[146],"approaches":[147],"over":[149],"30%":[150],"improvement":[151],"success":[153],"rate.":[154],"Videos":[155],"are":[156],"available":[157],"on":[158],"dnact.github.io":[159]},"counts_by_year":[{"year":2026,"cited_by_count":2},{"year":2025,"cited_by_count":3}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-11-28T00:00:00"}