{"id":"https://openalex.org/W7138914731","doi":"https://doi.org/10.48550/arxiv.2603.17720","title":"VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning","display_name":"VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning","publication_year":2026,"publication_date":"2026-03-18","ids":{"openalex":"https://openalex.org/W7138914731","doi":"https://doi.org/10.48550/arxiv.2603.17720"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.17720","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.17720","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.17720","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5129785791","display_name":"Tianxing Zhou","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Zhou, Tianxing","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5107568276","display_name":"Feiyang Xue","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xue, Feiyang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5063085002","display_name":"Zhangchen Ye","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ye, Zhangchen","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5072817912","display_name":"Tianyuan Yuan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yuan, Tianyuan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130179745","display_name":"Hang Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Hang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5130066306","display_name":"Tao Jiang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jiang, Tao","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5129785791"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.7897999882698059,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.7897999882698059,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.060499999672174454,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.023800000548362732,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.6435999870300293},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.6341000199317932},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.5960999727249146},{"id":"https://openalex.org/keywords/computation","display_name":"Computation","score":0.4580000042915344},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.45350000262260437},{"id":"https://openalex.org/keywords/lossy-compression","display_name":"Lossy compression","score":0.4350999891757965},{"id":"https://openalex.org/keywords/frame-rate","display_name":"Frame rate","score":0.43230000138282776},{"id":"https://openalex.org/keywords/security-token","display_name":"Security token","score":0.4302999973297119},{"id":"https://openalex.org/keywords/encoding","display_name":"Encoding (memory)","score":0.4246000051498413},{"id":"https://openalex.org/keywords/spatial-analysis","display_name":"Spatial analysis","score":0.37279999256134033}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7648000121116638},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.6435999870300293},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.6341000199317932},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6280999779701233},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.5960999727249146},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.48579999804496765},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.4580000042915344},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.45350000262260437},{"id":"https://openalex.org/C165021410","wikidata":"https://www.wikidata.org/wiki/Q55564","display_name":"Lossy compression","level":2,"score":0.4350999891757965},{"id":"https://openalex.org/C3261483","wikidata":"https://www.wikidata.org/wiki/Q119565","display_name":"Frame rate","level":2,"score":0.43230000138282776},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.4302999973297119},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.4246000051498413},{"id":"https://openalex.org/C159620131","wikidata":"https://www.wikidata.org/wiki/Q1938983","display_name":"Spatial analysis","level":2,"score":0.37279999256134033},{"id":"https://openalex.org/C54170458","wikidata":"https://www.wikidata.org/wiki/Q663554","display_name":"Voxel","level":2,"score":0.3635999858379364},{"id":"https://openalex.org/C126388530","wikidata":"https://www.wikidata.org/wiki/Q1131737","display_name":"Imitation","level":2,"score":0.3562000095844269},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.3540000021457672},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.3483000099658966},{"id":"https://openalex.org/C22367795","wikidata":"https://www.wikidata.org/wiki/Q7625208","display_name":"Structured prediction","level":2,"score":0.3465999960899353},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.34369999170303345},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.33489999175071716},{"id":"https://openalex.org/C126042441","wikidata":"https://www.wikidata.org/wiki/Q1324888","display_name":"Frame (networking)","level":2,"score":0.3319000005722046},{"id":"https://openalex.org/C118505674","wikidata":"https://www.wikidata.org/wiki/Q42586063","display_name":"Encoder","level":2,"score":0.3206999897956848},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.3181999921798706},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.31279999017715454},{"id":"https://openalex.org/C155911833","wikidata":"https://www.wikidata.org/wiki/Q3817354","display_name":"Spatial intelligence","level":2,"score":0.3084999918937683},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2913999855518341},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.27469998598098755},{"id":"https://openalex.org/C9652623","wikidata":"https://www.wikidata.org/wiki/Q190109","display_name":"Field (mathematics)","level":2,"score":0.2696000039577484},{"id":"https://openalex.org/C36503486","wikidata":"https://www.wikidata.org/wiki/Q11235244","display_name":"Domain (mathematical analysis)","level":2,"score":0.26820001006126404},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.26269999146461487},{"id":"https://openalex.org/C65909025","wikidata":"https://www.wikidata.org/wiki/Q1945033","display_name":"Monocular","level":2,"score":0.26260000467300415},{"id":"https://openalex.org/C57273362","wikidata":"https://www.wikidata.org/wiki/Q576722","display_name":"Decoding methods","level":2,"score":0.257999986410141},{"id":"https://openalex.org/C169903167","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Test set","level":2,"score":0.2563999891281128},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.25600001215934753}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.17720","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.17720","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.17720","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.17720","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Imitation":[0],"learning":[1],"is":[2],"a":[3,24,37,55,66,73,87,109,114,131],"prominent":[4],"paradigm":[5],"for":[6],"robotic":[7],"manipulation.":[8],"However,":[9],"existing":[10],"visual":[11],"imitation":[12],"methods":[13,143],"map":[14],"2D":[15],"image":[16,52],"observations":[17],"directly":[18],"to":[19,96,160],"3D":[20],"action":[21],"outputs,":[22],"imposing":[23],"2D-3D":[25],"mismatch":[26],"that":[27,40,103],"hinders":[28],"spatial":[29,42,77,106,162],"reasoning":[30,46],"and":[31,69,147,157,166],"degrades":[32],"robustness.":[33],"We":[34],"present":[35],"VolumeDP,":[36],"policy":[38],"architecture":[39],"restores":[41],"alignment":[43],"by":[44,130],"explicitly":[45],"in":[47],"3D.":[48],"VolumeDP":[49,112],"first":[50],"lifts":[51],"features":[53],"into":[54,72,108],"Volumetric":[56],"Representation":[57],"via":[58],"cross-attention.":[59],"It":[60,135],"then":[61],"selects":[62],"task-relevant":[63],"voxels":[64],"with":[65],"learnable":[67],"module":[68],"converts":[70],"them":[71],"compact":[74],"set":[75,95],"of":[76,119],"tokens,":[78],"markedly":[79],"reducing":[80],"computation":[81],"while":[82],"preserving":[83],"action-critical":[84],"geometry.":[85],"Finally,":[86],"multi-token":[88],"decoder":[89],"conditions":[90],"on":[91,121,144],"the":[92,122,127,145],"entire":[93],"token":[94],"predict":[97],"actions,":[98],"thereby":[99],"avoiding":[100],"lossy":[101],"aggregation":[102],"collapses":[104],"multiple":[105],"tokens":[107],"single":[110],"descriptor.":[111],"achieves":[113],"state-of-the-art":[115],"average":[116],"success":[117,155],"rate":[118],"88.8%":[120],"LIBERO":[123],"simulation":[124],"benchmark,":[125],"outperforming":[126],"strongest":[128],"baseline":[129],"substantial":[132],"14.8%":[133],"improvement.":[134],"also":[136],"delivers":[137],"large":[138],"performance":[139],"gains":[140],"over":[141],"prior":[142],"ManiSkill":[146],"LIBERO-Plus":[148],"benchmarks.":[149],"Real-world":[150],"experiments":[151],"further":[152],"demonstrate":[153],"higher":[154],"rates":[156],"robust":[158],"generalization":[159],"novel":[161],"layouts,":[163],"camera":[164],"viewpoints,":[165],"environment":[167],"backgrounds.":[168],"Code":[169],"will":[170],"be":[171],"released.":[172]},"counts_by_year":[],"updated_date":"2026-03-20T20:54:20.808490","created_date":"2026-03-20T00:00:00"}