{"id":"https://openalex.org/W7146936886","doi":"https://doi.org/10.1109/cnml68938.2026.11452984","title":"Sem-GAP: Enhancing Cross-Category Pose Estimation with Vision Foundation Models and Conditional Diffusion Models","display_name":"Sem-GAP: Enhancing Cross-Category Pose Estimation with Vision Foundation Models and Conditional Diffusion Models","publication_year":2026,"publication_date":"2026-01-30","ids":{"openalex":"https://openalex.org/W7146936886","doi":"https://doi.org/10.1109/cnml68938.2026.11452984"},"language":null,"primary_location":{"id":"doi:10.1109/cnml68938.2026.11452984","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cnml68938.2026.11452984","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 International Conference on Communication Networks and Machine Learning (CNML)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5126647381","display_name":"Tongchuan Xia","orcid":null},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Tongchuan Xia","raw_affiliation_strings":["Beijing University of Posts and Telecommunications,National Pilot Software Engineering School,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Beijing University of Posts and Telecommunications,National Pilot Software Engineering School,Beijing,China","institution_ids":["https://openalex.org/I139759216"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5055916177","display_name":"Chao Wan","orcid":null},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Chao Wan","raw_affiliation_strings":["Beijing University of Posts and Telecommunications,School of Integrated Circuits,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Beijing University of Posts and Telecommunications,School of Integrated Circuits,Beijing,China","institution_ids":["https://openalex.org/I139759216"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5075567162","display_name":"Yushi Chen","orcid":"https://orcid.org/0009-0003-1349-6180"},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yushi Chen","raw_affiliation_strings":["Beijing University of Posts and Telecommunications,School of Artificial Intelligence,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Beijing University of Posts and Telecommunications,School of Artificial Intelligence,Beijing,China","institution_ids":["https://openalex.org/I139759216"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5030667765","display_name":"Quanzhen Huang","orcid":"https://orcid.org/0009-0007-7425-6972"},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Qian Huang","raw_affiliation_strings":["Beijing University of Posts and Telecommunications,School of Computer Science,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Beijing University of Posts and Telecommunications,School of Computer Science,Beijing,China","institution_ids":["https://openalex.org/I139759216"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I139759216"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"889","last_page":"892"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.9063000082969666,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.9063000082969666,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10191","display_name":"Robotics and Sensor-Based Localization","score":0.029999999329447746,"subfield":{"id":"https://openalex.org/subfields/2202","display_name":"Aerospace Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10812","display_name":"Human Pose and Action Recognition","score":0.006099999882280827,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/pose","display_name":"Pose","score":0.7807999849319458},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.5371999740600586},{"id":"https://openalex.org/keywords/ambiguity","display_name":"Ambiguity","score":0.534500002861023},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.491100013256073},{"id":"https://openalex.org/keywords/3d-pose-estimation","display_name":"3D pose estimation","score":0.48080000281333923},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.48030000925064087},{"id":"https://openalex.org/keywords/face","display_name":"Face (sociological concept)","score":0.44350001215934753},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.4244999885559082},{"id":"https://openalex.org/keywords/concatenation","display_name":"Concatenation (mathematics)","score":0.3799000084400177}],"concepts":[{"id":"https://openalex.org/C52102323","wikidata":"https://www.wikidata.org/wiki/Q1671968","display_name":"Pose","level":2,"score":0.7807999849319458},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.7394999861717224},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6152999997138977},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.5371999740600586},{"id":"https://openalex.org/C2780522230","wikidata":"https://www.wikidata.org/wiki/Q1140419","display_name":"Ambiguity","level":2,"score":0.534500002861023},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.491100013256073},{"id":"https://openalex.org/C36613465","wikidata":"https://www.wikidata.org/wiki/Q4636322","display_name":"3D pose estimation","level":3,"score":0.48080000281333923},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.48030000925064087},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4564000070095062},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.44350001215934753},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.4244999885559082},{"id":"https://openalex.org/C87619178","wikidata":"https://www.wikidata.org/wiki/Q126002","display_name":"Concatenation (mathematics)","level":2,"score":0.3799000084400177},{"id":"https://openalex.org/C22100474","wikidata":"https://www.wikidata.org/wiki/Q4800952","display_name":"Articulated body pose estimation","level":4,"score":0.3774000108242035},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.3659999966621399},{"id":"https://openalex.org/C12713177","wikidata":"https://www.wikidata.org/wiki/Q1900281","display_name":"Perspective (graphical)","level":2,"score":0.33329999446868896},{"id":"https://openalex.org/C171268870","wikidata":"https://www.wikidata.org/wiki/Q1486676","display_name":"GRASP","level":2,"score":0.30570000410079956},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.298799991607666},{"id":"https://openalex.org/C23903533","wikidata":"https://www.wikidata.org/wiki/Q17122739","display_name":"Reprojection error","level":3,"score":0.29660001397132874},{"id":"https://openalex.org/C173414695","wikidata":"https://www.wikidata.org/wiki/Q5510276","display_name":"Fusion mechanism","level":4,"score":0.2840999960899353},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.2808000147342682},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.27570000290870667},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.27410000562667847},{"id":"https://openalex.org/C33954974","wikidata":"https://www.wikidata.org/wiki/Q486494","display_name":"Sensor fusion","level":2,"score":0.27320000529289246},{"id":"https://openalex.org/C28719098","wikidata":"https://www.wikidata.org/wiki/Q44946","display_name":"Point (geometry)","level":2,"score":0.27070000767707825},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.26649999618530273},{"id":"https://openalex.org/C131979681","wikidata":"https://www.wikidata.org/wiki/Q1899648","display_name":"Point cloud","level":2,"score":0.2637999951839447},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.2630999982357025},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.2597000002861023},{"id":"https://openalex.org/C149441793","wikidata":"https://www.wikidata.org/wiki/Q200726","display_name":"Probability distribution","level":2,"score":0.25769999623298645},{"id":"https://openalex.org/C43555835","wikidata":"https://www.wikidata.org/wiki/Q2300258","display_name":"Conditional probability distribution","level":2,"score":0.2540000081062317}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cnml68938.2026.11452984","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cnml68938.2026.11452984","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 International Conference on Communication Networks and Machine Learning (CNML)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":9,"referenced_works":["https://openalex.org/W2949924544","https://openalex.org/W3034949383","https://openalex.org/W3035624836","https://openalex.org/W3038023350","https://openalex.org/W3091357794","https://openalex.org/W3202459445","https://openalex.org/W3202538459","https://openalex.org/W4312803310","https://openalex.org/W4386065846"],"related_works":[],"abstract_inverted_index":{"Robotic":[0],"manipulation":[1,150],"in":[2],"embodied":[3],"intelligence":[4],"relies":[5],"on":[6,120],"precise":[7],"pose":[8,30,99,133],"perception":[9],"of":[10,64,115,147],"cross-category":[11],"Generalizable":[12],"and":[13,72,124,139],"Actionable":[14],"Parts":[15],"(GAParts).":[16],"However,":[17],"when":[18],"handling":[19],"objects":[20],"from":[21,68,75],"unseen":[22,86,137],"categories,":[23],"existing":[24],"deterministic":[25],"regression":[26],"methods":[27],"face":[28],"multi-modal":[29,56],"ambiguity":[31],"induced":[32],"by":[33,152],"rotational":[34],"symmetry,":[35],"often":[36],"yielding":[37],"physically":[38,116],"infeasible":[39],"mean":[40],"predictions.":[41],"To":[42],"address":[43],"this,":[44,90],"this":[45],"paper":[46],"proposes":[47],"the":[48,113,121,143],"Sem-GAP":[49],"framework.":[50],"This":[51],"method":[52,130],"first":[53],"constructs":[54],"a":[55,93,102],"feature":[57],"fusion":[58],"mechanism":[59],"that":[60,128],"performs":[61],"point-wise":[62],"concatenation":[63],"high-dimensional":[65],"semantic":[66],"representations":[67],"Vision":[69],"Foundation":[70],"Models":[71],"geometric":[73],"features":[74],"point":[76],"clouds":[77],"via":[78],"dense":[79],"correspondence,":[80],"thereby":[81],"enhancing":[82],"generalization":[83],"capabilities":[84],"for":[85,136],"categories.":[87],"Building":[88],"upon":[89],"we":[91],"introduce":[92],"conditional":[94],"diffusion":[95],"model":[96],"to":[97,111],"formulate":[98],"estimation":[100,134],"as":[101],"probabilistic":[103],"distribution":[104],"sampling":[105],"process,":[106],"utilizing":[107],"global":[108],"geometric-semantic":[109],"conditions":[110],"guide":[112],"generation":[114],"constrained":[117],"poses.":[118],"Experiments":[119],"GAPartNet":[122],"benchmark":[123],"physical":[125],"simulations":[126],"demonstrate":[127],"our":[129],"significantly":[131],"improves":[132],"accuracy":[135],"categories":[138],"symmetric":[140],"parts,":[141],"increasing":[142],"average":[144],"success":[145],"rate":[146],"downstream":[148],"robotic":[149],"tasks":[151],"18.4%.":[153]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2026-04-02T00:00:00"}