{"id":"https://openalex.org/W7160926997","doi":"https://doi.org/10.48550/arxiv.2605.10190","title":"DetRefiner: Model-Agnostic Detection Refinement with Feature Fusion Transformer","display_name":"DetRefiner: Model-Agnostic Detection Refinement with Feature Fusion Transformer","publication_year":2026,"publication_date":"2026-05-11","ids":{"openalex":"https://openalex.org/W7160926997","doi":"https://doi.org/10.48550/arxiv.2605.10190"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.10190","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.10190","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.10190","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5135923829","display_name":"Soichiro Okazaki","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Okazaki, Soichiro","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100808633","display_name":"Tatsuya Sasaki","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sasaki, Tatsuya","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5112657316","display_name":"Hiroki Ohashi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ohashi, Hiroki","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5135923829"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10036","display_name":"Advanced Neural Network Applications","score":0.8759999871253967,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10036","display_name":"Advanced Neural Network Applications","score":0.8759999871253967,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.035100001841783524,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.029400000348687172,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/encoder","display_name":"Encoder","score":0.5619999766349792},{"id":"https://openalex.org/keywords/pascal","display_name":"Pascal (unit)","score":0.5396000146865845},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.4661000072956085},{"id":"https://openalex.org/keywords/fuse","display_name":"Fuse (electrical)","score":0.45249998569488525},{"id":"https://openalex.org/keywords/transformer","display_name":"Transformer","score":0.43970000743865967},{"id":"https://openalex.org/keywords/object-detection","display_name":"Object detection","score":0.4108000099658966},{"id":"https://openalex.org/keywords/feature-vector","display_name":"Feature vector","score":0.38760000467300415},{"id":"https://openalex.org/keywords/feature-extraction","display_name":"Feature extraction","score":0.3684000074863434}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6819000244140625},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6101999878883362},{"id":"https://openalex.org/C118505674","wikidata":"https://www.wikidata.org/wiki/Q42586063","display_name":"Encoder","level":2,"score":0.5619999766349792},{"id":"https://openalex.org/C75608658","wikidata":"https://www.wikidata.org/wiki/Q44395","display_name":"Pascal (unit)","level":2,"score":0.5396000146865845},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.4661000072956085},{"id":"https://openalex.org/C141353440","wikidata":"https://www.wikidata.org/wiki/Q182221","display_name":"Fuse (electrical)","level":2,"score":0.45249998569488525},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.43970000743865967},{"id":"https://openalex.org/C2776151529","wikidata":"https://www.wikidata.org/wiki/Q3045304","display_name":"Object detection","level":3,"score":0.4108000099658966},{"id":"https://openalex.org/C83665646","wikidata":"https://www.wikidata.org/wiki/Q42139305","display_name":"Feature vector","level":2,"score":0.38760000467300415},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.37119999527931213},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.3684000074863434},{"id":"https://openalex.org/C42058472","wikidata":"https://www.wikidata.org/wiki/Q810214","display_name":"Base (topology)","level":2,"score":0.36329999566078186},{"id":"https://openalex.org/C2781238097","wikidata":"https://www.wikidata.org/wiki/Q175026","display_name":"Object (grammar)","level":2,"score":0.3540000021457672},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.335099995136261},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.3046000003814697},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.289900004863739},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.2831999957561493},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.26420000195503235},{"id":"https://openalex.org/C64876066","wikidata":"https://www.wikidata.org/wiki/Q5141226","display_name":"Cognitive neuroscience of visual object recognition","level":3,"score":0.26019999384880066},{"id":"https://openalex.org/C152124472","wikidata":"https://www.wikidata.org/wiki/Q1204361","display_name":"Redundancy (engineering)","level":2,"score":0.25859999656677246},{"id":"https://openalex.org/C43711488","wikidata":"https://www.wikidata.org/wiki/Q7534783","display_name":"Skew","level":2,"score":0.25780001282691956}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.10190","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.10190","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.10190","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.10190","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/4","score":0.56689453125,"display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Open-vocabulary":[0],"object":[1,193],"detection":[2],"(OVOD)":[3],"aims":[4],"to":[5,17,19,23,43,49,94,113,141,167,178],"detect":[6],"both":[7],"seen":[8],"and":[9,28,46,58,81,160,181,187,197],"unseen":[10],"categories,":[11],"yet":[12,37],"existing":[13],"methods":[14],"often":[15],"struggle":[16],"generalize":[18],"novel":[20,171],"objects":[21],"due":[22],"limited":[24],"integration":[25],"of":[26,105,165],"global":[27,45,55,180],"local":[29,47,85,182],"contextual":[30],"cues.":[31],"We":[32],"propose":[33],"DetRefiner,":[34],"a":[35,68,75,185],"simple":[36],"effective":[38],"plug-and-play":[39],"framework":[40],"that":[41,133,176],"learns":[42],"fuse":[44,179],"features":[48,57,61,116],"refine":[50],"open-vocabulary":[51],"detection.":[52,194],"DetRefiner":[53,101,150],"processes":[54],"image":[56,60],"patch-level":[59],"from":[62,88],"foundational":[63],"models":[64,155,198],"(e.g.,":[65],"DINOv3)":[66],"through":[67],"lightweight":[69],"Transformer":[70],"encoder.":[71],"The":[72],"encoder":[73],"produces":[74],"class":[76],"vector":[77],"capturing":[78],"image-level":[79],"attributes":[80],"patch":[82],"vectors":[83],"representing":[84],"region":[86],"attributes,":[87],"which":[89],"attribute":[90],"reliability":[91],"is":[92,102],"inferred":[93],"recalibrate":[95],"the":[96,106,125,137,143],"base":[97,107,126,138],"model's":[98],"confidence.":[99,146],"Notably,":[100],"trained":[103],"independently":[104],"OVOD":[108,154],"model,":[109],"requiring":[110],"neither":[111],"access":[112],"its":[114],"internal":[115],"nor":[117],"retraining.":[118],"At":[119],"inference,":[120],"it":[121],"operates":[122],"solely":[123],"on":[124,170],"detector's":[127,139],"predictions,":[128],"producing":[129],"auxiliary":[130],"calibration":[131],"scores":[132,140],"are":[134,199],"merged":[135],"with":[136],"yield":[142],"final":[144],"refined":[145],"Despite":[147],"this":[148],"simplicity,":[149],"consistently":[151],"enhances":[152],"multiple":[153],"across":[156],"COCO,":[157],"LVIS,":[158],"ODinW13,":[159],"Pascal":[161],"VOC,":[162],"achieving":[163],"gains":[164],"up":[166],"+10.1":[168],"AP":[169],"categories.":[172],"These":[173],"results":[174],"highlight":[175],"learning":[177],"representations":[183],"offers":[184],"powerful":[186],"general":[188],"mechanism":[189],"for":[190],"advancing":[191],"open-world":[192],"Our":[195],"codes":[196],"available":[200],"at":[201],"https://github.com/hitachi-rd-cv/detrefiner.":[202]},"counts_by_year":[],"updated_date":"2026-05-13T06:11:35.469786","created_date":"2026-05-13T00:00:00"}