{"id":"https://openalex.org/W7160255252","doi":"https://doi.org/10.1109/wacv61042.2026.00351","title":"Feature Inversion as a Lens on Vision Encoders","display_name":"Feature Inversion as a Lens on Vision Encoders","publication_year":2026,"publication_date":"2026-03-06","ids":{"openalex":"https://openalex.org/W7160255252","doi":"https://doi.org/10.1109/wacv61042.2026.00351"},"language":null,"primary_location":{"id":"doi:10.1109/wacv61042.2026.00351","is_oa":false,"landing_page_url":"https://doi.org/10.1109/wacv61042.2026.00351","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5135417865","display_name":"Eduard Allakhverdov","orcid":null},"institutions":[{"id":"https://openalex.org/I4210125919","display_name":"Fusion (United States)","ror":"https://ror.org/02vtgg877","country_code":"US","type":"company","lineage":["https://openalex.org/I4210125919"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Eduard Allakhverdov","raw_affiliation_strings":["FusionBrain Lab,Russia"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"FusionBrain Lab,Russia","institution_ids":["https://openalex.org/I4210125919"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135288738","display_name":"Dmitrii Tarasov","orcid":null},"institutions":[{"id":"https://openalex.org/I4210125919","display_name":"Fusion (United States)","ror":"https://ror.org/02vtgg877","country_code":"US","type":"company","lineage":["https://openalex.org/I4210125919"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Dmitrii Tarasov","raw_affiliation_strings":["FusionBrain Lab,Russia"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"FusionBrain Lab,Russia","institution_ids":["https://openalex.org/I4210125919"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135415999","display_name":"Elizaveta Goncharova","orcid":null},"institutions":[{"id":"https://openalex.org/I4210125919","display_name":"Fusion (United States)","ror":"https://ror.org/02vtgg877","country_code":"US","type":"company","lineage":["https://openalex.org/I4210125919"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Elizaveta Goncharova","raw_affiliation_strings":["FusionBrain Lab,Russia"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"FusionBrain Lab,Russia","institution_ids":["https://openalex.org/I4210125919"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5125738391","display_name":"Andrey Kuznetsov","orcid":null},"institutions":[{"id":"https://openalex.org/I4210125919","display_name":"Fusion (United States)","ror":"https://ror.org/02vtgg877","country_code":"US","type":"company","lineage":["https://openalex.org/I4210125919"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Andrey Kuznetsov","raw_affiliation_strings":["FusionBrain Lab,Russia"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"FusionBrain Lab,Russia","institution_ids":["https://openalex.org/I4210125919"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.68325458,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"3598","last_page":"3605"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10531","display_name":"Advanced Vision and Imaging","score":0.1517000049352646,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10531","display_name":"Advanced Vision and Imaging","score":0.1517000049352646,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11094","display_name":"Face Recognition and Perception","score":0.10080000013113022,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}},{"id":"https://openalex.org/T11448","display_name":"Face recognition and analysis","score":0.07129999995231628,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/encoder","display_name":"Encoder","score":0.6837999820709229},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.599399983882904},{"id":"https://openalex.org/keywords/channel","display_name":"Channel (broadcasting)","score":0.41839998960494995},{"id":"https://openalex.org/keywords/machine-vision","display_name":"Machine vision","score":0.39399999380111694},{"id":"https://openalex.org/keywords/inversion","display_name":"Inversion (geology)","score":0.3853999972343445},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.3799000084400177},{"id":"https://openalex.org/keywords/feature-extraction","display_name":"Feature extraction","score":0.37880000472068787}],"concepts":[{"id":"https://openalex.org/C118505674","wikidata":"https://www.wikidata.org/wiki/Q42586063","display_name":"Encoder","level":2,"score":0.6837999820709229},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6797000169754028},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6708999872207642},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.656000018119812},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.599399983882904},{"id":"https://openalex.org/C127162648","wikidata":"https://www.wikidata.org/wiki/Q16858953","display_name":"Channel (broadcasting)","level":2,"score":0.41839998960494995},{"id":"https://openalex.org/C5339829","wikidata":"https://www.wikidata.org/wiki/Q1425977","display_name":"Machine vision","level":2,"score":0.39399999380111694},{"id":"https://openalex.org/C1893757","wikidata":"https://www.wikidata.org/wiki/Q3653001","display_name":"Inversion (geology)","level":3,"score":0.3853999972343445},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.3799000084400177},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.37880000472068787},{"id":"https://openalex.org/C101738243","wikidata":"https://www.wikidata.org/wiki/Q786435","display_name":"Autoencoder","level":3,"score":0.37439998984336853},{"id":"https://openalex.org/C78201319","wikidata":"https://www.wikidata.org/wiki/Q685727","display_name":"Grayscale","level":3,"score":0.3675999939441681},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.34389999508857727},{"id":"https://openalex.org/C2961294","wikidata":"https://www.wikidata.org/wiki/Q166863","display_name":"Color space","level":3,"score":0.30630001425743103},{"id":"https://openalex.org/C83665646","wikidata":"https://www.wikidata.org/wiki/Q42139305","display_name":"Feature vector","level":2,"score":0.2992999851703644},{"id":"https://openalex.org/C2779803651","wikidata":"https://www.wikidata.org/wiki/Q5282088","display_name":"Discriminator","level":3,"score":0.2831999957561493},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.2770000100135803},{"id":"https://openalex.org/C159620131","wikidata":"https://www.wikidata.org/wiki/Q1938983","display_name":"Spatial analysis","level":2,"score":0.2770000100135803},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.2556000053882599}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/wacv61042.2026.00351","is_oa":false,"landing_page_url":"https://doi.org/10.1109/wacv61042.2026.00351","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":12,"referenced_works":["https://openalex.org/W1861492603","https://openalex.org/W2190008860","https://openalex.org/W2963989815","https://openalex.org/W3159481202","https://openalex.org/W3173241699","https://openalex.org/W3204544513","https://openalex.org/W4238815782","https://openalex.org/W4312443924","https://openalex.org/W4390873312","https://openalex.org/W4390874575","https://openalex.org/W4402713111","https://openalex.org/W4415056349"],"related_works":[],"abstract_inverted_index":{"Vision":[0],"encoders":[1,65,170],"power":[2],"modern":[3],"vision-only":[4],"and":[5,36,45,58,71,82,89,113,123,163,177],"vision-language":[6],"systems,":[7],"yet":[8],"the":[9,77],"geometry":[10],"of":[11,79,131,168],"their":[12,80],"internal":[13],"features":[14,35,81],"remains":[15],"opaque.":[16],"In":[17],"this":[18],"work,":[19],"we":[20,49],"introduce":[21],"a":[22,40,51,124,165],"simple,":[23],"general":[24],"approach":[25,149],"for":[26,42],"vision":[27,64],"latent":[28],"analysis:":[29],"reconstruct":[30],"images":[31],"from":[32],"frozen":[33],"encoder":[34],"treat":[37],"reconstructability":[38],"as":[39],"proxy":[41],"retained":[43],"information":[44,174],"feature":[46,56,98],"organization.":[47],"Concretely,":[48],"train":[50],"lightweight":[52],"reconstructor":[53],"to":[54,61,161],"invert":[55],"tensors":[57],"use":[59],"it":[60,179],"compare":[62],"various":[63],"\u2014":[66],"CLIP-based":[67],"ViT,":[68],"SigLIP,":[69],"SAM,":[70],"InternViT.":[72],"We":[73],"rank":[74],"models":[75],"by":[76],"informativeness":[78],"observe":[83],"consistent":[84],"gains":[85],"with":[86],"image-centric":[87],"objectives":[88],"higher":[90],"spatial":[91,108],"resolution.":[92],"Beyond":[93],"measurement,":[94],"controlled":[95],"manipulations":[96],"in":[97,146,152],"space":[99],"produce":[100],"predictable":[101],"pixel-level":[102],"edits:":[103],"orthogonal":[104],"rotations":[105],"(rather":[106],"than":[107],"transformations)":[109],"implement":[110,120],"channel":[111,121],"permutations":[112],"drive":[114],"systematic":[115],"color":[116,139,144],"changes;":[117],"linear":[118,126],"contractions":[119],"suppression;":[122],"learned":[125],"map":[127],"enables":[128],"plausible":[129],"colorization":[130],"grayscale":[132],"inputs.":[133],"VLM-based":[134],"experiments":[135],"confirm":[136],"that":[137,173],"feature-space":[138],"swaps":[140],"translate":[141],"into":[142],"semantic":[143],"changes":[145],"reconstructions.":[147],"Our":[148],"is":[150,175],"encoder-agnostic":[151],"principle":[153],"(demonstrated":[154],"on":[155],"ViT-based":[156],"models),":[157],"requires":[158],"only":[159],"access":[160],"features,":[162],"offers":[164],"practical":[166],"diagnostic":[167],"what":[169],"remember,":[171],"how":[172,178],"organized,":[176],"can":[180],"be":[181],"manipulated.":[182]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-06T00:00:00"}