{"id":"https://openalex.org/W7137893478","doi":"https://doi.org/10.48550/arxiv.2603.13904","title":"Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition","display_name":"Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition","publication_year":2026,"publication_date":"2026-03-14","ids":{"openalex":"https://openalex.org/W7137893478","doi":"https://doi.org/10.48550/arxiv.2603.13904"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.13904","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.13904","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.13904","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5129656007","display_name":"Seokmin Lee","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lee, Seokmin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129642080","display_name":"Yunghee Lee","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lee, Yunghee","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129747551","display_name":"Byeonghyun Pak","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Pak, Byeonghyun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5111497195","display_name":"B.J. Woo","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Woo, Byeongju","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.19470000267028809,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.19470000267028809,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.19210000336170197,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.11670000106096268,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/bottleneck","display_name":"Bottleneck","score":0.6717000007629395},{"id":"https://openalex.org/keywords/encode","display_name":"ENCODE","score":0.6626999974250793},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.5432999730110168},{"id":"https://openalex.org/keywords/security-token","display_name":"Security token","score":0.5180000066757202},{"id":"https://openalex.org/keywords/information-bottleneck-method","display_name":"Information bottleneck method","score":0.5166000127792358},{"id":"https://openalex.org/keywords/encoding","display_name":"Encoding (memory)","score":0.486299991607666},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.4339999854564667},{"id":"https://openalex.org/keywords/perception","display_name":"Perception","score":0.41100001335144043},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.38690000772476196},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.366100013256073}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7486000061035156},{"id":"https://openalex.org/C2780513914","wikidata":"https://www.wikidata.org/wiki/Q18210350","display_name":"Bottleneck","level":2,"score":0.6717000007629395},{"id":"https://openalex.org/C66746571","wikidata":"https://www.wikidata.org/wiki/Q1134833","display_name":"ENCODE","level":3,"score":0.6626999974250793},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6205000281333923},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.5432999730110168},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.5180000066757202},{"id":"https://openalex.org/C60008888","wikidata":"https://www.wikidata.org/wiki/Q6031013","display_name":"Information bottleneck method","level":3,"score":0.5166000127792358},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.486299991607666},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.4339999854564667},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.41100001335144043},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.38690000772476196},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.366100013256073},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.35929998755455017},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.3582000136375427},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.3564999997615814},{"id":"https://openalex.org/C178253425","wikidata":"https://www.wikidata.org/wiki/Q162668","display_name":"Visual perception","level":3,"score":0.3449000120162964},{"id":"https://openalex.org/C160234255","wikidata":"https://www.wikidata.org/wiki/Q812535","display_name":"Bayesian inference","level":3,"score":0.33869999647140503},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.3073999881744385},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.29980000853538513},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.29820001125335693},{"id":"https://openalex.org/C124304363","wikidata":"https://www.wikidata.org/wiki/Q673661","display_name":"Abstraction","level":2,"score":0.2915000021457672},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.28459998965263367},{"id":"https://openalex.org/C40231798","wikidata":"https://www.wikidata.org/wiki/Q1333743","display_name":"Composition (language)","level":2,"score":0.28439998626708984},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.28360000252723694},{"id":"https://openalex.org/C2778251979","wikidata":"https://www.wikidata.org/wiki/Q7936617","display_name":"Visual processing","level":3,"score":0.2728999853134155},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.27129998803138733},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2705000042915344},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.2637999951839447},{"id":"https://openalex.org/C19768560","wikidata":"https://www.wikidata.org/wiki/Q320727","display_name":"Dependency (UML)","level":2,"score":0.2615000009536743},{"id":"https://openalex.org/C2777508537","wikidata":"https://www.wikidata.org/wiki/Q7936620","display_name":"Visual reasoning","level":2,"score":0.25999999046325684},{"id":"https://openalex.org/C2779321571","wikidata":"https://www.wikidata.org/wiki/Q7936605","display_name":"Visual learning","level":2,"score":0.25429999828338623},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.25189998745918274}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.13904","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.13904","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.13904","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.13904","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.7684110403060913}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"For":[0],"robotic":[1],"agents":[2],"operating":[3],"in":[4,110],"dynamic":[5],"environments,":[6],"learning":[7,23,85,127,177],"visual":[8,41,49,82,154],"state":[9,42,83],"representations":[10,195],"from":[11,115],"streaming":[12],"video":[13],"observations":[14],"is":[15],"essential":[16],"for":[17],"sequential":[18,166],"decision":[19,167],"making.":[20,168],"Recent":[21],"self-supervised":[22],"methods":[24],"have":[25],"shown":[26],"strong":[27],"transferability":[28],"across":[29,73,203],"vision":[30],"tasks,":[31],"but":[32],"they":[33],"do":[34],"not":[35],"explicitly":[36],"address":[37],"what":[38],"a":[39,81,89,94,99,111,135,150],"good":[40],"should":[43],"encode.":[44],"We":[45,169],"argue":[46],"that":[47,192],"effective":[48],"states":[50,155],"must":[51],"capture":[52],"what-is-where":[53],"by":[54],"jointly":[55],"encoding":[56],"the":[57,120,130,152,193],"semantic":[58,140],"identities":[59],"of":[60,70,138],"scene":[61,158,198],"elements":[62,159],"and":[63,147,161,186,200],"their":[64,143],"spatial":[65,145],"locations,":[66,146],"enabling":[67],"reliable":[68],"detection":[69],"subtle":[71],"dynamics":[72],"observations.":[74,204],"To":[75],"this":[76],"end,":[77],"we":[78],"propose":[79],"CroBo,":[80],"representation":[84,137],"framework":[86],"based":[87],"on":[88,172],"global-to-local":[90],"reconstruction":[91],"objective.":[92],"Given":[93],"reference":[95],"observation":[96],"compressed":[97],"into":[98],"compact":[100],"bottleneck":[101,122,131],"token,":[102],"CroBo":[103,171],"learns":[104],"to":[105,133],"reconstruct":[106],"heavily":[107],"masked":[108],"patches":[109],"local":[112],"target":[113],"crop":[114],"sparse":[116],"visible":[117],"cues,":[118],"using":[119],"global":[121],"token":[123,132],"as":[124],"context.":[125],"This":[126],"objective":[128],"encourages":[129],"encode":[134,201],"fine-grained":[136],"scene-wide":[139],"entities,":[141],"including":[142],"identities,":[144],"configurations.":[148],"As":[149],"result,":[151],"learned":[153,194],"reveal":[156],"how":[157],"move":[160],"interact":[162],"over":[163],"time,":[164],"supporting":[165],"evaluate":[170],"diverse":[173],"vision-based":[174],"robot":[175],"policy":[176],"benchmarks,":[178],"where":[179],"it":[180],"achieves":[181],"state-of-the-art":[182],"performance.":[183],"Reconstruction":[184],"analyses":[185],"perceptual":[187],"straightness":[188],"experiments":[189],"further":[190],"show":[191],"preserve":[196],"pixel-level":[197],"composition":[199],"what-moves-where":[202],"Project":[205],"page":[206],"available":[207],"at:":[208],"https://seokminlee-chris.github.io/CroBo-ProjectPage.":[209]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-03-18T00:00:00"}