{"id":"https://openalex.org/W4416955858","doi":"https://doi.org/10.1109/wacv61042.2026.00595","title":"SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding","display_name":"SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding","publication_year":2026,"publication_date":"2026-03-06","ids":{"openalex":"https://openalex.org/W4416955858","doi":"https://doi.org/10.1109/wacv61042.2026.00595"},"language":null,"primary_location":{"id":"doi:10.1109/wacv61042.2026.00595","is_oa":false,"landing_page_url":"https://doi.org/10.1109/wacv61042.2026.00595","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)","raw_type":"proceedings-article"},"type":"article","indexed_in":["arxiv","crossref","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2512.00936","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5048905694","display_name":"Keita Otani","orcid":null},"institutions":[{"id":"https://openalex.org/I74801974","display_name":"The University of Tokyo","ror":"https://ror.org/057zh3y96","country_code":"JP","type":"education","lineage":["https://openalex.org/I74801974"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Keita Otani","raw_affiliation_strings":["The University of Tokyo"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"The University of Tokyo","institution_ids":["https://openalex.org/I74801974"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5042711470","display_name":"Tatsuya Harada","orcid":"https://orcid.org/0000-0002-3712-3691"},"institutions":[{"id":"https://openalex.org/I4210126580","display_name":"RIKEN Center for Advanced Intelligence Project","ror":"https://ror.org/03ckxwf91","country_code":"JP","type":"facility","lineage":["https://openalex.org/I4210110652","https://openalex.org/I4210126580"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Tatsuya Harada","raw_affiliation_strings":["The University of Tokyo,RIKEN AIP"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"The University of Tokyo,RIKEN AIP","institution_ids":["https://openalex.org/I4210126580"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.01180294,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"6153","last_page":"6162"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9911999702453613,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9911999702453613,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11273","display_name":"Advanced Graph Neural Networks","score":0.0020000000949949026,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10627","display_name":"Advanced Image and Video Retrieval Techniques","score":0.0012000000569969416,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.6111999750137329},{"id":"https://openalex.org/keywords/markov-random-field","display_name":"Markov random field","score":0.5551000237464905},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.5412999987602234},{"id":"https://openalex.org/keywords/focus","display_name":"Focus (optics)","score":0.49070000648498535},{"id":"https://openalex.org/keywords/graph","display_name":"Graph","score":0.447299987077713},{"id":"https://openalex.org/keywords/ground","display_name":"Ground","score":0.4259999990463257},{"id":"https://openalex.org/keywords/a-priori-and-a-posteriori","display_name":"A priori and a posteriori","score":0.4153999984264374},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.4065000116825104},{"id":"https://openalex.org/keywords/graphical-model","display_name":"Graphical model","score":0.39890000224113464}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.703000009059906},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.6111999750137329},{"id":"https://openalex.org/C2778045648","wikidata":"https://www.wikidata.org/wiki/Q176827","display_name":"Markov random field","level":4,"score":0.5551000237464905},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.5412999987602234},{"id":"https://openalex.org/C192209626","wikidata":"https://www.wikidata.org/wiki/Q190909","display_name":"Focus (optics)","level":2,"score":0.49070000648498535},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.4828999936580658},{"id":"https://openalex.org/C132525143","wikidata":"https://www.wikidata.org/wiki/Q141488","display_name":"Graph","level":2,"score":0.447299987077713},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4350000023841858},{"id":"https://openalex.org/C168993435","wikidata":"https://www.wikidata.org/wiki/Q6501125","display_name":"Ground","level":2,"score":0.4259999990463257},{"id":"https://openalex.org/C75553542","wikidata":"https://www.wikidata.org/wiki/Q178161","display_name":"A priori and a posteriori","level":2,"score":0.4153999984264374},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.4065000116825104},{"id":"https://openalex.org/C155846161","wikidata":"https://www.wikidata.org/wiki/Q1143367","display_name":"Graphical model","level":2,"score":0.39890000224113464},{"id":"https://openalex.org/C2777472644","wikidata":"https://www.wikidata.org/wiki/Q16968992","display_name":"Approximate inference","level":3,"score":0.38019999861717224},{"id":"https://openalex.org/C152948882","wikidata":"https://www.wikidata.org/wiki/Q4060686","display_name":"Belief propagation","level":3,"score":0.3702000081539154},{"id":"https://openalex.org/C186644900","wikidata":"https://www.wikidata.org/wiki/Q194152","display_name":"Parsing","level":2,"score":0.36959999799728394},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.3465999960899353},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.34540000557899475},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3296000063419342},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.3255999982357025},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.32120001316070557},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.31349998712539673},{"id":"https://openalex.org/C44291984","wikidata":"https://www.wikidata.org/wiki/Q1074173","display_name":"Question answering","level":2,"score":0.3100000023841858},{"id":"https://openalex.org/C157692150","wikidata":"https://www.wikidata.org/wiki/Q2919848","display_name":"Query optimization","level":2,"score":0.2768999934196472},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.271699994802475},{"id":"https://openalex.org/C5655090","wikidata":"https://www.wikidata.org/wiki/Q192588","display_name":"Relational database","level":2,"score":0.2694000005722046},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.2646999955177307},{"id":"https://openalex.org/C147764199","wikidata":"https://www.wikidata.org/wiki/Q6865248","display_name":"Minification","level":2,"score":0.25870001316070557},{"id":"https://openalex.org/C9652623","wikidata":"https://www.wikidata.org/wiki/Q190109","display_name":"Field (mathematics)","level":2,"score":0.25589999556541443},{"id":"https://openalex.org/C24755975","wikidata":"https://www.wikidata.org/wiki/Q4943354","display_name":"Boolean conjunctive query","level":5,"score":0.2556000053882599},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.2524000108242035}],"mesh":[],"locations_count":3,"locations":[{"id":"doi:10.1109/wacv61042.2026.00595","is_oa":false,"landing_page_url":"https://doi.org/10.1109/wacv61042.2026.00595","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2026 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:2512.00936","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2512.00936","pdf_url":"https://arxiv.org/pdf/2512.00936","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},{"id":"doi:10.48550/arxiv.2512.00936","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2512.00936","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2512.00936","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2512.00936","pdf_url":"https://arxiv.org/pdf/2512.00936","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Grounding":[0],"complex,":[1],"compositional":[2],"visual":[3],"queries":[4,41],"with":[5,193],"multiple":[6],"objects":[7,68],"and":[8,69,196,212],"relationships":[9],"is":[10,63,152],"a":[11,55,102,114,116,122,159],"fundamental":[12],"challenge":[13],"for":[14,75,203],"vision-language":[15],"models.":[16],"While":[17],"standard":[18],"phrase":[19],"grounding":[20,97,112,179],"methods":[21,74],"excel":[22],"at":[23,221],"localizing":[24],"single":[25],"objects,":[26],"they":[27],"lack":[28],"the":[29,61,85,91,132,138,163,177,194,199,204],"structural":[30,48],"inductive":[31],"bias":[32],"to":[33,89,144,183,215],"parse":[34],"intricate":[35],"relational":[36,209],"descriptions,":[37],"often":[38],"failing":[39],"as":[40,84,113],"become":[42],"more":[43,208],"descriptive.":[44],"To":[45],"address":[46],"this":[47,76,107],"deficit,":[49],"we":[50],"focus":[51,175],"on":[52,168,176],"scenegraph":[53],"grounding,":[54],"powerful":[56],"but":[57],"less-explored":[58],"formulation":[59,180],"where":[60],"query":[62,86,134,200],"an":[64,155],"explicit":[65],"graph":[66,87],"of":[67,141,162,198],"their":[70],"relationships.":[71],"However,":[72],"existing":[73],"task":[77],"also":[78],"struggle,":[79],"paradoxically":[80],"showing":[81],"decreased":[82],"performance":[83],"grows\u2014failing":[88],"leverage":[90],"very":[92],"information":[93],"that":[94,105,146,172,207],"should":[95],"make":[96],"easier.":[98],"We":[99],"introduce":[100],"SceneProp,":[101],"novel":[103],"method":[104],"resolves":[106],"issue":[108],"by":[109],"reformulating":[110],"scene-graph":[111,178],"Maximum":[115],"Posteriori":[117],"(MAP)":[118],"inference":[119,130],"problem":[120],"in":[121],"Markov":[123],"Random":[124],"Field":[125],"(MRF).":[126],"By":[127],"performing":[128],"global":[129],"over":[131],"entire":[133],"graph,":[135,201],"SceneProp":[136,182],"finds":[137],"optimal":[139],"assignment":[140],"image":[142],"regions":[143],"nodes":[145],"jointly":[147],"satisfies":[148],"all":[149],"constraints.":[150],"This":[151],"achieved":[153],"within":[154],"end-to-end":[156],"framework":[157],"via":[158],"differentiable":[160],"implementation":[161],"Belief":[164],"Propagation":[165],"algorithm.":[166],"Experiments":[167],"four":[169],"benchmarks":[170],"show":[171],"our":[173],"dedicated":[174],"allows":[181],"significantly":[184],"outperform":[185],"prior":[186],"work.":[187],"Critically,":[188],"its":[189],"accuracy":[190],"consistently":[191],"improves":[192],"size":[195],"complexity":[197],"demonstrating":[202],"first":[205],"time":[206],"context":[210],"can,":[211],"should,":[213],"lead":[214],"better":[216],"grounding.":[217],"Codes":[218],"are":[219],"available":[220],"https://github.com/keitaotani/SceneProp.":[222]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-12-03T00:00:00"}