{"id":"https://openalex.org/W7124837801","doi":"https://doi.org/10.1109/cvmi66673.2025.11337662","title":"Enhancing Spatial Reasoning in Vision-Language Models via Monocular Depth Estimation: A Comparative Study on SpatialBench","display_name":"Enhancing Spatial Reasoning in Vision-Language Models via Monocular Depth Estimation: A Comparative Study on SpatialBench","publication_year":2025,"publication_date":"2025-10-12","ids":{"openalex":"https://openalex.org/W7124837801","doi":"https://doi.org/10.1109/cvmi66673.2025.11337662"},"language":null,"primary_location":{"id":"doi:10.1109/cvmi66673.2025.11337662","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cvmi66673.2025.11337662","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Conference on Computer Vision and Machine Intelligence (CVMI)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5123391051","display_name":"Karthik Prasad G","orcid":null},"institutions":[{"id":"https://openalex.org/I81556334","display_name":"Amrita Vishwa Vidyapeetham","ror":"https://ror.org/03am10p12","country_code":"IN","type":"education","lineage":["https://openalex.org/I81556334"]}],"countries":["IN"],"is_corresponding":false,"raw_author_name":"Karthik Prasad G","raw_affiliation_strings":["Amrita School of Physical Sciences Coimbatore, Amrita Vishwa Vidyapeetham,Department of Mathematics,India"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Amrita School of Physical Sciences Coimbatore, Amrita Vishwa Vidyapeetham,Department of Mathematics,India","institution_ids":["https://openalex.org/I81556334"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5102893484","display_name":"Murali Krishna Panthangi","orcid":"https://orcid.org/0000-0002-3056-5737"},"institutions":[{"id":"https://openalex.org/I81556334","display_name":"Amrita Vishwa Vidyapeetham","ror":"https://ror.org/03am10p12","country_code":"IN","type":"education","lineage":["https://openalex.org/I81556334"]}],"countries":["IN"],"is_corresponding":false,"raw_author_name":"Murali Krishna Panthangi","raw_affiliation_strings":["Amrita School of Physical Sciences Coimbatore, Amrita Vishwa Vidyapeetham,Department of Mathematics,India"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Amrita School of Physical Sciences Coimbatore, Amrita Vishwa Vidyapeetham,Department of Mathematics,India","institution_ids":["https://openalex.org/I81556334"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.61082645,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"5"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9718999862670898,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9718999862670898,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.005900000222027302,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.0031999999191612005,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/spatial-intelligence","display_name":"Spatial intelligence","score":0.6689000129699707},{"id":"https://openalex.org/keywords/monocular","display_name":"Monocular","score":0.6572999954223633},{"id":"https://openalex.org/keywords/spatial-contextual-awareness","display_name":"Spatial contextual awareness","score":0.5210000276565552},{"id":"https://openalex.org/keywords/object","display_name":"Object (grammar)","score":0.5206999778747559},{"id":"https://openalex.org/keywords/spatial-analysis","display_name":"Spatial analysis","score":0.5055999755859375},{"id":"https://openalex.org/keywords/rgb-color-model","display_name":"RGB color model","score":0.48260000348091125},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.40790000557899475},{"id":"https://openalex.org/keywords/spatial-relation","display_name":"Spatial relation","score":0.4049000144004822}],"concepts":[{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.7670000195503235},{"id":"https://openalex.org/C155911833","wikidata":"https://www.wikidata.org/wiki/Q3817354","display_name":"Spatial intelligence","level":2,"score":0.6689000129699707},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6583999991416931},{"id":"https://openalex.org/C65909025","wikidata":"https://www.wikidata.org/wiki/Q1945033","display_name":"Monocular","level":2,"score":0.6572999954223633},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.5910000205039978},{"id":"https://openalex.org/C64754055","wikidata":"https://www.wikidata.org/wiki/Q7574053","display_name":"Spatial contextual awareness","level":2,"score":0.5210000276565552},{"id":"https://openalex.org/C2781238097","wikidata":"https://www.wikidata.org/wiki/Q175026","display_name":"Object (grammar)","level":2,"score":0.5206999778747559},{"id":"https://openalex.org/C159620131","wikidata":"https://www.wikidata.org/wiki/Q1938983","display_name":"Spatial analysis","level":2,"score":0.5055999755859375},{"id":"https://openalex.org/C82990744","wikidata":"https://www.wikidata.org/wiki/Q166194","display_name":"RGB color model","level":2,"score":0.48260000348091125},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.40790000557899475},{"id":"https://openalex.org/C27511587","wikidata":"https://www.wikidata.org/wiki/Q2178623","display_name":"Spatial relation","level":2,"score":0.4049000144004822},{"id":"https://openalex.org/C136643341","wikidata":"https://www.wikidata.org/wiki/Q1361526","display_name":"Reachability","level":2,"score":0.39410001039505005},{"id":"https://openalex.org/C141268832","wikidata":"https://www.wikidata.org/wiki/Q2940499","display_name":"Depth map","level":3,"score":0.3874000012874603},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.3828999996185303},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.32690000534057617},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.3246999979019165},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.3138999938964844},{"id":"https://openalex.org/C42058472","wikidata":"https://www.wikidata.org/wiki/Q810214","display_name":"Base (topology)","level":2,"score":0.29179999232292175},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.27790001034736633},{"id":"https://openalex.org/C64876066","wikidata":"https://www.wikidata.org/wiki/Q5141226","display_name":"Cognitive neuroscience of visual object recognition","level":3,"score":0.2728999853134155},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.262800008058548},{"id":"https://openalex.org/C96250715","wikidata":"https://www.wikidata.org/wiki/Q965330","display_name":"Estimation","level":2,"score":0.25369998812675476},{"id":"https://openalex.org/C203689450","wikidata":"https://www.wikidata.org/wiki/Q2302053","display_name":"Spatial database","level":3,"score":0.25110000371932983}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cvmi66673.2025.11337662","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cvmi66673.2025.11337662","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Conference on Computer Vision and Machine Intelligence (CVMI)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":14,"referenced_works":["https://openalex.org/W125693051","https://openalex.org/W2060706214","https://openalex.org/W2150066425","https://openalex.org/W2277195237","https://openalex.org/W2965988011","https://openalex.org/W3018445486","https://openalex.org/W3110851423","https://openalex.org/W4205395137","https://openalex.org/W4386071473","https://openalex.org/W4390874575","https://openalex.org/W4402727359","https://openalex.org/W4405595839","https://openalex.org/W4412945600","https://openalex.org/W4413926275"],"related_works":[],"abstract_inverted_index":{"Vision-Language":[0],"Model":[1],"(VLM)":[2],"spatial":[3,35,103,131,142,185],"relationship":[4,36,186],"understanding":[5],"is":[6],"an":[7],"asset":[8],"of":[9,34,42,75,79,106,116,169,177],"VLMs":[10,23,178],"when":[11],"used":[12],"in":[13,58,114,145,173,184],"real-world":[14],"tasks,":[15],"e.g.,":[16],"robotic":[17],"grasping":[18],"and":[19,70,109,149],"self-driving":[20],"navigation.":[21],"Existing":[22],"trained":[24],"only":[25],"on":[26],"RGB":[27],"images":[28,80,87],"are":[29,88,112],"marred":[30],"by":[31,52,120],"a":[32,76,95],"lack":[33,41],"reasoning":[37,104],"due":[38],"to":[39,90,126,179],"the":[40,92,107,117,122,153,160,167,174],"depth":[43,73,123,138,171],"perception.":[44],"In":[45],"this":[46,50],"paper,":[47],"we":[48],"overcome":[49],"limitation":[51],"incorporating":[53,170],"Monocular":[54],"Depth":[55,67],"Estimation":[56],"(MDE)":[57],"fine-tuning":[59,136],"VLMs.":[60],"We":[61,133],"employ":[62],"three":[63,154],"state-of-the-art":[64],"MDE":[65,155],"models-ZoeDepth,":[66],"Anything":[68],"V2,":[69],"DepthPro-to":[71],"generate":[72],"maps":[74],"large":[77],"variety":[78],"from":[81,83],"spatially":[82],"SpatialQA.":[84],"The":[85,102],"depth-enhanced":[86],"utilized":[89],"fine-tune":[91],"Mini-InternVL-l.5":[93],"model,":[94],"lite":[96],"VLM":[97],"with":[98],"2":[99],"billion":[100],"parameters.":[101],"abilities":[105],"base":[108],"fine-tuned":[110],"models":[111,125],"compared":[113],"terms":[115],"SpatialBench":[118],"benchmark,":[119],"varying":[121],"estimation":[124],"study":[127],"which":[128],"yields":[129,159],"better":[130],"reasoning.":[132],"see":[134],"that":[135],"using":[137],"information":[139],"significantly":[140],"enhances":[141],"awareness,":[143],"particularly":[144],"counting,":[146],"object":[147],"existence,":[148],"reachability":[150],"tasks.":[151,187],"Of":[152],"models,":[156],"ZoeDepth":[157],"consistently":[158],"best":[161],"performance":[162],"gains.":[163],"These":[164],"findings":[165],"highlight":[166],"importance":[168],"cues":[172],"training":[175],"pipelines":[176],"unlock":[180],"their":[181],"full":[182],"potential":[183]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-01-21T00:00:00"}