{"id":"https://openalex.org/W7157125804","doi":"https://doi.org/10.48550/arxiv.2604.24583","title":"Improving Vision-language Models with Perception-centric Process Reward Models","display_name":"Improving Vision-language Models with Perception-centric Process Reward Models","publication_year":2026,"publication_date":"2026-04-27","ids":{"openalex":"https://openalex.org/W7157125804","doi":"https://doi.org/10.48550/arxiv.2604.24583"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.24583","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.24583","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.24583","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5134772062","display_name":"Yingqian Min","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Min, Yingqian","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134781731","display_name":"Kun Zhou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhou, Kun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134771035","display_name":"Yifan Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Yifan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5109756878","display_name":"Yuhuan Wu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wu, Yuhuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134767942","display_name":"Han Peng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Peng, Han","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134800397","display_name":"Yifan Du","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Du, Yifan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134812001","display_name":"Wayne Xin Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Wayne Xin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134809126","display_name":"MIn Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yang, Min","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5134808258","display_name":"Ji-Rong Wen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wen, Ji-Rong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":9,"corresponding_author_ids":["https://openalex.org/A5134772062"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.8648999929428101,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.8648999929428101,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.03519999980926514,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.026599999517202377,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.6881999969482422},{"id":"https://openalex.org/keywords/hallucinating","display_name":"Hallucinating","score":0.621399998664856},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.5656999945640564},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5600000023841858},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.39250001311302185},{"id":"https://openalex.org/keywords/verifiable-secret-sharing","display_name":"Verifiable secret sharing","score":0.3603000044822693}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7347999811172485},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.6881999969482422},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6434999704360962},{"id":"https://openalex.org/C2911011789","wikidata":"https://www.wikidata.org/wiki/Q130741","display_name":"Hallucinating","level":2,"score":0.621399998664856},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.5656999945640564},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5600000023841858},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5587999820709229},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.39250001311302185},{"id":"https://openalex.org/C85847156","wikidata":"https://www.wikidata.org/wiki/Q59015987","display_name":"Verifiable secret sharing","level":3,"score":0.3603000044822693},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.33629998564720154},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.30140000581741333},{"id":"https://openalex.org/C160234255","wikidata":"https://www.wikidata.org/wiki/Q812535","display_name":"Bayesian inference","level":3,"score":0.27079999446868896}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.24583","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.24583","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.24583","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.24583","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.6663339138031006,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Recent":[0],"advancements":[1],"in":[2,70],"reinforcement":[3],"learning":[4],"with":[5,66,83,202],"verifiable":[6],"rewards":[7],"(RLVR)":[8],"have":[9,160],"significantly":[10],"improved":[11],"the":[12,33,58,67,71,93,99,133,142,150,154,161,164,169,205],"complex":[13],"reasoning":[14,34,199],"ability":[15],"of":[16,153,207],"vision-language":[17],"models":[18],"(VLMs).":[19],"However,":[20],"its":[21,174],"outcome-level":[22],"supervision":[23,127,209],"is":[24,81],"too":[25],"coarse":[26],"to":[27,97,104,131,171,184],"diagnose":[28],"and":[29,60,157,232],"correct":[30],"errors":[31],"within":[32],"chain.":[35],"To":[36],"this":[37],"end,":[38],"we":[39,111,147],"propose":[40],"Perceval,":[41,123,146],"a":[42,211],"process":[43,96,178],"reward":[44],"model":[45,162,170],"(PRM)":[46],"that":[47,76],"enables":[48],"token-level":[49,113],"error":[50],"grounding,":[51],"which":[52,107],"can":[53,137,148,179],"extract":[54],"image-related":[55],"claims":[56,75],"from":[57,194],"response":[59,165],"compare":[61],"them":[62],"one":[63,65],"by":[64,115,122],"visual":[68],"evidence":[69],"image,":[72],"ultimately":[73],"returning":[74],"contain":[77],"perceptual":[78],"errors.":[79],"Perceval":[80,91,136],"trained":[82,201],"perception-intensive":[84],"supervised":[85],"training":[86,95,134],"data.":[87],"We":[88],"then":[89,158],"integrate":[90],"into":[92],"RL":[94],"train":[98],"policy":[100],"models.":[101],"Specifically,":[102],"compared":[103],"traditional":[105],"GRPO,":[106],"applies":[108],"sequence-level":[109],"advantages,":[110],"apply":[112],"advantages":[114],"targeting":[116],"penalties":[117],"on":[118,173,192],"hallucinated":[119],"spans":[120],"identified":[121],"thus":[124],"enabling":[125],"fine-grained":[126],"signals.":[128],"In":[129],"addition":[130],"augmenting":[132],"process,":[135],"also":[138,218],"assist":[139],"VLMs":[140,200],"during":[141],"inference":[143],"stage.":[144],"Using":[145],"truncate":[149],"erroneous":[151],"portions":[152],"model's":[155],"response,":[156],"either":[159],"regenerate":[163],"directly":[166],"or":[167],"induce":[168],"reflect":[172],"previous":[175],"output.":[176],"This":[177],"be":[180,235],"repeated":[181],"multiple":[182,198],"times":[183],"achieve":[185],"test-time":[186,215],"scaling.":[187],"Experiments":[188],"show":[189],"significant":[190],"improvements":[191],"benchmarks":[193],"various":[195],"domains":[196],"across":[197],"RL,":[203],"highlighting":[204],"promise":[206],"perception-centric":[208],"as":[210,227],"general-purpose":[212],"strategy.":[213],"For":[214],"scaling,":[216],"it":[217],"demonstrates":[219],"consistent":[220],"performance":[221],"gains":[222],"over":[223],"other":[224],"strategies,":[225],"such":[226],"major":[228],"voting.":[229],"Our":[230],"code":[231],"data":[233],"will":[234],"publicly":[236],"released":[237],"at":[238],"https://github.com/RUCAIBox/Perceval.":[239]},"counts_by_year":[],"updated_date":"2026-04-29T06:16:36.941037","created_date":"2026-04-29T00:00:00"}