{"id":"https://openalex.org/W7150733724","doi":"https://doi.org/10.48550/arxiv.2604.03157","title":"Chart-RL: Policy Optimization Reinforcement Learning for Enhanced Visual Reasoning in Chart Question Answering with Vision Language Models","display_name":"Chart-RL: Policy Optimization Reinforcement Learning for Enhanced Visual Reasoning in Chart Question Answering with Vision Language Models","publication_year":2026,"publication_date":"2026-04-03","ids":{"openalex":"https://openalex.org/W7150733724","doi":"https://doi.org/10.48550/arxiv.2604.03157"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.03157","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.03157","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.03157","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5133041277","display_name":"Yunfei Bai","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Bai, Yunfei","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5043887050","display_name":"Amit Dhanda","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Dhanda, Amit","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5133063604","display_name":"Shekhar Jain","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jain, Shekhar","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5133041277"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9958000183105469,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9958000183105469,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.000699999975040555,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11273","display_name":"Advanced Graph Neural Networks","score":0.0006000000284984708,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7613999843597412},{"id":"https://openalex.org/keywords/question-answering","display_name":"Question answering","score":0.6545000076293945},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.6169999837875366},{"id":"https://openalex.org/keywords/benchmarking","display_name":"Benchmarking","score":0.5205000042915344},{"id":"https://openalex.org/keywords/visual-reasoning","display_name":"Visual reasoning","score":0.48260000348091125},{"id":"https://openalex.org/keywords/adaptation","display_name":"Adaptation (eye)","score":0.4309000074863434},{"id":"https://openalex.org/keywords/chart","display_name":"Chart","score":0.4106999933719635},{"id":"https://openalex.org/keywords/abductive-reasoning","display_name":"Abductive reasoning","score":0.399399995803833}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7724000215530396},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7613999843597412},{"id":"https://openalex.org/C44291984","wikidata":"https://www.wikidata.org/wiki/Q1074173","display_name":"Question answering","level":2,"score":0.6545000076293945},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6481000185012817},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.6169999837875366},{"id":"https://openalex.org/C86251818","wikidata":"https://www.wikidata.org/wiki/Q816754","display_name":"Benchmarking","level":2,"score":0.5205000042915344},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5157999992370605},{"id":"https://openalex.org/C2777508537","wikidata":"https://www.wikidata.org/wiki/Q7936620","display_name":"Visual reasoning","level":2,"score":0.48260000348091125},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.4309000074863434},{"id":"https://openalex.org/C190812933","wikidata":"https://www.wikidata.org/wiki/Q28923","display_name":"Chart","level":2,"score":0.4106999933719635},{"id":"https://openalex.org/C166088908","wikidata":"https://www.wikidata.org/wiki/Q308495","display_name":"Abductive reasoning","level":2,"score":0.399399995803833},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.39800000190734863},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.33899998664855957},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.3384000062942505},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.3253999948501587},{"id":"https://openalex.org/C155911833","wikidata":"https://www.wikidata.org/wiki/Q3817354","display_name":"Spatial intelligence","level":2,"score":0.31709998846054077},{"id":"https://openalex.org/C2780878386","wikidata":"https://www.wikidata.org/wiki/Q1659648","display_name":"Visual language","level":2,"score":0.3012999892234802},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.29750001430511475},{"id":"https://openalex.org/C89288958","wikidata":"https://www.wikidata.org/wiki/Q7301504","display_name":"Reasoning system","level":2,"score":0.2962000072002411},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.28999999165534973},{"id":"https://openalex.org/C178253425","wikidata":"https://www.wikidata.org/wiki/Q162668","display_name":"Visual perception","level":3,"score":0.28209999203681946},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.2766000032424927},{"id":"https://openalex.org/C2780966255","wikidata":"https://www.wikidata.org/wiki/Q5474306","display_name":"Foundation (evidence)","level":2,"score":0.2538999915122986}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.03157","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.03157","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.03157","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.03157","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Industry, innovation and infrastructure","score":0.5259084701538086,"id":"https://metadata.un.org/sdg/9"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"The":[0,169],"recent":[1],"advancements":[2],"in":[3,44,63,140],"Vision":[4],"Language":[5],"Models":[6],"(VLMs)":[7],"have":[8],"demonstrated":[9],"progress":[10],"toward":[11],"true":[12],"intelligence":[13],"requiring":[14],"robust":[15],"reasoning":[16,22],"capabilities.":[17],"Beyond":[18],"pattern":[19],"recognition,":[20],"linguistic":[21],"must":[23],"integrate":[24],"with":[25,111],"visual":[26,53,90],"comprehension,":[27],"particularly":[28],"for":[29,59],"Chart":[30],"Question":[31],"Answering":[32],"(CQA)":[33],"tasks":[34],"involving":[35],"complex":[36],"data":[37],"visualizations.":[38],"Current":[39],"VLMs":[40,82],"face":[41],"significant":[42],"limitations":[43],"CQA,":[45],"including":[46],"imprecise":[47],"numerical":[48],"extraction,":[49],"difficulty":[50],"interpreting":[51],"implicit":[52],"relationships,":[54],"and":[55,92,124,161],"inadequate":[56],"attention":[57],"mechanisms":[58],"capturing":[60],"spatial":[61],"relationships":[62],"charts.":[64],"In":[65],"this":[66],"work,":[67],"we":[68],"address":[69],"these":[70],"challenges":[71],"by":[72],"presenting":[73],"Chart-RL,":[74],"a":[75,99],"novel":[76],"reinforcement":[77],"learning":[78],"framework":[79,101,143],"that":[80,115,144],"enhances":[81],"chart":[83],"understanding":[84],"through":[85,136],"feedback-driven":[86],"policy":[87],"optimization":[88],"of":[89,178,184],"perception":[91],"logical":[93],"inference.":[94],"Our":[95],"key":[96],"innovation":[97],"includes":[98],"comprehensive":[100],"integrating":[102],"Reinforcement":[103],"Learning":[104],"(RL)":[105],"from":[106,200],"Policy":[107],"Optimization":[108],"techniques":[109],"along":[110],"adaptive":[112],"reward":[113],"functions,":[114],"demonstrates":[116],"superior":[117],"performance":[118,152],"compared":[119],"to":[120,203],"baseline":[121],"foundation":[122,187],"models":[123,164],"competitive":[125],"results":[126],"against":[127],"larger":[128],"state-of-the-art":[129,162],"architectures.":[130],"We":[131,154],"also":[132],"integrated":[133],"Parameter-Efficient":[134],"Fine-Tuning":[135],"Low-Rank":[137],"Adaptation":[138],"(LoRA)":[139],"the":[141,166,181,185,192],"RL":[142,170],"only":[145],"requires":[146],"single":[147],"GPU":[148],"configurations":[149],"while":[150,195],"preserving":[151],"integrity.":[153],"conducted":[155],"extensive":[156],"benchmarking":[157],"across":[158],"open-source,":[159],"proprietary,":[160],"closed-source":[163],"utilizing":[165,190],"ChartQAPro":[167],"dataset.":[168],"fine-tuned":[171],"Qwen3-VL-4B-Instruct":[172],"model":[173,188],"achieved":[174],"an":[175],"answer":[176],"accuracy":[177,183],"0.634,":[179],"surpassing":[180],"0.580":[182],"Qwen3-VL-8B-Instruct":[186],"despite":[189],"half":[191],"parameter":[193],"count,":[194],"simultaneously":[196],"reducing":[197],"inference":[198],"latency":[199],"31":[201],"seconds":[202],"9":[204],"seconds.":[205]},"counts_by_year":[],"updated_date":"2026-04-07T06:06:30.997549","created_date":"2026-04-07T00:00:00"}