{"id":"https://openalex.org/W7118881870","doi":"https://doi.org/10.48550/arxiv.2601.02825","title":"SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models","display_name":"SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models","publication_year":2026,"publication_date":"2026-01-06","ids":{"openalex":"https://openalex.org/W7118881870","doi":"https://doi.org/10.48550/arxiv.2601.02825"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2601.02825","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.02825","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2601.02825","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5122001281","display_name":"Ruiyang Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Zhang, Ruiyang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5121987062","display_name":"Dongzhan Zhou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhou, Dongzhan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5121461735","display_name":"Zhedong Zheng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zheng, Zhedong","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5122001281"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.32199999690055847,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.32199999690055847,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11902","display_name":"Intelligent Tutoring Systems and Adaptive Learning","score":0.06419999897480011,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10656","display_name":"Child and Animal Learning Development","score":0.06080000102519989,"subfield":{"id":"https://openalex.org/subfields/3204","display_name":"Developmental and Educational Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.7031000256538391},{"id":"https://openalex.org/keywords/opportunistic-reasoning","display_name":"Opportunistic reasoning","score":0.6693999767303467},{"id":"https://openalex.org/keywords/qualitative-reasoning","display_name":"Qualitative reasoning","score":0.6341000199317932},{"id":"https://openalex.org/keywords/reasoning-system","display_name":"Reasoning system","score":0.6338000297546387},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.5899999737739563},{"id":"https://openalex.org/keywords/cognition","display_name":"Cognition","score":0.5683000087738037},{"id":"https://openalex.org/keywords/security-token","display_name":"Security token","score":0.5608999729156494},{"id":"https://openalex.org/keywords/analytic-reasoning","display_name":"Analytic reasoning","score":0.5286999940872192},{"id":"https://openalex.org/keywords/psychology-of-reasoning","display_name":"Psychology of reasoning","score":0.51910001039505},{"id":"https://openalex.org/keywords/salient","display_name":"Salient","score":0.5056999921798706}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7075999975204468},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.7031000256538391},{"id":"https://openalex.org/C86827895","wikidata":"https://www.wikidata.org/wiki/Q7098582","display_name":"Opportunistic reasoning","level":4,"score":0.6693999767303467},{"id":"https://openalex.org/C83725634","wikidata":"https://www.wikidata.org/wiki/Q7268699","display_name":"Qualitative reasoning","level":2,"score":0.6341000199317932},{"id":"https://openalex.org/C89288958","wikidata":"https://www.wikidata.org/wiki/Q7301504","display_name":"Reasoning system","level":2,"score":0.6338000297546387},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.5899999737739563},{"id":"https://openalex.org/C169900460","wikidata":"https://www.wikidata.org/wiki/Q2200417","display_name":"Cognition","level":2,"score":0.5683000087738037},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.5608999729156494},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5432999730110168},{"id":"https://openalex.org/C103057564","wikidata":"https://www.wikidata.org/wiki/Q4751139","display_name":"Analytic reasoning","level":3,"score":0.5286999940872192},{"id":"https://openalex.org/C183521366","wikidata":"https://www.wikidata.org/wiki/Q7256422","display_name":"Psychology of reasoning","level":4,"score":0.51910001039505},{"id":"https://openalex.org/C2780719617","wikidata":"https://www.wikidata.org/wiki/Q1030752","display_name":"Salient","level":2,"score":0.5056999921798706},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.5040000081062317},{"id":"https://openalex.org/C37335422","wikidata":"https://www.wikidata.org/wiki/Q6888134","display_name":"Model-based reasoning","level":3,"score":0.4772000014781952},{"id":"https://openalex.org/C97364631","wikidata":"https://www.wikidata.org/wiki/Q484284","display_name":"Deductive reasoning","level":2,"score":0.4648999869823456},{"id":"https://openalex.org/C20162079","wikidata":"https://www.wikidata.org/wiki/Q1151406","display_name":"Case-based reasoning","level":2,"score":0.4260999858379364},{"id":"https://openalex.org/C159032336","wikidata":"https://www.wikidata.org/wiki/Q2488768","display_name":"Non-monotonic logic","level":2,"score":0.42089998722076416},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.41839998960494995},{"id":"https://openalex.org/C36964233","wikidata":"https://www.wikidata.org/wiki/Q7920942","display_name":"Verbal reasoning","level":3,"score":0.38499999046325684},{"id":"https://openalex.org/C166088908","wikidata":"https://www.wikidata.org/wiki/Q308495","display_name":"Abductive reasoning","level":2,"score":0.3822000026702881},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.38019999861717224},{"id":"https://openalex.org/C107848011","wikidata":"https://www.wikidata.org/wiki/Q4680756","display_name":"Adaptive reasoning","level":4,"score":0.3716999888420105},{"id":"https://openalex.org/C193221554","wikidata":"https://www.wikidata.org/wiki/Q5153664","display_name":"Commonsense reasoning","level":2,"score":0.3328999876976013},{"id":"https://openalex.org/C4554734","wikidata":"https://www.wikidata.org/wiki/Q593744","display_name":"Knowledge base","level":2,"score":0.33239999413490295},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.3255999982357025},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3197999894618988},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.3192000091075897},{"id":"https://openalex.org/C195344581","wikidata":"https://www.wikidata.org/wiki/Q2555318","display_name":"Automated reasoning","level":2,"score":0.3181999921798706},{"id":"https://openalex.org/C43971567","wikidata":"https://www.wikidata.org/wiki/Q3142865","display_name":"Logical reasoning","level":2,"score":0.2913999855518341},{"id":"https://openalex.org/C133112747","wikidata":"https://www.wikidata.org/wiki/Q7251931","display_name":"Protocol analysis","level":2,"score":0.28790000081062317},{"id":"https://openalex.org/C42058472","wikidata":"https://www.wikidata.org/wiki/Q810214","display_name":"Base (topology)","level":2,"score":0.2838999927043915},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.28189998865127563},{"id":"https://openalex.org/C115086926","wikidata":"https://www.wikidata.org/wiki/Q17004651","display_name":"Causal reasoning","level":3,"score":0.272599995136261},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.26759999990463257},{"id":"https://openalex.org/C188147891","wikidata":"https://www.wikidata.org/wiki/Q147638","display_name":"Cognitive science","level":1,"score":0.2660999894142151},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.25220000743865967}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2601.02825","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.02825","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2601.02825","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.02825","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Despite":[0],"the":[1,80],"empirical":[2],"success":[3],"of":[4,23,75,115,132],"extensive,":[5],"step-by-step":[6],"reasoning":[7,13,66,89,93,102,138,154,168],"in":[8,21,68,153],"large":[9,69],"multimodal":[10,70,97],"models,":[11],"long":[12,88],"processes":[14],"inevitably":[15],"incur":[16],"substantial":[17],"computational":[18],"overhead,":[19],"i.e.,":[20],"terms":[22],"higher":[24,119],"token":[25,155],"costs":[26],"and":[27,51,94,117],"increased":[28],"response":[29],"time,":[30],"which":[31,63,110],"undermines":[32],"inference":[33],"efficiency.":[34],"In":[35,79],"contrast,":[36],"humans":[37],"often":[38],"employ":[39],"sketch-style":[40,65,92,101,122,137,167],"reasoning:":[41],"a":[42],"concise,":[43],"goal-directed":[44],"cognitive":[45,58],"process":[46,90,114],"that":[47,146,166],"prioritizes":[48],"salient":[49],"information":[50],"enables":[52],"efficient":[53],"problem-solving.":[54],"Inspired":[55],"by":[56],"this":[57],"efficiency,":[59],"we":[60,85,105,125],"propose":[61],"SketchThinker-R1,":[62],"incentivizes":[64],"ability":[67],"models.":[71],"Our":[72],"method":[73],"consists":[74],"three":[76],"primary":[77],"stages.":[78],"Sketch-Mode":[81],"Cold":[82],"Start":[83],"stage,":[84],"convert":[86],"standard":[87],"into":[91],"finetune":[95],"base":[96],"model,":[98],"instilling":[99],"initial":[100],"capability.":[103],"Next,":[104],"train":[106],"SketchJudge":[107,133],"Reward":[108],"Model,":[109],"explicitly":[111],"evaluates":[112],"thinking":[113],"model":[116],"assigns":[118],"scores":[120],"to":[121,134],"reasoning.":[123],"Finally,":[124],"conduct":[126],"Sketch-Thinking":[127],"Reinforcement":[128],"Learning":[129],"under":[130],"supervision":[131],"further":[135,164],"generalize":[136],"ability.":[139],"Experimental":[140],"evaluation":[141],"on":[142,171],"four":[143],"benchmarks":[144],"reveals":[145],"our":[147],"SketchThinker-R1":[148],"achieves":[149],"over":[150],"64%":[151],"reduction":[152],"cost":[156],"without":[157],"compromising":[158],"final":[159],"answer":[160],"accuracy.":[161],"Qualitative":[162],"analysis":[163],"shows":[165],"focuses":[169],"more":[170],"key":[172],"cues":[173],"during":[174],"problem":[175],"solving.":[176]},"counts_by_year":[],"updated_date":"2026-01-08T20:10:11.968330","created_date":"2026-01-08T00:00:00"}