{"id":"https://openalex.org/W7160835951","doi":"https://doi.org/10.48550/arxiv.2605.07501","title":"ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression","display_name":"ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression","publication_year":2026,"publication_date":"2026-05-08","ids":{"openalex":"https://openalex.org/W7160835951","doi":"https://doi.org/10.48550/arxiv.2605.07501"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.07501","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.07501","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Preprint"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.07501","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5135879375","display_name":"Tingcheng Bian","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Bian, Tingcheng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135867280","display_name":"Yuzhe Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Yuzhe","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135876596","display_name":"Jing Jin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jin, Jing","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135852584","display_name":"Jinchang Luo","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Luo, Jinchang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135902052","display_name":"MingQuan Cheng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cheng, MingQuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130110993","display_name":"Haiwei Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Haiwei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135831387","display_name":"Wenyuan Jiang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jiang, Wenyuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5080596209","display_name":"Miaohui Wang","orcid":"https://orcid.org/0000-0003-1125-9299"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Miaohui","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.20550000667572021,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.20550000667572021,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.1264999955892563,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.052799999713897705,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6434000134468079},{"id":"https://openalex.org/keywords/compression","display_name":"Compression (physics)","score":0.5419999957084656},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.46709999442100525},{"id":"https://openalex.org/keywords/normalization","display_name":"Normalization (sociology)","score":0.44449999928474426},{"id":"https://openalex.org/keywords/security-token","display_name":"Security token","score":0.44449999928474426},{"id":"https://openalex.org/keywords/monotonic-function","display_name":"Monotonic function","score":0.40630000829696655},{"id":"https://openalex.org/keywords/data-compression","display_name":"Data compression","score":0.3549000024795532}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7627000212669373},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6434000134468079},{"id":"https://openalex.org/C180016635","wikidata":"https://www.wikidata.org/wiki/Q2712821","display_name":"Compression (physics)","level":2,"score":0.5419999957084656},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5031999945640564},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.46709999442100525},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.44449999928474426},{"id":"https://openalex.org/C136886441","wikidata":"https://www.wikidata.org/wiki/Q926129","display_name":"Normalization (sociology)","level":2,"score":0.44449999928474426},{"id":"https://openalex.org/C72169020","wikidata":"https://www.wikidata.org/wiki/Q194404","display_name":"Monotonic function","level":2,"score":0.40630000829696655},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.40540000796318054},{"id":"https://openalex.org/C78548338","wikidata":"https://www.wikidata.org/wiki/Q2493","display_name":"Data compression","level":2,"score":0.3549000024795532},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.322299987077713},{"id":"https://openalex.org/C165838908","wikidata":"https://www.wikidata.org/wiki/Q736777","display_name":"Calibration","level":2,"score":0.3093000054359436},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.3091999888420105},{"id":"https://openalex.org/C22679943","wikidata":"https://www.wikidata.org/wiki/Q159375","display_name":"Standard deviation","level":2,"score":0.3082999885082245},{"id":"https://openalex.org/C25797200","wikidata":"https://www.wikidata.org/wiki/Q828137","display_name":"Compression ratio","level":3,"score":0.29670000076293945},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.28189998865127563},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.275299996137619},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.25189998745918274},{"id":"https://openalex.org/C39927690","wikidata":"https://www.wikidata.org/wiki/Q11197","display_name":"Logarithm","level":2,"score":0.2513999938964844}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.07501","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.07501","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"Preprint"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.07501","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.07501","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Preprint"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Large":[0],"reasoning":[1,157],"models":[2],"(LRMs)":[3],"achieve":[4],"strong":[5],"performance":[6],"via":[7],"extended":[8],"chain-of-thought":[9],"(CoT)":[10],"reasoning,":[11],"yet":[12],"suffer":[13],"from":[14],"excessive":[15],"token":[16,185],"consumption":[17],"and":[18,41,74,91,191],"high":[19],"inference":[20],"latency.":[21],"Existing":[22],"reinforcement":[23],"learning":[24,128],"(RL)":[25],"approaches":[26],"for":[27,71,81,87,93],"CoT":[28],"compression":[29,195],"rely":[30],"on":[31,129,138,154,197],"uniform,":[32],"static":[33],"length":[34,165],"penalties":[35],"that":[36,51,107,126,160],"neglect":[37],"model":[38,101],"capability":[39],"dynamics":[40],"problem-level":[42],"difficulty":[43],"variation.":[44],"We":[45],"propose":[46],"\\textbf{ExpThink}\\xspace,":[47],"an":[48,148],"RL":[49],"framework":[50],"addresses":[52],"both":[53,198],"dimensions":[54],"through":[55],"two":[56],"complementary":[57],"mechanisms.":[58],"First,":[59],"\\emph{experience-guided":[60],"reward":[61],"shaping}":[62],"tracks":[63],"the":[64,188],"shortest":[65],"correct":[66,83,89],"solution":[67],"found":[68],"so":[69],"far":[70],"each":[72],"problem":[73],"applies":[75],"a":[76,104],"three-tier":[77],"reward:":[78],"full":[79],"credit":[80,86],"concise":[82],"responses,":[84],"discounted":[85],"verbose":[88],"ones,":[90],"zero":[92],"incorrect":[94],"ones.":[95],"The":[96],"threshold":[97],"tightens":[98],"automatically":[99],"with":[100,119],"improvement,":[102],"forming":[103],"self-evolving":[105],"curriculum":[106],"requires":[108],"no":[109],"manual":[110],"scheduling.":[111],"Second,":[112],"\\emph{difficulty-adaptive":[113],"advantage}":[114],"replaces":[115],"standard":[116],"deviation":[117],"normalization":[118],"correct-count":[120],"normalization,":[121],"yielding":[122],"monotonically":[123],"difficulty-scaled":[124],"gradients":[125,137],"amplify":[127],"hard":[130],"problems":[131],"to":[132,141,168,176],"preserve":[133],"accuracy":[134],"while":[135,170],"suppressing":[136],"easy":[139],"ones":[140],"encourage":[142],"brevity.":[143],"Together,":[144],"these":[145],"mechanisms":[146],"enforce":[147],"accuracy-first,":[149],"compression-second":[150],"training":[151],"objective.":[152],"Experiments":[153],"multiple":[155],"mathematical":[156],"benchmarks":[158],"demonstrate":[159],"\\textbf{ExpThink}\\xspace":[161],"reduces":[162],"average":[163,184],"response":[164],"by":[166,183],"up":[167,175],"77\\%":[169],"simultaneously":[171],"improving":[172],"accuracy,":[173],"achieving":[174],"$3\\times$":[177],"higher":[178],"accuracy-efficiency":[179],"ratio":[180],"(accuracy":[181],"divided":[182],"count)":[186],"than":[187],"vanilla":[189],"baseline":[190],"outperforming":[192],"existing":[193],"RL-based":[194],"methods":[196],"metrics.":[199]},"counts_by_year":[],"updated_date":"2026-07-01T06:00:48.157686","created_date":"2026-05-12T00:00:00"}