{"id":"https://openalex.org/W7160915236","doi":"https://doi.org/10.48550/arxiv.2605.09188","title":"DARE: Difficulty-Adaptive Reinforcement Learning with Co-Evolved Difficulty Estimation","display_name":"DARE: Difficulty-Adaptive Reinforcement Learning with Co-Evolved Difficulty Estimation","publication_year":2026,"publication_date":"2026-05-09","ids":{"openalex":"https://openalex.org/W7160915236","doi":"https://doi.org/10.48550/arxiv.2605.09188"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.09188","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.09188","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.09188","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5135924018","display_name":"Yang Zhou","orcid":"https://orcid.org/0009-0003-9022-8681"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhou, Yang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135950347","display_name":"Can Jin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jin, Can","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135928888","display_name":"Zihan Dong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Dong, Zihan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135975603","display_name":"Zhepeng Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Zhepeng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135995199","display_name":"Yanting Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yang, Yanting","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135921262","display_name":"Shiyu Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Shiyu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135937205","display_name":"Lei Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Lei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5086926080","display_name":"Runxue Bao","orcid":"https://orcid.org/0000-0001-7357-3481"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Bao, Runxue","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102912591","display_name":"Yaochen Xie","orcid":"https://orcid.org/0000-0003-0320-6728"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xie, Yaochen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5135955279","display_name":"Dimitris N. Metaxas","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Metaxas, Dimitris N.","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":10,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.249099999666214,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.249099999666214,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.13359999656677246,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.07959999889135361,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7368000149726868},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.652400016784668},{"id":"https://openalex.org/keywords/correctness","display_name":"Correctness","score":0.6276999711990356},{"id":"https://openalex.org/keywords/selection","display_name":"Selection (genetic algorithm)","score":0.6114000082015991},{"id":"https://openalex.org/keywords/estimation","display_name":"Estimation","score":0.4083000123500824},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.40470001101493835},{"id":"https://openalex.org/keywords/training-set","display_name":"Training set","score":0.362199991941452}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.814300000667572},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7368000149726868},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.652400016784668},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6482999920845032},{"id":"https://openalex.org/C55439883","wikidata":"https://www.wikidata.org/wiki/Q360812","display_name":"Correctness","level":2,"score":0.6276999711990356},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.6114000082015991},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5939000248908997},{"id":"https://openalex.org/C96250715","wikidata":"https://www.wikidata.org/wiki/Q965330","display_name":"Estimation","level":2,"score":0.4083000123500824},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.40470001101493835},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.362199991941452},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.35920000076293945},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.3292999863624573},{"id":"https://openalex.org/C93959086","wikidata":"https://www.wikidata.org/wiki/Q6888345","display_name":"Model selection","level":2,"score":0.3109000027179718},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.28130000829696655},{"id":"https://openalex.org/C2778334786","wikidata":"https://www.wikidata.org/wiki/Q1586270","display_name":"Variation (astronomy)","level":2,"score":0.27059999108314514},{"id":"https://openalex.org/C52740198","wikidata":"https://www.wikidata.org/wiki/Q1539564","display_name":"Importance sampling","level":3,"score":0.26499998569488525}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.09188","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.09188","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.09188","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.09188","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1,20],"improves":[2],"the":[3,75,104],"reasoning":[4],"ability":[5],"of":[6],"large":[7],"language":[8],"models":[9,136],"but":[10],"remains":[11,58],"costly":[12],"and":[13,55,66,120,137,151],"sample-inefficient,":[14],"as":[15],"many":[16],"rollouts":[17],"provide":[18],"weak":[19],"signals.":[21],"Difficulty-aware":[22],"data":[23,48],"selection":[24,49],"methods":[25,145],"attempt":[26],"to":[27,79],"address":[28],"this":[29,91],"by":[30,73],"prioritizing":[31],"moderately":[32],"difficult":[33],"prompts,":[34],"yet":[35],"our":[36],"analysis":[37],"reveals":[38],"three":[39],"limitations:":[40],"difficulty":[41,101,112,126],"estimates":[42],"become":[43],"inaccurate":[44],"under":[45],"policy":[46,76,105],"drift,":[47],"alone":[50],"yields":[51],"limited":[52],"final-performance":[53],"gains,":[54],"inference":[56,152],"efficiency":[57],"largely":[59],"unchanged.":[60],"These":[61],"findings":[62],"suggest":[63],"that":[64,99,140],"efficient":[65],"effective":[67],"RL":[68],"requires":[69],"more":[70,155],"than":[71],"filtering":[72],"difficulty:":[74],"should":[77],"learn":[78],"solve":[80],"hard":[81,165],"tasks":[82,160],"while":[83,161],"producing":[84,154],"concise":[85,156],"responses":[86,157],"for":[87],"easy":[88,159],"ones.":[89,166],"To":[90],"end,":[92],"we":[93],"propose":[94],"**Dare**,":[95],"a":[96,115],"unified":[97],"framework":[98],"co-evolves":[100],"estimation":[102],"with":[103,128],"via":[106],"self-normalized":[107],"importance":[108],"sampling,":[109],"maintains":[110],"diverse":[111],"coverage":[113],"through":[114],"symmetric":[116],"Beta":[117],"sampling":[118],"distribution,":[119],"applies":[121],"tailored":[122],"training":[123,147],"strategies":[124],"across":[125,134],"tiers":[127],"adaptive":[129],"compute":[130],"allocation.":[131],"Extensive":[132],"experiments":[133],"multiple":[135],"domains":[138],"demonstrate":[139],"**Dare**":[141],"consistently":[142],"outperforms":[143],"existing":[144],"in":[146],"efficiency,":[148,153],"final":[149],"effectiveness,":[150],"on":[158,164],"improving":[162],"correctness":[163],"Code":[167],"is":[168],"available":[169],"at":[170],"https://github.com/EtaYang10th/DARE.":[171]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-13T00:00:00"}