{"id":"https://openalex.org/W7128621804","doi":"https://doi.org/10.48550/arxiv.2602.10014","title":"A Task-Centric Theory for Iterative Self-Improvement with Easy-to-Hard Curricula","display_name":"A Task-Centric Theory for Iterative Self-Improvement with Easy-to-Hard Curricula","publication_year":2026,"publication_date":"2026-02-10","ids":{"openalex":"https://openalex.org/W7128621804","doi":"https://doi.org/10.48550/arxiv.2602.10014"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.10014","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5046669432","display_name":"Chenruo Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Liu, Chenruo","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125640254","display_name":"Yijun Dong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Dong, Yijun","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5003735451","display_name":"Yiqiu Shen","orcid":"https://orcid.org/0000-0002-7726-2514"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Shen, Yiqiu","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5125629933","display_name":"Qi Lei","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lei, Qi","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5046669432"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.23899999260902405,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.23899999260902405,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.1500999927520752,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11902","display_name":"Intelligent Tutoring Systems and Adaptive Learning","score":0.07800000160932541,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/iterative-learning-control","display_name":"Iterative learning control","score":0.5351999998092651},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5285000205039978},{"id":"https://openalex.org/keywords/autoregressive-model","display_name":"Autoregressive model","score":0.5217000246047974},{"id":"https://openalex.org/keywords/curriculum","display_name":"Curriculum","score":0.5209000110626221},{"id":"https://openalex.org/keywords/iterative-method","display_name":"Iterative method","score":0.44200000166893005},{"id":"https://openalex.org/keywords/iterative-and-incremental-development","display_name":"Iterative and incremental development","score":0.3959999978542328},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.3930000066757202},{"id":"https://openalex.org/keywords/contrast","display_name":"Contrast (vision)","score":0.37689998745918274}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6470000147819519},{"id":"https://openalex.org/C117619785","wikidata":"https://www.wikidata.org/wiki/Q6094414","display_name":"Iterative learning control","level":3,"score":0.5351999998092651},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5285000205039978},{"id":"https://openalex.org/C159877910","wikidata":"https://www.wikidata.org/wiki/Q2202883","display_name":"Autoregressive model","level":2,"score":0.5217000246047974},{"id":"https://openalex.org/C47177190","wikidata":"https://www.wikidata.org/wiki/Q207137","display_name":"Curriculum","level":2,"score":0.5209000110626221},{"id":"https://openalex.org/C159694833","wikidata":"https://www.wikidata.org/wiki/Q2321565","display_name":"Iterative method","level":2,"score":0.44200000166893005},{"id":"https://openalex.org/C143587482","wikidata":"https://www.wikidata.org/wiki/Q1543216","display_name":"Iterative and incremental development","level":2,"score":0.3959999978542328},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.3930000066757202},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.38109999895095825},{"id":"https://openalex.org/C2776502983","wikidata":"https://www.wikidata.org/wiki/Q690182","display_name":"Contrast (vision)","level":2,"score":0.37689998745918274},{"id":"https://openalex.org/C2779982483","wikidata":"https://www.wikidata.org/wiki/Q6094420","display_name":"Iterative refinement","level":2,"score":0.37599998712539673},{"id":"https://openalex.org/C2780966255","wikidata":"https://www.wikidata.org/wiki/Q5474306","display_name":"Foundation (evidence)","level":2,"score":0.36570000648498535},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.34130001068115234},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.32600000500679016},{"id":"https://openalex.org/C539667460","wikidata":"https://www.wikidata.org/wiki/Q2414942","display_name":"Management science","level":1,"score":0.30730000138282776},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.2953999936580658},{"id":"https://openalex.org/C110121322","wikidata":"https://www.wikidata.org/wiki/Q865811","display_name":"Distribution (mathematics)","level":2,"score":0.28130000829696655},{"id":"https://openalex.org/C120936955","wikidata":"https://www.wikidata.org/wiki/Q2155640","display_name":"Empirical research","level":2,"score":0.27889999747276306},{"id":"https://openalex.org/C184670325","wikidata":"https://www.wikidata.org/wiki/Q512604","display_name":"Loop (graph theory)","level":2,"score":0.26840001344680786},{"id":"https://openalex.org/C2780586882","wikidata":"https://www.wikidata.org/wiki/Q7520643","display_name":"Simple (philosophy)","level":2,"score":0.26420000195503235},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.262800008058548},{"id":"https://openalex.org/C2780735816","wikidata":"https://www.wikidata.org/wiki/Q28324931","display_name":"Incremental learning","level":2,"score":0.2597000002861023}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.10014","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.10014","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.10014","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.10014","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education","score":0.4926721751689911}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Iterative":[0],"self-improvement":[1,51,84],"fine-tunes":[2],"an":[3,70],"autoregressive":[4],"large":[5],"language":[6],"model":[7,110],"(LLM)":[8],"on":[9,55,109,126],"reward-verified":[10],"outputs":[11],"generated":[12],"by":[13,46,96],"the":[14,20,25,64],"LLM":[15],"itself.":[16],"In":[17],"contrast":[18],"to":[19],"empirical":[21],"success":[22],"of":[23,28,50,89,129],"self-improvement,":[24],"theoretical":[26],"foundation":[27],"this":[29,44],"generative,":[30],"iterative":[31],"procedure":[32],"in":[33],"a":[34,56,93,141],"practical,":[35],"finite-sample":[36,61],"setting":[37],"remains":[38],"limited.":[39],"We":[40],"make":[41],"progress":[42],"toward":[43],"goal":[45],"modeling":[47],"each":[48],"round":[49],"as":[52],"maximum-likelihood":[53],"fine-tuning":[54],"reward-filtered":[57],"distribution":[58],"and":[59,114,138,146],"deriving":[60],"guarantees":[62,123],"for":[63],"expected":[65],"reward.":[66],"Our":[67,131],"analysis":[68],"reveals":[69],"explicit":[71],"feedback":[72],"loop":[73],"where":[74,117],"better":[75,122],"models":[76],"accept":[77],"more":[78],"data":[79],"per":[80],"iteration,":[81],"supporting":[82],"sustained":[83],"while":[85],"explaining":[86],"eventual":[87],"saturation":[88],"such":[90],"improvement.":[91],"Adopting":[92],"task-centric":[94],"view":[95],"considering":[97],"reasoning":[98,144,150],"tasks":[99],"with":[100],"multiple":[101,147],"difficulty":[102],"levels,":[103],"we":[104],"further":[105],"prove":[106],"quantifiable":[107],"conditions":[108],"initialization,":[111],"task":[112,145],"difficulty,":[113],"sample":[115],"budget":[116],"easy-to-hard":[118],"curricula":[119],"provably":[120],"achieve":[121],"than":[124],"training":[125],"fixed":[127],"mixtures":[128],"tasks.":[130],"analyses":[132],"are":[133],"validated":[134],"through":[135],"Monte-Carlo":[136],"simulations":[137],"experiments":[139],"spanning":[140],"synthetic":[142],"graph-based":[143],"standard":[148],"mathematical":[149],"benchmarks.":[151]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-12T00:00:00"}