{"id":"https://openalex.org/W7160318910","doi":"https://doi.org/10.48550/arxiv.2605.01640","title":"Prescriptive Scaling Laws for Data Constrained Training","display_name":"Prescriptive Scaling Laws for Data Constrained Training","publication_year":2026,"publication_date":"2026-05-02","ids":{"openalex":"https://openalex.org/W7160318910","doi":"https://doi.org/10.48550/arxiv.2605.01640"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.01640","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.01640","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.01640","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5135393070","display_name":"Justin Lovelace","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lovelace, Justin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135388418","display_name":"Christian Belardi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Belardi, Christian","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5057379590","display_name":"Srivatsa Kundurthy","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kundurthy, Srivatsa","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135385901","display_name":"Shriya Sudhakar","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sudhakar, Shriya","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5135323989","display_name":"Kilian Q. Weinberger","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Weinberger, Kilian Q.","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12535","display_name":"Machine Learning and Data Classification","score":0.2797999978065491,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12535","display_name":"Machine Learning and Data Classification","score":0.2797999978065491,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.15320000052452087,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.060499999672174454,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/overfitting","display_name":"Overfitting","score":0.8820000290870667},{"id":"https://openalex.org/keywords/security-token","display_name":"Security token","score":0.6194000244140625},{"id":"https://openalex.org/keywords/scaling","display_name":"Scaling","score":0.5932999849319458},{"id":"https://openalex.org/keywords/scaling-law","display_name":"Scaling law","score":0.5629000067710876},{"id":"https://openalex.org/keywords/training","display_name":"Training (meteorology)","score":0.5576000213623047},{"id":"https://openalex.org/keywords/simple","display_name":"Simple (philosophy)","score":0.4681999981403351},{"id":"https://openalex.org/keywords/logarithm","display_name":"Logarithm","score":0.4277999997138977},{"id":"https://openalex.org/keywords/value","display_name":"Value (mathematics)","score":0.42730000615119934}],"concepts":[{"id":"https://openalex.org/C22019652","wikidata":"https://www.wikidata.org/wiki/Q331309","display_name":"Overfitting","level":3,"score":0.8820000290870667},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.6194000244140625},{"id":"https://openalex.org/C99844830","wikidata":"https://www.wikidata.org/wiki/Q102441924","display_name":"Scaling","level":2,"score":0.5932999849319458},{"id":"https://openalex.org/C2988430800","wikidata":"https://www.wikidata.org/wiki/Q428971","display_name":"Scaling law","level":3,"score":0.5629000067710876},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.5576000213623047},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5321999788284302},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.47780001163482666},{"id":"https://openalex.org/C2780586882","wikidata":"https://www.wikidata.org/wiki/Q7520643","display_name":"Simple (philosophy)","level":2,"score":0.4681999981403351},{"id":"https://openalex.org/C39927690","wikidata":"https://www.wikidata.org/wiki/Q11197","display_name":"Logarithm","level":2,"score":0.4277999997138977},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.42730000615119934},{"id":"https://openalex.org/C182306322","wikidata":"https://www.wikidata.org/wiki/Q1779371","display_name":"Order (exchange)","level":2,"score":0.36250001192092896},{"id":"https://openalex.org/C2778755073","wikidata":"https://www.wikidata.org/wiki/Q10858537","display_name":"Scale (ratio)","level":2,"score":0.3555000126361847},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.351500004529953},{"id":"https://openalex.org/C2776141515","wikidata":"https://www.wikidata.org/wiki/Q1274479","display_name":"Repetition (rhetorical device)","level":2,"score":0.3495999872684479},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.3443000018596649},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.30979999899864197},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.3089999854564667},{"id":"https://openalex.org/C139912040","wikidata":"https://www.wikidata.org/wiki/Q937378","display_name":"Logarithmic scale","level":2,"score":0.3073999881744385},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3073999881744385},{"id":"https://openalex.org/C132459708","wikidata":"https://www.wikidata.org/wiki/Q744069","display_name":"Extrapolation","level":2,"score":0.2937999963760376},{"id":"https://openalex.org/C6180225","wikidata":"https://www.wikidata.org/wiki/Q3411771","display_name":"Penalty method","level":2,"score":0.28139999508857727},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.2809999883174896},{"id":"https://openalex.org/C158622935","wikidata":"https://www.wikidata.org/wiki/Q660848","display_name":"Nonlinear system","level":2,"score":0.27250000834465027},{"id":"https://openalex.org/C163175372","wikidata":"https://www.wikidata.org/wiki/Q3339222","display_name":"Linear model","level":2,"score":0.2678999900817871},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.26489999890327454},{"id":"https://openalex.org/C149782125","wikidata":"https://www.wikidata.org/wiki/Q160039","display_name":"Econometrics","level":1,"score":0.25270000100135803}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.01640","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.01640","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.01640","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.01640","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.8171252608299255,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Training":[0],"compute":[1,17,87],"is":[2,36,84,88,156],"increasingly":[3],"outpacing":[4],"the":[5,12,51],"availability":[6],"of":[7,159],"high-quality":[8],"data.":[9,25],"This":[10,38],"shifts":[11],"central":[13],"challenge":[14],"from":[15,23],"optimal":[16,150],"allocation":[18,77],"to":[19,42],"extracting":[20],"maximum":[21],"value":[22],"limited":[24],"The":[26],"widely":[27],"adopted":[28],"Chinchilla":[29],"scaling":[30,71],"law":[31,72],"assumes":[32],"every":[33],"training":[34,123],"token":[35],"unique.":[37],"limits":[39],"its":[40],"ability":[41],"guide":[43],"pretraining":[44],"decisions":[45],"in":[46,104,114,153],"data-constrained":[47,105,154],"regimes.":[48,106],"We":[49,94],"model":[50,68,92],"excess":[52],"loss":[53],"under":[54],"repetition":[55,83],"with":[56],"a":[57,80,115,126,143],"simple":[58],"additive":[59],"overfitting":[60,113],"penalty":[61],"and":[62,86],"find":[63],"that":[64,96,131,149],"it":[65,118],"accurately":[66],"describes":[67],"behavior.":[69],"Our":[70],"yields":[73],"qualitatively":[74],"new":[75],"compute-optimal":[76],"advice.":[78],"Beyond":[79],"point,":[81],"further":[82],"counterproductive":[85],"better":[89],"spent":[90],"on":[91],"capacity.":[93],"show":[95,130],"following":[97],"our":[98,109],"law's":[99],"recommended":[100],"configuration":[101],"improves":[102],"performance":[103],"Finally,":[107],"because":[108],"one-parameter":[110],"form":[111],"isolates":[112],"single":[116],"coefficient,":[117],"enables":[119],"direct":[120],"comparison":[121],"across":[122],"configurations.":[124],"As":[125],"case":[127],"study,":[128],"we":[129],"strong":[132],"weight":[133,151],"decay":[134,152],"($\u03bb=1.0$)":[135],"reduces":[136],"this":[137],"coefficient":[138],"by":[139],"approximately":[140],"70%,":[141],"providing":[142],"scaling-law":[144],"explanation":[145],"for":[146],"recent":[147],"findings":[148],"regimes":[155],"an":[157],"order":[158],"magnitude":[160],"larger":[161],"than":[162],"standard":[163],"practice.":[164]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-06T00:00:00"}