{"id":"https://openalex.org/W7102727821","doi":"https://doi.org/10.48550/arxiv.2510.24812","title":"From Linear to Nonlinear: Provable Weak-to-Strong Generalization through Feature Learning","display_name":"From Linear to Nonlinear: Provable Weak-to-Strong Generalization through Feature Learning","publication_year":2025,"publication_date":"2025-10-28","ids":{"openalex":"https://openalex.org/W7102727821","doi":"https://doi.org/10.48550/arxiv.2510.24812"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2510.24812","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2510.24812","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2510.24812","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Oh, Junsoo","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Oh, Junsoo","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Song, Jerry","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Song, Jerry","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Yun, Chulhee","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yun, Chulhee","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":true,"primary_topic":{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.32910001277923584,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.32910001277923584,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.218299999833107,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12611","display_name":"Neural Networks and Reservoir Computing","score":0.0689999982714653,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/overfitting","display_name":"Overfitting","score":0.8343999981880188},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.8241999745368958},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.6895999908447266},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.3937000036239624},{"id":"https://openalex.org/keywords/overtraining","display_name":"Overtraining","score":0.3695000112056732},{"id":"https://openalex.org/keywords/training-set","display_name":"Training set","score":0.3668999969959259},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.33880001306533813},{"id":"https://openalex.org/keywords/feature-selection","display_name":"Feature selection","score":0.29350000619888306}],"concepts":[{"id":"https://openalex.org/C22019652","wikidata":"https://www.wikidata.org/wiki/Q331309","display_name":"Overfitting","level":3,"score":0.8343999981880188},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.8241999745368958},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.7044000029563904},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.6895999908447266},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6065000295639038},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.44429999589920044},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.3937000036239624},{"id":"https://openalex.org/C2778534509","wikidata":"https://www.wikidata.org/wiki/Q334310","display_name":"Overtraining","level":3,"score":0.3695000112056732},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.3668999969959259},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.33880001306533813},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.3292999863624573},{"id":"https://openalex.org/C148483581","wikidata":"https://www.wikidata.org/wiki/Q446488","display_name":"Feature selection","level":2,"score":0.29350000619888306},{"id":"https://openalex.org/C81363708","wikidata":"https://www.wikidata.org/wiki/Q17084460","display_name":"Convolutional neural network","level":2,"score":0.2865999937057495},{"id":"https://openalex.org/C157553263","wikidata":"https://www.wikidata.org/wiki/Q5168004","display_name":"Coordinate descent","level":2,"score":0.26840001344680786},{"id":"https://openalex.org/C66882249","wikidata":"https://www.wikidata.org/wiki/Q169336","display_name":"Homogeneous","level":2,"score":0.26409998536109924},{"id":"https://openalex.org/C163175372","wikidata":"https://www.wikidata.org/wiki/Q3339222","display_name":"Linear model","level":2,"score":0.25780001282691956},{"id":"https://openalex.org/C25343380","wikidata":"https://www.wikidata.org/wiki/Q277521","display_name":"Relation (database)","level":2,"score":0.2558000087738037},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.2556999921798706},{"id":"https://openalex.org/C50335755","wikidata":"https://www.wikidata.org/wiki/Q483247","display_name":"Phenomenon","level":2,"score":0.25130000710487366},{"id":"https://openalex.org/C117765406","wikidata":"https://www.wikidata.org/wiki/Q5362437","display_name":"Generalization error","level":3,"score":0.2502000033855438}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2510.24812","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2510.24812","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2510.24812","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2510.24812","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.4511318504810333,"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Weak-to-strong":[0],"generalization":[1,51,125,151],"refers":[2],"to":[3,25,34,57],"the":[4,83,92,108,112,122,137,144,148,154],"phenomenon":[5],"where":[6],"a":[7,14,46,53,58],"stronger":[8],"model":[9,85],"trained":[10,87],"under":[11],"supervision":[12],"from":[13,52],"weaker":[15],"one":[16],"can":[17,165],"outperform":[18],"its":[19],"teacher.":[20],"While":[21],"prior":[22],"studies":[23],"aim":[24],"explain":[26],"this":[27,42],"effect,":[28],"most":[29],"theoretical":[30],"insights":[31],"are":[32],"limited":[33],"abstract":[35],"frameworks":[36],"or":[37,130],"linear/random":[38],"feature":[39],"models.":[40],"In":[41,121,147],"paper,":[43],"we":[44,142,161],"provide":[45],"formal":[47],"analysis":[48,97],"of":[49,68,71,111,118,139],"weak-to-strong":[50,119],"linear":[54],"CNN":[55,61],"(weak)":[56],"two-layer":[59],"ReLU":[60],"(strong).":[62],"We":[63],"consider":[64],"structured":[65],"data":[66,89],"composed":[67],"label-dependent":[69],"signals":[70],"varying":[72],"difficulty":[73],"and":[74,77,103,114,141],"label-independent":[75],"noise,":[76],"analyze":[78],"gradient":[79],"descent":[80],"dynamics":[81],"when":[82],"strong":[84],"is":[86],"on":[88,107,136],"labeled":[90],"by":[91],"pretrained":[93],"weak":[94],"model.":[95],"Our":[96],"identifies":[98],"two":[99],"regimes":[100],"--":[101,105],"data-scarce":[102,123],"data-abundant":[104,149],"based":[106],"signal-to-noise":[109],"characteristics":[110],"dataset,":[113],"reveals":[115],"distinct":[116],"mechanisms":[117],"generalization.":[120],"regime,":[124,150],"occurs":[126],"via":[127,132],"benign":[128],"overfitting":[129],"fails":[131],"harmful":[133],"overfitting,":[134],"depending":[135],"amount":[138],"data,":[140],"characterize":[143],"transition":[145],"boundary.":[146],"emerges":[152],"in":[153],"early":[155],"phase":[156],"through":[157],"label":[158],"correction,":[159],"but":[160],"observe":[162],"that":[163],"overtraining":[164],"subsequently":[166],"degrade":[167],"performance.":[168]},"counts_by_year":[],"updated_date":"2025-11-06T06:51:31.235846","created_date":"2025-10-31T00:00:00"}