{"id":"https://openalex.org/W7152382678","doi":"https://doi.org/10.48550/arxiv.2604.06628","title":"Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability","display_name":"Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability","publication_year":2026,"publication_date":"2026-04-08","ids":{"openalex":"https://openalex.org/W7152382678","doi":"https://doi.org/10.48550/arxiv.2604.06628"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.06628","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.06628","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.06628","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5133258144","display_name":"Qihan Ren","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Ren, Qihan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133292672","display_name":"Peng Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Peng","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133293532","display_name":"Ruikun Cai","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cai, Ruikun","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133292885","display_name":"Shuai Shao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Shao, Shuai","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133263267","display_name":"Dadi Guo","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Guo, Dadi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5120309006","display_name":"Yuejin Xie","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xie, Yuejin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5032649444","display_name":"Yafu Li","orcid":"https://orcid.org/0000-0002-7895-9997"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Yafu","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133292308","display_name":"Quanshi Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Quanshi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133247668","display_name":"Xia Hu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hu, Xia","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133255760","display_name":"Jing Shao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Shao, Jing","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5133245474","display_name":"Dongrui Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Dongrui","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":11,"corresponding_author_ids":["https://openalex.org/A5133258144"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.847000002861023,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.847000002861023,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.028699999675154686,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.01269999984651804,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.8481000065803528},{"id":"https://openalex.org/keywords/cognitive-reframing","display_name":"Cognitive reframing","score":0.6696000099182129},{"id":"https://openalex.org/keywords/narrative","display_name":"Narrative","score":0.5473999977111816},{"id":"https://openalex.org/keywords/quality","display_name":"Quality (philosophy)","score":0.46059998869895935},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.4129999876022339},{"id":"https://openalex.org/keywords/task-analysis","display_name":"Task analysis","score":0.3199999928474426}],"concepts":[{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.8481000065803528},{"id":"https://openalex.org/C187029079","wikidata":"https://www.wikidata.org/wiki/Q958679","display_name":"Cognitive reframing","level":2,"score":0.6696000099182129},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.619700014591217},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5667999982833862},{"id":"https://openalex.org/C199033989","wikidata":"https://www.wikidata.org/wiki/Q1318295","display_name":"Narrative","level":2,"score":0.5473999977111816},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.46059998869895935},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.43549999594688416},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.4129999876022339},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.3199999928474426},{"id":"https://openalex.org/C43971567","wikidata":"https://www.wikidata.org/wiki/Q3142865","display_name":"Logical reasoning","level":2,"score":0.3158999979496002},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.29120001196861267},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.2842999994754791},{"id":"https://openalex.org/C161301231","wikidata":"https://www.wikidata.org/wiki/Q3478658","display_name":"Knowledge representation and reasoning","level":2,"score":0.2696000039577484},{"id":"https://openalex.org/C180747234","wikidata":"https://www.wikidata.org/wiki/Q23373","display_name":"Cognitive psychology","level":1,"score":0.2694999873638153},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.25940001010894775},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.2572000026702881},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.2556000053882599},{"id":"https://openalex.org/C188147891","wikidata":"https://www.wikidata.org/wiki/Q147638","display_name":"Cognitive science","level":1,"score":0.2547999918460846},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.2524999976158142}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.06628","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.06628","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.06628","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.06628","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"A":[0],"prevailing":[1],"narrative":[2],"in":[3],"LLM":[4],"post-training":[5],"holds":[6],"that":[7,31],"supervised":[8],"finetuning":[9],"(SFT)":[10],"memorizes":[11],"while":[12,111,124],"reinforcement":[13],"learning":[14],"(RL)":[15],"generalizes.":[16],"We":[17],"revisit":[18],"this":[19],"claim":[20],"for":[21],"reasoning":[22,122,132],"SFT":[23,133],"with":[24,63],"long":[25],"chain-of-thought":[26],"(CoT)":[27],"supervision":[28],"and":[29,46,61,77,139],"find":[30],"cross-domain":[32,55,91],"generalization":[33,118],"is":[34,95,119],"not":[35],"absent":[36],"but":[37],"conditional,":[38],"jointly":[39],"shaped":[40],"by":[41],"optimization":[42],"dynamics,":[43],"training":[44,65],"data,":[45],"base-model":[47],"capability.":[48],"Some":[49],"reported":[50],"failures":[51],"are":[52],"under-optimization":[53],"artifacts:":[54],"performance":[56],"first":[57],"degrades":[58],"before":[59],"recovering":[60],"improving":[62],"extended":[64],"(a":[66],"dip-and-recovery":[67],"pattern),":[68],"so":[69],"shorttraining":[70],"checkpoints":[71],"can":[72],"underestimate":[73],"generalization.":[74],"Data":[75],"quality":[76],"structure":[78],"both":[79],"matter:":[80],"low-quality":[81],"solutions":[82],"broadly":[83],"hurt":[84],"generalization,while":[85],"verified":[86],"long-CoT":[87],"traces":[88],"yield":[89],"consistent":[90],"gains.":[92],"Model":[93],"capability":[94],"essential:":[96],"stronger":[97],"models":[98],"internalize":[99],"transferable":[100],"procedural":[101],"patterns":[102],"(e.g.,":[103],"backtracking)":[104],"even":[105],"from":[106,130],"a":[107],"toy":[108],"arithmetic":[109],"game,":[110],"weaker":[112],"ones":[113],"imitate":[114],"surface":[115],"verbosity.":[116],"This":[117],"asymmetric,":[120],"however:":[121],"improves":[123],"safety":[125],"degrades,":[126],"reframing":[127],"the":[128],"question":[129],"whether":[131],"generalizes":[134],"to":[135],"under":[136],"what":[137,141],"conditions":[138],"at":[140],"cost.":[142]},"counts_by_year":[],"updated_date":"2026-04-10T06:07:51.998497","created_date":"2026-04-10T00:00:00"}