{"id":"https://openalex.org/W7127594220","doi":"https://doi.org/10.48550/arxiv.2602.03143","title":"Self-Hinting Language Models Enhance Reinforcement Learning","display_name":"Self-Hinting Language Models Enhance Reinforcement Learning","publication_year":2026,"publication_date":"2026-02-03","ids":{"openalex":"https://openalex.org/W7127594220","doi":"https://doi.org/10.48550/arxiv.2602.03143"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.03143","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5124986128","display_name":"Baohao Liao","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Liao, Baohao","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5061778641","display_name":"Hanze Dong","orcid":"https://orcid.org/0000-0002-8846-1260"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Dong, Hanze","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125001871","display_name":"Xinxing Xu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xu, Xinxing","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Monz, Christof","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Monz, Christof","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5125030843","display_name":"Jiang Bian","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Bian, Jiang","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5124986128"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.3249000012874603,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.3249000012874603,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.11710000038146973,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.07249999791383743,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.748199999332428},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.586899995803833},{"id":"https://openalex.org/keywords/diversity","display_name":"Diversity (politics)","score":0.5393999814987183},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5392000079154968},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.46380001306533813},{"id":"https://openalex.org/keywords/outcome","display_name":"Outcome (game theory)","score":0.44209998846054077},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.43849998712539673},{"id":"https://openalex.org/keywords/plan","display_name":"Plan (archaeology)","score":0.430400013923645}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.748199999332428},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6858000159263611},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.586899995803833},{"id":"https://openalex.org/C2781316041","wikidata":"https://www.wikidata.org/wiki/Q1230584","display_name":"Diversity (politics)","level":2,"score":0.5393999814987183},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5392000079154968},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.46380001306533813},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.44209998846054077},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.43849998712539673},{"id":"https://openalex.org/C2776505523","wikidata":"https://www.wikidata.org/wiki/Q4785468","display_name":"Plan (archaeology)","level":2,"score":0.430400013923645},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.42820000648498535},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.41909998655319214},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.40209999680519104},{"id":"https://openalex.org/C85847156","wikidata":"https://www.wikidata.org/wiki/Q59015987","display_name":"Verifiable secret sharing","level":3,"score":0.3792000114917755},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.37619999051094055},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3409000039100647},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.3409000039100647},{"id":"https://openalex.org/C48677424","wikidata":"https://www.wikidata.org/wiki/Q6888088","display_name":"Mode (computer interface)","level":2,"score":0.32249999046325684},{"id":"https://openalex.org/C2777267654","wikidata":"https://www.wikidata.org/wiki/Q3519023","display_name":"Test (biology)","level":2,"score":0.3221000134944916},{"id":"https://openalex.org/C2781311116","wikidata":"https://www.wikidata.org/wiki/Q83306","display_name":"Group (periodic table)","level":2,"score":0.31189998984336853},{"id":"https://openalex.org/C47177190","wikidata":"https://www.wikidata.org/wiki/Q207137","display_name":"Curriculum","level":2,"score":0.2987000048160553},{"id":"https://openalex.org/C2778565505","wikidata":"https://www.wikidata.org/wiki/Q2207566","display_name":"Spec#","level":2,"score":0.29010000824928284},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.26499998569488525},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.2533999979496002}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.03143","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.03143","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.03143","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.03143","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.4346946179866791,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Group":[0],"Relative":[1],"Policy":[2],"Optimization":[3],"(GRPO)":[4],"has":[5],"recently":[6],"emerged":[7],"as":[8,146],"a":[9,31,84,89,96,165],"practical":[10],"recipe":[11],"for":[12],"aligning":[13],"large":[14],"language":[15],"models":[16],"with":[17,51,173],"verifiable":[18],"objectives.":[19],"However,":[20],"under":[21,71,115,123],"sparse":[22,124],"terminal":[23,74],"rewards,":[24,36],"GRPO":[25,50,119],"often":[26],"stalls":[27],"because":[28],"rollouts":[29],"within":[30],"group":[32],"frequently":[33],"receive":[34],"identical":[35],"causing":[37],"relative":[38],"advantages":[39,120],"to":[40,44,66],"collapse":[41],"and":[42,93,132,190],"updates":[43],"vanish.":[45],"We":[46],"propose":[47],"self-hint":[48],"aligned":[49],"privileged":[52,62,139],"supervision":[53],"(SAGE),":[54],"an":[55,147,161],"on-policy":[56],"reinforcement":[57],"learning":[58],"framework":[59],"that":[60,150,177],"injects":[61],"hints":[63,109,159],"during":[64],"training":[65],"reshape":[67],"the":[68,72,81,103,134,152],"rollout":[69],"distribution":[70],"same":[73],"verifier":[75],"reward.":[76],"For":[77],"each":[78],"prompt":[79],"$x$,":[80],"model":[82],"samples":[83],"compact":[85],"hint":[86],"$h$":[87],"(e.g.,":[88],"plan":[90],"or":[91,164],"decomposition)":[92],"then":[94],"generates":[95],"solution":[97],"$\u03c4$":[98],"conditioned":[99],"on":[100,182,185,188,192],"$(x,h)$.":[101],"Crucially,":[102],"task":[104],"reward":[105],"$R(x,\u03c4)$":[106],"is":[107,196],"unchanged;":[108],"only":[110],"increase":[111],"within-group":[112],"outcome":[113],"diversity":[114],"finite":[116],"sampling,":[117],"preventing":[118],"from":[121,160],"collapsing":[122],"rewards.":[125],"At":[126],"test":[127],"time,":[128],"we":[129],"set":[130],"$h=\\varnothing$":[131],"deploy":[133],"no-hint":[135],"policy":[136,163],"without":[137],"any":[138],"information.":[140],"Moreover,":[141],"sampling":[142],"diverse":[143],"self-hints":[144],"serves":[145],"adaptive":[148],"curriculum":[149],"tracks":[151],"learner's":[153],"bottlenecks":[154],"more":[155],"effectively":[156],"than":[157],"fixed":[158],"initial":[162],"stronger":[166],"external":[167],"model.":[168],"Experiments":[169],"over":[170],"6":[171],"benchmarks":[172],"3":[174],"LLMs":[175],"show":[176],"SAGE":[178],"consistently":[179],"outperforms":[180],"GRPO,":[181],"average":[183],"+2.0":[184],"Llama-3.2-3B-Instruct,":[186],"+1.2":[187],"Qwen2.5-7B-Instruct":[189],"+1.3":[191],"Qwen3-4B-Instruct.":[193],"The":[194],"code":[195],"available":[197],"at":[198],"https://github.com/BaohaoLiao/SAGE.":[199]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-06T00:00:00"}