{"id":"https://openalex.org/W7154386793","doi":"https://doi.org/10.48550/arxiv.2604.10585","title":"Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs","display_name":"Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs","publication_year":2026,"publication_date":"2026-04-12","ids":{"openalex":"https://openalex.org/W7154386793","doi":"https://doi.org/10.48550/arxiv.2604.10585"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.10585","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.10585","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.10585","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5133624387","display_name":"Subramanyam Sahoo","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Sahoo, Subramanyam","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5133624387"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.15240000188350677,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.15240000188350677,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.09960000216960907,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.066600002348423,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/calibration","display_name":"Calibration","score":0.777400016784668},{"id":"https://openalex.org/keywords/residual","display_name":"Residual","score":0.4950999915599823},{"id":"https://openalex.org/keywords/scaling","display_name":"Scaling","score":0.4862000048160553},{"id":"https://openalex.org/keywords/baseline","display_name":"Baseline (sea)","score":0.4546999931335449},{"id":"https://openalex.org/keywords/matching","display_name":"Matching (statistics)","score":0.4410000145435333},{"id":"https://openalex.org/keywords/property","display_name":"Property (philosophy)","score":0.3772999942302704},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.35350000858306885},{"id":"https://openalex.org/keywords/permutation","display_name":"Permutation (music)","score":0.3521000146865845}],"concepts":[{"id":"https://openalex.org/C165838908","wikidata":"https://www.wikidata.org/wiki/Q736777","display_name":"Calibration","level":2,"score":0.777400016784668},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5081999897956848},{"id":"https://openalex.org/C149782125","wikidata":"https://www.wikidata.org/wiki/Q160039","display_name":"Econometrics","level":1,"score":0.5023999810218811},{"id":"https://openalex.org/C155512373","wikidata":"https://www.wikidata.org/wiki/Q287450","display_name":"Residual","level":2,"score":0.4950999915599823},{"id":"https://openalex.org/C99844830","wikidata":"https://www.wikidata.org/wiki/Q102441924","display_name":"Scaling","level":2,"score":0.4862000048160553},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4611000120639801},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.4546999931335449},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.4410000145435333},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.42559999227523804},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4219000041484833},{"id":"https://openalex.org/C189950617","wikidata":"https://www.wikidata.org/wiki/Q937228","display_name":"Property (philosophy)","level":2,"score":0.3772999942302704},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.37389999628067017},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.35350000858306885},{"id":"https://openalex.org/C21308566","wikidata":"https://www.wikidata.org/wiki/Q7169365","display_name":"Permutation (music)","level":2,"score":0.3521000146865845},{"id":"https://openalex.org/C106487976","wikidata":"https://www.wikidata.org/wiki/Q685816","display_name":"Matrix (chemical analysis)","level":2,"score":0.34299999475479126},{"id":"https://openalex.org/C86844869","wikidata":"https://www.wikidata.org/wiki/Q2798820","display_name":"Hacker","level":2,"score":0.3359000086784363},{"id":"https://openalex.org/C32230216","wikidata":"https://www.wikidata.org/wiki/Q7882499","display_name":"Uncertainty quantification","level":2,"score":0.33180001378059387},{"id":"https://openalex.org/C42058472","wikidata":"https://www.wikidata.org/wiki/Q810214","display_name":"Base (topology)","level":2,"score":0.32829999923706055},{"id":"https://openalex.org/C44249647","wikidata":"https://www.wikidata.org/wiki/Q208498","display_name":"Confidence interval","level":2,"score":0.3276999890804291},{"id":"https://openalex.org/C137209882","wikidata":"https://www.wikidata.org/wiki/Q1403517","display_name":"Measurement uncertainty","level":2,"score":0.3070000112056732},{"id":"https://openalex.org/C17648541","wikidata":"https://www.wikidata.org/wiki/Q2265984","display_name":"Efficiency","level":3,"score":0.27880001068115234},{"id":"https://openalex.org/C92757383","wikidata":"https://www.wikidata.org/wiki/Q382497","display_name":"Affine transformation","level":2,"score":0.2621000111103058},{"id":"https://openalex.org/C114289077","wikidata":"https://www.wikidata.org/wiki/Q3284399","display_name":"Statistical model","level":2,"score":0.25119999051094055}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.10585","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.10585","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.10585","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.10585","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.7008750438690186,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Modern":[0],"large":[1],"language":[2],"models":[3,139],"(LLMs)":[4],"are":[5],"increasingly":[6],"fine-tuned":[7],"via":[8],"reinforcement":[9],"learning":[10],"from":[11],"human":[12],"feedback":[13],"(RLHF)":[14],"or":[15],"related":[16],"reward":[17,30,192],"optimisation":[18],"schemes.":[19],"While":[20],"such":[21],"procedures":[22],"improve":[23],"perceived":[24],"helpfulness,":[25],"we":[26,87],"investigate":[27],"whether":[28],"sycophantic":[29,153],"signals":[31],"degrade":[32],"calibration":[33,95,189],"--":[34,97,116],"a":[35,174,184],"property":[36],"essential":[37],"for":[38,186],"reliable":[39],"uncertainty":[40],"quantification.":[41],"We":[42],"fine-tune":[43],"Qwen3-8B":[44],"under":[45],"three":[46,138],"regimes:":[47],"no":[48],"fine-tuning":[49,53],"(base),":[50],"neutral":[51,114,163],"supervised":[52],"(SFT)":[54],"on":[55,72],"TriviaQA,":[56],"and":[57,84,107,144,194],"sycophancy-inducing":[58],"Group":[59],"Relative":[60],"Policy":[61],"Optimisation":[62],"(GRPO)":[63],"that":[64,89,170],"rewards":[65],"agreement":[66],"with":[67,80],"planted":[68],"wrong":[69],"answers.":[70],"Evaluating":[71],"$1{,}000$":[73],"MMLU":[74],"items":[75],"across":[76],"five":[77],"subject":[78],"domains":[79],"bootstrap":[81],"confidence":[82],"intervals":[83],"permutation":[85],"testing,":[86],"find":[88],"\\textbf{sycophantic":[90],"GRPO":[91],"produces":[92],"consistent":[93],"directional":[94],"degradation}":[96],"ECE":[98,141,159],"rises":[99],"by":[100,110,142,147],"$+0.006$":[101],"relative":[102,112,160],"to":[103,113,136,161],"the":[104,118,152,156,162,188],"base":[105],"model":[106,154],"MCE":[108],"increases":[109],"$+0.010$":[111],"SFT":[115,164],"though":[117],"effect":[119],"does":[120],"not":[121],"reach":[122],"statistical":[123],"significance":[124],"($p":[125],"=":[126],"0.41$)":[127],"at":[128],"this":[129],"training":[130,197],"budget.":[131],"Post-hoc":[132],"matrix":[133],"scaling":[134],"applied":[135],"all":[137],"reduces":[140],"$40$--$64\\%$":[143],"improves":[145],"accuracy":[146],"$1.5$--$3.0$":[148],"percentage":[149],"points.":[150],"However,":[151],"retains":[155],"highest":[157],"post-scaling":[158],"control":[165],"($0.042$":[166],"vs.\\":[167],"$0.037$),":[168],"suggesting":[169],"reward-induced":[171],"miscalibration":[172],"leaves":[173],"structured":[175],"residual":[176],"even":[177],"after":[178],"affine":[179],"correction.":[180],"These":[181],"findings":[182],"establish":[183],"methodology":[185],"evaluating":[187],"impact":[190],"of":[191],"hacking":[193],"motivate":[195],"calibration-aware":[196],"objectives.":[198]},"counts_by_year":[],"updated_date":"2026-04-15T06:04:33.058270","created_date":"2026-04-15T00:00:00"}