{"id":"https://openalex.org/W7134819371","doi":"https://doi.org/10.48550/arxiv.2603.08371","title":"Leaderboard Incentives: Model Rankings under Strategic Post-Training","display_name":"Leaderboard Incentives: Model Rankings under Strategic Post-Training","publication_year":2026,"publication_date":"2026-03-09","ids":{"openalex":"https://openalex.org/W7134819371","doi":"https://doi.org/10.48550/arxiv.2603.08371"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2603.08371","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5128683159","display_name":"Yatong Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Chen, Yatong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100438476","display_name":"Guanhua Zhang","orcid":"https://orcid.org/0000-0003-1445-1817"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Guanhua","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5039915143","display_name":"Moritz Hardt","orcid":"https://orcid.org/0009-0000-7694-3038"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hardt, Moritz","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5128683159"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.2264000028371811,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.2264000028371811,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10646","display_name":"Experimental Behavioral Economics Studies","score":0.1177000030875206,"subfield":{"id":"https://openalex.org/subfields/3311","display_name":"Safety Research"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.0877000018954277,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/benchmarking","display_name":"Benchmarking","score":0.8274000287055969},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.8144999742507935},{"id":"https://openalex.org/keywords/stackelberg-competition","display_name":"Stackelberg competition","score":0.7322999835014343},{"id":"https://openalex.org/keywords/nash-equilibrium","display_name":"Nash equilibrium","score":0.6187000274658203},{"id":"https://openalex.org/keywords/incentive","display_name":"Incentive","score":0.5638999938964844},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.522599995136261},{"id":"https://openalex.org/keywords/quality","display_name":"Quality (philosophy)","score":0.48030000925064087},{"id":"https://openalex.org/keywords/test","display_name":"Test (biology)","score":0.4521999955177307},{"id":"https://openalex.org/keywords/best-response","display_name":"Best response","score":0.43639999628067017}],"concepts":[{"id":"https://openalex.org/C86251818","wikidata":"https://www.wikidata.org/wiki/Q816754","display_name":"Benchmarking","level":2,"score":0.8274000287055969},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.8144999742507935},{"id":"https://openalex.org/C199510392","wikidata":"https://www.wikidata.org/wiki/Q1184602","display_name":"Stackelberg competition","level":2,"score":0.7322999835014343},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6251999735832214},{"id":"https://openalex.org/C46814582","wikidata":"https://www.wikidata.org/wiki/Q23389","display_name":"Nash equilibrium","level":2,"score":0.6187000274658203},{"id":"https://openalex.org/C29122968","wikidata":"https://www.wikidata.org/wiki/Q1414816","display_name":"Incentive","level":2,"score":0.5638999938964844},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.522599995136261},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.48030000925064087},{"id":"https://openalex.org/C2777267654","wikidata":"https://www.wikidata.org/wiki/Q3519023","display_name":"Test (biology)","level":2,"score":0.4521999955177307},{"id":"https://openalex.org/C175444787","wikidata":"https://www.wikidata.org/wiki/Q39072","display_name":"Microeconomics","level":1,"score":0.44179999828338623},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.4383000135421753},{"id":"https://openalex.org/C32407928","wikidata":"https://www.wikidata.org/wiki/Q2733833","display_name":"Best response","level":3,"score":0.43639999628067017},{"id":"https://openalex.org/C2780385302","wikidata":"https://www.wikidata.org/wiki/Q367158","display_name":"Protocol (science)","level":3,"score":0.4171999990940094},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.41029998660087585},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.3885999917984009},{"id":"https://openalex.org/C175983524","wikidata":"https://www.wikidata.org/wiki/Q1615834","display_name":"Subgame perfect equilibrium","level":3,"score":0.3882000148296356},{"id":"https://openalex.org/C42475967","wikidata":"https://www.wikidata.org/wiki/Q194292","display_name":"Operations research","level":1,"score":0.3847000002861023},{"id":"https://openalex.org/C177142836","wikidata":"https://www.wikidata.org/wiki/Q44455","display_name":"Game theory","level":2,"score":0.3643999993801117},{"id":"https://openalex.org/C2780009758","wikidata":"https://www.wikidata.org/wiki/Q6804172","display_name":"Measure (data warehouse)","level":2,"score":0.3490000069141388},{"id":"https://openalex.org/C164407509","wikidata":"https://www.wikidata.org/wiki/Q5384490","display_name":"Equilibrium selection","level":4,"score":0.3257000148296356},{"id":"https://openalex.org/C163630976","wikidata":"https://www.wikidata.org/wiki/Q964667","display_name":"Correlated equilibrium","level":5,"score":0.31529998779296875},{"id":"https://openalex.org/C94966114","wikidata":"https://www.wikidata.org/wiki/Q29256","display_name":"Black box","level":2,"score":0.31209999322891235},{"id":"https://openalex.org/C201364048","wikidata":"https://www.wikidata.org/wiki/Q2897085","display_name":"Sequential equilibrium","level":5,"score":0.3052000105381012},{"id":"https://openalex.org/C13576547","wikidata":"https://www.wikidata.org/wiki/Q3965283","display_name":"Subgame","level":5,"score":0.2973000109195709},{"id":"https://openalex.org/C151201525","wikidata":"https://www.wikidata.org/wiki/Q177239","display_name":"Limit (mathematics)","level":2,"score":0.2919999957084656},{"id":"https://openalex.org/C149782125","wikidata":"https://www.wikidata.org/wiki/Q160039","display_name":"Econometrics","level":1,"score":0.27709999680519104},{"id":"https://openalex.org/C189430467","wikidata":"https://www.wikidata.org/wiki/Q7293293","display_name":"Ranking (information retrieval)","level":2,"score":0.26809999346733093},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2583000063896179},{"id":"https://openalex.org/C2779955035","wikidata":"https://www.wikidata.org/wiki/Q4686785","display_name":"Advice (programming)","level":2,"score":0.25440001487731934}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2603.08371","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2603.08371","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.08371","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2603.08371","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Influential":[0],"benchmarks":[1,39,98,164],"incentivize":[2],"competing":[3],"model":[4,42,59,76,107,124],"developers":[5,60,108,125],"to":[6,90,120,126],"strategically":[7],"allocate":[8],"post-training":[9],"resources":[10,89],"toward":[11],"improvements":[12],"on":[13,22],"the":[14,23,35,69],"leaderboard,":[15],"a":[16,31,45,49,65,75,138,146,149],"phenomenon":[17],"dubbed":[18],"benchmaxxing":[19],"or":[20],"training":[21],"test":[24],"task.":[25],"In":[26],"this":[27],"work,":[28],"we":[29,94,132],"initiate":[30],"principled":[32],"study":[33],"of":[34,77],"incentive":[36],"structure":[37],"that":[38,96,134,153,163],"induce.":[40],"We":[41],"benchmarking":[43],"as":[44],"Stackelberg":[46],"game":[47],"between":[48,106],"benchmark":[50,147],"designer":[51],"who":[52,61],"chooses":[53],"an":[54],"evaluation":[55,141],"protocol":[56],"and":[57,81],"multiple":[58],"compete":[62],"simultaneously":[63],"in":[64,128],"subgame":[66],"given":[67],"by":[68,87,156],"designer's":[70],"choice.":[71],"Each":[72],"competitor":[73],"has":[74],"unknown":[78],"latent":[79,157],"quality":[80],"can":[82],"inflate":[83],"its":[84],"observed":[85],"score":[86],"allocating":[88],"benchmark-specific":[91],"improvements.":[92],"First,":[93],"prove":[95,133],"current":[97,117,172],"induce":[99],"games":[100],"for":[101,115],"which":[102],"no":[103],"Nash":[104,151],"equilibrium":[105,152],"exists.":[109],"This":[110,159],"result":[111,161],"suggests":[112],"one":[113],"explanation":[114],"why":[116],"practice":[118],"leads":[119],"misaligned":[121],"incentives,":[122,169],"prompting":[123],"strategize":[127],"opaque":[129],"ways.":[130],"However,":[131],"under":[135],"mild":[136],"conditions,":[137],"recently":[139],"proposed":[140],"protocol,":[142],"called":[143],"tune-before-test,":[144],"induces":[145],"with":[148],"unique":[150],"ranks":[154],"models":[155],"quality.":[158],"positive":[160],"demonstrates":[162],"need":[165],"not":[166],"set":[167],"bad":[168],"even":[170],"if":[171],"evaluations":[173],"do.":[174]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-03-11T00:00:00"}