{"id":"https://openalex.org/W7154424706","doi":"https://doi.org/10.48550/arxiv.2604.10825","title":"CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms","display_name":"CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms","publication_year":2026,"publication_date":"2026-04-12","ids":{"openalex":"https://openalex.org/W7154424706","doi":"https://doi.org/10.48550/arxiv.2604.10825"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.10825","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.10825","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.10825","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5130098994","display_name":"Zacharie Bugaud","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Bugaud, Zacharie","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5130098994"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10581","display_name":"Neural dynamics and brain function","score":0.15070000290870667,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}},"topics":[{"id":"https://openalex.org/T10581","display_name":"Neural dynamics and brain function","score":0.15070000290870667,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}},{"id":"https://openalex.org/T10429","display_name":"EEG and Brain-Computer Interfaces","score":0.11460000276565552,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.1111999973654747,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.6029000282287598},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.5803999900817871},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5608000159263611},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5177000164985657},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.49720001220703125},{"id":"https://openalex.org/keywords/ascii","display_name":"ASCII","score":0.4607999920845032},{"id":"https://openalex.org/keywords/rodent","display_name":"Rodent","score":0.42559999227523804},{"id":"https://openalex.org/keywords/place-cell","display_name":"Place cell","score":0.4074000120162964},{"id":"https://openalex.org/keywords/cognitive-architecture","display_name":"Cognitive architecture","score":0.3659999966621399},{"id":"https://openalex.org/keywords/behavioral-modeling","display_name":"Behavioral modeling","score":0.36239999532699585}],"concepts":[{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.6029000282287598},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.5803999900817871},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5608000159263611},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.536899983882904},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5177000164985657},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.49720001220703125},{"id":"https://openalex.org/C196832560","wikidata":"https://www.wikidata.org/wiki/Q8815","display_name":"ASCII","level":2,"score":0.4607999920845032},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.4318000078201294},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.42969998717308044},{"id":"https://openalex.org/C2778914748","wikidata":"https://www.wikidata.org/wiki/Q10850","display_name":"Rodent","level":2,"score":0.42559999227523804},{"id":"https://openalex.org/C2781369091","wikidata":"https://www.wikidata.org/wiki/Q2303730","display_name":"Place cell","level":3,"score":0.4074000120162964},{"id":"https://openalex.org/C180747234","wikidata":"https://www.wikidata.org/wiki/Q23373","display_name":"Cognitive psychology","level":1,"score":0.39399999380111694},{"id":"https://openalex.org/C188147891","wikidata":"https://www.wikidata.org/wiki/Q147638","display_name":"Cognitive science","level":1,"score":0.37310001254081726},{"id":"https://openalex.org/C20854674","wikidata":"https://www.wikidata.org/wiki/Q4386060","display_name":"Cognitive architecture","level":3,"score":0.3659999966621399},{"id":"https://openalex.org/C78639753","wikidata":"https://www.wikidata.org/wiki/Q3318160","display_name":"Behavioral modeling","level":2,"score":0.36239999532699585},{"id":"https://openalex.org/C15286952","wikidata":"https://www.wikidata.org/wiki/Q8037925","display_name":"Computational neuroscience","level":2,"score":0.3560999929904938},{"id":"https://openalex.org/C138917182","wikidata":"https://www.wikidata.org/wiki/Q846566","display_name":"Behavioral neuroscience","level":2,"score":0.3407999873161316},{"id":"https://openalex.org/C2988419192","wikidata":"https://www.wikidata.org/wiki/Q7155","display_name":"Animal behavior","level":2,"score":0.32749998569488525},{"id":"https://openalex.org/C169900460","wikidata":"https://www.wikidata.org/wiki/Q2200417","display_name":"Cognition","level":2,"score":0.32359999418258667},{"id":"https://openalex.org/C66024118","wikidata":"https://www.wikidata.org/wiki/Q1122506","display_name":"Computational model","level":2,"score":0.32350000739097595},{"id":"https://openalex.org/C169760540","wikidata":"https://www.wikidata.org/wiki/Q207011","display_name":"Neuroscience","level":1,"score":0.30730000138282776},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.3068999946117401},{"id":"https://openalex.org/C163270606","wikidata":"https://www.wikidata.org/wiki/Q847079","display_name":"Operant conditioning","level":3,"score":0.30379998683929443},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.2987000048160553},{"id":"https://openalex.org/C169258074","wikidata":"https://www.wikidata.org/wiki/Q245748","display_name":"Random forest","level":2,"score":0.2939000129699707},{"id":"https://openalex.org/C2779916870","wikidata":"https://www.wikidata.org/wiki/Q14467155","display_name":"Gaze","level":2,"score":0.2930000126361847},{"id":"https://openalex.org/C17289045","wikidata":"https://www.wikidata.org/wiki/Q1138951","display_name":"Cognitive neuroscience","level":3,"score":0.28949999809265137},{"id":"https://openalex.org/C2776505523","wikidata":"https://www.wikidata.org/wiki/Q4785468","display_name":"Plan (archaeology)","level":2,"score":0.2849999964237213},{"id":"https://openalex.org/C126042441","wikidata":"https://www.wikidata.org/wiki/Q1324888","display_name":"Frame (networking)","level":2,"score":0.27480000257492065},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.26759999990463257},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.26649999618530273},{"id":"https://openalex.org/C100609095","wikidata":"https://www.wikidata.org/wiki/Q1335050","display_name":"Embodied cognition","level":2,"score":0.26570001244544983},{"id":"https://openalex.org/C41690226","wikidata":"https://www.wikidata.org/wiki/Q499210","display_name":"Animal cognition","level":3,"score":0.26489999890327454},{"id":"https://openalex.org/C113843644","wikidata":"https://www.wikidata.org/wiki/Q901882","display_name":"Interface (matter)","level":4,"score":0.26249998807907104},{"id":"https://openalex.org/C161407221","wikidata":"https://www.wikidata.org/wiki/Q4382939","display_name":"Cognitive model","level":3,"score":0.2624000012874603},{"id":"https://openalex.org/C2778117688","wikidata":"https://www.wikidata.org/wiki/Q264024","display_name":"Animal model","level":2,"score":0.25209999084472656}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.10825","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.10825","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.10825","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.10825","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"We":[0,88,137],"introduce":[1],"CheeseBench,":[2],"a":[3,59,81,105,109,162],"benchmark":[4],"that":[5,139],"evaluates":[6],"large":[7],"language":[8],"models":[9],"(LLMs)":[10],"on":[11,97,122,185,218],"nine":[12],"classical":[13],"behavioral":[14],"neuroscience":[15],"paradigms":[16],"(Morris":[17],"water":[18],"maze,":[19,21,25,27],"Barnes":[20],"T-maze,":[22],"radial":[23],"arm":[24],"star":[26],"operant":[28],"chamber,":[29],"shuttle":[30],"box,":[31],"conditioned":[32],"place":[33],"preference,":[34],"and":[35,67,76,101,108,131,160,223],"delayed":[36],"non-match":[37],"to":[38,94,126,182],"sample),":[39],"spanning":[40],"six":[41,90],"cognitive":[42],"dimensions.":[43],"Each":[44],"task":[45],"is":[46],"grounded":[47],"in":[48,198],"peer-reviewed":[49],"rodent":[50,82,135,214],"protocols":[51],"with":[52,63],"approximate":[53,134,213],"animal":[54],"baselines.":[55,136],"The":[56],"agent":[57],"receives":[58],"unified":[60,202],"system":[61],"prompt":[62],"no":[64],"task-specific":[65],"instructions":[66],"must":[68],"discover":[69],"goals":[70],"purely":[71],"from":[72,180],"ASCII":[73,99,123,204],"text":[74],"observations":[75],"reward":[77],"signals,":[78],"much":[79],"like":[80],"placed":[83],"into":[84],"an":[85,166],"unfamiliar":[86],"apparatus.":[87],"evaluate":[89],"open-weight":[91,207],"LLMs":[92],"(3B":[93],"72B":[95],"parameters)":[96],"text-based":[98],"renderings":[100],"compare":[102],"against":[103],"both":[104],"random":[106,129],"baseline":[107],"graph-based":[110],"reinforcement":[111],"learning":[112],"agent.":[113],"Our":[114],"best":[115],"model":[116,197],"(Qwen2.5-VL-7B)":[117],"reaches":[118],"52.6%":[119],"average":[120],"success":[121],"input,":[124],"compared":[125],"32.1%":[127],"for":[128,133],"agents":[130,209],"78.9%":[132],"find":[138],"(1)":[140],"scaling":[141],"beyond":[142],"7B":[143,169],"yields":[144],"diminishing":[145],"returns,":[146],"(2)":[147],"longer":[148],"context":[149],"history":[150],"degrades":[151],"performance,":[152],"(3)":[153],"chain-of-thought":[154],"prompting":[155],"hurts":[156,171],"rather":[157],"than":[158],"helps,":[159],"(4)":[161],"vision-language":[163],"architecture":[164],"provides":[165],"advantage":[167],"at":[168,172],"but":[170],"32B.":[173],"Because":[174],"the":[175,192,196],"same":[176],"model's":[177],"performance":[178],"ranges":[179],"20%":[181],"57%":[183],"depending":[184],"interface":[186],"parameters":[187],"alone,":[188],"these":[189],"results":[190],"characterize":[191],"agent-plus-interface":[193],"system,":[194],"not":[195],"isolation.":[199],"Under":[200],"this":[201],"zero-shot":[203],"protocol,":[205],"current":[206],"LLM":[208],"remain":[210],"well":[211],"below":[212],"reference":[215],"values,":[216],"particularly":[217],"tasks":[219],"requiring":[220],"spatial":[221],"navigation":[222],"within-trial":[224],"state":[225],"tracking.":[226]},"counts_by_year":[],"updated_date":"2026-04-15T06:04:33.058270","created_date":"2026-04-15T00:00:00"}