{"id":"https://openalex.org/W7140202966","doi":"https://doi.org/10.48550/arxiv.2603.21376","title":"A transformer architecture alteration to incentivise externalised reasoning","display_name":"A transformer architecture alteration to incentivise externalised reasoning","publication_year":2026,"publication_date":"2026-03-22","ids":{"openalex":"https://openalex.org/W7140202966","doi":"https://doi.org/10.48550/arxiv.2603.21376"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.21376","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.21376","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.21376","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Pavlova, Elizabeth","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Pavlova, Elizabeth","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Koroliuk, Mariia","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Koroliuk, Mariia","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Viswanathan, Karthik","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Viswanathan, Karthik","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Tice, Cameron","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tice, Cameron","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Young, Edward James","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Young, Edward James","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Radmard, Puria","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Radmard, Puria","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10906","display_name":"AI-based Problem Solving and Planning","score":0.47859999537467957,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10906","display_name":"AI-based Problem Solving and Planning","score":0.47859999537467957,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.24549999833106995,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.05900000035762787,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/transformer","display_name":"Transformer","score":0.7660999894142151},{"id":"https://openalex.org/keywords/computation","display_name":"Computation","score":0.684499979019165},{"id":"https://openalex.org/keywords/architecture","display_name":"Architecture","score":0.6753000020980835},{"id":"https://openalex.org/keywords/security-token","display_name":"Security token","score":0.6026999950408936},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5228999853134155},{"id":"https://openalex.org/keywords/case-based-reasoning","display_name":"Case-based reasoning","score":0.4659000039100647},{"id":"https://openalex.org/keywords/model-based-reasoning","display_name":"Model-based reasoning","score":0.3368000090122223},{"id":"https://openalex.org/keywords/task-analysis","display_name":"Task analysis","score":0.33469998836517334}],"concepts":[{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.7660999894142151},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.684499979019165},{"id":"https://openalex.org/C123657996","wikidata":"https://www.wikidata.org/wiki/Q12271","display_name":"Architecture","level":2,"score":0.6753000020980835},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6679999828338623},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.6026999950408936},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5228999853134155},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4659999907016754},{"id":"https://openalex.org/C20162079","wikidata":"https://www.wikidata.org/wiki/Q1151406","display_name":"Case-based reasoning","level":2,"score":0.4659000039100647},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.34389999508857727},{"id":"https://openalex.org/C37335422","wikidata":"https://www.wikidata.org/wiki/Q6888134","display_name":"Model-based reasoning","level":3,"score":0.3368000090122223},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.33469998836517334},{"id":"https://openalex.org/C28427503","wikidata":"https://www.wikidata.org/wiki/Q13580300","display_name":"Internal model","level":3,"score":0.32919999957084656},{"id":"https://openalex.org/C118524514","wikidata":"https://www.wikidata.org/wiki/Q173212","display_name":"Computer architecture","level":1,"score":0.3181999921798706},{"id":"https://openalex.org/C98025372","wikidata":"https://www.wikidata.org/wiki/Q477538","display_name":"Systems architecture","level":3,"score":0.2987000048160553},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.28929999470710754},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.2890999913215637},{"id":"https://openalex.org/C79403827","wikidata":"https://www.wikidata.org/wiki/Q3988","display_name":"Real-time computing","level":1,"score":0.28380000591278076},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.28290000557899475},{"id":"https://openalex.org/C115903868","wikidata":"https://www.wikidata.org/wiki/Q80993","display_name":"Software engineering","level":1,"score":0.2770000100135803},{"id":"https://openalex.org/C115086926","wikidata":"https://www.wikidata.org/wiki/Q17004651","display_name":"Causal reasoning","level":3,"score":0.27300000190734863},{"id":"https://openalex.org/C67186912","wikidata":"https://www.wikidata.org/wiki/Q367664","display_name":"Data modeling","level":2,"score":0.2685999870300293},{"id":"https://openalex.org/C133731056","wikidata":"https://www.wikidata.org/wiki/Q4917288","display_name":"Control engineering","level":1,"score":0.2678999900817871},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.26269999146461487},{"id":"https://openalex.org/C189474733","wikidata":"https://www.wikidata.org/wiki/Q917912","display_name":"Model building","level":2,"score":0.26109999418258667},{"id":"https://openalex.org/C89288958","wikidata":"https://www.wikidata.org/wiki/Q7301504","display_name":"Reasoning system","level":2,"score":0.2603999972343445},{"id":"https://openalex.org/C44154836","wikidata":"https://www.wikidata.org/wiki/Q45045","display_name":"Simulation","level":1,"score":0.2587999999523163},{"id":"https://openalex.org/C193415008","wikidata":"https://www.wikidata.org/wiki/Q639681","display_name":"Network architecture","level":2,"score":0.2558000087738037},{"id":"https://openalex.org/C195344581","wikidata":"https://www.wikidata.org/wiki/Q2555318","display_name":"Automated reasoning","level":2,"score":0.25209999084472656}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.21376","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.21376","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.21376","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.21376","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"We":[0,24,77,98],"propose":[1],"a":[2,17,57],"new":[3],"architectural":[4],"change,":[5],"and":[6,37],"post-training":[7],"pipeline,":[8],"for":[9,84,133],"making":[10],"LLMs":[11],"more":[12],"verbose":[13],"reasoners":[14],"by":[15],"teaching":[16],"model":[18,40,63],"to":[19,41,64,81,92,122],"truncate":[20],"forward":[21],"passes":[22],"early.":[23],"augment":[25],"an":[26,31],"existing":[27],"transformer":[28],"architecture":[29],"with":[30],"early-exit":[32],"mechanism":[33],"at":[34,43,102,119],"intermediate":[35],"layers":[36,45],"train":[38],"the":[39,47,62,103,110],"exit":[42,65],"shallower":[44],"when":[46],"next":[48],"token":[49],"can":[50,108],"be":[51],"predicted":[52],"without":[53],"deep":[54],"computation.":[55],"After":[56],"calibration":[58],"stage,":[59],"we":[60],"incentivise":[61],"as":[66,68],"early":[67],"possible":[69],"while":[70],"maintaining":[71],"task":[72],"performance":[73],"using":[74,126],"reinforcement":[75],"learning.":[76],"provide":[78],"preliminary":[79],"results":[80],"this":[82,131],"effect":[83],"small":[85],"reasoning":[86,116],"models,":[87],"showing":[88],"that":[89,115],"they":[90],"learn":[91],"adaptively":[93],"reduce":[94],"computations":[95],"across":[96],"tokens.":[97,135],"predict":[99],"that,":[100],"applied":[101],"right":[104],"scale,":[105],"our":[106],"approach":[107],"minimise":[109],"amount":[111],"of":[112],"excess":[113],"computation":[114],"models":[117],"have":[118],"their":[120,127],"disposal":[121],"perform":[123],"non-myopic":[124],"planning":[125],"internal":[128],"activations,":[129],"reserving":[130],"only":[132],"difficult-to-predict":[134]},"counts_by_year":[],"updated_date":"2026-04-25T08:17:42.794288","created_date":"2026-03-25T00:00:00"}