{"id":"https://openalex.org/W7126426561","doi":"https://doi.org/10.18653/v1/2024.findings-eacl.141","title":"Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference","display_name":"Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference","publication_year":2024,"publication_date":"2024-01-01","ids":{"openalex":"https://openalex.org/W7126426561","doi":"https://doi.org/10.18653/v1/2024.findings-eacl.141"},"language":null,"primary_location":{"id":"doi:10.18653/v1/2024.findings-eacl.141","is_oa":true,"landing_page_url":"https://doi.org/10.18653/v1/2024.findings-eacl.141","pdf_url":"https://aclanthology.org/2024.findings-eacl.141.pdf","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Findings of the Association for Computational Linguistics: EACL 2024","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://aclanthology.org/2024.findings-eacl.141.pdf","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5124610738","display_name":"Parsa Kavehzadeh","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Parsa Kavehzadeh","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5075681233","display_name":"Mojtaba Valipour","orcid":"https://orcid.org/0000-0002-5877-2869"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Mojtaba Valipour","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124487004","display_name":"Marzieh Tahaei","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Marzieh Tahaei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5123841808","display_name":"Ali Ghodsi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ali Ghodsi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5023322246","display_name":"Boxing Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Boxing Chen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5028862918","display_name":"Mehdi Rezagholizadeh","orcid":"https://orcid.org/0000-0003-4014-6007"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Mehdi Rezagholizadeh","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":{"value":0.57286337,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"2129","last_page":"2145"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.24940000474452972,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.24940000474452972,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13702","display_name":"Machine Learning in Healthcare","score":0.13770000636577606,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12090","display_name":"Language and cultural evolution","score":0.04820000007748604,"subfield":{"id":"https://openalex.org/subfields/3316","display_name":"Cultural Studies"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.44519999623298645},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.27790001034736633},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.26350000500679016},{"id":"https://openalex.org/keywords/natural-language","display_name":"Natural language","score":0.25279998779296875}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6725999712944031},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4860999882221222},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.44519999623298645},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.3111000061035156},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.27790001034736633},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.26350000500679016},{"id":"https://openalex.org/C195324797","wikidata":"https://www.wikidata.org/wiki/Q33742","display_name":"Natural language","level":2,"score":0.25279998779296875},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2502000033855438},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.24199999868869781},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.23989999294281006}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.18653/v1/2024.findings-eacl.141","is_oa":true,"landing_page_url":"https://doi.org/10.18653/v1/2024.findings-eacl.141","pdf_url":"https://aclanthology.org/2024.findings-eacl.141.pdf","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Findings of the Association for Computational Linguistics: EACL 2024","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.18653/v1/2024.findings-eacl.141","is_oa":true,"landing_page_url":"https://doi.org/10.18653/v1/2024.findings-eacl.141","pdf_url":"https://aclanthology.org/2024.findings-eacl.141.pdf","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Findings of the Association for Computational Linguistics: EACL 2024","raw_type":"proceedings-article"},"sustainable_development_goals":[{"score":0.4235785901546478,"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education"}],"awards":[],"funders":[],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W7126426561.pdf","grobid_xml":"https://content.openalex.org/works/W7126426561.grobid-xml"},"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Large":[0],"language":[1,7,58],"models":[2,59,84,185],"(LLMs)":[3],"have":[4],"revolutionized":[5],"natural":[6],"processing":[8],"(NLP)":[9],"by":[10,34,65,133],"excelling":[11],"at":[12],"understanding":[13],"and":[14,40,64,119,149,167,176],"generating":[15,104],"human-like":[16],"text.However,":[17],"their":[18],"widespread":[19],"deployment":[20],"can":[21,94],"be":[22],"prohibitively":[23],"expensive.Sort-edNet":[24],"is":[25],"a":[26,47],"recent":[27],"training":[28],"technique":[29],"for":[30,82,85,146,151],"enabling":[31],"dynamic":[32,60],"inference":[33],"leveraging":[35],"the":[36,80,96,105,113,142,157,190],"modularity":[37],"in":[38,46,103,162,189],"networks":[39],"sorting":[41],"sub-models":[42,108,161],"based":[43],"on":[44,141],"computation/accuracy":[45],"nested":[48],"manner.We":[49],"extend":[50],"SortedNet":[51],"to":[52,136,164],"generative":[53],"NLP":[54],"tasks,":[55],"making":[56],"large":[57],"without":[61,177],"any":[62],"Pre-Training":[63],"only":[66],"replacing":[67],"Standard":[68,165],"Fine-Tuning":[69,73,166],"(SFT)":[70],"with":[71,172],"Sorted":[72],"(SoFT).Our":[74],"approach":[75,93],"boosts":[76],"model":[77],"efficiency,":[78],"eliminating":[79],"need":[81],"multiple":[83,184],"various":[86],"scenarios":[87],"during":[88,181],"inference.We":[89],"show":[90,156],"that":[91],"this":[92],"unlock":[95],"potential":[97],"of":[98,101,112,127,160],"intermediate":[99],"layers":[100],"transformers":[102],"target":[106],"output.Our":[107],"remain":[109],"integral":[110],"components":[111],"original":[114],"model,":[115],"minimizing":[116],"storage":[117],"requirements":[118],"transition":[120],"costs":[121],"between":[122],"different":[123],"computational/latency":[124],"budgets.The":[125],"efficacy":[126],"our":[128],"proposed":[129],"method":[130],"was":[131],"demonstrated":[132],"applying":[134],"it":[135],"tune":[137],"LLaMA":[138],"2":[139],"13B":[140],"Stanford":[143],"Alpaca":[144],"dataset":[145],"instruction":[147],"following":[148],"TriviaQA":[150],"closed-book":[152],"question":[153],"answering.Our":[154],"results":[155],"superior":[158],"performance":[159],"comparison":[163],"SFT+ICT":[168],"(Early-Exit),":[169],"all":[170],"achieved":[171],"very":[173],"efficient":[174],"tuning":[175],"additional":[178],"memory":[179],"usage":[180],"inference.1":[182],"github.com/WeOpenML/PandaLM/blob/main/data/testsetinference-v1.jsoning":[183],"simultaneously":[186],"as":[187],"explained":[188],"previous":[191],"section.":[192]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-02-02T00:00:00"}