{"id":"https://openalex.org/W4415428898","doi":"https://doi.org/10.3233/faia250867","title":"DRLServe: Adaptive Prefill Chunking with Deep Reinforcement Learning for LLM Inference","display_name":"DRLServe: Adaptive Prefill Chunking with Deep Reinforcement Learning for LLM Inference","publication_year":2025,"publication_date":"2025-10-21","ids":{"openalex":"https://openalex.org/W4415428898","doi":"https://doi.org/10.3233/faia250867"},"language":null,"primary_location":{"id":"doi:10.3233/faia250867","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia250867","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"type":"book-chapter","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://doi.org/10.3233/faia250867","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5071994479","display_name":"Chongxiang Sun","orcid":"https://orcid.org/0009-0006-1651-1229"},"institutions":[{"id":"https://openalex.org/I170215575","display_name":"National University of Defense Technology","ror":"https://ror.org/05d2yfz11","country_code":"CN","type":"education","lineage":["https://openalex.org/I170215575"]},{"id":"https://openalex.org/I188522409","display_name":"Critical Software (Portugal)","ror":"https://ror.org/03er2hr05","country_code":"PT","type":"company","lineage":["https://openalex.org/I188522409"]}],"countries":["CN","PT"],"is_corresponding":true,"raw_author_name":"Chongxiang Sun","raw_affiliation_strings":["College of Computer Science and Technology, National University of Defense Technology, Changsha 410073, China","National Key Laboratory of Parallel and Distributed Computing (National University of Defense Technology), Changsha 410073, China","State Key Laboratory of Complex & Critical Software Environment"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"College of Computer Science and Technology, National University of Defense Technology, Changsha 410073, China","institution_ids":["https://openalex.org/I170215575"]},{"raw_affiliation_string":"National Key Laboratory of Parallel and Distributed Computing (National University of Defense Technology), Changsha 410073, China","institution_ids":["https://openalex.org/I170215575"]},{"raw_affiliation_string":"State Key Laboratory of Complex & Critical Software Environment","institution_ids":["https://openalex.org/I188522409"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103021832","display_name":"Han Bao","orcid":"https://orcid.org/0009-0007-8122-2025"},"institutions":[{"id":"https://openalex.org/I170215575","display_name":"National University of Defense Technology","ror":"https://ror.org/05d2yfz11","country_code":"CN","type":"education","lineage":["https://openalex.org/I170215575"]},{"id":"https://openalex.org/I188522409","display_name":"Critical Software (Portugal)","ror":"https://ror.org/03er2hr05","country_code":"PT","type":"company","lineage":["https://openalex.org/I188522409"]}],"countries":["CN","PT"],"is_corresponding":false,"raw_author_name":"Han Bao","raw_affiliation_strings":["College of Computer Science and Technology, National University of Defense Technology, Changsha 410073, China","National Key Laboratory of Parallel and Distributed Computing (National University of Defense Technology), Changsha 410073, China","State Key Laboratory of Complex & Critical Software Environment"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"College of Computer Science and Technology, National University of Defense Technology, Changsha 410073, China","institution_ids":["https://openalex.org/I170215575"]},{"raw_affiliation_string":"National Key Laboratory of Parallel and Distributed Computing (National University of Defense Technology), Changsha 410073, China","institution_ids":["https://openalex.org/I170215575"]},{"raw_affiliation_string":"State Key Laboratory of Complex & Critical Software Environment","institution_ids":["https://openalex.org/I188522409"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100429826","display_name":"Yijie Wang","orcid":"https://orcid.org/0000-0002-2913-4016"},"institutions":[{"id":"https://openalex.org/I170215575","display_name":"National University of Defense Technology","ror":"https://ror.org/05d2yfz11","country_code":"CN","type":"education","lineage":["https://openalex.org/I170215575"]},{"id":"https://openalex.org/I188522409","display_name":"Critical Software (Portugal)","ror":"https://ror.org/03er2hr05","country_code":"PT","type":"company","lineage":["https://openalex.org/I188522409"]}],"countries":["CN","PT"],"is_corresponding":false,"raw_author_name":"Yijie Wang","raw_affiliation_strings":["College of Computer Science and Technology, National University of Defense Technology, Changsha 410073, China","National Key Laboratory of Parallel and Distributed Computing (National University of Defense Technology), Changsha 410073, China","State Key Laboratory of Complex & Critical Software Environment"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"College of Computer Science and Technology, National University of Defense Technology, Changsha 410073, China","institution_ids":["https://openalex.org/I170215575"]},{"raw_affiliation_string":"National Key Laboratory of Parallel and Distributed Computing (National University of Defense Technology), Changsha 410073, China","institution_ids":["https://openalex.org/I170215575"]},{"raw_affiliation_string":"State Key Laboratory of Complex & Critical Software Environment","institution_ids":["https://openalex.org/I188522409"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5071994479"],"corresponding_institution_ids":["https://openalex.org/I170215575","https://openalex.org/I188522409"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.4783938,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.9761000275611877,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.9761000275611877,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.7634999752044678},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7095999717712402},{"id":"https://openalex.org/keywords/security-token","display_name":"Security token","score":0.6050999760627747},{"id":"https://openalex.org/keywords/chunking","display_name":"Chunking (psychology)","score":0.5461000204086304},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.5450000166893005},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5133000016212463},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.4876999855041504},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.45329999923706055}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8830999732017517},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.7634999752044678},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7095999717712402},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6082000136375427},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.6050999760627747},{"id":"https://openalex.org/C203357204","wikidata":"https://www.wikidata.org/wiki/Q1089605","display_name":"Chunking (psychology)","level":2,"score":0.5461000204086304},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.5450000166893005},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5421000123023987},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5133000016212463},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.4876999855041504},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.45329999923706055},{"id":"https://openalex.org/C22367795","wikidata":"https://www.wikidata.org/wiki/Q7625208","display_name":"Structured prediction","level":2,"score":0.4472000002861023},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.3953000009059906},{"id":"https://openalex.org/C206345919","wikidata":"https://www.wikidata.org/wiki/Q20380951","display_name":"Resource (disambiguation)","level":2,"score":0.352400004863739},{"id":"https://openalex.org/C2778915421","wikidata":"https://www.wikidata.org/wiki/Q3643177","display_name":"Performance improvement","level":2,"score":0.31690001487731934},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.28200000524520874},{"id":"https://openalex.org/C68339613","wikidata":"https://www.wikidata.org/wiki/Q1549489","display_name":"Speedup","level":2,"score":0.26759999990463257},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.26159998774528503},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.25769999623298645},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.2533000111579895},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.2500999867916107}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.3233/faia250867","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia250867","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"}],"best_oa_location":{"id":"doi:10.3233/faia250867","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia250867","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0],"traditional":[1],"LLM":[2,99,106,233],"inference,":[3],"the":[4,11,18,92,98,114,145,183,211,228,247,270,278],"prefill":[5,19,43,56,93,129,162,223,257],"phase":[6],"necessitates":[7],"exclusive":[8,15],"access":[9],"to":[10,27,30,70,78,89,176,245,252,268],"GPU,":[12],"forcing":[13],"mutually":[14],"execution":[16,54],"between":[17],"and":[20,34,57,111,113,152,170,190,202,208,265],"decode":[21],"phases.":[22],"This":[23],"makes":[24],"it":[25,76,86,102,175],"challenging":[26],"balance":[28],"Time":[29,35],"First":[31],"Token":[32],"(TTFT)":[33],"Between":[36],"Tokens":[37],"(TBT).":[38],"Existing":[39],"chunked-prefills":[40,64],"techniques":[41,65],"decompose":[42],"tasks":[44],"into":[45],"non-exclusive":[46],"GPU":[47],"chunks":[48],"for":[49,221],"batch":[50],"execution,":[51],"enabling":[52],"parallel":[53],"of":[55,256,262],"decode,":[58],"improving":[59],"TTFT-TBT":[60,80,140,271],"trade-offs.":[61,272],"However,":[62,101],"current":[63],"rely":[66],"on":[67,133,149],"artificial":[68],"experience":[69],"set":[71],"static":[72],"chunk":[73,94,146,171,178,193,212,224,248,258],"sizes,":[74],"making":[75],"difficult":[77,104],"optimize":[79],"trade-offs":[81,141],"under":[82,260],"complex":[83],"workloads.":[84],"Consequently,":[85],"is":[87,103,117],"necessary":[88],"dynamically":[90,143,209],"adjust":[91,210],"size":[95,147,172,179,194,259],"without":[96,181],"interrupting":[97,182],"inference.":[100,185],"because":[105],"inference":[107,130,164,169,203,234,263,280],"scenarios":[108],"are":[109],"real-time":[110,150,160,207,222],"concurrent,":[112],"state":[115],"information":[116],"high-dimensional.":[118],"To":[119],"address":[120],"this,":[121],"we":[122,157,215,231],"propose":[123,158],"DRLServe":[124,282],"-":[125],"an":[126],"adaptive":[127,161,254],"chunked":[128],"technology":[131],"based":[132,148],"deep":[134],"reinforcement":[135,218,243],"learning,":[136],"which":[137,167,197],"significantly":[138],"enhances":[139],"by":[142,286,290,294],"adjusting":[144],"load":[151],"system":[153],"resource":[154,189,200],"utilisation.":[155],"Specifically,":[156],"a":[159,188,217,236],"chunking":[163],"framework":[165],"(RAPC),":[166],"decouples":[168],"adjustment,":[173],"allowing":[174],"complete":[177],"adjustment":[180],"existing":[184],"RAPC":[186],"implements":[187],"task-aware":[191],"dual-driven":[192],"decision":[195],"mechanism,":[196],"can":[198,283],"obtain":[199],"status":[201],"task":[204],"characteristics":[205],"in":[206],"size.":[213],"Then,":[214],"present":[216],"learning":[219,244],"algorithm":[220],"partitioning":[225,249],"(TAPPO).":[226],"For":[227],"first":[229],"time,":[230],"modelled":[232],"as":[235],"Markov":[237],"Decision":[238],"Process":[239],"(MDP).":[240],"We":[241],"used":[242],"learn":[246],"strategy,":[250],"aiming":[251],"achieve":[253],"decision-making":[255],"constraints":[261],"latency":[264],"training":[266],"stability,":[267],"optimise":[269],"Experiments":[273],"show":[274],"that":[275],"compared":[276],"with":[277],"latest":[279],"technology,":[281],"shorten":[284],"TTFT":[285],"50.9%,":[287],"TBT":[288,292],"mean":[289],"64.6%,":[291],"variance":[293],"99.0%.":[295]},"counts_by_year":[],"updated_date":"2026-05-21T06:26:12.895304","created_date":"2025-10-24T00:00:00"}