{"id":"https://openalex.org/W4390189649","doi":"https://doi.org/10.1109/milcom58377.2023.10356356","title":"Learning Technique to Solve Periodic Markov Decision Process for Network Resource Allocation","display_name":"Learning Technique to Solve Periodic Markov Decision Process for Network Resource Allocation","publication_year":2023,"publication_date":"2023-10-30","ids":{"openalex":"https://openalex.org/W4390189649","doi":"https://doi.org/10.1109/milcom58377.2023.10356356"},"language":"en","primary_location":{"id":"doi:10.1109/milcom58377.2023.10356356","is_oa":false,"landing_page_url":"https://doi.org/10.1109/milcom58377.2023.10356356","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"MILCOM 2023 - 2023 IEEE Military Communications Conference (MILCOM)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101621051","display_name":"Zheyu Chen","orcid":"https://orcid.org/0009-0003-5779-3523"},"institutions":[{"id":"https://openalex.org/I47508984","display_name":"Imperial College London","ror":"https://ror.org/041kmwe10","country_code":"GB","type":"education","lineage":["https://openalex.org/I47508984"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Zheyu Chen","raw_affiliation_strings":["Imperial College London,UK","Imperial College London, UK"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Imperial College London,UK","institution_ids":["https://openalex.org/I47508984"]},{"raw_affiliation_string":"Imperial College London, UK","institution_ids":["https://openalex.org/I47508984"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5020917506","display_name":"Kin K. Leung","orcid":"https://orcid.org/0000-0002-3860-6257"},"institutions":[{"id":"https://openalex.org/I47508984","display_name":"Imperial College London","ror":"https://ror.org/041kmwe10","country_code":"GB","type":"education","lineage":["https://openalex.org/I47508984"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Kin K. Leung","raw_affiliation_strings":["Imperial College London,UK","Imperial College London, UK"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Imperial College London,UK","institution_ids":["https://openalex.org/I47508984"]},{"raw_affiliation_string":"Imperial College London, UK","institution_ids":["https://openalex.org/I47508984"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100443968","display_name":"Shiqiang Wang","orcid":"https://orcid.org/0000-0003-2090-5512"},"institutions":[{"id":"https://openalex.org/I4210114115","display_name":"IBM Research - Thomas J. Watson Research Center","ror":"https://ror.org/0265w5591","country_code":"US","type":"facility","lineage":["https://openalex.org/I1341412227","https://openalex.org/I4210114115"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Shiqiang Wang","raw_affiliation_strings":["IBM T.J. Watson Research Center,Yorktown Heights,NY,USA","IBM T.J. Watson Research Center, Yorktown Heights, NY, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IBM T.J. Watson Research Center,Yorktown Heights,NY,USA","institution_ids":["https://openalex.org/I4210114115"]},{"raw_affiliation_string":"IBM T.J. Watson Research Center, Yorktown Heights, NY, USA","institution_ids":["https://openalex.org/I4210114115"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5014892027","display_name":"Leandros Tassiulas","orcid":"https://orcid.org/0000-0003-0932-774X"},"institutions":[{"id":"https://openalex.org/I32971472","display_name":"Yale University","ror":"https://ror.org/03v76x132","country_code":"US","type":"education","lineage":["https://openalex.org/I32971472"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Leandros Tassiulas","raw_affiliation_strings":["Yale University,New Haven,CT,USA","Yale University, New Haven, CT, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Yale University,New Haven,CT,USA","institution_ids":["https://openalex.org/I32971472"]},{"raw_affiliation_string":"Yale University, New Haven, CT, USA","institution_ids":["https://openalex.org/I32971472"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5057402438","display_name":"Kevin Chan","orcid":"https://orcid.org/0000-0002-6425-5403"},"institutions":[{"id":"https://openalex.org/I166416128","display_name":"DEVCOM Army Research Laboratory","ror":"https://ror.org/011hc8f90","country_code":"US","type":"government","lineage":["https://openalex.org/I1304082316","https://openalex.org/I1330347796","https://openalex.org/I166416128","https://openalex.org/I2802705668","https://openalex.org/I4210154437"]},{"id":"https://openalex.org/I2802705668","display_name":"United States Army Combat Capabilities Development Command","ror":"https://ror.org/02rdkx920","country_code":"US","type":"other","lineage":["https://openalex.org/I1304082316","https://openalex.org/I1330347796","https://openalex.org/I2802705668","https://openalex.org/I4210154437"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Kevin Chan","raw_affiliation_strings":["DEVCOM Army Research Laboratory,Adelphi,MD,USA","DEVCOM Army Research Laboratory, Adelphi, MD, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"DEVCOM Army Research Laboratory,Adelphi,MD,USA","institution_ids":["https://openalex.org/I166416128","https://openalex.org/I2802705668"]},{"raw_affiliation_string":"DEVCOM Army Research Laboratory, Adelphi, MD, USA","institution_ids":["https://openalex.org/I166416128","https://openalex.org/I2802705668"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5085092796","display_name":"Patrick J. Baker","orcid":"https://orcid.org/0000-0002-6560-7124"},"institutions":[{"id":"https://openalex.org/I2800289278","display_name":"Royal Air Force College Cranwell","ror":"https://ror.org/01g0pjd14","country_code":"GB","type":"education","lineage":["https://openalex.org/I2800289278"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Patrick J. Baker","raw_affiliation_strings":["UK Royal Air Force and Dstl,UK","UK Royal Air Force and Dstl, UK"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"UK Royal Air Force and Dstl,UK","institution_ids":["https://openalex.org/I2800289278"]},{"raw_affiliation_string":"UK Royal Air Force and Dstl, UK","institution_ids":["https://openalex.org/I2800289278"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"464","last_page":"470"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.996399998664856,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.996399998664856,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10714","display_name":"Software-Defined Networks and 5G","score":0.9944999814033508,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13553","display_name":"Age of Information Optimization","score":0.988099992275238,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.8556207418441772},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8363101482391357},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7712482213973999},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.6490198373794556},{"id":"https://openalex.org/keywords/resource-allocation","display_name":"Resource allocation","score":0.6170381307601929},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.5617586374282837},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.5568757057189941},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5423892140388489},{"id":"https://openalex.org/keywords/stability","display_name":"Stability (learning theory)","score":0.4740704596042633},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4475725293159485},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.34007757902145386},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.1095086932182312}],"concepts":[{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.8556207418441772},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8363101482391357},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7712482213973999},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.6490198373794556},{"id":"https://openalex.org/C29202148","wikidata":"https://www.wikidata.org/wiki/Q287260","display_name":"Resource allocation","level":2,"score":0.6170381307601929},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.5617586374282837},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.5568757057189941},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5423892140388489},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.4740704596042633},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4475725293159485},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.34007757902145386},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.1095086932182312},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/milcom58377.2023.10356356","is_oa":false,"landing_page_url":"https://doi.org/10.1109/milcom58377.2023.10356356","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"MILCOM 2023 - 2023 IEEE Military Communications Conference (MILCOM)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":28,"referenced_works":["https://openalex.org/W1191599655","https://openalex.org/W1515851193","https://openalex.org/W1990667931","https://openalex.org/W1990862669","https://openalex.org/W1993476605","https://openalex.org/W2076330565","https://openalex.org/W2145339207","https://openalex.org/W2171092272","https://openalex.org/W2257979135","https://openalex.org/W2734941459","https://openalex.org/W2736601468","https://openalex.org/W2791730371","https://openalex.org/W2808663279","https://openalex.org/W2900204506","https://openalex.org/W2946126546","https://openalex.org/W2953169926","https://openalex.org/W2956490995","https://openalex.org/W2982539992","https://openalex.org/W3006079123","https://openalex.org/W3019817166","https://openalex.org/W3078093847","https://openalex.org/W3103263926","https://openalex.org/W3104294226","https://openalex.org/W6627932998","https://openalex.org/W6692846177","https://openalex.org/W6712528029","https://openalex.org/W6741002519","https://openalex.org/W6753359477"],"related_works":["https://openalex.org/W1985560493","https://openalex.org/W2386410636","https://openalex.org/W1626977535","https://openalex.org/W2341346307","https://openalex.org/W3168977894","https://openalex.org/W3096874164","https://openalex.org/W2357975469","https://openalex.org/W4400868993","https://openalex.org/W2937181779","https://openalex.org/W2145363145"],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1],"(RL)":[2],"has":[3],"been":[4],"widely":[5],"applied":[6,176],"to":[7,31,38,64,163,177,184,193],"communication":[8],"and":[9,35,45,95,119,135,157,166,207],"computer":[10],"systems.":[11],"The":[12,49,172],"mathematical":[13,88],"foundation":[14],"of":[15,73,115,128,168,182,209],"RL":[16,51,75,217],"is":[17,29,76,155,161,175,205],"Markov":[18,24,108],"Decision":[19,109],"Process":[20,110],"(MDP),":[21],"where":[22,112],"a":[23,70,146,151,158,189],"process":[25,118],"with":[26,150],"defined":[27],"states":[28],"used":[30],"model":[32,120],"the":[33,36,42,46,55,66,74,78,86,92,96,106,113,116,123,140,144,169,179,194,202,211,215],"system":[34,79],"actions":[37],"be":[39],"taken":[40],"affect":[41],"state":[43],"transitions":[44],"corresponding":[47],"rewards.":[48],"deep":[50,61],"(DRL)":[52],"can":[53],"produce":[54],"optimal":[56,141,180],"action":[57],"policy":[58,98,147],"represented":[59],"by":[60,219],"neural":[62],"networks":[63],"maximize":[65],"long-term":[67],"reward.":[68],"However,":[69],"key":[71],"limitation":[72],"that":[77,201],"under":[80],"consideration":[81],"often":[82],"does":[83],"not":[84],"satisfy":[85],"required":[87],"properties,":[89],"thus":[90],"making":[91],"MDP":[93],"inexact":[94],"derived":[97],"non-optimal.":[99],"To":[100,138],"overcome":[101],"this":[102],"shortcoming,":[103],"we":[104],"consider":[105],"periodic":[107,129,132],"(pMDP)":[111],"evolution":[114],"underlying":[117],"parameters":[121],"for":[122,143],"pMDP":[124],"demonstrate":[125],"some":[126],"forms":[127],"characteristics":[130],"(e.g.,":[131],"job":[133],"arrivals":[134],"available":[136],"resources).":[137],"obtain":[139],"policies":[142],"pMDP,":[145],"gradient":[148],"method":[149,160,174],"multi-policies":[152],"solution":[153],"framework":[154],"proposed,":[156],"deep-learning":[159,173],"developed":[162],"improve":[164],"effectiveness":[165],"stability":[167],"proposed":[170,203],"solution.":[171],"achieve":[178],"allocation":[181],"resources":[183],"arriving":[185],"computational":[186],"tasks":[187],"in":[188],"network":[190,196],"setting":[191],"similar":[192],"software-defined":[195],"(SDN).":[197],"Evaluation":[198],"results":[199],"reveal":[200],"technique":[204],"valid":[206],"capable":[208],"outperforming":[210],"baseline,":[212],"which":[213],"employ":[214],"state-of-art":[216],"algorithm":[218],"25%":[220],"on":[221],"average.":[222]},"counts_by_year":[{"year":2025,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}