{"id":"https://openalex.org/W4391021929","doi":"https://doi.org/10.1109/cdc49753.2023.10383642","title":"Reinforcement Learning for Zero-Delay Coding Over a Noisy Channel with Feedback","display_name":"Reinforcement Learning for Zero-Delay Coding Over a Noisy Channel with Feedback","publication_year":2023,"publication_date":"2023-12-13","ids":{"openalex":"https://openalex.org/W4391021929","doi":"https://doi.org/10.1109/cdc49753.2023.10383642"},"language":"en","primary_location":{"id":"doi:10.1109/cdc49753.2023.10383642","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc49753.2023.10383642","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 62nd IEEE Conference on Decision and Control (CDC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5093047920","display_name":"Liam Cregg","orcid":null},"institutions":[{"id":"https://openalex.org/I204722609","display_name":"Queen's University","ror":"https://ror.org/02y72wh86","country_code":"CA","type":"education","lineage":["https://openalex.org/I204722609"]}],"countries":["CA"],"is_corresponding":true,"raw_author_name":"Liam Cregg","raw_affiliation_strings":["Queen&#x0027;s University,Department of Mathematics and Statistics,Kingston,ON,Canada"],"affiliations":[{"raw_affiliation_string":"Queen&#x0027;s University,Department of Mathematics and Statistics,Kingston,ON,Canada","institution_ids":["https://openalex.org/I204722609"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5065742137","display_name":"Fady Alajaji","orcid":"https://orcid.org/0000-0002-7980-724X"},"institutions":[{"id":"https://openalex.org/I204722609","display_name":"Queen's University","ror":"https://ror.org/02y72wh86","country_code":"CA","type":"education","lineage":["https://openalex.org/I204722609"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Fady Alajaji","raw_affiliation_strings":["Queen&#x0027;s University,Department of Mathematics and Statistics,Kingston,ON,Canada"],"affiliations":[{"raw_affiliation_string":"Queen&#x0027;s University,Department of Mathematics and Statistics,Kingston,ON,Canada","institution_ids":["https://openalex.org/I204722609"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5005401257","display_name":"Serdar Y\u00fcksel","orcid":"https://orcid.org/0000-0001-6099-5001"},"institutions":[{"id":"https://openalex.org/I204722609","display_name":"Queen's University","ror":"https://ror.org/02y72wh86","country_code":"CA","type":"education","lineage":["https://openalex.org/I204722609"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Serdar Y\u00fcksel","raw_affiliation_strings":["Queen&#x0027;s University,Department of Mathematics and Statistics,Kingston,ON,Canada"],"affiliations":[{"raw_affiliation_string":"Queen&#x0027;s University,Department of Mathematics and Statistics,Kingston,ON,Canada","institution_ids":["https://openalex.org/I204722609"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5093047920"],"corresponding_institution_ids":["https://openalex.org/I204722609"],"apc_list":null,"apc_paid":null,"fwci":0.9372,"has_fulltext":false,"cited_by_count":7,"citation_normalized_percentile":{"value":0.75528075,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":91,"max":98},"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10964","display_name":"Wireless Communication Security Techniques","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10964","display_name":"Wireless Communication Security Techniques","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13553","display_name":"Age of Information Optimization","score":0.9970999956130981,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10796","display_name":"Cooperative Communication and Network Coding","score":0.996399998664856,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6758531928062439},{"id":"https://openalex.org/keywords/lossy-compression","display_name":"Lossy compression","score":0.6667966842651367},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6041788458824158},{"id":"https://openalex.org/keywords/coding","display_name":"Coding (social sciences)","score":0.541920006275177},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.531019389629364},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.5203137397766113},{"id":"https://openalex.org/keywords/source-code","display_name":"Source code","score":0.48603659868240356},{"id":"https://openalex.org/keywords/theoretical-computer-science","display_name":"Theoretical computer science","score":0.46065613627433777},{"id":"https://openalex.org/keywords/decoding-methods","display_name":"Decoding methods","score":0.4578503668308258},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.4272933304309845},{"id":"https://openalex.org/keywords/block-code","display_name":"Block code","score":0.4243912696838379},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.4234508275985718},{"id":"https://openalex.org/keywords/channel","display_name":"Channel (broadcasting)","score":0.41686365008354187},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.3030571937561035},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.21851253509521484},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.12797510623931885},{"id":"https://openalex.org/keywords/telecommunications","display_name":"Telecommunications","score":0.09851285815238953}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6758531928062439},{"id":"https://openalex.org/C165021410","wikidata":"https://www.wikidata.org/wiki/Q55564","display_name":"Lossy compression","level":2,"score":0.6667966842651367},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6041788458824158},{"id":"https://openalex.org/C179518139","wikidata":"https://www.wikidata.org/wiki/Q5140297","display_name":"Coding (social sciences)","level":2,"score":0.541920006275177},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.531019389629364},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.5203137397766113},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.48603659868240356},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.46065613627433777},{"id":"https://openalex.org/C57273362","wikidata":"https://www.wikidata.org/wiki/Q576722","display_name":"Decoding methods","level":2,"score":0.4578503668308258},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.4272933304309845},{"id":"https://openalex.org/C157125643","wikidata":"https://www.wikidata.org/wiki/Q884707","display_name":"Block code","level":3,"score":0.4243912696838379},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.4234508275985718},{"id":"https://openalex.org/C127162648","wikidata":"https://www.wikidata.org/wiki/Q16858953","display_name":"Channel (broadcasting)","level":2,"score":0.41686365008354187},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.3030571937561035},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.21851253509521484},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.12797510623931885},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.09851285815238953},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cdc49753.2023.10383642","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc49753.2023.10383642","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 62nd IEEE Conference on Decision and Control (CDC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":32,"referenced_works":["https://openalex.org/W32403112","https://openalex.org/W1002071148","https://openalex.org/W1795009452","https://openalex.org/W1978595443","https://openalex.org/W1990949042","https://openalex.org/W2010654234","https://openalex.org/W2016190290","https://openalex.org/W2024886389","https://openalex.org/W2041920869","https://openalex.org/W2070178449","https://openalex.org/W2080096734","https://openalex.org/W2113846837","https://openalex.org/W2116343044","https://openalex.org/W2121782860","https://openalex.org/W2134383396","https://openalex.org/W2137466457","https://openalex.org/W2150593711","https://openalex.org/W2161996730","https://openalex.org/W2168228312","https://openalex.org/W2549182383","https://openalex.org/W2963922350","https://openalex.org/W2978725006","https://openalex.org/W3098746916","https://openalex.org/W3102156549","https://openalex.org/W3105388688","https://openalex.org/W3136541527","https://openalex.org/W3136561982","https://openalex.org/W4253349640","https://openalex.org/W4286858244","https://openalex.org/W4385900824","https://openalex.org/W4401693038","https://openalex.org/W6803940314"],"related_works":["https://openalex.org/W1995805316","https://openalex.org/W2387503788","https://openalex.org/W2059658550","https://openalex.org/W50067980","https://openalex.org/W2803920876","https://openalex.org/W2999957348","https://openalex.org/W2964219139","https://openalex.org/W187740018","https://openalex.org/W2162286586","https://openalex.org/W4255368532"],"abstract_inverted_index":{"In":[0],"Shannon's":[1,64],"classical":[2,99],"information-theoretic":[3],"lossy":[4,65],"coding":[5,66],"problem,":[6,67,145],"one":[7,69],"is":[8,27,40,102],"allowed":[9],"to":[10,21,71,116,135,199],"encode":[11],"long":[12],"sequences":[13],"of":[14,32,63,164,185,194],"source":[15,75,168],"symbols":[16],"at":[17,77,94],"once":[18],"in":[19,29,42,60],"order":[20],"achieve":[22],"a":[23,37,61,78,85,148,165,170,195,200],"lower":[24],"distortion,":[25],"which":[26],"optimal":[28],"the":[30,91,95,98,162,186],"limit":[31],"unbounded":[33],"block":[34],"lengths.":[35],"Such":[36],"block-coding":[38,100],"approach":[39,101,151],"undesirable":[41],"many":[43],"delay-sensitive":[44],"applications,":[45],"such":[46],"as":[47],"networked":[48],"control,":[49],"sensor":[50],"networks":[51],"and":[52,119,132,182],"live-streaming,":[53],"among":[54],"others.":[55],"Accordingly,":[56],"we":[57,146,190,207],"are":[58,139],"interested":[59],"variant":[62],"where":[68],"wishes":[70],"send":[72],"an":[73],"information":[74],"causally":[76],"fixed":[79],"rate":[80],"with":[81,87],"no":[82],"delay":[83],"over":[84,169],"channel":[86],"feedback,":[88],"while":[89],"minimizing":[90],"average":[92],"distortion":[93],"receiver.":[96],"Thus,":[97],"not":[103,127],"viable.":[104],"This":[105],"problem":[106],"has":[107],"previously":[108],"been":[109],"studied":[110],"using":[111],"stochastic":[112],"control":[113],"techniques,":[114],"leading":[115],"existence,":[117],"structural,":[118],"general":[120],"approximation":[121],"results.":[122],"However,":[123],"these":[124],"techniques":[125],"do":[126],"provide":[128],"actual":[129],"code":[130],"designs,":[131],"they":[133],"lead":[134],"algorithmic":[136],"implementations":[137],"that":[138],"computationally":[140],"difficult.":[141],"To":[142],"address":[143],"this":[144,204],"propose":[147],"reinforcement":[149],"learning":[150],"by":[152],"building":[153],"on":[154,157,180],"recent":[155],"results":[156,179],"quantized":[158,196],"Q-learning.":[159],"We":[160],"consider":[161],"case":[163],"finite-alphabet":[166],"Markov":[167,188],"discrete":[171],"memoryless":[172],"channel.":[173],"After":[174],"developing":[175],"some":[176],"supporting":[177],"technical":[178],"regularity":[181],"stability":[183],"properties":[184],"associated":[187],"process,":[189],"rigorously":[191],"justify":[192],"convergence":[193],"Q-learning":[197],"algorithm":[198],"near-optimal":[201],"policy":[202],"for":[203],"problem.":[205],"Finally,":[206],"illustrate":[208],"our":[209],"theoretical":[210],"findings":[211],"via":[212],"simulations.":[213]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":6}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}