{"id":"https://openalex.org/W4312973812","doi":"https://doi.org/10.1109/icccnt54827.2022.9984457","title":"Deep Reinforcement Learning Algorithms for Machine-to-Machine Communications: A Review","display_name":"Deep Reinforcement Learning Algorithms for Machine-to-Machine Communications: A Review","publication_year":2022,"publication_date":"2022-10-03","ids":{"openalex":"https://openalex.org/W4312973812","doi":"https://doi.org/10.1109/icccnt54827.2022.9984457"},"language":"en","primary_location":{"id":"doi:10.1109/icccnt54827.2022.9984457","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icccnt54827.2022.9984457","pdf_url":null,"source":{"id":"https://openalex.org/S4363607876","display_name":"2022 13th International Conference on Computing Communication and Networking Technologies (ICCCNT)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 13th International Conference on Computing Communication and Networking Technologies (ICCCNT)","raw_type":"proceedings-article"},"type":"review","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5080626085","display_name":"Devarani Devi Ningombam","orcid":"https://orcid.org/0000-0001-7111-816X"},"institutions":[{"id":"https://openalex.org/I5847235","display_name":"University of Petroleum and Energy Studies","ror":"https://ror.org/04q2jes40","country_code":"IN","type":"education","lineage":["https://openalex.org/I5847235"]}],"countries":["IN"],"is_corresponding":true,"raw_author_name":"Devarani Devi Ningombam","raw_affiliation_strings":["University of Petroleum and Energy Studies (UPES),School of Computer Science,Department of Informatics,Dehradun,Uttarakhand,India","Department of Informatics, School of Computer Science, University of Petroleum and Energy Studies (UPES), Dehradun, Uttarakhand, India"],"affiliations":[{"raw_affiliation_string":"University of Petroleum and Energy Studies (UPES),School of Computer Science,Department of Informatics,Dehradun,Uttarakhand,India","institution_ids":["https://openalex.org/I5847235"]},{"raw_affiliation_string":"Department of Informatics, School of Computer Science, University of Petroleum and Energy Studies (UPES), Dehradun, Uttarakhand, India","institution_ids":["https://openalex.org/I5847235"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5080626085"],"corresponding_institution_ids":["https://openalex.org/I5847235"],"apc_list":null,"apc_paid":null,"fwci":0.1039,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.33317173,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":"70","issue":null,"first_page":"1","last_page":"5"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9968000054359436,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9968000054359436,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10273","display_name":"IoT and Edge/Fog Computing","score":0.9965999722480774,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13553","display_name":"Age of Information Optimization","score":0.9886999726295471,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8590368032455444},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7959164381027222},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.699900209903717},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.668441653251648},{"id":"https://openalex.org/keywords/transfer-of-learning","display_name":"Transfer of learning","score":0.47879156470298767},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.477035254240036},{"id":"https://openalex.org/keywords/machine-to-machine","display_name":"Machine to machine","score":0.4340325593948364},{"id":"https://openalex.org/keywords/internet-of-things","display_name":"Internet of Things","score":0.11753493547439575},{"id":"https://openalex.org/keywords/embedded-system","display_name":"Embedded system","score":0.08232781291007996}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8590368032455444},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7959164381027222},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.699900209903717},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.668441653251648},{"id":"https://openalex.org/C150899416","wikidata":"https://www.wikidata.org/wiki/Q1820378","display_name":"Transfer of learning","level":2,"score":0.47879156470298767},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.477035254240036},{"id":"https://openalex.org/C76763059","wikidata":"https://www.wikidata.org/wiki/Q251072","display_name":"Machine to machine","level":3,"score":0.4340325593948364},{"id":"https://openalex.org/C81860439","wikidata":"https://www.wikidata.org/wiki/Q251212","display_name":"Internet of Things","level":2,"score":0.11753493547439575},{"id":"https://openalex.org/C149635348","wikidata":"https://www.wikidata.org/wiki/Q193040","display_name":"Embedded system","level":1,"score":0.08232781291007996}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icccnt54827.2022.9984457","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icccnt54827.2022.9984457","pdf_url":null,"source":{"id":"https://openalex.org/S4363607876","display_name":"2022 13th International Conference on Computing Communication and Networking Technologies (ICCCNT)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 13th International Conference on Computing Communication and Networking Technologies (ICCCNT)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.7799999713897705,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":20,"referenced_works":["https://openalex.org/W1191599655","https://openalex.org/W1583837637","https://openalex.org/W2481452269","https://openalex.org/W2617547828","https://openalex.org/W2736601468","https://openalex.org/W2888996021","https://openalex.org/W2946153830","https://openalex.org/W3023368031","https://openalex.org/W3046082509","https://openalex.org/W3198965389","https://openalex.org/W4291653308","https://openalex.org/W4301323220","https://openalex.org/W6627932998","https://openalex.org/W6729948976","https://openalex.org/W6734678876","https://openalex.org/W6758763022","https://openalex.org/W6758846586","https://openalex.org/W6762932404","https://openalex.org/W6767151588","https://openalex.org/W6768842719"],"related_works":["https://openalex.org/W2051487156","https://openalex.org/W2073681303","https://openalex.org/W4306904969","https://openalex.org/W2138720691","https://openalex.org/W4362501864","https://openalex.org/W4380318855","https://openalex.org/W2031695474","https://openalex.org/W2024136090","https://openalex.org/W4391331176","https://openalex.org/W2586732548"],"abstract_inverted_index":{"Automated":[0],"data":[1,41,69],"transfer":[2],"and":[3,30,42,52,77,115],"measurement":[4],"between":[5],"multiple":[6],"devices":[7],"are":[8,121],"accomplished":[9],"through":[10],"Machine-":[11],"to-machine":[12],"(M2M)":[13],"communications,":[14],"which":[15],"rely":[16],"on":[17,49],"zero":[18],"or":[19],"minimal":[20],"human":[21],"intervention.":[22],"M2M":[23,61],"communication":[24,67],"offers":[25],"a":[26,37],"plethora":[27],"of":[28,40,58,74],"benefits":[29],"opportunities,":[31],"including":[32],"the":[33,45,72],"ability":[34,46],"to":[35,47,81],"handle":[36,84],"wide":[38],"range":[39],"large":[43],"volumes,":[44],"learn":[48],"their":[50],"own,":[51],"better":[53],"decision":[54],"making.":[55],"In":[56],"spite":[57],"these":[59,85],"advantages,":[60],"faces":[62],"major":[63],"challenges":[64],"such":[65],"as":[66],"delay,":[68],"acquisition":[70],"mismatching,":[71],"requirement":[73],"additional":[75],"resources,":[76],"is":[78],"highly":[79],"susceptible":[80],"errors.":[82],"To":[83],"challenges,":[86],"in":[87],"this":[88],"work,":[89],"we":[90],"discuss":[91],"various":[92],"state-of-the-art":[93],"deep":[94],"reinforcement":[95],"learning":[96],"(DRL)":[97],"algorithms.":[98],"Deep":[99],"Q-learning":[100],"(DQN),":[101],"dueling":[102],"DQN,":[103,105],"multi-step":[104],"actor-critic":[106],"(AC),":[107],"advantage":[108],"AC,":[109],"REINFORCE,":[110],"trustregion":[111],"policy":[112,117],"optimization":[113,118],"(TRPO),":[114],"proximal":[116],"(PPO)":[119],"algorithms":[120],"investigated.":[122]},"counts_by_year":[{"year":2023,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}