{"id":"https://openalex.org/W4388563503","doi":"https://doi.org/10.1109/icstcc59206.2023.10308431","title":"Reproducibility in Deep Reinforcement Learning with Maximum Entropy","display_name":"Reproducibility in Deep Reinforcement Learning with Maximum Entropy","publication_year":2023,"publication_date":"2023-10-11","ids":{"openalex":"https://openalex.org/W4388563503","doi":"https://doi.org/10.1109/icstcc59206.2023.10308431"},"language":"en","primary_location":{"id":"doi:10.1109/icstcc59206.2023.10308431","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icstcc59206.2023.10308431","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 27th International Conference on System Theory, Control and Computing (ICSTCC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5093236710","display_name":"Tudor-Andrei Paleu","orcid":"https://orcid.org/0009-0009-1955-9588"},"institutions":[{"id":"https://openalex.org/I4210108695","display_name":"Gheorghe Asachi Technical University of Ia\u0219i","ror":"https://ror.org/014zxnz40","country_code":"RO","type":"education","lineage":["https://openalex.org/I4210108695"]}],"countries":["RO"],"is_corresponding":true,"raw_author_name":"Tudor-Andrei Paleu","raw_affiliation_strings":["&#x201C;Gheorghe Asachi&#x201D; Technical University of Iasi,Department of Automatic Control and Applied Informatics,Iasi,Romania"],"affiliations":[{"raw_affiliation_string":"&#x201C;Gheorghe Asachi&#x201D; Technical University of Iasi,Department of Automatic Control and Applied Informatics,Iasi,Romania","institution_ids":["https://openalex.org/I4210108695"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5021649946","display_name":"Carlos Pascal","orcid":"https://orcid.org/0000-0002-2685-0105"},"institutions":[{"id":"https://openalex.org/I4210108695","display_name":"Gheorghe Asachi Technical University of Ia\u0219i","ror":"https://ror.org/014zxnz40","country_code":"RO","type":"education","lineage":["https://openalex.org/I4210108695"]}],"countries":["RO"],"is_corresponding":false,"raw_author_name":"Carlos Pascal","raw_affiliation_strings":["&#x201C;Gheorghe Asachi&#x201D; Technical University of Iasi,Department of Automatic Control and Applied Informatics,Iasi,Romania"],"affiliations":[{"raw_affiliation_string":"&#x201C;Gheorghe Asachi&#x201D; Technical University of Iasi,Department of Automatic Control and Applied Informatics,Iasi,Romania","institution_ids":["https://openalex.org/I4210108695"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5093236710"],"corresponding_institution_ids":["https://openalex.org/I4210108695"],"apc_list":null,"apc_paid":null,"fwci":0.6993,"has_fulltext":false,"cited_by_count":4,"citation_normalized_percentile":{"value":0.76343276,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":94,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"428","last_page":"433"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.9907000064849854,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11701","display_name":"Space Satellite Systems and Control","score":0.9606000185012817,"subfield":{"id":"https://openalex.org/subfields/2202","display_name":"Aerospace Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.9106375575065613},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.7450300455093384},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6441693305969238},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6194667816162109},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.5954782962799072},{"id":"https://openalex.org/keywords/principle-of-maximum-entropy","display_name":"Principle of maximum entropy","score":0.5606623888015747},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4971912205219269},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.49480122327804565},{"id":"https://openalex.org/keywords/entropy","display_name":"Entropy (arrow of time)","score":0.48731693625450134},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.4279310405254364},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.4144768714904785},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.3773600459098816},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.21561899781227112}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.9106375575065613},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.7450300455093384},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6441693305969238},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6194667816162109},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.5954782962799072},{"id":"https://openalex.org/C9679016","wikidata":"https://www.wikidata.org/wiki/Q1417473","display_name":"Principle of maximum entropy","level":2,"score":0.5606623888015747},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4971912205219269},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.49480122327804565},{"id":"https://openalex.org/C106301342","wikidata":"https://www.wikidata.org/wiki/Q4117933","display_name":"Entropy (arrow of time)","level":2,"score":0.48731693625450134},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.4279310405254364},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.4144768714904785},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3773600459098816},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.21561899781227112},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icstcc59206.2023.10308431","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icstcc59206.2023.10308431","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 27th International Conference on System Theory, Control and Computing (ICSTCC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.5699999928474426,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":26,"referenced_works":["https://openalex.org/W1522301498","https://openalex.org/W2122410182","https://openalex.org/W2145339207","https://openalex.org/W2271840356","https://openalex.org/W2754517384","https://openalex.org/W2788862220","https://openalex.org/W2904246096","https://openalex.org/W2963864421","https://openalex.org/W2964114602","https://openalex.org/W2964227158","https://openalex.org/W3092037789","https://openalex.org/W3100789280","https://openalex.org/W4224220194","https://openalex.org/W4287273849","https://openalex.org/W4288347236","https://openalex.org/W6631190155","https://openalex.org/W6678087030","https://openalex.org/W6679958247","https://openalex.org/W6684921986","https://openalex.org/W6694517276","https://openalex.org/W6696324988","https://openalex.org/W6734517396","https://openalex.org/W6747473740","https://openalex.org/W6768425981","https://openalex.org/W6780559895","https://openalex.org/W6791623595"],"related_works":["https://openalex.org/W2152670157","https://openalex.org/W4308702637","https://openalex.org/W2386410636","https://openalex.org/W176737593","https://openalex.org/W2808418668","https://openalex.org/W2903299703","https://openalex.org/W2016648086","https://openalex.org/W2156021013","https://openalex.org/W2042946219","https://openalex.org/W1574958246"],"abstract_inverted_index":{"The":[0],"latest":[1],"work":[2],"in":[3],"the":[4,13,19,30,41,53,59,74,78,91,98,105,110,143],"field":[5],"of":[6,22,52,77,113,134],"deep":[7,60,107,151],"reinforcement":[8,25,152],"learning":[9,26],"speaks":[10],"highly":[11],"about":[12],"advanced":[14],"exploration":[15,82,123,157],"techniques":[16],"which":[17],"avoid":[18],"greedy":[20,75],"decisions":[21],"agents.":[23],"Usually,":[24],"works":[27],"by":[28,85,131],"finding":[29],"optimal":[31,49],"policy":[32],"for":[33,47,128,150],"a":[34,44,66],"Markov":[35],"Decision":[36],"Process.":[37],"In":[38],"off-policy":[39],"algorithms":[40],"agent":[42],"learns":[43],"value":[45],"function":[46],"this":[48],"policy,":[50],"separate":[51],"action":[54],"choice,":[55],"an":[56,87],"example":[57],"being":[58],"Q-learning":[61],"algorithm.":[62],"Algorithms":[63],"based":[64],"on":[65],"maximum":[67],"entropy":[68,88],"framework,":[69],"like":[70],"soft":[71],"Q-learning,":[72,108],"overcome":[73],"behavior":[76],"agent,":[79],"effectively":[80],"combining":[81],"and":[83,117,147,158],"exploitation":[84],"adding":[86],"term":[89],"to":[90,97,104,126,145,156],"Bellman":[92],"equation.":[93],"This":[94,140],"method,":[95],"applied":[96],"Lunar":[99],"Lander":[100],"environment,":[101],"was":[102],"compared":[103],"classic":[106],"using":[109],"same":[111],"set":[112],"different":[114],"random":[115,138],"seeds":[116],"averaging":[118],"multiple":[119],"runs.":[120],"An":[121],"implicit":[122],"strategy":[124],"proves":[125],"compensate":[127],"disturbances":[129],"caused":[130],"intrinsic":[132,146],"sources":[133],"non-determinism,":[135],"such":[136],"as":[137],"seeds.":[139],"paper":[141],"highlights":[142],"sensitivity":[144],"extrinsic":[148],"influences":[149],"learning,":[153],"with":[154],"respect":[155],"repeatability.":[159]},"counts_by_year":[{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":2}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}