{"id":"https://openalex.org/W4414791956","doi":"https://doi.org/10.1109/ijcnn64981.2025.11227565","title":"A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks","display_name":"A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks","publication_year":2025,"publication_date":"2025-06-30","ids":{"openalex":"https://openalex.org/W4414791956","doi":"https://doi.org/10.1109/ijcnn64981.2025.11227565"},"language":"en","primary_location":{"id":"doi:10.1109/ijcnn64981.2025.11227565","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11227565","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["arxiv","crossref","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2504.05150","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5072900947","display_name":"Leonardo Kanashiro Felizardo","orcid":"https://orcid.org/0000-0002-2871-860X"},"institutions":[{"id":"https://openalex.org/I107428990","display_name":"Instituto Tecnol\u00f3gico de Aeron\u00e1utica","ror":"https://ror.org/05vh67662","country_code":"BR","type":"education","lineage":["https://openalex.org/I107428990"]}],"countries":["BR"],"is_corresponding":false,"raw_author_name":"Leonardo Kanashiro Felizardo","raw_affiliation_strings":["Instituto Tecnol&#x00F3;gico de Aeron&#x00E1;utica,Division of Computer Science,S&#x00E3;o Paulo,Brazil"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Instituto Tecnol&#x00F3;gico de Aeron&#x00E1;utica,Division of Computer Science,S&#x00E3;o Paulo,Brazil","institution_ids":["https://openalex.org/I107428990"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5026981405","display_name":"Edoardo Fadda","orcid":"https://orcid.org/0000-0002-5599-6349"},"institutions":[{"id":"https://openalex.org/I177477856","display_name":"Politecnico di Torino","ror":"https://ror.org/00bgk9508","country_code":"IT","type":"education","lineage":["https://openalex.org/I177477856"]}],"countries":["IT"],"is_corresponding":false,"raw_author_name":"Edoardo Fadda","raw_affiliation_strings":["Politecnico di Torino,Department of Mathematical Sciences,Turin,Italy"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Politecnico di Torino,Department of Mathematical Sciences,Turin,Italy","institution_ids":["https://openalex.org/I177477856"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5067216728","display_name":"Paolo Brandimarte","orcid":"https://orcid.org/0000-0002-6533-3055"},"institutions":[{"id":"https://openalex.org/I177477856","display_name":"Politecnico di Torino","ror":"https://ror.org/00bgk9508","country_code":"IT","type":"education","lineage":["https://openalex.org/I177477856"]}],"countries":["IT"],"is_corresponding":false,"raw_author_name":"Paolo Brandimarte","raw_affiliation_strings":["Politecnico di Torino,Department of Mathematical Sciences,Turin,Italy"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Politecnico di Torino,Department of Mathematical Sciences,Turin,Italy","institution_ids":["https://openalex.org/I177477856"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5075798143","display_name":"Emilio Del-Moral-Hernandez","orcid":"https://orcid.org/0000-0003-4554-168X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Emilio Del-Moral-Hernandez","raw_affiliation_strings":["Universidade de S&#x00E3;o Paulo,Escola Polit&#x00E9;cnica,S&#x00E3;o Paulo,Brazil"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Universidade de S&#x00E3;o Paulo,Escola Polit&#x00E9;cnica,S&#x00E3;o Paulo,Brazil","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5076854781","display_name":"Mari\u00e1 C. V. Nascimento","orcid":"https://orcid.org/0000-0002-3094-6847"},"institutions":[{"id":"https://openalex.org/I107428990","display_name":"Instituto Tecnol\u00f3gico de Aeron\u00e1utica","ror":"https://ror.org/05vh67662","country_code":"BR","type":"education","lineage":["https://openalex.org/I107428990"]}],"countries":["BR"],"is_corresponding":false,"raw_author_name":"Mari\u00e1 Cristina Vasconcelos Nascimento","raw_affiliation_strings":["Instituto Tecnol&#x00F3;gico de Aeron&#x00E1;utica,Division of Computer Science,S&#x00E3;o Jos&#x00E9; dos Campos,Brazil"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Instituto Tecnol&#x00F3;gico de Aeron&#x00E1;utica,Division of Computer Science,S&#x00E3;o Jos&#x00E9; dos Campos,Brazil","institution_ids":["https://openalex.org/I107428990"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":{"value":0.13839623,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.2680000066757202,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.2680000066757202,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10603","display_name":"Smart Grid Energy Management","score":0.2345999926328659,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8970999717712402},{"id":"https://openalex.org/keywords/curse-of-dimensionality","display_name":"Curse of dimensionality","score":0.6660000085830688},{"id":"https://openalex.org/keywords/dual","display_name":"Dual (grammatical number)","score":0.6567999720573425},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.6082000136375427},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.5789999961853027},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5052000284194946},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.5019999742507935},{"id":"https://openalex.org/keywords/dynamic-programming","display_name":"Dynamic programming","score":0.49470001459121704},{"id":"https://openalex.org/keywords/component","display_name":"Component (thermodynamics)","score":0.47920000553131104}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8970999717712402},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6675000190734863},{"id":"https://openalex.org/C111030470","wikidata":"https://www.wikidata.org/wiki/Q1430460","display_name":"Curse of dimensionality","level":2,"score":0.6660000085830688},{"id":"https://openalex.org/C2780980858","wikidata":"https://www.wikidata.org/wiki/Q110022","display_name":"Dual (grammatical number)","level":2,"score":0.6567999720573425},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.6219000220298767},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.6082000136375427},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.5789999961853027},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5052000284194946},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.5019999742507935},{"id":"https://openalex.org/C37404715","wikidata":"https://www.wikidata.org/wiki/Q380679","display_name":"Dynamic programming","level":2,"score":0.49470001459121704},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.47920000553131104},{"id":"https://openalex.org/C137631369","wikidata":"https://www.wikidata.org/wiki/Q7617831","display_name":"Stochastic programming","level":2,"score":0.47850000858306885},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.4771000146865845},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4675000011920929},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4668999910354614},{"id":"https://openalex.org/C194387892","wikidata":"https://www.wikidata.org/wiki/Q1747770","display_name":"Stochastic optimization","level":2,"score":0.4514999985694885},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.40619999170303345},{"id":"https://openalex.org/C56086750","wikidata":"https://www.wikidata.org/wiki/Q6042592","display_name":"Integer programming","level":2,"score":0.3666999936103821},{"id":"https://openalex.org/C2778334786","wikidata":"https://www.wikidata.org/wiki/Q1586270","display_name":"Variation (astronomy)","level":2,"score":0.36039999127388},{"id":"https://openalex.org/C8272713","wikidata":"https://www.wikidata.org/wiki/Q176737","display_name":"Stochastic process","level":2,"score":0.3578999936580658},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.3578999936580658},{"id":"https://openalex.org/C55479107","wikidata":"https://www.wikidata.org/wiki/Q97663916","display_name":"Stochastic approximation","level":3,"score":0.35409998893737793},{"id":"https://openalex.org/C97137487","wikidata":"https://www.wikidata.org/wiki/Q729138","display_name":"Integer (computer science)","level":2,"score":0.33079999685287476},{"id":"https://openalex.org/C91873725","wikidata":"https://www.wikidata.org/wiki/Q3445816","display_name":"Function approximation","level":3,"score":0.3246999979019165},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3068000078201294},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.289900004863739},{"id":"https://openalex.org/C41045048","wikidata":"https://www.wikidata.org/wiki/Q202843","display_name":"Linear programming","level":2,"score":0.287200003862381},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.2676999866962433},{"id":"https://openalex.org/C127491075","wikidata":"https://www.wikidata.org/wiki/Q7617825","display_name":"Stochastic modelling","level":2,"score":0.26660001277923584}],"mesh":[],"locations_count":3,"locations":[{"id":"doi:10.1109/ijcnn64981.2025.11227565","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11227565","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:2504.05150","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2504.05150","pdf_url":"https://arxiv.org/pdf/2504.05150","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},{"id":"doi:10.48550/arxiv.2504.05150","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2504.05150","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"Preprint"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2504.05150","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2504.05150","pdf_url":"https://arxiv.org/pdf/2504.05150","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G2486662831","display_name":null,"funder_award_id":"2013/07375-","funder_id":"https://openalex.org/F4320320997","funder_display_name":"Funda\u00e7\u00e3o de Amparo \u00e0 Pesquisa do Estado de S\u00e3o Paulo"},{"id":"https://openalex.org/G321761023","display_name":null,"funder_award_id":"/2021-1","funder_id":"https://openalex.org/F4320322025","funder_display_name":"Conselho Nacional de Desenvolvimento Cient\u00edfico e Tecnol\u00f3gico"},{"id":"https://openalex.org/G5990746028","display_name":null,"funder_award_id":"2013/07375-0","funder_id":"https://openalex.org/F4320320997","funder_display_name":"Funda\u00e7\u00e3o de Amparo \u00e0 Pesquisa do Estado de S\u00e3o Paulo"},{"id":"https://openalex.org/G6132555478","display_name":null,"funder_award_id":"2022/05803-3","funder_id":"https://openalex.org/F4320320997","funder_display_name":"Funda\u00e7\u00e3o de Amparo \u00e0 Pesquisa do Estado de S\u00e3o Paulo"},{"id":"https://openalex.org/G6669552033","display_name":null,"funder_award_id":"2013/07375-0","funder_id":"https://openalex.org/F4320322025","funder_display_name":"Conselho Nacional de Desenvolvimento Cient\u00edfico e Tecnol\u00f3gico"},{"id":"https://openalex.org/G707717154","display_name":null,"funder_award_id":"403735/2021-1","funder_id":"https://openalex.org/F4320322025","funder_display_name":"Conselho Nacional de Desenvolvimento Cient\u00edfico e Tecnol\u00f3gico"}],"funders":[{"id":"https://openalex.org/F4320320997","display_name":"Funda\u00e7\u00e3o de Amparo \u00e0 Pesquisa do Estado de S\u00e3o Paulo","ror":"https://ror.org/02ddkpn78"},{"id":"https://openalex.org/F4320322025","display_name":"Conselho Nacional de Desenvolvimento Cient\u00edfico e Tecnol\u00f3gico","ror":"https://ror.org/03swz6y49"}],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4414791956.pdf","grobid_xml":"https://content.openalex.org/works/W4414791956.grobid-xml"},"referenced_works_count":14,"referenced_works":["https://openalex.org/W4231438743","https://openalex.org/W4390619998","https://openalex.org/W3203618099","https://openalex.org/W2754517384","https://openalex.org/W4309903719","https://openalex.org/W2212797065","https://openalex.org/W4213251304","https://openalex.org/W3177232011","https://openalex.org/W2736601468","https://openalex.org/W2072567237","https://openalex.org/W4226187506","https://openalex.org/W4324118974","https://openalex.org/W4319341493","https://openalex.org/W3098094428"],"related_works":[],"abstract_inverted_index":{"This":[0,102],"paper":[1,103],"presents":[2],"Post-Decision":[3],"Proximal":[4,18],"Policy":[5,19],"Optimization":[6,20],"(PDPPO),":[7],"a":[8,32,41,72,117,155,169],"novel":[9],"variation":[10],"of":[11,66,85,107,127,167],"the":[12,37,46,59,64,105,124,159,165,177],"leading":[13,44],"deep":[14],"reinforcement":[15],"learning":[16,143,187],"method,":[17],"(PPO).":[21],"The":[22,83],"PDPPO":[23,108,115,149],"state":[24,39,160,175],"transition":[25],"process":[26],"is":[27,71,87],"divided":[28],"into":[29],"two":[30],"steps:":[31],"deterministic":[33],"step":[34,43],"resulting":[35],"in":[36,96,130,152,158,176,188],"post-decision":[38,52,170,174],"and":[40,54,62,93,99,112,137,140,185,190],"stochastic":[42,156,191],"to":[45,57,88,182],"next":[47],"state.":[48,171],"Our":[49],"approach":[50],"incorporates":[51],"states":[53],"dual":[55,118],"critics":[56],"reduce":[58],"problem's":[60],"dimensionality":[61],"enhance":[63],"accuracy":[65],"value":[67,178],"function":[68,179],"estimation.":[69],"Lot-sizing":[70],"mixed":[73],"integer":[74],"programming":[75],"problem":[76],"for":[77],"which":[78],"we":[79],"exemplify":[80],"such":[81],"dynamics.":[82],"objective":[84],"lot-sizing":[86],"optimize":[89],"production,":[90],"delivery":[91],"fulfillment,":[92],"inventory":[94],"levels":[95],"uncertain":[97],"demand":[98],"cost":[100],"parameters.":[101],"evaluates":[104],"performance":[106],"across":[109,144],"various":[110],"environments":[111,153],"configurations.":[113],"Notably,":[114],"with":[116,154],"critic":[119],"architecture":[120],"achieves":[121],"nearly":[122],"double":[123],"maximum":[125],"reward":[126],"vanilla":[128],"PPO":[129,151],"specific":[131],"scenarios,":[132],"requiring":[133],"fewer":[134],"episode":[135],"iterations":[136],"demonstrating":[138],"faster":[139],"more":[141,183],"consistent":[142],"different":[145],"initializations.":[146],"On":[147],"average,":[148],"outperforms":[150],"component":[157],"transition.":[161],"These":[162],"results":[163],"support":[164],"benefits":[166],"using":[168],"Integrating":[172],"this":[173],"approximation":[180],"leads":[181],"informed":[184],"efficient":[186],"high-dimensional":[189],"environments.":[192]},"counts_by_year":[],"updated_date":"2026-07-04T07:58:01.006859","created_date":"2025-10-04T00:00:00"}