{"id":"https://openalex.org/W7140139342","doi":"https://doi.org/10.48550/arxiv.2603.19621","title":"DeepStock: Reinforcement Learning with Policy Regularizations for Inventory Management","display_name":"DeepStock: Reinforcement Learning with Policy Regularizations for Inventory Management","publication_year":2026,"publication_date":"2026-03-20","ids":{"openalex":"https://openalex.org/W7140139342","doi":"https://doi.org/10.48550/arxiv.2603.19621"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.19621","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.19621","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Preprint"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.19621","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5130337681","display_name":"Yaqi Xie","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xie, Yaqi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5031875515","display_name":"Xinru Hao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hao, Xinru","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130358639","display_name":"Jiaxi Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Jiaxi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5095777527","display_name":"Will Ma","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ma, Will","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130349758","display_name":"Linwei Xin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xin, Linwei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130397995","display_name":"Lei Cao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cao, Lei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5130330875","display_name":"Yidong Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Yidong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11918","display_name":"Forecasting Techniques and Applications","score":0.16220000386238098,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T11918","display_name":"Forecasting Techniques and Applications","score":0.16220000386238098,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11326","display_name":"Stock Market Forecasting Methods","score":0.16189999878406525,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10328","display_name":"Supply Chain and Inventory Management","score":0.1062999963760376,"subfield":{"id":"https://openalex.org/subfields/1404","display_name":"Management Information Systems"},"field":{"id":"https://openalex.org/fields/14","display_name":"Business, Management and Accounting"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7975999712944031},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.679099977016449},{"id":"https://openalex.org/keywords/hyperparameter","display_name":"Hyperparameter","score":0.656499981880188},{"id":"https://openalex.org/keywords/software-deployment","display_name":"Software deployment","score":0.5127000212669373},{"id":"https://openalex.org/keywords/inventory-control","display_name":"Inventory control","score":0.43059998750686646},{"id":"https://openalex.org/keywords/inventory-management","display_name":"Inventory management","score":0.41670000553131104}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7975999712944031},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.679099977016449},{"id":"https://openalex.org/C8642999","wikidata":"https://www.wikidata.org/wiki/Q4171168","display_name":"Hyperparameter","level":2,"score":0.656499981880188},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6028000116348267},{"id":"https://openalex.org/C105339364","wikidata":"https://www.wikidata.org/wiki/Q2297740","display_name":"Software deployment","level":2,"score":0.5127000212669373},{"id":"https://openalex.org/C42475967","wikidata":"https://www.wikidata.org/wiki/Q194292","display_name":"Operations research","level":1,"score":0.4632999897003174},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4586000144481659},{"id":"https://openalex.org/C117938511","wikidata":"https://www.wikidata.org/wiki/Q3634830","display_name":"Inventory control","level":2,"score":0.43059998750686646},{"id":"https://openalex.org/C3018434026","wikidata":"https://www.wikidata.org/wiki/Q3761396","display_name":"Inventory management","level":2,"score":0.41670000553131104},{"id":"https://openalex.org/C26713055","wikidata":"https://www.wikidata.org/wiki/Q245962","display_name":"Implementation","level":2,"score":0.3950999975204468},{"id":"https://openalex.org/C199033989","wikidata":"https://www.wikidata.org/wiki/Q1318295","display_name":"Narrative","level":2,"score":0.34709998965263367},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3411000072956085},{"id":"https://openalex.org/C539667460","wikidata":"https://www.wikidata.org/wiki/Q2414942","display_name":"Management science","level":1,"score":0.3246999979019165},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.3176000118255615},{"id":"https://openalex.org/C21200559","wikidata":"https://www.wikidata.org/wiki/Q7451068","display_name":"Sensitivity (control systems)","level":2,"score":0.2973000109195709},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.28940001130104065},{"id":"https://openalex.org/C24373527","wikidata":"https://www.wikidata.org/wiki/Q252073","display_name":"Inventory theory","level":3,"score":0.25850000977516174}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.19621","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.19621","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"Preprint"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.19621","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.19621","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Preprint"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/17","score":0.4618259370326996,"display_name":"Partnerships for the goals"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Deep":[0],"Reinforcement":[1],"Learning":[2],"(DRL)":[3],"provides":[4],"a":[5,77],"general-purpose":[6],"methodology":[7],"for":[8,111],"training":[9],"inventory":[10,52,112],"policies":[11],"that":[12,44,98],"can":[13,59],"leverage":[14],"big":[15],"data":[16],"and":[17,64],"compute.":[18],"However,":[19],"off-the-shelf":[20],"implementations":[21],"of":[22,69,80],"DRL":[23,71,81,109],"have":[24],"seen":[25],"mixed":[26],"success,":[27],"often":[28],"plagued":[29],"by":[30,45],"high":[31],"sensitivity":[32],"to":[33],"the":[34,66,102,107],"hyperparameters":[35],"used":[36],"during":[37],"training.":[38],"In":[39],"this":[40],"paper,":[41],"we":[42,58],"show":[43,97],"imposing":[46],"policy":[47,83,99],"regularizations,":[48],"grounded":[49],"in":[50],"classical":[51],"concepts":[53],"such":[54],"as":[55],"\"Base":[56],"Stock\",":[57],"significantly":[60],"accelerate":[61],"hyperparameter":[62],"tuning":[63],"improve":[65],"final":[67],"performance":[68],"several":[70],"methods.":[72],"We":[73,90],"report":[74],"details":[75],"from":[76],"100%":[78],"deployment":[79],"with":[82],"regularizations":[84,100],"on":[85,104],"Alibaba's":[86],"e-commerce":[87],"platform,":[88],"Tmall.":[89],"also":[91],"include":[92],"extensive":[93],"synthetic":[94],"experiments,":[95],"which":[96],"reshape":[101],"narrative":[103],"what":[105],"is":[106],"best":[108],"method":[110],"management.":[113]},"counts_by_year":[],"updated_date":"2026-07-01T06:00:48.157686","created_date":"2026-03-24T00:00:00"}