{"id":"https://openalex.org/W7133234046","doi":"https://doi.org/10.48550/arxiv.2602.24182","title":"Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers","display_name":"Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers","publication_year":2026,"publication_date":"2026-02-27","ids":{"openalex":"https://openalex.org/W7133234046","doi":"https://doi.org/10.48550/arxiv.2602.24182"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.24182","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5109880668","display_name":"Sikata Bela Sengupta","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Sengupta, Sikata","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127800542","display_name":"Guangyi Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Guangyi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127790810","display_name":"Omer Gottesman","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gottesman, Omer","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5085289306","display_name":"Joseph W. Durham","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Durham, Joseph W","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127803248","display_name":"Michael Kearns","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kearns, Michael","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5069912538","display_name":"Aaron M. Roth","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Roth, Aaron","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5090886679","display_name":"Michael Caldara","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Caldara, Michael","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5109880668"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10328","display_name":"Supply Chain and Inventory Management","score":0.3386000096797943,"subfield":{"id":"https://openalex.org/subfields/1404","display_name":"Management Information Systems"},"field":{"id":"https://openalex.org/fields/14","display_name":"Business, Management and Accounting"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T10328","display_name":"Supply Chain and Inventory Management","score":0.3386000096797943,"subfield":{"id":"https://openalex.org/subfields/1404","display_name":"Management Information Systems"},"field":{"id":"https://openalex.org/fields/14","display_name":"Business, Management and Accounting"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.19300000369548798,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10551","display_name":"Scheduling and Optimization Algorithms","score":0.08139999955892563,"subfield":{"id":"https://openalex.org/subfields/2209","display_name":"Industrial and Manufacturing Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8019999861717224},{"id":"https://openalex.org/keywords/minimax","display_name":"Minimax","score":0.6215999722480774},{"id":"https://openalex.org/keywords/state-space","display_name":"State space","score":0.5135999917984009},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.49810001254081726},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.48809999227523804},{"id":"https://openalex.org/keywords/workstation","display_name":"Workstation","score":0.4675999879837036},{"id":"https://openalex.org/keywords/range","display_name":"Range (aeronautics)","score":0.41119998693466187},{"id":"https://openalex.org/keywords/space","display_name":"Space (punctuation)","score":0.3986000120639801},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.3822999894618988}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8019999861717224},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6651999950408936},{"id":"https://openalex.org/C149728462","wikidata":"https://www.wikidata.org/wiki/Q751319","display_name":"Minimax","level":2,"score":0.6215999722480774},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.5135999917984009},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.49810001254081726},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.49380001425743103},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.48809999227523804},{"id":"https://openalex.org/C67953723","wikidata":"https://www.wikidata.org/wiki/Q192525","display_name":"Workstation","level":2,"score":0.4675999879837036},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.41119998693466187},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.3986000120639801},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.3822999894618988},{"id":"https://openalex.org/C2776014549","wikidata":"https://www.wikidata.org/wiki/Q3050847","display_name":"Consolidation (business)","level":2,"score":0.3776000142097473},{"id":"https://openalex.org/C42475967","wikidata":"https://www.wikidata.org/wiki/Q194292","display_name":"Operations research","level":1,"score":0.37470000982284546},{"id":"https://openalex.org/C2781018962","wikidata":"https://www.wikidata.org/wiki/Q5164884","display_name":"Container (type theory)","level":2,"score":0.37450000643730164},{"id":"https://openalex.org/C29202148","wikidata":"https://www.wikidata.org/wiki/Q287260","display_name":"Resource allocation","level":2,"score":0.3716999888420105},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.3499000072479248},{"id":"https://openalex.org/C91765299","wikidata":"https://www.wikidata.org/wiki/Q3424292","display_name":"Lagrangian relaxation","level":2,"score":0.3379000127315521},{"id":"https://openalex.org/C206345919","wikidata":"https://www.wikidata.org/wiki/Q20380951","display_name":"Resource (disambiguation)","level":2,"score":0.3312999904155731},{"id":"https://openalex.org/C13736549","wikidata":"https://www.wikidata.org/wiki/Q4489420","display_name":"Industrial engineering","level":1,"score":0.29580000042915344},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.29019999504089355},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.2881999909877777},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.28519999980926514},{"id":"https://openalex.org/C206729178","wikidata":"https://www.wikidata.org/wiki/Q2271896","display_name":"Scheduling (production processes)","level":2,"score":0.2793000042438507},{"id":"https://openalex.org/C2780609101","wikidata":"https://www.wikidata.org/wiki/Q17156588","display_name":"Resource management (computing)","level":2,"score":0.27869999408721924},{"id":"https://openalex.org/C73684929","wikidata":"https://www.wikidata.org/wiki/Q598870","display_name":"Lagrange multiplier","level":2,"score":0.2612999975681305},{"id":"https://openalex.org/C77405623","wikidata":"https://www.wikidata.org/wiki/Q598451","display_name":"System dynamics","level":2,"score":0.25279998779296875}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.24182","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.24182","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.24182","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.24182","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Optimizing":[0],"the":[1,146,169,173,178],"consolidation":[2],"process":[3,32],"in":[4,84,94,182,188],"container-based":[5],"fulfillment":[6],"centers":[7],"requires":[8],"trading":[9],"off":[10,114],"competing":[11],"objectives":[12],"such":[13],"as":[14,61],"processing":[15],"speed,":[16],"resource":[17],"usage,":[18],"and":[19,43,53,73,91,116],"space":[20,49],"utilization":[21],"while":[22],"adhering":[23],"to":[24,46,144,168],"a":[25,39,62,123,141,160],"range":[26],"of":[27,41,148,172,180],"real-world":[28],"operational":[29],"constraints.":[30],"This":[31,157],"involves":[33],"moving":[34],"items":[35],"between":[36],"containers":[37],"via":[38,89],"combination":[40],"human":[42],"robotic":[44],"workstations":[45],"free":[47],"up":[48],"for":[50],"inbound":[51],"inventory":[52],"increase":[54],"container":[55],"utilization.":[56],"We":[57,138],"formulate":[58],"this":[59,133],"problem":[60,147],"large-scale":[63,189],"Multi-Objective":[64],"Reinforcement":[65],"Learning":[66],"(MORL)":[67],"task":[68],"with":[69],"high-dimensional":[70],"state":[71],"spaces":[72],"dynamic":[74],"system":[75],"behavior.":[76,156],"Our":[77],"method":[78,158],"builds":[79],"on":[80,104],"recent":[81],"theoretical":[82,142],"advances":[83],"solving":[85,183],"constrained":[86],"RL":[87],"problems":[88,187],"best-response":[90],"no-regret":[92],"dynamics":[93],"zero-sum":[95],"games,":[96],"enabling":[97],"principled":[98],"minimax":[99,170],"policy":[100,125],"learning.":[101],"Policy":[102],"evaluation":[103],"realistic":[105],"warehouse":[106],"simulations":[107],"shows":[108],"that":[109,120,126],"our":[110],"approach":[111],"effectively":[112],"trades":[113],"objectives,":[115],"we":[117],"empirically":[118],"observe":[119],"it":[121],"learns":[122],"single":[124,161],"simultaneously":[127],"satisfies":[128],"all":[129],"constraints,":[130],"even":[131],"if":[132],"is":[134,166],"not":[135],"theoretically":[136],"guaranteed.":[137],"further":[139],"introduce":[140],"framework":[143],"handle":[145],"error":[149],"cancellation,":[150],"where":[151],"time-averaged":[152],"solutions":[153],"display":[154],"oscillatory":[155],"returns":[159],"iterate":[162],"whose":[163],"Lagrangian":[164],"value":[165,171],"close":[167],"game.":[174],"These":[175],"results":[176],"demonstrate":[177],"promise":[179],"MORL":[181],"complex,":[184],"high-impact":[185],"decision-making":[186],"industrial":[190],"systems.":[191]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-03-03T00:00:00"}