{"id":"https://openalex.org/W7154586050","doi":"https://doi.org/10.48550/arxiv.2604.13175","title":"Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization","display_name":"Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization","publication_year":2026,"publication_date":"2026-04-14","ids":{"openalex":"https://openalex.org/W7154586050","doi":"https://doi.org/10.48550/arxiv.2604.13175"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.13175","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.13175","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.13175","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5064970996","display_name":"Aadyot Bhatnagar","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Bhatnagar, Aadyot","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133758895","display_name":"Peter M\u00f8rch Groth","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Groth, Peter M\u00f8rch","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5133739755","display_name":"Ali Madani","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Madani, Ali","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5064970996"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.3262999951839447,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.3262999951839447,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10848","display_name":"Advanced Multi-Objective Optimization Algorithms","score":0.30239999294281006,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.0272000003606081,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5716999769210815},{"id":"https://openalex.org/keywords/range","display_name":"Range (aeronautics)","score":0.4896000027656555},{"id":"https://openalex.org/keywords/optimization-problem","display_name":"Optimization problem","score":0.40639999508857727},{"id":"https://openalex.org/keywords/frame","display_name":"Frame (networking)","score":0.38769999146461487},{"id":"https://openalex.org/keywords/autoregressive-model","display_name":"Autoregressive model","score":0.3677999973297119},{"id":"https://openalex.org/keywords/preference","display_name":"Preference","score":0.3450999855995178},{"id":"https://openalex.org/keywords/pareto-principle","display_name":"Pareto principle","score":0.34139999747276306}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7027000188827515},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5716999769210815},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5698000192642212},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4975999891757965},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.4896000027656555},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.4374000132083893},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.40639999508857727},{"id":"https://openalex.org/C126042441","wikidata":"https://www.wikidata.org/wiki/Q1324888","display_name":"Frame (networking)","level":2,"score":0.38769999146461487},{"id":"https://openalex.org/C159877910","wikidata":"https://www.wikidata.org/wiki/Q2202883","display_name":"Autoregressive model","level":2,"score":0.3677999973297119},{"id":"https://openalex.org/C2781249084","wikidata":"https://www.wikidata.org/wiki/Q908656","display_name":"Preference","level":2,"score":0.3450999855995178},{"id":"https://openalex.org/C137635306","wikidata":"https://www.wikidata.org/wiki/Q182667","display_name":"Pareto principle","level":2,"score":0.34139999747276306},{"id":"https://openalex.org/C2780490138","wikidata":"https://www.wikidata.org/wiki/Q7079636","display_name":"Offline learning","level":3,"score":0.33230000734329224},{"id":"https://openalex.org/C2987595161","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Optimization algorithm","level":2,"score":0.31630000472068787},{"id":"https://openalex.org/C39890363","wikidata":"https://www.wikidata.org/wiki/Q36108","display_name":"Generative grammar","level":2,"score":0.3091000020503998},{"id":"https://openalex.org/C68781425","wikidata":"https://www.wikidata.org/wiki/Q2052203","display_name":"Multi-objective optimization","level":2,"score":0.30790001153945923},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.26510000228881836},{"id":"https://openalex.org/C41045048","wikidata":"https://www.wikidata.org/wiki/Q202843","display_name":"Linear programming","level":2,"score":0.26080000400543213},{"id":"https://openalex.org/C55660270","wikidata":"https://www.wikidata.org/wiki/Q5164377","display_name":"Constrained optimization","level":2,"score":0.259799987077713}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.13175","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.13175","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.13175","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.13175","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Large":[0],"language":[1,164],"models":[2,165,212],"can":[3,208],"be":[4,91],"aligned":[5],"with":[6],"human":[7],"preferences":[8],"through":[9],"offline":[10,122,190],"reinforcement":[11],"learning":[12],"(RL)":[13],"on":[14,55,144,152,166],"small":[15],"labeled":[16],"datasets.":[17],"While":[18],"single-objective":[19],"alignment":[20,205],"is":[21,200],"well-studied,":[22],"many":[23],"real-world":[24],"applications":[25],"demand":[26],"the":[27,69,78,102,131,140,179],"simultaneous":[28],"optimization":[29,88,129,216],"of":[30,68,76,104,116,155,170,184],"multiple":[31],"conflicting":[32],"rewards,":[33],"e.g.":[34],"optimizing":[35],"both":[36,189],"catalytic":[37],"activity":[38],"and":[39,46,192,217],"specificity":[40],"in":[41,134,182],"protein":[42,156,163,171,215],"engineering,":[43],"or":[44],"helpfulness":[45],"harmlessness":[47],"for":[48,213],"chatbots.":[49],"Prior":[50],"work":[51],"has":[52],"largely":[53],"relied":[54],"linear":[56,105],"reward":[57],"scalarization,":[58,96],"but":[59],"this":[60,73,109],"approach":[61],"provably":[62],"fails":[63],"to":[64,90,111,130,174,188],"recover":[65],"non-convex":[66],"regions":[67],"Pareto":[70],"front.":[71],"In":[72],"paper,":[74],"instead":[75],"scalarizing":[77],"rewards":[79,142],"directly,":[80],"we":[81],"frame":[82],"multi-objective":[83,132,204],"RL":[84,123],"itself":[85],"as":[86],"an":[87],"problem":[89],"scalarized":[92],"via":[93],"smooth":[94],"Tchebysheff":[95,114],"a":[97,120,135,153,201],"recent":[98],"technique":[99],"that":[100,125,198,207],"overcomes":[101],"shortcomings":[103],"scalarization.":[106],"We":[107,148,195],"use":[108],"formulation":[110],"derive":[112],"Smooth":[113],"Optimization":[115],"Multi-Objective":[117],"Preferences":[118],"(STOMP),":[119],"novel":[121],"algorithm":[124,206],"extends":[126],"direct":[127],"preference":[128],"setting":[133],"principled":[136],"way":[137],"by":[138,159],"standardizing":[139],"individual":[141],"based":[143],"their":[145],"observed":[146],"distributions.":[147],"empirically":[149],"validate":[150],"STOMP":[151,177,199],"range":[154],"engineering":[157],"tasks":[158],"aligning":[160],"three":[161,167],"autoregressive":[162],"laboratory":[168],"datasets":[169],"fitness.":[172],"Compared":[173],"state-of-the-art":[175],"baselines,":[176],"achieves":[178],"highest":[180],"hypervolumes":[181],"eight":[183],"nine":[185],"settings":[186],"according":[187],"off-policy":[191],"generative":[193],"evaluations.":[194],"thus":[196],"demonstrate":[197],"powerful,":[202],"robust":[203],"meaningfully":[209],"improve":[210],"post-trained":[211],"multi-attribute":[214],"beyond.":[218]},"counts_by_year":[],"updated_date":"2026-04-17T06:04:52.305304","created_date":"2026-04-17T00:00:00"}