{"id":"https://openalex.org/W7160979315","doi":"https://doi.org/10.48550/arxiv.2605.11289","title":"Quotient-Categorical Representations for Bellman-Compatible Average-Reward Distributional Reinforcement Learning","display_name":"Quotient-Categorical Representations for Bellman-Compatible Average-Reward Distributional Reinforcement Learning","publication_year":2026,"publication_date":"2026-05-11","ids":{"openalex":"https://openalex.org/W7160979315","doi":"https://doi.org/10.48550/arxiv.2605.11289"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.11289","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.11289","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.11289","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5135854463","display_name":"Ege C. Kaya","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kaya, Ege C.","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136063249","display_name":"Aliasghar Pourghani","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Pourghani, Aliasghar","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136062788","display_name":"Vijay Gupta","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gupta, Vijay","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5136045812","display_name":"Abolfazl Hashemi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hashemi, Abolfazl","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8102999925613403,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8102999925613403,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.03460000082850456,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.019899999722838402,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/recursion","display_name":"Recursion (computer science)","score":0.7615000009536743},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6610000133514404},{"id":"https://openalex.org/keywords/categorical-variable","display_name":"Categorical variable","score":0.6298999786376953},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.4964999854564667},{"id":"https://openalex.org/keywords/operator","display_name":"Operator (biology)","score":0.4542999863624573},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.4117000102996826},{"id":"https://openalex.org/keywords/ideal","display_name":"Ideal (ethics)","score":0.38429999351501465},{"id":"https://openalex.org/keywords/asynchronous-communication","display_name":"Asynchronous communication","score":0.36820000410079956},{"id":"https://openalex.org/keywords/contrast","display_name":"Contrast (vision)","score":0.36010000109672546}],"concepts":[{"id":"https://openalex.org/C168773036","wikidata":"https://www.wikidata.org/wiki/Q264164","display_name":"Recursion (computer science)","level":2,"score":0.7615000009536743},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6610000133514404},{"id":"https://openalex.org/C5274069","wikidata":"https://www.wikidata.org/wiki/Q2285707","display_name":"Categorical variable","level":2,"score":0.6298999786376953},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.5569000244140625},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.4964999854564667},{"id":"https://openalex.org/C17020691","wikidata":"https://www.wikidata.org/wiki/Q139677","display_name":"Operator (biology)","level":5,"score":0.4542999863624573},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.4117000102996826},{"id":"https://openalex.org/C2776639384","wikidata":"https://www.wikidata.org/wiki/Q840396","display_name":"Ideal (ethics)","level":2,"score":0.38429999351501465},{"id":"https://openalex.org/C151319957","wikidata":"https://www.wikidata.org/wiki/Q752739","display_name":"Asynchronous communication","level":2,"score":0.36820000410079956},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.36629998683929443},{"id":"https://openalex.org/C2776502983","wikidata":"https://www.wikidata.org/wiki/Q690182","display_name":"Contrast (vision)","level":2,"score":0.36010000109672546},{"id":"https://openalex.org/C155512373","wikidata":"https://www.wikidata.org/wiki/Q287450","display_name":"Residual","level":2,"score":0.3456000089645386},{"id":"https://openalex.org/C774472","wikidata":"https://www.wikidata.org/wiki/Q6760393","display_name":"Margin (machine learning)","level":2,"score":0.32829999923706055},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.30880001187324524},{"id":"https://openalex.org/C199422724","wikidata":"https://www.wikidata.org/wiki/Q41118","display_name":"Quotient","level":2,"score":0.30169999599456787},{"id":"https://openalex.org/C95763700","wikidata":"https://www.wikidata.org/wiki/Q578985","display_name":"Convergence of random variables","level":3,"score":0.2994999885559082},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.28519999980926514},{"id":"https://openalex.org/C126042441","wikidata":"https://www.wikidata.org/wiki/Q1324888","display_name":"Frame (networking)","level":2,"score":0.28119999170303345},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.2752000093460083},{"id":"https://openalex.org/C527412718","wikidata":"https://www.wikidata.org/wiki/Q855395","display_name":"Interpretation (philosophy)","level":2,"score":0.2745000123977661},{"id":"https://openalex.org/C151201525","wikidata":"https://www.wikidata.org/wiki/Q177239","display_name":"Limit (mathematics)","level":2,"score":0.2728999853134155},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.257999986410141},{"id":"https://openalex.org/C8272713","wikidata":"https://www.wikidata.org/wiki/Q176737","display_name":"Stochastic process","level":2,"score":0.2535000145435333},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.25220000743865967},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.2515000104904175}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.11289","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.11289","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.11289","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.11289","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Reduced inequalities","score":0.505334734916687,"id":"https://metadata.un.org/sdg/10"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Average-reward":[0],"reinforcement":[1],"learning":[2],"requires":[3],"estimating":[4],"the":[5,8,26,121,127,141,155],"gain":[6,122,132],"and":[7,66,78,117,134,137,166],"bias,":[9],"which":[10,35],"is":[11,70,123],"defined":[12],"only":[13],"up":[14,41],"to":[15,42],"an":[16,97,130],"additive":[17],"constant.":[18],"This":[19],"makes":[20],"direct":[21],"distributional":[22,64],"analogues":[23],"ill-posed":[24],"on":[25],"real":[27],"line.":[28],"We":[29,82],"introduce":[30],"a":[31,43,48,61,74,101,159],"quotient-space":[32],"formulation":[33],"in":[34,73],"state-indexed":[36],"bias":[37],"laws":[38],"are":[39,90,152],"identified":[40],"common":[44],"translation,":[45],"together":[46,109],"with":[47,110,129],"categorical":[49,169],"parameterization":[50],"that":[51,68,148],"respects":[52],"this":[53,56,94],"symmetry.":[54],"On":[55],"quotient-categorical":[57],"space,":[58],"we":[59,125,146],"define":[60],"projected":[62],"average-reward":[63],"operator":[65],"show":[67,147],"it":[69],"well-defined,":[71],"non-expansive":[72],"coordinate":[75],"Cram\u00e9r":[76],"metric,":[77],"admits":[79],"fixed":[80],"points.":[81],"then":[83],"study":[84],"sampled":[85],"recursions":[86],"whose":[87],"mean-field":[88],"maps":[89],"asynchronous":[91],"relaxations":[92],"of":[93,140],"operator.":[95],"In":[96],"idealized":[98],"centered-reward":[99],"setting,":[100],"one-state":[102],"temporal-difference":[103],"update":[104],"enjoys":[105],"almost":[106],"sure":[107],"convergence":[108,139],"finite-iteration":[111],"residual":[112],"bounds":[113],"under":[114],"both":[115],"i.i.d.":[116],"Markovian":[118,138],"sampling.":[119],"When":[120],"unknown,":[124],"augment":[126],"recursion":[128],"online":[131],"estimator,":[133],"prove":[135],"non-expansiveness":[136],"resulting":[142],"coupled":[143],"scheme.":[144],"Finally,":[145],"synchronous":[149],"exact":[150],"updates":[151],"gain-independent":[153],"at":[154],"quotient-law":[156],"level,":[157],"isolating":[158],"structural":[160],"contrast":[161],"between":[162],"ideal":[163],"quotient":[164],"distributions":[165],"practical":[167],"fixed-grid":[168],"representations.":[170]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-14T00:00:00"}