{"id":"https://openalex.org/W7155194279","doi":"https://doi.org/10.48550/arxiv.2604.19033","title":"Intentional Updates for Streaming Reinforcement Learning","display_name":"Intentional Updates for Streaming Reinforcement Learning","publication_year":2026,"publication_date":"2026-04-21","ids":{"openalex":"https://openalex.org/W7155194279","doi":"https://doi.org/10.48550/arxiv.2604.19033"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.19033","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.19033","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"public-domain","license_id":"https://openalex.org/licenses/public-domain","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.19033","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5076011813","display_name":"Arsalan Sharifnassab","orcid":"https://orcid.org/0000-0002-3910-2878"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sharifnassab, Arsalan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134311322","display_name":"Mohamed Elsayed","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Elsayed, Mohamed","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134334579","display_name":"Kris De Asis","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"De Asis, Kris","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134226029","display_name":"A. Rupam Mahmood","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Mahmood, A. Rupam","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5134310765","display_name":"Richard S. Sutton","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sutton, Richard S.","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12761","display_name":"Data Stream Mining Techniques","score":0.23010000586509705,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12761","display_name":"Data Stream Mining Techniques","score":0.23010000586509705,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.18160000443458557,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.16220000386238098,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7278000116348267},{"id":"https://openalex.org/keywords/bounded-function","display_name":"Bounded function","score":0.6150000095367432},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5315999984741211},{"id":"https://openalex.org/keywords/diagonal","display_name":"Diagonal","score":0.47540000081062317},{"id":"https://openalex.org/keywords/stability","display_name":"Stability (learning theory)","score":0.43700000643730164},{"id":"https://openalex.org/keywords/outcome","display_name":"Outcome (game theory)","score":0.42989999055862427},{"id":"https://openalex.org/keywords/reduction","display_name":"Reduction (mathematics)","score":0.4153999984264374},{"id":"https://openalex.org/keywords/limiting","display_name":"Limiting","score":0.38760000467300415}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7278000116348267},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6348999738693237},{"id":"https://openalex.org/C34388435","wikidata":"https://www.wikidata.org/wiki/Q2267362","display_name":"Bounded function","level":2,"score":0.6150000095367432},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5315999984741211},{"id":"https://openalex.org/C130367717","wikidata":"https://www.wikidata.org/wiki/Q189791","display_name":"Diagonal","level":2,"score":0.47540000081062317},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.43700000643730164},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.42989999055862427},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.4153999984264374},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4146000146865845},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.38760000467300415},{"id":"https://openalex.org/C83546350","wikidata":"https://www.wikidata.org/wiki/Q1139051","display_name":"Regression","level":2,"score":0.36309999227523804},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3400000035762787},{"id":"https://openalex.org/C196921405","wikidata":"https://www.wikidata.org/wiki/Q786431","display_name":"Online algorithm","level":2,"score":0.3386000096797943},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.32910001277923584},{"id":"https://openalex.org/C75684735","wikidata":"https://www.wikidata.org/wiki/Q858810","display_name":"Big data","level":2,"score":0.326200008392334},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3212999999523163},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.31949999928474426},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.30790001153945923},{"id":"https://openalex.org/C48921125","wikidata":"https://www.wikidata.org/wiki/Q10861030","display_name":"Linear regression","level":2,"score":0.29750001430511475},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.28209999203681946},{"id":"https://openalex.org/C2986087404","wikidata":"https://www.wikidata.org/wiki/Q15946010","display_name":"Online learning","level":2,"score":0.2818000018596649},{"id":"https://openalex.org/C152877465","wikidata":"https://www.wikidata.org/wiki/Q208042","display_name":"Regression analysis","level":2,"score":0.2809000015258789},{"id":"https://openalex.org/C91873725","wikidata":"https://www.wikidata.org/wiki/Q3445816","display_name":"Function approximation","level":3,"score":0.27309998869895935},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.26600000262260437},{"id":"https://openalex.org/C2777611316","wikidata":"https://www.wikidata.org/wiki/Q39045282","display_name":"Streaming data","level":2,"score":0.25459998846054077},{"id":"https://openalex.org/C94966114","wikidata":"https://www.wikidata.org/wiki/Q29256","display_name":"Black box","level":2,"score":0.25200000405311584}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.19033","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.19033","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"public-domain","license_id":"https://openalex.org/licenses/public-domain","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.19033","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.19033","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"public-domain","license_id":"https://openalex.org/licenses/public-domain","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.502899169921875,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0],"gradient-based":[1],"learning,":[2],"a":[3,13,89,94,124,138],"step":[4,66,90],"size":[5,67,91],"chosen":[6],"in":[7,17,25,76,97,142],"parameter":[8],"units":[9],"does":[10],"not":[11,35],"produce":[12],"predictable":[14],"per-step":[15,140],"change":[16,96,141],"function":[18,99],"output.":[19],"This":[20,72],"often":[21],"leads":[22],"to":[23,92,102,110],"instability":[24],"the":[26,55,65,98,103,129,143],"streaming":[27,111,164],"setting":[28],"(i.e.,":[29],"batch":[30,171],"size=1),":[31],"where":[32],"stochasticity":[33],"is":[34],"averaged":[36],"out":[37],"and":[38,61,132,156,172],"update":[39,60],"magnitudes":[40],"can":[41],"momentarily":[42],"become":[43],"arbitrarily":[44],"big":[45],"or":[46],"small.":[47],"Instead,":[48],"we":[49],"propose":[50,150],"intentional":[51],"updates:":[52],"first":[53],"specify":[54],"intended":[56,118],"outcome":[57],"of":[58,128],"an":[59],"then":[62],"solve":[63],"for":[64,123,137],"that":[68],"approximately":[69],"achieves":[70],"it.":[71],"strategy":[73],"has":[74],"precedent":[75],"online":[77],"supervised":[78],"linear":[79],"regression":[80],"via":[81],"Normalized":[82],"Least":[83],"Mean":[84],"Squares":[85],"algorithm,":[86],"which":[87],"selects":[88],"yield":[93,162],"specified":[95],"output":[100],"proportional":[101],"current":[104],"error.":[105],"We":[106,149],"extend":[107],"this":[108],"principle":[109],"deep":[112],"reinforcement":[113],"learning":[114],"by":[115],"defining":[116],"appropriate":[117],"outcomes:":[119],"Intentional":[120,133],"TD":[121,130],"aims":[122,136],"fixed":[125],"fractional":[126],"reduction":[127],"error,":[131],"Policy":[134],"Gradient":[135],"bounded":[139],"policy,":[144],"limiting":[145],"local":[146],"KL":[147],"divergence.":[148],"practical":[151],"algorithms":[152],"combining":[153],"eligibility":[154],"traces":[155],"diagonal":[157],"scaling.":[158],"Empirically,":[159],"these":[160],"methods":[161],"state-of-the-art":[163],"performance,":[165],"frequently":[166],"performing":[167],"on":[168],"par":[169],"with":[170],"replay-buffer":[173],"approaches.":[174]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-04-23T00:00:00"}