{"id":"https://openalex.org/W4387389960","doi":"https://doi.org/10.48550/arxiv.2310.02581","title":"Online Estimation and Inference for Robust Policy Evaluation in Reinforcement Learning","display_name":"Online Estimation and Inference for Robust Policy Evaluation in Reinforcement Learning","publication_year":2023,"publication_date":"2023-01-01","ids":{"openalex":"https://openalex.org/W4387389960","doi":"https://doi.org/10.48550/arxiv.2310.02581"},"language":"en","primary_location":{"is_oa":true,"landing_page_url":"https://arxiv.org/abs/2310.02581","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":["Cornell University"],"type":"repository"},"license":"cc-by-4.0","version":"submittedVersion","is_accepted":false,"is_published":false},"type":"preprint","type_crossref":"posted-content","indexed_in":["arxiv","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/abs/2310.02581","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5042643943","display_name":"Weidong Liu","orcid":"https://orcid.org/0000-0002-2276-2159"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Weidong","raw_affiliation_strings":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5088466985","display_name":"Jiyuan Tu","orcid":"https://orcid.org/0000-0002-0151-4084"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tu, Jiyuan","raw_affiliation_strings":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5015199708","display_name":"Yichen Zhang","orcid":"https://orcid.org/0000-0002-6925-0775"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Yichen","raw_affiliation_strings":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5008171524","display_name":"Xi Chen","orcid":"https://orcid.org/0000-0002-8523-3967"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Xi","raw_affiliation_strings":[]}],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"has_fulltext":false,"cited_by_count":0,"cited_by_percentile_year":{"min":0,"max":79},"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"primary_topic":{"id":"https://openalex.org/T12879","display_name":"Decentralized Inference in Wireless Sensor Networks","score":0.9867,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12879","display_name":"Decentralized Inference in Wireless Sensor Networks","score":0.9867,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Deep Learning Models","score":0.9656,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning Algorithms","score":0.963,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement Learning","score":0.617605},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness","score":0.523848},{"id":"https://openalex.org/keywords/uncertainty-estimation","display_name":"Uncertainty Estimation","score":0.514543}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.84174955},{"id":"https://openalex.org/C134261354","wikidata":"https://www.wikidata.org/wiki/Q938438","display_name":"Statistical inference","level":2,"score":0.6964735},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.66698563},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.6651608},{"id":"https://openalex.org/C185429906","wikidata":"https://www.wikidata.org/wiki/Q1130160","display_name":"Estimator","level":2,"score":0.6467886},{"id":"https://openalex.org/C79337645","wikidata":"https://www.wikidata.org/wiki/Q779824","display_name":"Outlier","level":2,"score":0.6300327},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6186126},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.553151},{"id":"https://openalex.org/C65778772","wikidata":"https://www.wikidata.org/wiki/Q12345341","display_name":"Asymptotic distribution","level":3,"score":0.44898468},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.44768643},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.21610233},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.18305135},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"is_oa":true,"landing_page_url":"https://arxiv.org/abs/2310.02581","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":["Cornell University"],"type":"repository"},"license":"cc-by-4.0","version":"submittedVersion","is_accepted":false,"is_published":false},{"is_oa":false,"landing_page_url":"https://api.datacite.org/dois/10.48550/arxiv.2310.02581","pdf_url":null,"source":{"id":"https://openalex.org/S4393179698","display_name":"DataCite API","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"host_organization":"https://openalex.org/I4210145204","host_organization_name":"DataCite","host_organization_lineage":["https://openalex.org/I4210145204"],"host_organization_lineage_names":["DataCite"],"type":"metadata"},"license":null,"version":null}],"best_oa_location":{"is_oa":true,"landing_page_url":"https://arxiv.org/abs/2310.02581","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":["Cornell University"],"type":"repository"},"license":"cc-by-4.0","version":"submittedVersion","is_accepted":false,"is_published":false},"sustainable_development_goals":[{"display_name":"Peace, justice, and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.4}],"grants":[],"datasets":[],"versions":[],"referenced_works_count":0,"referenced_works":[],"related_works":["https://openalex.org/W4387929287","https://openalex.org/W3121677332","https://openalex.org/W4306904969","https://openalex.org/W3006513224","https://openalex.org/W137830373","https://openalex.org/W3000984192","https://openalex.org/W2103073163","https://openalex.org/W4286952477","https://openalex.org/W4321348134","https://openalex.org/W2063040110"],"ngrams_url":"https://api.openalex.org/works/W4387389960/ngrams","abstract_inverted_index":{"Recently,":[0],"reinforcement":[1,37,62,130,156],"learning":[2,19,38,63,157],"has":[3],"gained":[4],"prominence":[5],"in":[6,61,129,154],"modern":[7],"statistics,":[8],"with":[9],"policy":[10,86,140],"evaluation":[11,87],"being":[12],"a":[13,75,105,133],"key":[14],"component.":[15],"Unlike":[16],"traditional":[17],"machine":[18],"literature":[20],"on":[21,28,98,114],"this":[22,79],"topic,":[23],"our":[24,95,148],"work":[25],"places":[26],"emphasis":[27],"statistical":[29,111,127],"inference":[30,112,128],"for":[31],"the":[32,56,91,115,121,145],"parameter":[33],"estimates":[34],"computed":[35],"using":[36],"algorithms.":[39],"While":[40],"most":[41],"existing":[42],"analyses":[43],"assume":[44],"random":[45],"rewards":[46,73],"to":[47,108,139],"follow":[48],"standard":[49],"distributions,":[50],"limiting":[51,92],"their":[52],"applicability,":[53],"we":[54,81,103,143],"embrace":[55],"concept":[57],"of":[58,68,94,147],"robust":[59,85,124],"statistics":[60,125],"by":[64],"simultaneously":[65],"addressing":[66],"issues":[67],"outlier":[69],"contamination":[70],"and":[71,89,126,136],"heavy-tailed":[72],"within":[74],"unified":[76],"framework.":[77],"In":[78],"paper,":[80],"develop":[82,104],"an":[83],"online":[84],"procedure,":[88],"establish":[90],"distribution":[93],"estimator,":[96],"based":[97,113],"its":[99],"Bahadur":[100],"representation.":[101],"Furthermore,":[102],"fully-online":[106],"procedure":[107],"efficiently":[109],"conduct":[110],"asymptotic":[116],"distribution.":[117],"This":[118],"paper":[119],"bridges":[120],"gap":[122],"between":[123],"learning,":[131],"offering":[132],"more":[134],"versatile":[135],"reliable":[137],"approach":[138],"evaluation.":[141],"Finally,":[142],"validate":[144],"efficacy":[146],"algorithm":[149],"through":[150],"numerical":[151],"experiments":[152],"conducted":[153],"real-world":[155],"experiments.":[158]},"cited_by_api_url":"https://api.openalex.org/works?filter=cites:W4387389960","counts_by_year":[],"updated_date":"2024-04-27T05:54:47.563200","created_date":"2023-10-06"}