{"id":"https://openalex.org/W4367311942","doi":"https://doi.org/10.1137/22m1483335","title":"A Small Gain Analysis of Single Timescale Actor Critic","display_name":"A Small Gain Analysis of Single Timescale Actor Critic","publication_year":2023,"publication_date":"2023-04-28","ids":{"openalex":"https://openalex.org/W4367311942","doi":"https://doi.org/10.1137/22m1483335"},"language":"en","primary_location":{"id":"doi:10.1137/22m1483335","is_oa":false,"landing_page_url":"https://doi.org/10.1137/22m1483335","pdf_url":null,"source":{"id":"https://openalex.org/S897311980","display_name":"SIAM Journal on Control and Optimization","issn_l":"0363-0129","issn":["0363-0129","1095-7138"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320508","host_organization_name":"Society for Industrial and Applied Mathematics","host_organization_lineage":["https://openalex.org/P4310320508"],"host_organization_lineage_names":["Society for Industrial and Applied Mathematics"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"SIAM Journal on Control and Optimization","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5005863931","display_name":"Alex Olshevsky","orcid":"https://orcid.org/0000-0002-5852-9789"},"institutions":[{"id":"https://openalex.org/I111088046","display_name":"Boston University","ror":"https://ror.org/05qwgg493","country_code":"US","type":"education","lineage":["https://openalex.org/I111088046"]},{"id":"https://openalex.org/I2802841742","display_name":"University of Massachusetts System","ror":"https://ror.org/0260j1g46","country_code":"US","type":"education","lineage":["https://openalex.org/I2802841742"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Alex Olshevsky","raw_affiliation_strings":["Department of Electrical and Computer Engineering and Division of System Engineering, Boston University, Boston, MA 02215 USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Electrical and Computer Engineering and Division of System Engineering, Boston University, Boston, MA 02215 USA","institution_ids":["https://openalex.org/I2802841742","https://openalex.org/I111088046"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5022064746","display_name":"Bahman Gharesifard","orcid":"https://orcid.org/0000-0003-1495-3489"},"institutions":[{"id":"https://openalex.org/I161318765","display_name":"University of California, Los Angeles","ror":"https://ror.org/046rm7j60","country_code":"US","type":"education","lineage":["https://openalex.org/I161318765"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Bahman Gharesifard","raw_affiliation_strings":["Department of Electrical and Computer Engineering, University of California at Los Angeles, Los Angeles, CA 90095 USA"],"raw_orcid":"https://orcid.org/0000-0003-1495-3489","affiliations":[{"raw_affiliation_string":"Department of Electrical and Computer Engineering, University of California at Los Angeles, Los Angeles, CA 90095 USA","institution_ids":["https://openalex.org/I161318765"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.8158,"has_fulltext":false,"cited_by_count":5,"citation_normalized_percentile":{"value":0.77310335,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":91,"max":96},"biblio":{"volume":"61","issue":"2","first_page":"980","last_page":"1007"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9987999796867371,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9987999796867371,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11206","display_name":"Model Reduction and Neural Networks","score":0.9814000129699707,"subfield":{"id":"https://openalex.org/subfields/3109","display_name":"Statistical and Nonlinear Physics"},"field":{"id":"https://openalex.org/fields/31","display_name":"Physics and Astronomy"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.9804999828338623,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.73602294921875},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.511534571647644},{"id":"https://openalex.org/keywords/point","display_name":"Point (geometry)","score":0.5109931230545044},{"id":"https://openalex.org/keywords/stationary-point","display_name":"Stationary point","score":0.4874536991119385},{"id":"https://openalex.org/keywords/stationary-distribution","display_name":"Stationary distribution","score":0.4112801253795624},{"id":"https://openalex.org/keywords/applied-mathematics","display_name":"Applied mathematics","score":0.3811125159263611},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.3550543487071991},{"id":"https://openalex.org/keywords/mathematical-analysis","display_name":"Mathematical analysis","score":0.22912076115608215},{"id":"https://openalex.org/keywords/statistics","display_name":"Statistics","score":0.16085010766983032},{"id":"https://openalex.org/keywords/geometry","display_name":"Geometry","score":0.09739157557487488},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.09274271130561829}],"concepts":[{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.73602294921875},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.511534571647644},{"id":"https://openalex.org/C28719098","wikidata":"https://www.wikidata.org/wiki/Q44946","display_name":"Point (geometry)","level":2,"score":0.5109931230545044},{"id":"https://openalex.org/C189237950","wikidata":"https://www.wikidata.org/wiki/Q2500758","display_name":"Stationary point","level":2,"score":0.4874536991119385},{"id":"https://openalex.org/C98951983","wikidata":"https://www.wikidata.org/wiki/Q7604341","display_name":"Stationary distribution","level":3,"score":0.4112801253795624},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.3811125159263611},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3550543487071991},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.22912076115608215},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.16085010766983032},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.09739157557487488},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.09274271130561829},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0},{"id":"https://openalex.org/C43617362","wikidata":"https://www.wikidata.org/wiki/Q170050","display_name":"Chromatography","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1137/22m1483335","is_oa":false,"landing_page_url":"https://doi.org/10.1137/22m1483335","pdf_url":null,"source":{"id":"https://openalex.org/S897311980","display_name":"SIAM Journal on Control and Optimization","issn_l":"0363-0129","issn":["0363-0129","1095-7138"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320508","host_organization_name":"Society for Industrial and Applied Mathematics","host_organization_lineage":["https://openalex.org/P4310320508"],"host_organization_lineage_names":["Society for Industrial and Applied Mathematics"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"SIAM Journal on Control and Optimization","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":16,"referenced_works":["https://openalex.org/W2009303086","https://openalex.org/W2046859786","https://openalex.org/W2071983464","https://openalex.org/W2082261506","https://openalex.org/W2091565802","https://openalex.org/W2168934542","https://openalex.org/W2492794003","https://openalex.org/W2963649943","https://openalex.org/W3109546547","https://openalex.org/W3117423974","https://openalex.org/W3160923286","https://openalex.org/W3175771377","https://openalex.org/W3198564127","https://openalex.org/W3203485495","https://openalex.org/W4247591450","https://openalex.org/W4256010742"],"related_works":["https://openalex.org/W2985635587","https://openalex.org/W1185300216","https://openalex.org/W2951530716","https://openalex.org/W4298838548","https://openalex.org/W2124559882","https://openalex.org/W3217289412","https://openalex.org/W2512898767","https://openalex.org/W2524193993","https://openalex.org/W4242918766","https://openalex.org/W2322733106"],"abstract_inverted_index":{".We":[0],"consider":[1],"a":[2,16,49],"version":[3],"of":[4,30,61],"actor-critic":[5,65],"which":[6],"uses":[7],"proportional":[8],"step-sizes":[9],"and":[10,52],"only":[11],"one":[12],"critic":[13],"update":[14],"with":[15,86],"single":[17],"sample":[18,56],"from":[19],"the":[20,34,54,59,62,82,87],"stationary":[21,50,77],"distribution":[22],"per":[23],"actor":[24],"step.":[25],"We":[26],"provide":[27],"an":[28,74],"analysis":[29],"this":[31,42],"method":[32,43],"using":[33],"small":[35],"gain":[36],"theorem.":[37],"Specifically,":[38],"we":[39],"prove":[40],"that":[41,53],"can":[44],"be":[45],"used":[46],"to":[47,67,72],"find":[48,73],"point,":[51],"resulting":[55],"complexity":[57],"improves":[58],"state":[60],"art":[63],"for":[64],"methods":[66],"\\(O":[68],"(\\mu^{-2}":[69],"\\epsilon^{-2}":[70],")\\)":[71],"\\(\\epsilon\\)":[75],"-approximate":[76],"point":[78],"where":[79],"\\(\\mu\\)":[80],"is":[81],"condition":[83],"number":[84],"associated":[85],"critic.Keywordsreinforcement":[88],"learningactor":[89],"criticnonconvex":[90],"optimizationMSC":[91],"codes93E3590-08":[92]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":2},{"year":2023,"cited_by_count":2}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}