{"id":"https://openalex.org/W4386291772","doi":"https://doi.org/10.1137/22m1480409","title":"Block Policy Mirror Descent","display_name":"Block Policy Mirror Descent","publication_year":2023,"publication_date":"2023-08-30","ids":{"openalex":"https://openalex.org/W4386291772","doi":"https://doi.org/10.1137/22m1480409"},"language":"en","primary_location":{"id":"doi:10.1137/22m1480409","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1137/22m1480409","pdf_url":null,"source":{"id":"https://openalex.org/S928796702","display_name":"SIAM Journal on Optimization","issn_l":"1052-6234","issn":["1052-6234","1095-7189"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320508","host_organization_name":"Society for Industrial and Applied Mathematics","host_organization_lineage":["https://openalex.org/P4310320508"],"host_organization_lineage_names":["Society for Industrial and Applied Mathematics"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"SIAM Journal on Optimization","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5042544900","display_name":"Guanghui Lan","orcid":"https://orcid.org/0000-0002-2103-087X"},"institutions":[{"id":"https://openalex.org/I130701444","display_name":"Georgia Institute of Technology","ror":"https://ror.org/01zkghx44","country_code":"US","type":"education","lineage":["https://openalex.org/I130701444"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Guanghui Lan","raw_affiliation_strings":["H. Milton Stewart School of Industrial and Systems Engineering, Georgia Institute of Technology, Atlanta, GA 30332 USA"],"affiliations":[{"raw_affiliation_string":"H. Milton Stewart School of Industrial and Systems Engineering, Georgia Institute of Technology, Atlanta, GA 30332 USA","institution_ids":["https://openalex.org/I130701444"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100380266","display_name":"Yan Li","orcid":"https://orcid.org/0000-0001-7605-1670"},"institutions":[{"id":"https://openalex.org/I130701444","display_name":"Georgia Institute of Technology","ror":"https://ror.org/01zkghx44","country_code":"US","type":"education","lineage":["https://openalex.org/I130701444"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Yan Li","raw_affiliation_strings":["H. Milton Stewart School of Industrial and Systems Engineering, Georgia Institute of Technology, Atlanta, GA 30332 USA"],"affiliations":[{"raw_affiliation_string":"H. Milton Stewart School of Industrial and Systems Engineering, Georgia Institute of Technology, Atlanta, GA 30332 USA","institution_ids":["https://openalex.org/I130701444"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5101595501","display_name":"Tuo Zhao","orcid":"https://orcid.org/0000-0002-4991-7851"},"institutions":[{"id":"https://openalex.org/I130701444","display_name":"Georgia Institute of Technology","ror":"https://ror.org/01zkghx44","country_code":"US","type":"education","lineage":["https://openalex.org/I130701444"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Tuo Zhao","raw_affiliation_strings":["H. Milton Stewart School of Industrial and Systems Engineering, Georgia Institute of Technology, Atlanta, GA 30332 USA"],"affiliations":[{"raw_affiliation_string":"H. Milton Stewart School of Industrial and Systems Engineering, Georgia Institute of Technology, Atlanta, GA 30332 USA","institution_ids":["https://openalex.org/I130701444"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5042544900"],"corresponding_institution_ids":["https://openalex.org/I130701444"],"apc_list":null,"apc_paid":null,"fwci":0.1746,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.55471524,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":91,"max":95},"biblio":{"volume":"33","issue":"3","first_page":"2341","last_page":"2378"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12676","display_name":"Machine Learning and ELM","score":0.9976999759674072,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10500","display_name":"Sparse and Compressive Sensing Techniques","score":0.9965999722480774,"subfield":{"id":"https://openalex.org/subfields/2206","display_name":"Computational Mechanics"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6883057951927185},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.6302970051765442},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5648053884506226},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.5356739163398743},{"id":"https://openalex.org/keywords/block","display_name":"Block (permutation group theory)","score":0.5262136459350586},{"id":"https://openalex.org/keywords/sampling","display_name":"Sampling (signal processing)","score":0.5032138228416443},{"id":"https://openalex.org/keywords/coordinate-descent","display_name":"Coordinate descent","score":0.49223342537879944},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.478689968585968},{"id":"https://openalex.org/keywords/convex-optimization","display_name":"Convex optimization","score":0.46856382489204407},{"id":"https://openalex.org/keywords/regular-polygon","display_name":"Regular polygon","score":0.45994988083839417},{"id":"https://openalex.org/keywords/state-space","display_name":"State space","score":0.4323117136955261},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.4052135944366455},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.35835546255111694},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.16557744145393372},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.07837694883346558}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6883057951927185},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.6302970051765442},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5648053884506226},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.5356739163398743},{"id":"https://openalex.org/C2777210771","wikidata":"https://www.wikidata.org/wiki/Q4927124","display_name":"Block (permutation group theory)","level":2,"score":0.5262136459350586},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.5032138228416443},{"id":"https://openalex.org/C157553263","wikidata":"https://www.wikidata.org/wiki/Q5168004","display_name":"Coordinate descent","level":2,"score":0.49223342537879944},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.478689968585968},{"id":"https://openalex.org/C157972887","wikidata":"https://www.wikidata.org/wiki/Q463359","display_name":"Convex optimization","level":3,"score":0.46856382489204407},{"id":"https://openalex.org/C112680207","wikidata":"https://www.wikidata.org/wiki/Q714886","display_name":"Regular polygon","level":2,"score":0.45994988083839417},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.4323117136955261},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4052135944366455},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.35835546255111694},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.16557744145393372},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.07837694883346558},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C106131492","wikidata":"https://www.wikidata.org/wiki/Q3072260","display_name":"Filter (signal processing)","level":2,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1137/22m1480409","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1137/22m1480409","pdf_url":null,"source":{"id":"https://openalex.org/S928796702","display_name":"SIAM Journal on Optimization","issn_l":"1052-6234","issn":["1052-6234","1095-7189"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320508","host_organization_name":"Society for Industrial and Applied Mathematics","host_organization_lineage":["https://openalex.org/P4310320508"],"host_organization_lineage_names":["Society for Industrial and Applied Mathematics"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"SIAM Journal on Optimization","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G6220708777","display_name":null,"funder_award_id":"1909298","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"}],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W41554520","https://openalex.org/W1505731132","https://openalex.org/W1540764732","https://openalex.org/W1603765807","https://openalex.org/W1975768153","https://openalex.org/W1992208280","https://openalex.org/W2000769684","https://openalex.org/W2016384870","https://openalex.org/W2023901033","https://openalex.org/W2028145673","https://openalex.org/W2075660001","https://openalex.org/W2095984592","https://openalex.org/W2117686388","https://openalex.org/W2119567691","https://openalex.org/W2167820643","https://openalex.org/W2592893595","https://openalex.org/W2963264932","https://openalex.org/W3217314940","https://openalex.org/W4237591687"],"related_works":["https://openalex.org/W4225571923","https://openalex.org/W3212257828","https://openalex.org/W2999580272","https://openalex.org/W4286693783","https://openalex.org/W3175914740","https://openalex.org/W3034587794","https://openalex.org/W4294982320","https://openalex.org/W4297873223","https://openalex.org/W2350784623","https://openalex.org/W2126211886"],"abstract_inverted_index":{"In":[0,107],"this":[1,209],"paper,":[2],"we":[3,86,140],"present":[4],"a":[5,21,40,61,71,82,88,136,181,232],"new":[6,233],"policy":[7,14,49,68,225],"gradient":[8],"(PG)":[9],"method,":[10,18],"namely,":[11],"the":[12,35,48,53,67,75,79,104,154,169,191,200,204,211],"block":[13,215],"mirror":[15],"descent":[16,217],"(BPMD)":[17],"for":[19,50,91,127,190,224],"solving":[20,236],"class":[22],"of":[23,78,206],"regularized":[24],"reinforcement":[25,228],"learning":[26],"(RL)":[27],"problems":[28],"with":[29,39,129],"(strongly)":[30],"convex":[31,193],"regularizers.":[32],"Compared":[33],"to":[34,103,112,118,150,168],"traditional":[36],"PG":[37,120,161],"methods":[38,167,218],"batch":[41,119,160],"update":[42,63,69,84],"rule,":[43,85],"which":[44,230],"visits":[45],"and":[46,81,95,124,157,222],"updates":[47],"every":[51],"state,":[52],"BPMD":[54,98,144,166],"method":[55],"has":[56],"cheap":[57],"per-iteration":[58],"computation":[59],"via":[60],"partial":[62,83],"rule":[64],"that":[65,97,143,214],"performs":[66],"on":[70,153,235],"sampled":[72],"state.":[73],"Despite":[74],"nonconvex":[76],"nature":[77],"problem":[80],"provide":[87],"unified":[89],"analysis":[90],"several":[92],"sampling":[93,110,131,138],"schemes":[94],"show":[96,142],"achieves":[99],"fast":[100],"linear":[101],"convergence":[102,128],"global":[105],"optimality.":[106],"particular,":[108],"uniform":[109],"leads":[111],"worst-case":[113],"total":[114],"computational":[115],"complexity":[116],"comparable":[117],"methods.":[121,162],"A":[122],"necessary":[123],"sufficient":[125],"condition":[126],"on-policy":[130],"is":[132,210],"also":[133],"identified.":[134],"With":[135,180],"hybrid":[137],"scheme,":[139],"further":[141],"enjoys":[145],"potential":[146],"instance-dependent":[147],"acceleration,":[148],"leading":[149],"improved":[151],"dependence":[152],"state":[155],"space":[156],"consequently":[158],"outperforming":[159],"We":[163],"then":[164],"extend":[165],"stochastic":[170,174],"setting":[171],"by":[172],"utilizing":[173],"first-order":[175],"information":[176],"constructed":[177],"from":[178],"samples.":[179],"generative":[182],"model,":[183],"(resp.,":[184,194],")":[185],"sample":[186],"complexities":[187],"are":[188],"established":[189],"strongly":[192],"non-strongly":[195],"convex)":[196],"regularizers,":[197],"where":[198],"denotes":[199],"target":[201],"accuracy.":[202],"To":[203],"best":[205],"our":[207],"knowledge,":[208],"first":[212],"time":[213],"coordinate":[216],"have":[219],"been":[220],"developed":[221],"analyzed":[223],"optimization":[226],"in":[227],"learning,":[229],"provides":[231],"perspective":[234],"large-scale":[237],"RL":[238],"problems.":[239]},"counts_by_year":[{"year":2025,"cited_by_count":1}],"updated_date":"2025-12-24T23:09:58.560324","created_date":"2025-10-10T00:00:00"}