{"id":"https://openalex.org/W2008175008","doi":"https://doi.org/10.1109/cdc.2011.6160377","title":"Singular control for discounted Markov Decision Processes in a general state space","display_name":"Singular control for discounted Markov Decision Processes in a general state space","publication_year":2011,"publication_date":"2011-12-01","ids":{"openalex":"https://openalex.org/W2008175008","doi":"https://doi.org/10.1109/cdc.2011.6160377","mag":"2008175008"},"language":"en","primary_location":{"id":"doi:10.1109/cdc.2011.6160377","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc.2011.6160377","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Conference on Decision and Control and European Control Conference","raw_type":"proceedings-article"},"type":"preprint","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5072909119","display_name":"O.L.V. Costa","orcid":"https://orcid.org/0000-0002-0875-8698"},"institutions":[{"id":"https://openalex.org/I4210142721","display_name":"Hospital Universit\u00e1rio da Universidade de S\u00e3o Paulo","ror":"https://ror.org/0406jsq08","country_code":"BR","type":"healthcare","lineage":["https://openalex.org/I17974374","https://openalex.org/I4210142721"]},{"id":"https://openalex.org/I17974374","display_name":"Universidade de S\u00e3o Paulo","ror":"https://ror.org/036rp1748","country_code":"BR","type":"education","lineage":["https://openalex.org/I17974374"]}],"countries":["BR"],"is_corresponding":true,"raw_author_name":"O.L.V. Costa","raw_affiliation_strings":["Departamento de Engenharia de Telecomunica\u00e7\u00f5ese Controle, Escola Polit\u00e9cnica da Universidade de S\u00e3o Paulo, Sao Paulo, Brazil","Universidade de S\u00e3o Paulo = University of S\u00e3o Paulo"],"affiliations":[{"raw_affiliation_string":"Departamento de Engenharia de Telecomunica\u00e7\u00f5ese Controle, Escola Polit\u00e9cnica da Universidade de S\u00e3o Paulo, Sao Paulo, Brazil","institution_ids":["https://openalex.org/I17974374"]},{"raw_affiliation_string":"Universidade de S\u00e3o Paulo = University of S\u00e3o Paulo","institution_ids":["https://openalex.org/I4210142721"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5052608804","display_name":"Fran\u00e7ois Dufour","orcid":"https://orcid.org/0000-0001-6653-2024"},"institutions":[{"id":"https://openalex.org/I4210166017","display_name":"Institut de Math\u00e9matiques de Bordeaux","ror":"https://ror.org/05m3r1b84","country_code":"FR","type":"facility","lineage":["https://openalex.org/I1294671590","https://openalex.org/I1294671590","https://openalex.org/I1326498283","https://openalex.org/I15057530","https://openalex.org/I4210141950","https://openalex.org/I4210160189","https://openalex.org/I4210166017"]}],"countries":["FR"],"is_corresponding":false,"raw_author_name":"F. Dufour","raw_affiliation_strings":["MAB-Math\u00e9matiques Appliq\u00e9es de Bordeaux, Universite Bordeaux 1, Talence, France","Institut de Math\u00e9matiques de Bordeaux","Quality control and dynamic reliability"],"affiliations":[{"raw_affiliation_string":"MAB-Math\u00e9matiques Appliq\u00e9es de Bordeaux, Universite Bordeaux 1, Talence, France","institution_ids":["https://openalex.org/I4210166017"]},{"raw_affiliation_string":"Institut de Math\u00e9matiques de Bordeaux","institution_ids":["https://openalex.org/I4210166017"]},{"raw_affiliation_string":"Quality control and dynamic reliability","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5072909119"],"corresponding_institution_ids":["https://openalex.org/I17974374","https://openalex.org/I4210142721"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.07516562,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"23","issue":null,"first_page":"7087","last_page":"7092"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10524","display_name":"Traffic control and management","score":0.9711999893188477,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10524","display_name":"Traffic control and management","score":0.9711999893188477,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9624999761581421,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10791","display_name":"Advanced Control Systems Optimization","score":0.9466999769210815,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.7651247978210449},{"id":"https://openalex.org/keywords/markov-kernel","display_name":"Markov kernel","score":0.7223443984985352},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.6565414667129517},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.6073634624481201},{"id":"https://openalex.org/keywords/optimal-control","display_name":"Optimal control","score":0.6025342345237732},{"id":"https://openalex.org/keywords/dimension","display_name":"Dimension (graph theory)","score":0.5961782932281494},{"id":"https://openalex.org/keywords/state-space","display_name":"State space","score":0.5854867696762085},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.5829712748527527},{"id":"https://openalex.org/keywords/limit","display_name":"Limit (mathematics)","score":0.5698404908180237},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5526912808418274},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.5095036625862122},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.4832195043563843},{"id":"https://openalex.org/keywords/applied-mathematics","display_name":"Applied mathematics","score":0.4669927656650543},{"id":"https://openalex.org/keywords/markov-model","display_name":"Markov model","score":0.46193161606788635},{"id":"https://openalex.org/keywords/partially-observable-markov-decision-process","display_name":"Partially observable Markov decision process","score":0.42222172021865845},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.42035049200057983},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.3103599548339844},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.2826724350452423},{"id":"https://openalex.org/keywords/variable-order-markov-model","display_name":"Variable-order Markov model","score":0.2723357081413269},{"id":"https://openalex.org/keywords/mathematical-analysis","display_name":"Mathematical analysis","score":0.15282338857650757},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.09216371178627014}],"concepts":[{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.7651247978210449},{"id":"https://openalex.org/C106666656","wikidata":"https://www.wikidata.org/wiki/Q6771323","display_name":"Markov kernel","level":5,"score":0.7223443984985352},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.6565414667129517},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.6073634624481201},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.6025342345237732},{"id":"https://openalex.org/C33676613","wikidata":"https://www.wikidata.org/wiki/Q13415176","display_name":"Dimension (graph theory)","level":2,"score":0.5961782932281494},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.5854867696762085},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.5829712748527527},{"id":"https://openalex.org/C151201525","wikidata":"https://www.wikidata.org/wiki/Q177239","display_name":"Limit (mathematics)","level":2,"score":0.5698404908180237},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5526912808418274},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.5095036625862122},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.4832195043563843},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.4669927656650543},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.46193161606788635},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.42222172021865845},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.42035049200057983},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.3103599548339844},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.2826724350452423},{"id":"https://openalex.org/C54907487","wikidata":"https://www.wikidata.org/wiki/Q7915688","display_name":"Variable-order Markov model","level":4,"score":0.2723357081413269},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.15282338857650757},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.09216371178627014},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.0},{"id":"https://openalex.org/C202444582","wikidata":"https://www.wikidata.org/wiki/Q837863","display_name":"Pure mathematics","level":1,"score":0.0}],"mesh":[],"locations_count":4,"locations":[{"id":"doi:10.1109/cdc.2011.6160377","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc.2011.6160377","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Conference on Decision and Control and European Control Conference","raw_type":"proceedings-article"},{"id":"pmh:oai:HAL:hal-00938989v1","is_oa":false,"landing_page_url":"https://hal.science/hal-00938989","pdf_url":null,"source":{"id":"https://openalex.org/S4306402512","display_name":"HAL (Le Centre pour la Communication Scientifique Directe)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I1294671590","host_organization_name":"Centre National de la Recherche Scientifique","host_organization_lineage":["https://openalex.org/I1294671590"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Conference on Decision and Control, 2011, Orlando, United States","raw_type":"Conference papers"},{"id":"pmh:oai:oskar-bordeaux.fr:20.500.12278/114859","is_oa":false,"landing_page_url":"https://oskar-bordeaux.fr/handle/20.500.12278/114859","pdf_url":null,"source":{"id":"https://openalex.org/S4306402569","display_name":"Oskar-Bordeaux (Universite de Bordeaux)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"Communication dans un congr\u00e8s avec actes"},{"id":"pmh:oai:oskar-bordeaux.fr:20.500.12278/189450","is_oa":false,"landing_page_url":"https://oskar-bordeaux.fr/handle/20.500.12278/189450","pdf_url":null,"source":{"id":"https://openalex.org/S4306402569","display_name":"Oskar-Bordeaux (Universite de Bordeaux)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"Communication dans un congr\u00e8s"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.7599999904632568,"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":16,"referenced_works":["https://openalex.org/W10227384","https://openalex.org/W103361627","https://openalex.org/W787785457","https://openalex.org/W891486198","https://openalex.org/W1011687442","https://openalex.org/W1578233523","https://openalex.org/W1972725295","https://openalex.org/W2010654234","https://openalex.org/W2027311528","https://openalex.org/W2052422343","https://openalex.org/W2064778949","https://openalex.org/W2102773314","https://openalex.org/W2149308614","https://openalex.org/W4210545817","https://openalex.org/W6622723751","https://openalex.org/W6624048985"],"related_works":["https://openalex.org/W2096013579","https://openalex.org/W52153049","https://openalex.org/W1760611253","https://openalex.org/W1589140671","https://openalex.org/W2808418668","https://openalex.org/W3105579180","https://openalex.org/W2364406457","https://openalex.org/W2173087131","https://openalex.org/W1997350370","https://openalex.org/W1574958246"],"abstract_inverted_index":{"This":[0,66],"paper":[1,40],"studies":[2],"the":[3,36,55,58,80,83,102,106,110,115,130,141,153],"asymptotic":[4],"optimality":[5],"of":[6,57,82,105,118],"discrete-time":[7],"Markov":[8,91],"Decision":[9],"Processes":[10],"(MDP's":[11],"in":[12,34,38,79],"short)":[13],"with":[14,46,93],"general":[15,47],"state":[16,48,59],"space":[17,20,60],"and":[18,21,24,49,52],"action":[19,50],"having":[22],"weak":[23],"strong":[25],"interactions.":[26],"By":[27],"using":[28,147],"a":[29,44,73,88,119,136],"similar":[30],"approach":[31],"as":[32,124],"developed":[33],"[1],":[35],"idea":[37],"this":[39],"is":[41,68,99,133,156],"to":[42,53,87,114,127],"consider":[43],"MDP":[45],"spaces":[51],"reduce":[54],"dimension":[56],"by":[61,71,146],"considering":[62],"an":[63,148],"averaged":[64,121],"model.":[65],"formulation":[67],"often":[69],"described":[70],"introducing":[72],"small":[74],"parameter":[75],"\u2208":[76,125],">":[77],"0":[78],"definition":[81],"transition":[84],"kernel,":[85],"leading":[86],"singularly":[89],"perturbed":[90,111],"model":[92],"two":[94],"time":[95],"scales.":[96],"First":[97],"it":[98,132],"shown":[100,134],"that":[101,135],"value":[103,116],"function":[104,117],"control":[107,122,138,143],"problem":[108,123,144,155],"for":[109,140,152],"system":[112],"converges":[113],"limit":[120,154],"goes":[126],"zero.":[128],"In":[129],"sequel":[131],"feedback":[137,150],"policy":[139,151],"original":[142],"defined":[145],"optimal":[149],"asymptotically":[157],"optimal.":[158]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2025-10-10T00:00:00"}