{"id":"https://openalex.org/W4391022030","doi":"https://doi.org/10.1109/cdc49753.2023.10383562","title":"Combining Q-learning and Deterministic Policy Gradient for Learning-Based MPC","display_name":"Combining Q-learning and Deterministic Policy Gradient for Learning-Based MPC","publication_year":2023,"publication_date":"2023-12-13","ids":{"openalex":"https://openalex.org/W4391022030","doi":"https://doi.org/10.1109/cdc49753.2023.10383562"},"language":"en","primary_location":{"id":"doi:10.1109/cdc49753.2023.10383562","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/cdc49753.2023.10383562","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 62nd IEEE Conference on Decision and Control (CDC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://hdl.handle.net/11250/3132876","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5078486239","display_name":"Katrine Seel","orcid":"https://orcid.org/0000-0003-2488-2784"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Katrine Seel","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5049645185","display_name":"S\u00e9bastien Gros","orcid":"https://orcid.org/0000-0001-6054-2133"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"S\u00e9bastien Gros","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5034485872","display_name":"Jan Tommy Gravdahl","orcid":"https://orcid.org/0000-0002-5663-0795"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jan Tommy Gravdahl","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5078486239"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.23309346,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"14","issue":null,"first_page":"610","last_page":"617"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10791","display_name":"Advanced Control Systems Optimization","score":0.9983999729156494,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10791","display_name":"Advanced Control Systems Optimization","score":0.9983999729156494,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9865000247955322,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10821","display_name":"Cardiovascular Function and Risk Factors","score":0.973800003528595,"subfield":{"id":"https://openalex.org/subfields/2705","display_name":"Cardiology and Cardiovascular Medicine"},"field":{"id":"https://openalex.org/fields/27","display_name":"Medicine"},"domain":{"id":"https://openalex.org/domains/4","display_name":"Health Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8705107569694519},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7173337340354919},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.6655778288841248},{"id":"https://openalex.org/keywords/exploit","display_name":"Exploit","score":0.6508975028991699},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.6097533702850342},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6035211086273193},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5783237218856812},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5759970545768738},{"id":"https://openalex.org/keywords/gradient-method","display_name":"Gradient method","score":0.5352234244346619},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.48814138770103455},{"id":"https://openalex.org/keywords/model-predictive-control","display_name":"Model predictive control","score":0.4756210148334503},{"id":"https://openalex.org/keywords/temporal-difference-learning","display_name":"Temporal difference learning","score":0.4692544639110565},{"id":"https://openalex.org/keywords/order","display_name":"Order (exchange)","score":0.42894667387008667},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4211365580558777},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.266512930393219},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.2589442729949951},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.20531487464904785},{"id":"https://openalex.org/keywords/economics","display_name":"Economics","score":0.07851207256317139}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8705107569694519},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7173337340354919},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.6655778288841248},{"id":"https://openalex.org/C165696696","wikidata":"https://www.wikidata.org/wiki/Q11287","display_name":"Exploit","level":2,"score":0.6508975028991699},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.6097533702850342},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6035211086273193},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5783237218856812},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5759970545768738},{"id":"https://openalex.org/C115680565","wikidata":"https://www.wikidata.org/wiki/Q5977448","display_name":"Gradient method","level":2,"score":0.5352234244346619},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.48814138770103455},{"id":"https://openalex.org/C172205157","wikidata":"https://www.wikidata.org/wiki/Q1782962","display_name":"Model predictive control","level":3,"score":0.4756210148334503},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.4692544639110565},{"id":"https://openalex.org/C182306322","wikidata":"https://www.wikidata.org/wiki/Q1779371","display_name":"Order (exchange)","level":2,"score":0.42894667387008667},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4211365580558777},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.266512930393219},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.2589442729949951},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.20531487464904785},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.07851207256317139},{"id":"https://openalex.org/C78458016","wikidata":"https://www.wikidata.org/wiki/Q840400","display_name":"Evolutionary biology","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C10138342","wikidata":"https://www.wikidata.org/wiki/Q43015","display_name":"Finance","level":1,"score":0.0},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0},{"id":"https://openalex.org/C151730666","wikidata":"https://www.wikidata.org/wiki/Q7205","display_name":"Paleontology","level":1,"score":0.0}],"mesh":[],"locations_count":3,"locations":[{"id":"doi:10.1109/cdc49753.2023.10383562","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/cdc49753.2023.10383562","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 62nd IEEE Conference on Decision and Control (CDC)","raw_type":"proceedings-article"},{"id":"pmh:oai:ntnuopen.ntnu.no:11250/3132876","is_oa":true,"landing_page_url":"https://hdl.handle.net/11250/3132876","pdf_url":null,"source":{"id":"https://openalex.org/S4306401716","display_name":"Duo Research Archive (University of Oslo)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I184942183","host_organization_name":"University of Oslo","host_organization_lineage":["https://openalex.org/I184942183"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"8","raw_type":"info:eu-repo/semantics/other"},{"id":"pmh:oai:sintef.brage.unit.no:11250/3136189","is_oa":true,"landing_page_url":"https://hdl.handle.net/11250/3136189","pdf_url":null,"source":{"id":"https://openalex.org/S4306401716","display_name":"Duo Research Archive (University of Oslo)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I184942183","host_organization_name":"University of Oslo","host_organization_lineage":["https://openalex.org/I184942183"],"host_organization_lineage_names":[],"type":"repository"},"license":"other-oa","license_id":"https://openalex.org/licenses/other-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"8","raw_type":"info:eu-repo/semantics/other"}],"best_oa_location":{"id":"pmh:oai:ntnuopen.ntnu.no:11250/3132876","is_oa":true,"landing_page_url":"https://hdl.handle.net/11250/3132876","pdf_url":null,"source":{"id":"https://openalex.org/S4306401716","display_name":"Duo Research Archive (University of Oslo)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I184942183","host_organization_name":"University of Oslo","host_organization_lineage":["https://openalex.org/I184942183"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"8","raw_type":"info:eu-repo/semantics/other"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":29,"referenced_works":["https://openalex.org/W1997188340","https://openalex.org/W2006859604","https://openalex.org/W2026216293","https://openalex.org/W2121863487","https://openalex.org/W2130801532","https://openalex.org/W2155027007","https://openalex.org/W2169209873","https://openalex.org/W2257979135","https://openalex.org/W2565081646","https://openalex.org/W2566523535","https://openalex.org/W2586680856","https://openalex.org/W2619551236","https://openalex.org/W2930426397","https://openalex.org/W2948652605","https://openalex.org/W3105252106","https://openalex.org/W3119715644","https://openalex.org/W3138294267","https://openalex.org/W3165125266","https://openalex.org/W3185528958","https://openalex.org/W4294597284","https://openalex.org/W4294690810","https://openalex.org/W4296124382","https://openalex.org/W4313160026","https://openalex.org/W4388322257","https://openalex.org/W6635767209","https://openalex.org/W6679257226","https://openalex.org/W6683204974","https://openalex.org/W6684205842","https://openalex.org/W6730905388"],"related_works":["https://openalex.org/W2742483371","https://openalex.org/W2341346307","https://openalex.org/W3096874164","https://openalex.org/W2154399718","https://openalex.org/W2166117066","https://openalex.org/W4400868993","https://openalex.org/W2145363145","https://openalex.org/W2152445738","https://openalex.org/W3148138296","https://openalex.org/W4388937744"],"abstract_inverted_index":{"This":[0,134],"paper":[1],"considers":[2],"adjusting":[3],"a":[4,18,28,94],"fully":[5,147],"parametrized":[6],"model":[7],"predictive":[8],"control":[9],"(MPC)":[10],"scheme":[11],"to":[12,72,114,146],"approximate":[13],"the":[14,35,65,74,88,98,119,130,149],"optimal":[15,75],"policy":[16,44,66,78,89,122],"for":[17,136],"system":[19],"as":[20,22,27,152,154],"accurately":[21],"possible.":[23],"By":[24],"adopting":[25],"MPC":[26,36,150],"function":[29,84],"approximator":[30],"in":[31,118,129,144,158],"reinforcement":[32],"learning":[33,142],"(RL),":[34],"parameters":[37],"can":[38],"be":[39],"adjusted":[40],"using":[41],"Q-learning":[42,59],"or":[43],"gradient":[45,67,79,123],"methods.":[46],"However,":[47],"each":[48],"method":[49],"has":[50],"its":[51],"own":[52],"specific":[53],"shortcomings":[54],"when":[55,103],"used":[56],"alone.":[57],"Indeed,":[58],"does":[60],"not":[61,86],"exploit":[62,148],"information":[63],"about":[64],"and":[68],"therefore":[69],"may":[70],"fail":[71],"capture":[73],"policy,":[76],"while":[77,125],"methods":[80,124],"miss":[81],"any":[82],"cost":[83],"corrections":[85],"affecting":[87],"directly.":[90],"The":[91],"former":[92],"is":[93,100,111,127],"general":[95],"problem,":[96],"whereas":[97],"latter":[99],"an":[101,137],"issue":[102],"dealing":[104],"with":[105],"economic":[106],"problems":[107],"specifically.":[108],"Moreover,":[109],"it":[110,126],"notoriously":[112],"difficult":[113],"perform":[115],"second-order":[116],"steps":[117],"context":[120,131],"of":[121,132,140],"straightforward":[128],"Q-learning.":[133],"calls":[135],"organic":[138],"combination":[139],"these":[141],"algorithms,":[143],"order":[145],"parameterization":[151],"well":[153],"speed":[155],"up":[156],"convergence":[157],"learning.":[159]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2025-10-10T00:00:00"}