{"id":"https://openalex.org/W2948414426","doi":"https://doi.org/10.24963/ijcai.2019/625","title":"Exploiting the Sign of the Advantage Function to Learn Deterministic Policies in Continuous Domains","display_name":"Exploiting the Sign of the Advantage Function to Learn Deterministic Policies in Continuous Domains","publication_year":2019,"publication_date":"2019-07-28","ids":{"openalex":"https://openalex.org/W2948414426","doi":"https://doi.org/10.24963/ijcai.2019/625","mag":"2948414426"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2019/625","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2019/625","pdf_url":"https://www.ijcai.org/proceedings/2019/0625.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"article","indexed_in":["arxiv","crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://www.ijcai.org/proceedings/2019/0625.pdf","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Matthieu Zimmer","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Matthieu Zimmer","raw_affiliation_strings":["UM-SJTU Joint Institute"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"UM-SJTU Joint Institute","institution_ids":[]}]},{"author_position":"last","author":{"id":null,"display_name":"Paul Weng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Paul Weng","raw_affiliation_strings":["UM-SJTU Joint Institute"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"UM-SJTU Joint Institute","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.4338,"has_fulltext":false,"cited_by_count":6,"citation_normalized_percentile":{"value":0.71209464,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"4496","last_page":"4502"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9993000030517578,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9993000030517578,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10502","display_name":"Advanced Memory and Neural Computing","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12808","display_name":"Ferroelectric and Negative Capacitance Devices","score":0.9898999929428101,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.5526999831199646},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.550000011920929},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.47839999198913574},{"id":"https://openalex.org/keywords/sign","display_name":"Sign (mathematics)","score":0.4487999975681305},{"id":"https://openalex.org/keywords/automaton","display_name":"Automaton","score":0.41350001096725464},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.35670000314712524}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6463000178337097},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.5526999831199646},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.550000011920929},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.47839999198913574},{"id":"https://openalex.org/C139676723","wikidata":"https://www.wikidata.org/wiki/Q1193832","display_name":"Sign (mathematics)","level":2,"score":0.4487999975681305},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4487000107765198},{"id":"https://openalex.org/C112505250","wikidata":"https://www.wikidata.org/wiki/Q787116","display_name":"Automaton","level":2,"score":0.41350001096725464},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.35670000314712524},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.3549000024795532},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.3434999883174896},{"id":"https://openalex.org/C18762648","wikidata":"https://www.wikidata.org/wiki/Q42213","display_name":"Work (physics)","level":2,"score":0.3375000059604645},{"id":"https://openalex.org/C2776807809","wikidata":"https://www.wikidata.org/wiki/Q6510160","display_name":"Learning automata","level":3,"score":0.298799991607666},{"id":"https://openalex.org/C116930293","wikidata":"https://www.wikidata.org/wiki/Q5265717","display_name":"Deterministic system (philosophy)","level":2,"score":0.28130000829696655},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.273499995470047},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.27140000462532043},{"id":"https://openalex.org/C36299963","wikidata":"https://www.wikidata.org/wiki/Q1369844","display_name":"Observability","level":2,"score":0.26600000262260437},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.25780001282691956}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.24963/ijcai.2019/625","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2019/625","pdf_url":"https://www.ijcai.org/proceedings/2019/0625.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:1906.04556","is_oa":true,"landing_page_url":"http://arxiv.org/abs/1906.04556","pdf_url":"https://arxiv.org/pdf/1906.04556","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"}],"best_oa_location":{"id":"doi:10.24963/ijcai.2019/625","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2019/625","pdf_url":"https://www.ijcai.org/proceedings/2019/0625.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G5010798040","display_name":null,"funder_award_id":"61872238","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"}],"funders":[{"id":"https://openalex.org/F4320321001","display_name":"National Natural Science Foundation of China","ror":"https://ror.org/01h0zpd94"},{"id":"https://openalex.org/F4320322892","display_name":"Centre National de la Recherche Scientifique","ror":"https://ror.org/02feahw73"}],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W2948414426.pdf","grobid_xml":"https://content.openalex.org/works/W2948414426.grobid-xml"},"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0,113],"the":[1,88,92,99,110,140],"context":[2],"of":[3,45,91,101,109],"learning":[4],"deterministic":[5,46,145],"policies":[6],"in":[7,18,28,97,132],"continuous":[8],"domains,":[9],"we":[10,68,115,129],"revisit":[11],"an":[12],"approach,":[13],"which":[14],"was":[15],"first":[16],"proposed":[17],"Continuous":[19],"Actor":[20,31],"Critic":[21,32],"Learning":[22],"Automaton":[23],"(CACLA)":[24],"and":[25,85,118],"later":[26],"extended":[27],"Neural":[29],"Fitted":[30],"(NFAC).":[33],"This":[34],"approach":[35],"is":[36,62],"based":[37],"on":[38],"a":[39,59,70,106,120],"policy":[40,47,77],"update":[41,78,84],"different":[42],"from":[43],"that":[44,137],"gradient":[48],"(DPG).":[49],"Previous":[50],"work":[51],"has":[52],"observed":[53],"its":[54],"excellent":[55],"performance":[56],"empirically,":[57],"but":[58],"theoretical":[60,71],"justification":[61],"lacking.":[63],"To":[64],"fill":[65],"this":[66,75],"gap,":[67],"provide":[69],"explanation":[72],"to":[73,82,104,143],"motivate":[74],"unorthodox":[76],"by":[79],"relating":[80],"it":[81,117,138],"another":[83],"making":[86],"explicit":[87],"objective":[89],"function":[90],"latter.":[93],"We":[94],"furthermore":[95],"discuss":[96],"depth":[98],"properties":[100],"these":[102],"updates":[103],"get":[105],"deeper":[107],"understanding":[108],"overall":[111],"approach.":[112],"addition,":[114],"extend":[116],"propose":[119],"new":[121],"trust":[122],"region":[123],"algorithm,":[124],"Penalized":[125],"NFAC":[126],"(PeNFAC).":[127],"Finally,":[128],"experimentally":[130],"demonstrate":[131],"several":[133],"classic":[134],"control":[135],"problems":[136],"surpasses":[139],"state-of-the-art":[141],"algorithms":[142],"learn":[144],"policies.":[146]},"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2025,"cited_by_count":1},{"year":2023,"cited_by_count":1},{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":1},{"year":2019,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2019-06-14T00:00:00"}