{"id":"https://openalex.org/W2902408605","doi":"https://doi.org/10.1109/icpr.2018.8545231","title":"Stabilizing Actor Policies by Approximating Advantage Distributions from K Critics","display_name":"Stabilizing Actor Policies by Approximating Advantage Distributions from K Critics","publication_year":2018,"publication_date":"2018-08-01","ids":{"openalex":"https://openalex.org/W2902408605","doi":"https://doi.org/10.1109/icpr.2018.8545231","mag":"2902408605"},"language":"en","primary_location":{"id":"doi:10.1109/icpr.2018.8545231","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icpr.2018.8545231","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2018 24th International Conference on Pattern Recognition (ICPR)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5030904209","display_name":"Alfonso B. Labao","orcid":"https://orcid.org/0000-0001-5321-377X"},"institutions":[{"id":"https://openalex.org/I87074743","display_name":"University of the Philippines Diliman","ror":"https://ror.org/03tbh6y23","country_code":"PH","type":"education","lineage":["https://openalex.org/I103911934","https://openalex.org/I87074743"]}],"countries":["PH"],"is_corresponding":true,"raw_author_name":"Alfonso B. Labao","raw_affiliation_strings":["Department of Computer Science, College of Engineering University of the Philippines-Diliman"],"affiliations":[{"raw_affiliation_string":"Department of Computer Science, College of Engineering University of the Philippines-Diliman","institution_ids":["https://openalex.org/I87074743"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5005869214","display_name":"Prospero C. Naval","orcid":"https://orcid.org/0000-0001-7140-1707"},"institutions":[{"id":"https://openalex.org/I87074743","display_name":"University of the Philippines Diliman","ror":"https://ror.org/03tbh6y23","country_code":"PH","type":"education","lineage":["https://openalex.org/I103911934","https://openalex.org/I87074743"]}],"countries":["PH"],"is_corresponding":false,"raw_author_name":"Prospero C. Naval","raw_affiliation_strings":["Department of Computer Science, College of Engineering University of the Philippines-Diliman"],"affiliations":[{"raw_affiliation_string":"Department of Computer Science, College of Engineering University of the Philippines-Diliman","institution_ids":["https://openalex.org/I87074743"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5030904209"],"corresponding_institution_ids":["https://openalex.org/I87074743"],"apc_list":null,"apc_paid":null,"fwci":0.1629,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.60432598,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":"30","issue":null,"first_page":"1253","last_page":"1258"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.9954000115394592,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10409","display_name":"Fuel Cells and Related Materials","score":0.9940999746322632,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7270874977111816},{"id":"https://openalex.org/keywords/variance","display_name":"Variance (accounting)","score":0.6563645005226135},{"id":"https://openalex.org/keywords/kernel","display_name":"Kernel (algebra)","score":0.6457532644271851},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6282771229743958},{"id":"https://openalex.org/keywords/convolution","display_name":"Convolution (computer science)","score":0.5730317234992981},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.5118226408958435},{"id":"https://openalex.org/keywords/histogram","display_name":"Histogram","score":0.5007295608520508},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.48271581530570984},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.45666438341140747},{"id":"https://openalex.org/keywords/variance-reduction","display_name":"Variance reduction","score":0.4512580335140228},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.43345773220062256},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.3911697268486023},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.3438958525657654},{"id":"https://openalex.org/keywords/image","display_name":"Image (mathematics)","score":0.16025549173355103},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.13762855529785156}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7270874977111816},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.6563645005226135},{"id":"https://openalex.org/C74193536","wikidata":"https://www.wikidata.org/wiki/Q574844","display_name":"Kernel (algebra)","level":2,"score":0.6457532644271851},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6282771229743958},{"id":"https://openalex.org/C45347329","wikidata":"https://www.wikidata.org/wiki/Q5166604","display_name":"Convolution (computer science)","level":3,"score":0.5730317234992981},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.5118226408958435},{"id":"https://openalex.org/C53533937","wikidata":"https://www.wikidata.org/wiki/Q185020","display_name":"Histogram","level":3,"score":0.5007295608520508},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.48271581530570984},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.45666438341140747},{"id":"https://openalex.org/C62644790","wikidata":"https://www.wikidata.org/wiki/Q3454689","display_name":"Variance reduction","level":3,"score":0.4512580335140228},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.43345773220062256},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3911697268486023},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.3438958525657654},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.16025549173355103},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.13762855529785156},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C121955636","wikidata":"https://www.wikidata.org/wiki/Q4116214","display_name":"Accounting","level":1,"score":0.0},{"id":"https://openalex.org/C114614502","wikidata":"https://www.wikidata.org/wiki/Q76592","display_name":"Combinatorics","level":1,"score":0.0},{"id":"https://openalex.org/C144133560","wikidata":"https://www.wikidata.org/wiki/Q4830453","display_name":"Business","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icpr.2018.8545231","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icpr.2018.8545231","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2018 24th International Conference on Pattern Recognition (ICPR)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":32,"referenced_works":["https://openalex.org/W1191599655","https://openalex.org/W2033178790","https://openalex.org/W2114451917","https://openalex.org/W2121863487","https://openalex.org/W2124175081","https://openalex.org/W2145339207","https://openalex.org/W2155968351","https://openalex.org/W2173564293","https://openalex.org/W2596758708","https://openalex.org/W2604268026","https://openalex.org/W2620671107","https://openalex.org/W2746553466","https://openalex.org/W2761873684","https://openalex.org/W2767029636","https://openalex.org/W2782108898","https://openalex.org/W2951799221","https://openalex.org/W2953364219","https://openalex.org/W2963423916","https://openalex.org/W2963871073","https://openalex.org/W2963959137","https://openalex.org/W2964043796","https://openalex.org/W4214717370","https://openalex.org/W4298876402","https://openalex.org/W6627932998","https://openalex.org/W6676772908","https://openalex.org/W6678114464","https://openalex.org/W6683300800","https://openalex.org/W6685444567","https://openalex.org/W6692846177","https://openalex.org/W6735506055","https://openalex.org/W6736309856","https://openalex.org/W6738741286"],"related_works":["https://openalex.org/W4362501864","https://openalex.org/W2886060011","https://openalex.org/W4306904969","https://openalex.org/W4386858688","https://openalex.org/W3034421924","https://openalex.org/W2982536526","https://openalex.org/W4380302312","https://openalex.org/W4390971171","https://openalex.org/W4385338604","https://openalex.org/W3081626085"],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1],"algorithms":[2],"that":[3,32,51,90,100,126],"use":[4,33],"policy":[5,11,41],"gradient":[6,54],"methods":[7,31],"approach":[8,80],"an":[9,45,74],"optimal":[10],"faster":[12],"than":[13],"Q-learning":[14],"but":[15],"at":[16],"the":[17,48,70,92,131,145],"cost":[18],"of":[19,58,69,118],"incurring":[20],"high":[21],"variances":[22],"in":[23,87,102],"gradients.":[24],"Among":[25],"variance":[26,55,97],"reduction":[27,98],"techniques":[28],"are":[29],"actor-critic":[30,49],"value":[34],"and":[35,139],"advantage":[36,59,75,94],"functions":[37],"to":[38,136,144],"train":[39],"a":[40,78,116],"actor.":[42],"We":[43,66,85,111],"propose":[44],"algorithm":[46,114,129],"under":[47],"family":[50],"further":[52],"reduces":[53],"through":[56],"estimation":[57],"distributions":[60],"from":[61],"K":[62,71],"deep":[63],"network":[64],"critics.":[65],"combine":[67],"outputs":[68],"critics":[72],"into":[73],"distribution":[76,95],"using":[77,91],"histogram":[79],"followed":[81],"by":[82],"kernel":[83],"convolution.":[84],"show":[86,125],"our":[88,113,127],"analysis":[89],"K-critic":[93],"provides":[96],"properties":[99],"results":[101,124],"more":[103],"stable":[104],"performance":[105],"even":[106],"on":[107,115],"long":[108],"training":[109],"runs.":[110],"test":[112],"set":[117],"high-dimensional":[119],"VizDoom":[120],"experiments.":[121],"Our":[122],"experimental":[123],"proposed":[128],"attains":[130],"most":[132],"average":[133],"rewards":[134],"compared":[135,143],"other":[137],"methods,":[138],"with":[140],"less":[141],"noise":[142],"1-critic":[146],"method.":[147]},"counts_by_year":[{"year":2020,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}