{"id":"https://openalex.org/W4366381353","doi":"https://doi.org/10.1145/3584376.3584599","title":"An Improved Soft Q Imitation Learning based on Normalized Reward","display_name":"An Improved Soft Q Imitation Learning based on Normalized Reward","publication_year":2022,"publication_date":"2022-12-16","ids":{"openalex":"https://openalex.org/W4366381353","doi":"https://doi.org/10.1145/3584376.3584599"},"language":"en","primary_location":{"id":"doi:10.1145/3584376.3584599","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3584376.3584599","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2022 4th International Conference on Robotics, Intelligent Control and Artificial Intelligence","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5051555410","display_name":"Xiangren Kong","orcid":"https://orcid.org/0000-0003-2443-8261"},"institutions":[{"id":"https://openalex.org/I187400657","display_name":"South China Normal University","ror":"https://ror.org/01kq0pv72","country_code":"CN","type":"education","lineage":["https://openalex.org/I187400657"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiangren Kong","raw_affiliation_strings":["School of Computer Science, South China Normal University, China"],"raw_orcid":"https://orcid.org/0000-0003-2443-8261","affiliations":[{"raw_affiliation_string":"School of Computer Science, South China Normal University, China","institution_ids":["https://openalex.org/I187400657"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5038053678","display_name":"Gang Feng","orcid":"https://orcid.org/0000-0002-0572-8442"},"institutions":[{"id":"https://openalex.org/I187400657","display_name":"South China Normal University","ror":"https://ror.org/01kq0pv72","country_code":"CN","type":"education","lineage":["https://openalex.org/I187400657"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Gang Feng","raw_affiliation_strings":["School of Computer Science, South China Normal University, China"],"raw_orcid":"https://orcid.org/0000-0002-0572-8442","affiliations":[{"raw_affiliation_string":"School of Computer Science, South China Normal University, China","institution_ids":["https://openalex.org/I187400657"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I187400657"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1269","last_page":"1273"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9670000076293945,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9670000076293945,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11512","display_name":"Anomaly Detection Techniques and Applications","score":0.9527999758720398,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.9483000040054321,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7831379175186157},{"id":"https://openalex.org/keywords/discriminator","display_name":"Discriminator","score":0.7278878092765808},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6643785238265991},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6075906157493591},{"id":"https://openalex.org/keywords/imitation","display_name":"Imitation","score":0.523494303226471},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.5071704387664795},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.46803998947143555},{"id":"https://openalex.org/keywords/adversarial-system","display_name":"Adversarial system","score":0.4668614864349365},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4422323405742645},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.4377206861972809},{"id":"https://openalex.org/keywords/generative-grammar","display_name":"Generative grammar","score":0.4190576672554016},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.10803341865539551}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7831379175186157},{"id":"https://openalex.org/C2779803651","wikidata":"https://www.wikidata.org/wiki/Q5282088","display_name":"Discriminator","level":3,"score":0.7278878092765808},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6643785238265991},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6075906157493591},{"id":"https://openalex.org/C126388530","wikidata":"https://www.wikidata.org/wiki/Q1131737","display_name":"Imitation","level":2,"score":0.523494303226471},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.5071704387664795},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.46803998947143555},{"id":"https://openalex.org/C37736160","wikidata":"https://www.wikidata.org/wiki/Q1801315","display_name":"Adversarial system","level":2,"score":0.4668614864349365},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4422323405742645},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.4377206861972809},{"id":"https://openalex.org/C39890363","wikidata":"https://www.wikidata.org/wiki/Q36108","display_name":"Generative grammar","level":2,"score":0.4190576672554016},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.10803341865539551},{"id":"https://openalex.org/C76155785","wikidata":"https://www.wikidata.org/wiki/Q418","display_name":"Telecommunications","level":1,"score":0.0},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.0},{"id":"https://openalex.org/C94915269","wikidata":"https://www.wikidata.org/wiki/Q1834857","display_name":"Detector","level":2,"score":0.0},{"id":"https://openalex.org/C104317684","wikidata":"https://www.wikidata.org/wiki/Q7187","display_name":"Gene","level":2,"score":0.0},{"id":"https://openalex.org/C55493867","wikidata":"https://www.wikidata.org/wiki/Q7094","display_name":"Biochemistry","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3584376.3584599","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3584376.3584599","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2022 4th International Conference on Robotics, Intelligent Control and Artificial Intelligence","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/10","score":0.75,"display_name":"Reduced inequalities"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":9,"referenced_works":["https://openalex.org/W2051228319","https://openalex.org/W2559655401","https://openalex.org/W2890026535","https://openalex.org/W3126577088","https://openalex.org/W3207654079","https://openalex.org/W4365800068","https://openalex.org/W6683153233","https://openalex.org/W6718092244","https://openalex.org/W6771522568"],"related_works":["https://openalex.org/W4387497383","https://openalex.org/W3183948672","https://openalex.org/W3173606202","https://openalex.org/W3110381201","https://openalex.org/W2948807893","https://openalex.org/W2935909890","https://openalex.org/W2778153218","https://openalex.org/W2758277628","https://openalex.org/W1531601525","https://openalex.org/W2995777218"],"abstract_inverted_index":{"The":[0],"effect":[1,96],"of":[2,10,14,38,90],"imitation":[3,34],"on":[4,84],"expert":[5],"demonstrations":[6],"has":[7,40,47],"been":[8,41],"one":[9],"the":[11,36,44,94,141],"main":[12],"focuses":[13],"research":[15],"in":[16,140],"reinforcement":[17,29,87],"learning":[18,30,39,45,69,88],"for":[19],"a":[20,80,112,117],"long":[21],"time,":[22],"from":[23],"simple":[24],"behavioral":[25,64],"cloning":[26,65],"to":[27,108,121],"inverse":[28,86],"and":[31,50,66,93,105,138],"generative":[32],"adversarial":[33,85],"learning,":[35],"robustness":[37],"improved":[42],"but":[43],"process":[46],"become":[48],"more":[49,51,60],"tedious.":[52],"SQIL":[53,137],"(Soft":[54],"Q":[55,68],"Imitation":[56],"Learning)":[57],"could":[58],"learn":[59],"efficiently":[61],"by":[62],"combining":[63],"soft":[67],"with":[70,136],"constant":[71,91],"rewards.":[72],"Moreover,":[73],"DSAC":[74,139],"(Discriminator":[75],"Soft":[76],"Actor":[77],"Critic)":[78],"uses":[79,116],"reward":[81,119,123],"function":[82,120],"based":[83],"instead":[89],"rewards,":[92],"experimental":[95,144],"is":[97],"greatly":[98],"improved.":[99],"To":[100],"make":[101],"dynamic":[102],"rewards":[103],"easier":[104],"less":[106],"time-consuming":[107],"obtain,":[109],"we":[110],"propose":[111],"new":[113],"method":[114],"that":[115],"normalized":[118],"generate":[122],"values,":[124],"which":[125],"does":[126],"not":[127],"require":[128],"additional":[129],"network":[130],"training.":[131],"We":[132],"compare":[133],"our":[134],"algorithm":[135],"same":[142],"Pybullet":[143],"settings.":[145]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}