{"id":"https://openalex.org/W2104727569","doi":"https://doi.org/10.1109/fuzzy.2010.5584788","title":"Instruction for reinforcement learning agent based on sub-rewards and forgetting","display_name":"Instruction for reinforcement learning agent based on sub-rewards and forgetting","publication_year":2010,"publication_date":"2010-07-01","ids":{"openalex":"https://openalex.org/W2104727569","doi":"https://doi.org/10.1109/fuzzy.2010.5584788","mag":"2104727569"},"language":"en","primary_location":{"id":"doi:10.1109/fuzzy.2010.5584788","is_oa":false,"landing_page_url":"https://doi.org/10.1109/fuzzy.2010.5584788","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"International Conference on Fuzzy Systems","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5017591243","display_name":"Toshihiko Watanabe","orcid":"https://orcid.org/0000-0003-4096-4990"},"institutions":[{"id":"https://openalex.org/I189513530","display_name":"Osaka Electro-Communication University","ror":"https://ror.org/056bksm23","country_code":"JP","type":"education","lineage":["https://openalex.org/I189513530"]}],"countries":["JP"],"is_corresponding":true,"raw_author_name":"Toshihiko Watanabe","raw_affiliation_strings":["T. Watanabe is with the Osaka Electro-Communication University, Neyagawa, Osaka, JAPAN","Osaka Electro-Communication University Neyagawa Osaka Japan"],"affiliations":[{"raw_affiliation_string":"T. Watanabe is with the Osaka Electro-Communication University, Neyagawa, Osaka, JAPAN","institution_ids":["https://openalex.org/I189513530"]},{"raw_affiliation_string":"Osaka Electro-Communication University Neyagawa Osaka Japan","institution_ids":["https://openalex.org/I189513530"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5051811194","display_name":"Toru Sawa","orcid":null},"institutions":[{"id":"https://openalex.org/I189513530","display_name":"Osaka Electro-Communication University","ror":"https://ror.org/056bksm23","country_code":"JP","type":"education","lineage":["https://openalex.org/I189513530"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Toru Sawa","raw_affiliation_strings":["T. Watanabe is with the Osaka Electro-Communication University, Neyagawa, Osaka, JAPAN","Osaka Electro-Communication University Neyagawa Osaka Japan"],"affiliations":[{"raw_affiliation_string":"T. Watanabe is with the Osaka Electro-Communication University, Neyagawa, Osaka, JAPAN","institution_ids":["https://openalex.org/I189513530"]},{"raw_affiliation_string":"Osaka Electro-Communication University Neyagawa Osaka Japan","institution_ids":["https://openalex.org/I189513530"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5017591243"],"corresponding_institution_ids":["https://openalex.org/I189513530"],"apc_list":null,"apc_paid":null,"fwci":0.9021,"has_fulltext":false,"cited_by_count":6,"citation_normalized_percentile":{"value":0.80951369,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":"12","issue":null,"first_page":"1","last_page":"7"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9987000226974487,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9987000226974487,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11975","display_name":"Evolutionary Algorithms and Applications","score":0.9779000282287598,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11099","display_name":"Autonomous Vehicle Technology and Safety","score":0.9670000076293945,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8989032506942749},{"id":"https://openalex.org/keywords/forgetting","display_name":"Forgetting","score":0.8341718316078186},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7279949188232422},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6246976852416992},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6028370261192322},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.599641740322113},{"id":"https://openalex.org/keywords/abstraction","display_name":"Abstraction","score":0.5650017857551575},{"id":"https://openalex.org/keywords/robot-learning","display_name":"Robot learning","score":0.5234241485595703},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.42587220668792725},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.41846877336502075},{"id":"https://openalex.org/keywords/learning-classifier-system","display_name":"Learning classifier system","score":0.414900004863739},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.36175400018692017},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.35560375452041626},{"id":"https://openalex.org/keywords/mobile-robot","display_name":"Mobile robot","score":0.3122760057449341},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.0920102596282959},{"id":"https://openalex.org/keywords/cognitive-psychology","display_name":"Cognitive psychology","score":0.06984195113182068}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8989032506942749},{"id":"https://openalex.org/C7149132","wikidata":"https://www.wikidata.org/wiki/Q1377840","display_name":"Forgetting","level":2,"score":0.8341718316078186},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7279949188232422},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6246976852416992},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6028370261192322},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.599641740322113},{"id":"https://openalex.org/C124304363","wikidata":"https://www.wikidata.org/wiki/Q673661","display_name":"Abstraction","level":2,"score":0.5650017857551575},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.5234241485595703},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.42587220668792725},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.41846877336502075},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.414900004863739},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.36175400018692017},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.35560375452041626},{"id":"https://openalex.org/C19966478","wikidata":"https://www.wikidata.org/wiki/Q4810574","display_name":"Mobile robot","level":3,"score":0.3122760057449341},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.0920102596282959},{"id":"https://openalex.org/C180747234","wikidata":"https://www.wikidata.org/wiki/Q23373","display_name":"Cognitive psychology","level":1,"score":0.06984195113182068},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C66938386","wikidata":"https://www.wikidata.org/wiki/Q633538","display_name":"Structural engineering","level":1,"score":0.0},{"id":"https://openalex.org/C201995342","wikidata":"https://www.wikidata.org/wiki/Q682496","display_name":"Systems engineering","level":1,"score":0.0},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.0},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/fuzzy.2010.5584788","is_oa":false,"landing_page_url":"https://doi.org/10.1109/fuzzy.2010.5584788","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"International Conference on Fuzzy Systems","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":22,"referenced_works":["https://openalex.org/W1557517019","https://openalex.org/W1590744975","https://openalex.org/W1606787960","https://openalex.org/W1901374694","https://openalex.org/W1979500821","https://openalex.org/W2045257906","https://openalex.org/W2114356476","https://openalex.org/W2150884987","https://openalex.org/W2167647761","https://openalex.org/W2170529166","https://openalex.org/W2577906777","https://openalex.org/W2911283634","https://openalex.org/W2914656440","https://openalex.org/W2954458012","https://openalex.org/W3146792363","https://openalex.org/W4301630257","https://openalex.org/W6605421583","https://openalex.org/W6635495631","https://openalex.org/W6677290467","https://openalex.org/W6684903566","https://openalex.org/W6732158685","https://openalex.org/W7015059260"],"related_works":["https://openalex.org/W1976483367","https://openalex.org/W1986404990","https://openalex.org/W1812381063","https://openalex.org/W2766258251","https://openalex.org/W2373034895","https://openalex.org/W2171128163","https://openalex.org/W1502839564","https://openalex.org/W1987864653","https://openalex.org/W3127551068","https://openalex.org/W2352281164"],"abstract_inverted_index":{"In":[0,118,168],"order":[1,152],"to":[2,52,56,91,134,142,153,159],"realize":[3],"intelligent":[4],"agent":[5,33,146,178],"such":[6,75],"as":[7,76,103],"autonomous":[8],"mobile":[9],"robots,":[10],"Reinforcement":[11],"Learning":[12],"is":[13,23,37,63,125,133],"one":[14],"of":[15,27,32,44,99,113,116,123,166,188,199,205],"the":[16,70,97,119,143,155,200],"necessary":[17],"techniques":[18,109],"in":[19,25,66,151,203],"control":[20],"system.":[21],"It":[22],"desirable":[24],"terms":[26,204],"knowledge":[28],"or":[29],"skill":[30],"acquisition":[31],"that":[34,138],"reinforcement":[35,54,79,100,144,176],"learning":[36,55,67,80,101,124,145,156,162,177,206],"based":[38,87,179],"only":[39],"upon":[40],"rewards":[41,90,150],"concept":[42],"instead":[43],"teaching":[45],"signal.":[46],"However,":[47],"there":[48],"exist":[49],"many":[50],"problems":[51],"apply":[53],"actual":[57],"problem.":[58],"The":[59,84],"most":[60],"severe":[61],"problem":[62],"huge":[64],"iterations":[65],"process.":[68],"On":[69],"other":[71],"hand,":[72],"several":[73],"methods":[74,85],"intrinsically":[77],"motivated":[78],"have":[81],"been":[82],"studied.":[83],"are":[86,107],"on":[88,180],"internal":[89],"formulate":[92],"behavioral":[93],"rules":[94],"abstracted":[95],"from":[96],"results":[98],"expressed":[102],"action":[104],"rules.":[105],"They":[106],"promising":[108],"for":[110,164,175],"task":[111,115,191],"decomposition":[112],"complicated":[114],"agent.":[117],"abstraction":[120],"process,":[121],"segmentation":[122],"an":[126],"indispensable":[127],"and":[128,158,182,192,208],"essential":[129],"technique.":[130],"Our":[131],"motivation":[132],"utilize":[135],"appropriately":[136],"instructions":[137],"we":[139,171,196],"can":[140],"give":[141],"along":[147],"with":[148],"main":[149],"haste":[154],"process":[157],"attain":[160],"valid":[161],"performance":[163],"preparation":[165],"segmentation.":[167],"this":[169],"study,":[170],"propose":[172],"instruction":[173],"approach":[174,202],"sub-reward":[181],"forgetting":[183],"mechanism.":[184],"Through":[185],"numerical":[186],"experiments":[187],"grid":[189],"world":[190],"mountain":[193],"car":[194],"task,":[195],"show":[197],"validness":[198],"proposed":[201],"speed":[207],"accuracy.":[209]},"counts_by_year":[{"year":2023,"cited_by_count":1},{"year":2019,"cited_by_count":1},{"year":2017,"cited_by_count":1},{"year":2014,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}