{"id":"https://openalex.org/W2050024476","doi":"https://doi.org/10.1145/1963564.1963578","title":"Evaluation of reinforcement learning techniques","display_name":"Evaluation of reinforcement learning techniques","publication_year":2010,"publication_date":"2010-12-27","ids":{"openalex":"https://openalex.org/W2050024476","doi":"https://doi.org/10.1145/1963564.1963578","mag":"2050024476"},"language":"en","primary_location":{"id":"doi:10.1145/1963564.1963578","is_oa":false,"landing_page_url":"https://doi.org/10.1145/1963564.1963578","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the First International Conference on Intelligent Interactive Technologies and Multimedia","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5003473723","display_name":"Anil Kumar Yadav","orcid":"https://orcid.org/0000-0003-4027-8229"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Anil Kumar Yadav","raw_affiliation_strings":["S.A.T.I., Vidisha, M. P, India"],"affiliations":[{"raw_affiliation_string":"S.A.T.I., Vidisha, M. P, India","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5029707763","display_name":"Shaillendra Kumar Shrivastava","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Shaillendra Kumar Shrivastava","raw_affiliation_strings":["S.A.T.I., Vidisha, M.P, India","S.A.T.I., Vidisha, M. P, India"],"affiliations":[{"raw_affiliation_string":"S.A.T.I., Vidisha, M.P, India","institution_ids":[]},{"raw_affiliation_string":"S.A.T.I., Vidisha, M. P, India","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5003473723"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.451,"has_fulltext":false,"cited_by_count":9,"citation_normalized_percentile":{"value":0.72644999,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"88","last_page":"92"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12761","display_name":"Data Stream Mining Techniques","score":0.9943000078201294,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12761","display_name":"Data Stream Mining Techniques","score":0.9943000078201294,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9585000276565552,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10270","display_name":"Blockchain Technology Applications and Security","score":0.9570000171661377,"subfield":{"id":"https://openalex.org/subfields/1710","display_name":"Information Systems"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.9446324110031128},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.791035532951355},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.7245649099349976},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.5801511406898499},{"id":"https://openalex.org/keywords/learning-classifier-system","display_name":"Learning classifier system","score":0.5389474630355835},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.5369972586631775},{"id":"https://openalex.org/keywords/state-space","display_name":"State space","score":0.5160055160522461},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.5080459117889404},{"id":"https://openalex.org/keywords/unsupervised-learning","display_name":"Unsupervised learning","score":0.4943196773529053},{"id":"https://openalex.org/keywords/robot-learning","display_name":"Robot learning","score":0.4736386835575104},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.4552430808544159},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.24826228618621826},{"id":"https://openalex.org/keywords/mobile-robot","display_name":"Mobile robot","score":0.08167922496795654}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.9446324110031128},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.791035532951355},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.7245649099349976},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5801511406898499},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.5389474630355835},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.5369972586631775},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.5160055160522461},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.5080459117889404},{"id":"https://openalex.org/C8038995","wikidata":"https://www.wikidata.org/wiki/Q1152135","display_name":"Unsupervised learning","level":2,"score":0.4943196773529053},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.4736386835575104},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.4552430808544159},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.24826228618621826},{"id":"https://openalex.org/C19966478","wikidata":"https://www.wikidata.org/wiki/Q4810574","display_name":"Mobile robot","level":3,"score":0.08167922496795654},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C151730666","wikidata":"https://www.wikidata.org/wiki/Q7205","display_name":"Paleontology","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/1963564.1963578","is_oa":false,"landing_page_url":"https://doi.org/10.1145/1963564.1963578","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the First International Conference on Intelligent Interactive Technologies and Multimedia","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.7900000214576721}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":12,"referenced_works":["https://openalex.org/W2102514760","https://openalex.org/W2107940981","https://openalex.org/W2117316169","https://openalex.org/W2125795529","https://openalex.org/W2140131224","https://openalex.org/W2149645818","https://openalex.org/W2151998323","https://openalex.org/W2154269462","https://openalex.org/W2154399718","https://openalex.org/W2171822154","https://openalex.org/W2751318774","https://openalex.org/W4230667489"],"related_works":["https://openalex.org/W1976483367","https://openalex.org/W1812381063","https://openalex.org/W2171968955","https://openalex.org/W2373034895","https://openalex.org/W3140225428","https://openalex.org/W2171128163","https://openalex.org/W1987864653","https://openalex.org/W1502839564","https://openalex.org/W3127551068","https://openalex.org/W2352281164"],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1,64,123,185,192,230],"is":[2,15,171,222],"became":[3],"one":[4],"of":[5,46,105,119,133,167,199,202,211,227],"the":[6,38,131,164,182,193,225],"most":[7],"important":[8],"approaches":[9],"to":[10,43,99,158,207],"machine":[11],"intelligence.":[12],"Now":[13],"RL":[14,50,81,120],"widely":[16],"use":[17],"by":[18,63],"different":[19],"research":[20,76],"field":[21],"as":[22,92],"intelligent":[23],"control,":[24],"robotics":[25],"and":[26,59,82,89,108,117,148,177,209,213],"neuroscience.":[27],"It":[28],"provides":[29],"us":[30],"possible":[31],"solution":[32],"within":[33],"unknown":[34],"environment,":[35],"but":[36],"at":[37],"same":[39],"time":[40,74],"we":[41,113,218],"have":[42],"take":[44,61],"care":[45],"its":[47,70,154],"decision":[48,62,102,173],"because":[49],"can":[51],"independently":[52],"learn":[53],"without":[54],"prior":[55],"knowledge":[56],"or":[57],"training":[58,128,200],"it":[60],"experience":[65],"through":[66],"trial-and-error":[67],"interaction":[68],"with":[69],"environment.":[71],"In":[72,205],"recent":[73],"many":[75],"works":[77],"was":[78],"done":[79],"for":[80,126,151,181],"researchers":[83],"has":[84],"also":[85],"proposed":[86,114],"various":[87],"algorithm":[88,116],"model":[90],"such":[91],"SARSA":[93],"[2],":[94],"TDN":[95,214],"[3]":[96],"which":[97],"tries":[98],"solve":[100],"sequential":[101],"making":[103,127,140],"problems":[104],"continuous":[106],"state":[107],"action":[109,180],"space.In":[110],"this":[111],"paper":[112],"Q-learning":[115],"evaluation":[118],"techniques":[121],"(Reinforcement":[122],"architecture,":[124],"algorithms":[125],"matrix":[129],"in":[130,145,156,188,224],"form":[132],"state-action":[134],"pair":[135],"Q-table)":[136],"containing":[137],"learner":[138,194],"(decision":[139],"agent)":[141],"that":[142,175,220],"takes":[143],"actions":[144,155],"an":[146,179],"environment":[147],"receive":[149,176],"reward":[150],"(or":[152],"penalty)":[153],"trying":[157],"solves":[159],"a":[160,172,197],"problems.":[161],"Learning":[162],"agent,":[163],"fundamental":[165],"element":[166],"reinforcement":[168,184,216],"learning,":[169,217],"there":[170],"maker":[174],"select":[178],"system.In":[183],"technique":[186],"especially":[187],"Query":[189],"base":[190],"self":[191],"(Agent)":[195],"required":[196],"lot":[198],"input":[201],"execution":[203],"cycle.":[204],"order":[206],"assess":[208],"comparison":[210],"QA":[212,221],"based":[215],"found":[219],"better":[223],"context":[226],"discount":[228],"rate,":[229],"time,":[231],"memory":[232],"usage.":[233]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2023,"cited_by_count":1},{"year":2021,"cited_by_count":1},{"year":2019,"cited_by_count":1},{"year":2016,"cited_by_count":2},{"year":2015,"cited_by_count":2}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}