{"id":"https://openalex.org/W2118247991","doi":"https://doi.org/10.1109/cig.2011.6031994","title":"Reinforcement learning for the soccer dribbling task","display_name":"Reinforcement learning for the soccer dribbling task","publication_year":2011,"publication_date":"2011-08-01","ids":{"openalex":"https://openalex.org/W2118247991","doi":"https://doi.org/10.1109/cig.2011.6031994","mag":"2118247991"},"language":"en","primary_location":{"id":"doi:10.1109/cig.2011.6031994","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cig.2011.6031994","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2011 IEEE Conference on Computational Intelligence and Games (CIG'11)","raw_type":"proceedings-article"},"type":"article","indexed_in":["arxiv","crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/1305.6568","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Arthur Carvalho","orcid":null},"institutions":[{"id":"https://openalex.org/I151746483","display_name":"University of Waterloo","ror":"https://ror.org/01aff2v68","country_code":"CA","type":"education","lineage":["https://openalex.org/I151746483"]}],"countries":["CA"],"is_corresponding":true,"raw_author_name":"Arthur Carvalho","raw_affiliation_strings":["David Cheriton School of Computer Science at the University of Waterloo, Waterloo, Ontario, Canada"],"affiliations":[{"raw_affiliation_string":"David Cheriton School of Computer Science at the University of Waterloo, Waterloo, Ontario, Canada","institution_ids":["https://openalex.org/I151746483"]}]},{"author_position":"last","author":{"id":null,"display_name":"Renato Oliveira","orcid":null},"institutions":[{"id":"https://openalex.org/I25112270","display_name":"Universidade Federal de Pernambuco","ror":"https://ror.org/047908t24","country_code":"BR","type":"education","lineage":["https://openalex.org/I25112270"]}],"countries":["BR"],"is_corresponding":false,"raw_author_name":"Renato Oliveira","raw_affiliation_strings":["Center of Informatics at the Federal University of Pernambuco, Recife, Pernambuco, Brazil"],"affiliations":[{"raw_affiliation_string":"Center of Informatics at the Federal University of Pernambuco, Recife, Pernambuco, Brazil","institution_ids":["https://openalex.org/I25112270"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I151746483"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":4,"citation_normalized_percentile":{"value":0.13013368,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":96},"biblio":{"volume":"8","issue":null,"first_page":"95","last_page":"101"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9975000023841858,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9975000023841858,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.9889000058174133,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.9886999726295471,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8499000072479248},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.663100004196167},{"id":"https://openalex.org/keywords/adversary","display_name":"Adversary","score":0.5828999876976013},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.49799999594688416},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.4747999906539917},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.4620000123977661},{"id":"https://openalex.org/keywords/domain","display_name":"Domain (mathematical analysis)","score":0.38909998536109924},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.30979999899864197}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8499000072479248},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.663100004196167},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5909000039100647},{"id":"https://openalex.org/C41065033","wikidata":"https://www.wikidata.org/wiki/Q2825412","display_name":"Adversary","level":2,"score":0.5828999876976013},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5640000104904175},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.49799999594688416},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.4747999906539917},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.4620000123977661},{"id":"https://openalex.org/C36503486","wikidata":"https://www.wikidata.org/wiki/Q11235244","display_name":"Domain (mathematical analysis)","level":2,"score":0.38909998536109924},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.33640000224113464},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.30979999899864197},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.30570000410079956},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.30250000953674316},{"id":"https://openalex.org/C2780193096","wikidata":"https://www.wikidata.org/wiki/Q3543662","display_name":"Possession (linguistics)","level":2,"score":0.30070000886917114},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.29660001397132874},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.2793000042438507},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.2669999897480011},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.26649999618530273},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.26499998569488525},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.2639999985694885},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.25110000371932983}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/cig.2011.6031994","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cig.2011.6031994","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2011 IEEE Conference on Computational Intelligence and Games (CIG'11)","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:1305.6568","is_oa":true,"landing_page_url":"http://arxiv.org/abs/1305.6568","pdf_url":"https://arxiv.org/pdf/1305.6568","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:1305.6568","is_oa":true,"landing_page_url":"http://arxiv.org/abs/1305.6568","pdf_url":"https://arxiv.org/pdf/1305.6568","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":16,"referenced_works":["https://openalex.org/W1495978126","https://openalex.org/W1511279904","https://openalex.org/W1542072538","https://openalex.org/W1741816146","https://openalex.org/W1976115983","https://openalex.org/W2103019454","https://openalex.org/W2104641222","https://openalex.org/W2112254845","https://openalex.org/W2115288602","https://openalex.org/W2139418546","https://openalex.org/W2141754131","https://openalex.org/W6634944897","https://openalex.org/W6638088447","https://openalex.org/W6675698164","https://openalex.org/W6678114464","https://openalex.org/W6680602176"],"related_works":[],"abstract_inverted_index":{"We":[0],"propose":[1],"a":[2,11,15,28,46,109],"reinforcement":[3,83],"learning":[4,84],"solution":[5],"to":[6,19,24,39,55,65,73,104],"the":[7,22,25,33,43,49,52,67,82,97,100,115],"soccer":[8,16],"dribbling":[9],"task,":[10],"scenario":[12],"in":[13],"which":[14],"agent":[17],"has":[18],"go":[20],"from":[21],"beginning":[23],"end":[26],"of":[27,32,81,114],"region":[29],"keeping":[30],"possession":[31],"ball,":[34],"as":[35],"an":[36],"adversary":[37,44,111],"attempts":[38],"gain":[40],"possession.":[41],"While":[42],"uses":[45],"stationary":[47],"policy,":[48],"dribbler":[50,101],"learns":[51],"best":[53],"action":[54],"take":[56],"at":[57],"each":[58],"decision":[59],"point.":[60],"After":[61],"defining":[62],"meaningful":[63],"variables":[64],"represent":[66],"state":[68],"space,":[69],"and":[70],"high-level":[71],"macro-actions":[72],"incorporate":[74],"domain":[75],"knowledge,":[76],"we":[77],"describe":[78],"our":[79],"application":[80],"algorithm":[85],"Sarsa":[86],"with":[87],"CMAC":[88],"for":[89],"function":[90],"approximation.":[91],"Our":[92],"experiments":[93],"show":[94],"that,":[95],"after":[96],"training":[98],"period,":[99],"is":[102],"able":[103],"accomplish":[105],"its":[106],"task":[107],"against":[108],"strong":[110],"around":[112],"58%":[113],"time.":[116]},"counts_by_year":[{"year":2022,"cited_by_count":1},{"year":2018,"cited_by_count":1},{"year":2015,"cited_by_count":2}],"updated_date":"2026-03-20T23:20:44.827607","created_date":"2016-06-24T00:00:00"}