{"id":"https://openalex.org/W2141690016","doi":"https://doi.org/10.1145/1553374.1553383","title":"Predictive representations for policy gradient in POMDPs","display_name":"Predictive representations for policy gradient in POMDPs","publication_year":2009,"publication_date":"2009-06-14","ids":{"openalex":"https://openalex.org/W2141690016","doi":"https://doi.org/10.1145/1553374.1553383","mag":"2141690016"},"language":"en","primary_location":{"id":"doi:10.1145/1553374.1553383","is_oa":false,"landing_page_url":"https://doi.org/10.1145/1553374.1553383","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 26th Annual International Conference on Machine Learning","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5068615270","display_name":"Abdeslam Boularias","orcid":"https://orcid.org/0000-0002-5587-4560"},"institutions":[{"id":"https://openalex.org/I43406934","display_name":"Universit\u00e9 Laval","ror":"https://ror.org/04sjchr03","country_code":"CA","type":"education","lineage":["https://openalex.org/I43406934"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Abdeslam Boularias","raw_affiliation_strings":["Laval University, Quebec, Canada"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Laval University, Quebec, Canada","institution_ids":["https://openalex.org/I43406934"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5002976111","display_name":"Brahim Chaib-draa","orcid":"https://orcid.org/0000-0001-7615-5154"},"institutions":[{"id":"https://openalex.org/I43406934","display_name":"Universit\u00e9 Laval","ror":"https://ror.org/04sjchr03","country_code":"CA","type":"education","lineage":["https://openalex.org/I43406934"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Brahim Chaib-draa","raw_affiliation_strings":["Laval University, Quebec, Canada"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Laval University, Quebec, Canada","institution_ids":["https://openalex.org/I43406934"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":1.3589,"has_fulltext":false,"cited_by_count":11,"citation_normalized_percentile":{"value":0.85569623,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"65","last_page":"72"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9857000112533569,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9857000112533569,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11195","display_name":"Simulation Techniques and Applications","score":0.9857000112533569,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9850999712944031,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6785537004470825},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4138861298561096},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.3535411059856415},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.13440746068954468}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6785537004470825},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4138861298561096},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3535411059856415},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.13440746068954468}],"mesh":[],"locations_count":5,"locations":[{"id":"doi:10.1145/1553374.1553383","is_oa":false,"landing_page_url":"https://doi.org/10.1145/1553374.1553383","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 26th Annual International Conference on Machine Learning","raw_type":"proceedings-article"},{"id":"pmh:oai:CiteSeerX.psu:10.1.1.149.4308","is_oa":false,"landing_page_url":"http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.149.4308","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"http://www.cs.mcgill.ca/~icml2009/papers/446.pdf","raw_type":"text"},{"id":"pmh:oai:CiteSeerX.psu:10.1.1.218.3626","is_oa":false,"landing_page_url":"http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.218.3626","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"http://damas.ift.ulaval.ca/publications/BoulariasChaibICML09.pdf","raw_type":"text"},{"id":"pmh:oai:alma.01RUT_INST:11665196980004646","is_oa":false,"landing_page_url":"https://scholarship.libraries.rutgers.edu/esploro/outputs/conferenceProceeding/Predictive-representations-for-policy-gradient-in/991031665984704646","pdf_url":null,"source":{"id":"https://openalex.org/S4210197018","display_name":"View","issn_l":"2688-268X","issn":["2688-268X","2688-3988"],"is_oa":false,"is_in_doaj":true,"is_core":true,"host_organization":"https://openalex.org/P4310320595","host_organization_name":"Wiley","host_organization_lineage":["https://openalex.org/P4310320595"],"host_organization_lineage_names":["Wiley"],"type":"journal"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Conference Proceedings"},{"id":"pmh:oai:pure.mpg.de:item_1789336","is_oa":false,"landing_page_url":"http://hdl.handle.net/11858/00-001M-0000-0013-C4A1-C","pdf_url":null,"source":{"id":"https://openalex.org/S4306400654","display_name":"MPG.PuRe (Max Planck Society)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I149899117","host_organization_name":"Max Planck Society","host_organization_lineage":["https://openalex.org/I149899117"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"ACM International Conference Proceeding Series","raw_type":"info:eu-repo/semantics/conferenceObject"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.8100000023841858,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":14,"referenced_works":["https://openalex.org/W1540337045","https://openalex.org/W1557073320","https://openalex.org/W1568770747","https://openalex.org/W1575130825","https://openalex.org/W1594871463","https://openalex.org/W1640774615","https://openalex.org/W2033976720","https://openalex.org/W2058853801","https://openalex.org/W2071988465","https://openalex.org/W2097267906","https://openalex.org/W2127107099","https://openalex.org/W2155027007","https://openalex.org/W2158282517","https://openalex.org/W2172968643"],"related_works":["https://openalex.org/W2748952813","https://openalex.org/W2390279801","https://openalex.org/W2358668433","https://openalex.org/W2376932109","https://openalex.org/W2001405890","https://openalex.org/W2382290278","https://openalex.org/W2478288626","https://openalex.org/W2350741829","https://openalex.org/W2530322880","https://openalex.org/W1596801655"],"abstract_inverted_index":{"We":[0,30,51,91],"consider":[1],"the":[2,6,75,78,88,94,111,117,130,135],"problem":[3],"of":[4,20,77,113,120],"estimating":[5],"policy":[7,46,123],"gradient":[8,47,136],"in":[9,49,110],"Partially":[10],"Observable":[11],"Markov":[12],"Decision":[13],"Processes":[14],"(POMDPs)":[15],"with":[16,105],"a":[17,42,53,68,106,121,144],"special":[18],"class":[19],"policies":[21,33],"that":[22,71,93],"are":[23,39,83],"based":[24],"on":[25],"Predictive":[26],"State":[27],"Representations":[28],"(PSRs).":[29],"compare":[31],"PSR":[32,62,103,114,122],"to":[34,86,141,143],"Finite-State":[35],"Controllers":[36],"(FSCs),":[37],"which":[38],"considered":[40],"as":[41,73],"standard":[43],"model":[44],"for":[45,57,99],"methods":[48],"POMDPs.":[50],"present":[52],"general":[54],"Actor-Critic":[55],"algorithm":[56,137],"learning":[58],"both":[59,100],"FSCs":[60,101],"and":[61,102,133],"policies.":[63,115],"The":[64],"critic":[65],"part":[66],"computes":[67],"value":[69,89,95,118],"function":[70,96,119],"has":[72],"variables":[74],"parameters":[76,82],"policy.":[79],"These":[80],"latter":[81],"gradually":[84],"updated":[85],"maximize":[87],"function.":[90],"show":[92],"is":[97,138],"polynomial":[98],"policies,":[104],"potentially":[107],"smaller":[108],"degree":[109],"case":[112],"Therefore,":[116],"can":[124],"have":[125],"less":[126],"local":[127],"optima":[128],"than":[129],"equivalent":[131],"FSC,":[132],"consequently,":[134],"more":[139],"likely":[140],"converge":[142],"global":[145],"optimal":[146],"solution.":[147]},"counts_by_year":[{"year":2023,"cited_by_count":2},{"year":2021,"cited_by_count":2},{"year":2020,"cited_by_count":2},{"year":2019,"cited_by_count":1},{"year":2014,"cited_by_count":1},{"year":2012,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}