{"id":"https://openalex.org/W7154068679","doi":"https://doi.org/10.48550/arxiv.2604.08685","title":"RAMP: Hybrid DRL for Online Learning of Numeric Action Models","display_name":"RAMP: Hybrid DRL for Online Learning of Numeric Action Models","publication_year":2026,"publication_date":"2026-04-09","ids":{"openalex":"https://openalex.org/W7154068679","doi":"https://doi.org/10.48550/arxiv.2604.08685"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.08685","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.08685","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.08685","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5098974818","display_name":"Yarin Benyamin","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Benyamin, Yarin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5087931133","display_name":"Argaman Mordoch","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Mordoch, Argaman","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5073638946","display_name":"Shahaf Shperberg","orcid":"https://orcid.org/0000-0001-7683-3031"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Shperberg, Shahaf S.","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5085970582","display_name":"Roni Stern","orcid":"https://orcid.org/0000-0003-0043-8179"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Stern, Roni","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5098974818"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10906","display_name":"AI-based Problem Solving and Planning","score":0.5878999829292297,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10906","display_name":"AI-based Problem Solving and Planning","score":0.5878999829292297,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.26600000262260437,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.06459999829530716,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7337999939918518},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.705299973487854},{"id":"https://openalex.org/keywords/planner","display_name":"Planner","score":0.5860000252723694},{"id":"https://openalex.org/keywords/automated-planning-and-scheduling","display_name":"Automated planning and scheduling","score":0.5680000185966492},{"id":"https://openalex.org/keywords/plan","display_name":"Plan (archaeology)","score":0.5382000207901001},{"id":"https://openalex.org/keywords/train","display_name":"Train","score":0.48080000281333923},{"id":"https://openalex.org/keywords/online-model","display_name":"Online model","score":0.3959999978542328}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7565000057220459},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7337999939918518},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.705299973487854},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6793000102043152},{"id":"https://openalex.org/C2776999362","wikidata":"https://www.wikidata.org/wiki/Q2349274","display_name":"Planner","level":2,"score":0.5860000252723694},{"id":"https://openalex.org/C114073186","wikidata":"https://www.wikidata.org/wiki/Q2631895","display_name":"Automated planning and scheduling","level":2,"score":0.5680000185966492},{"id":"https://openalex.org/C2776505523","wikidata":"https://www.wikidata.org/wiki/Q4785468","display_name":"Plan (archaeology)","level":2,"score":0.5382000207901001},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5181000232696533},{"id":"https://openalex.org/C190839683","wikidata":"https://www.wikidata.org/wiki/Q2448197","display_name":"Train","level":2,"score":0.48080000281333923},{"id":"https://openalex.org/C2777851325","wikidata":"https://www.wikidata.org/wiki/Q7094102","display_name":"Online model","level":2,"score":0.3959999978542328},{"id":"https://openalex.org/C2986087404","wikidata":"https://www.wikidata.org/wiki/Q15946010","display_name":"Online learning","level":2,"score":0.3801000118255615},{"id":"https://openalex.org/C2780210234","wikidata":"https://www.wikidata.org/wiki/Q422638","display_name":"Action plan","level":2,"score":0.32739999890327454},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.2985999882221222},{"id":"https://openalex.org/C67186912","wikidata":"https://www.wikidata.org/wiki/Q367664","display_name":"Data modeling","level":2,"score":0.27379998564720154},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.2736000120639801},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.26820001006126404},{"id":"https://openalex.org/C3018790387","wikidata":"https://www.wikidata.org/wiki/Q869010","display_name":"Hybrid learning","level":2,"score":0.26159998774528503}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.08685","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.08685","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.08685","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.08685","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Automated":[0],"planning":[1,58,141],"algorithms":[2,32],"require":[3],"an":[4,135],"action":[5,24,59,79,109],"model":[6,19,80,87],"specifying":[7],"the":[8,45,65,101,108,112,119],"preconditions":[9],"and":[10,51,84,128,167],"effects":[11],"of":[12,126,165],"each":[13],"action,":[14],"but":[15,30],"obtaining":[16],"such":[17],"a":[18,70,77,97,159],"is":[20,28],"often":[21],"hard.":[22],"Learning":[23,73],"models":[25,60],"from":[26,81],"observations":[27],"feasible,":[29],"existing":[31],"for":[33,55,138],"numeric":[34,57,78,129,140,151],"domains":[35,152],"are":[36],"offline,":[37],"requiring":[38],"expert":[39],"traces":[40],"as":[41],"input.":[42],"We":[43],"propose":[44],"Reinforcement":[46,72],"learning,":[47,50],"Action":[48],"Model":[49],"Planning":[52],"(RAMP)":[53],"strategy":[54],"learning":[56],"online":[61],"via":[62],"interactions":[63],"with":[64],"environment.":[66],"RAMP":[67,155],"simultaneously":[68],"trains":[69],"Deep":[71],"(DRL)":[74],"policy,":[75],"learns":[76],"past":[82],"interactions,":[83],"uses":[85],"that":[86,154],"to":[88,106,116,143],"plan":[89,168],"future":[90],"actions":[91],"when":[92],"possible.":[93],"These":[94],"components":[95],"form":[96],"positive":[98],"feedback":[99],"loop:":[100],"RL":[102,120,127],"policy":[103],"gathers":[104],"data":[105],"refine":[107],"model,":[110],"while":[111],"planner":[113],"generates":[114],"plans":[115],"continue":[117],"training":[118],"policy.":[121],"To":[122],"facilitate":[123],"this":[124],"integration":[125],"planning,":[130],"we":[131],"developed":[132],"Numeric":[133],"PDDLGym,":[134],"automated":[136],"framework":[137],"converting":[139],"problems":[142],"Gym":[144],"environments.":[145],"Experimental":[146],"results":[147],"on":[148],"standard":[149],"IPC":[150],"show":[153],"significantly":[156],"outperforms":[157],"PPO,":[158],"well-known":[160],"DRL":[161],"algorithm,":[162],"in":[163],"terms":[164],"solvability":[166],"quality.":[169]},"counts_by_year":[],"updated_date":"2026-04-14T06:08:25.285971","created_date":"2026-04-14T00:00:00"}