{"id":"https://openalex.org/W4401863555","doi":"https://doi.org/10.1145/3637528.3671705","title":"Policy-Based Bayesian Active Causal Discovery with Deep Reinforcement Learning","display_name":"Policy-Based Bayesian Active Causal Discovery with Deep Reinforcement Learning","publication_year":2024,"publication_date":"2024-08-24","ids":{"openalex":"https://openalex.org/W4401863555","doi":"https://doi.org/10.1145/3637528.3671705"},"language":"en","primary_location":{"id":"doi:10.1145/3637528.3671705","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3637528.3671705","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3637528.3671705","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://dl.acm.org/doi/pdf/10.1145/3637528.3671705","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5036086679","display_name":"Heyang Gao","orcid":"https://orcid.org/0009-0006-9743-2732"},"institutions":[{"id":"https://openalex.org/I78988378","display_name":"Renmin University of China","ror":"https://ror.org/041pakw92","country_code":"CN","type":"education","lineage":["https://openalex.org/I78988378"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Heyang Gao","raw_affiliation_strings":["Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"],"raw_orcid":"https://orcid.org/0009-0006-9743-2732","affiliations":[{"raw_affiliation_string":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China","institution_ids":["https://openalex.org/I78988378"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5087242567","display_name":"Zexu Sun","orcid":"https://orcid.org/0000-0002-6727-6242"},"institutions":[{"id":"https://openalex.org/I78988378","display_name":"Renmin University of China","ror":"https://ror.org/041pakw92","country_code":"CN","type":"education","lineage":["https://openalex.org/I78988378"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zexu Sun","raw_affiliation_strings":["Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"],"raw_orcid":"https://orcid.org/0000-0002-6727-6242","affiliations":[{"raw_affiliation_string":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China","institution_ids":["https://openalex.org/I78988378"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101551028","display_name":"Hao Yang","orcid":"https://orcid.org/0009-0008-5365-897X"},"institutions":[{"id":"https://openalex.org/I78988378","display_name":"Renmin University of China","ror":"https://ror.org/041pakw92","country_code":"CN","type":"education","lineage":["https://openalex.org/I78988378"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Hao Yang","raw_affiliation_strings":["Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"],"raw_orcid":"https://orcid.org/0009-0008-5365-897X","affiliations":[{"raw_affiliation_string":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China","institution_ids":["https://openalex.org/I78988378"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5101755392","display_name":"Xu Chen","orcid":"https://orcid.org/0000-0003-0144-1775"},"institutions":[{"id":"https://openalex.org/I78988378","display_name":"Renmin University of China","ror":"https://ror.org/041pakw92","country_code":"CN","type":"education","lineage":["https://openalex.org/I78988378"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xu Chen","raw_affiliation_strings":["Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"],"raw_orcid":"https://orcid.org/0000-0003-0144-1775","affiliations":[{"raw_affiliation_string":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China","institution_ids":["https://openalex.org/I78988378"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I78988378"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":true,"cited_by_count":2,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"839","last_page":"850"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9951000213623047,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9951000213623047,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11303","display_name":"Bayesian Modeling and Causal Inference","score":0.983299970626831,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11443","display_name":"Advanced Statistical Process Monitoring","score":0.9708999991416931,"subfield":{"id":"https://openalex.org/subfields/1804","display_name":"Statistics, Probability and Uncertainty"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7192051410675049},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6860390305519104},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.6154531240463257},{"id":"https://openalex.org/keywords/partially-observable-markov-decision-process","display_name":"Partially observable Markov decision process","score":0.5926534533500671},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5699673891067505},{"id":"https://openalex.org/keywords/causal-inference","display_name":"Causal inference","score":0.5349081754684448},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.49878549575805664},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.44471126794815063},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.44324877858161926},{"id":"https://openalex.org/keywords/bayesian-inference","display_name":"Bayesian inference","score":0.4374402165412903},{"id":"https://openalex.org/keywords/bayesian-optimization","display_name":"Bayesian optimization","score":0.43209171295166016},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.3445470333099365},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.19563278555870056},{"id":"https://openalex.org/keywords/markov-model","display_name":"Markov model","score":0.16357716917991638},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.10845032334327698}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7192051410675049},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6860390305519104},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6154531240463257},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.5926534533500671},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5699673891067505},{"id":"https://openalex.org/C158600405","wikidata":"https://www.wikidata.org/wiki/Q5054566","display_name":"Causal inference","level":2,"score":0.5349081754684448},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.49878549575805664},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.44471126794815063},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.44324877858161926},{"id":"https://openalex.org/C160234255","wikidata":"https://www.wikidata.org/wiki/Q812535","display_name":"Bayesian inference","level":3,"score":0.4374402165412903},{"id":"https://openalex.org/C2778049539","wikidata":"https://www.wikidata.org/wiki/Q17002908","display_name":"Bayesian optimization","level":2,"score":0.43209171295166016},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.3445470333099365},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.19563278555870056},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.16357716917991638},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.10845032334327698},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C149782125","wikidata":"https://www.wikidata.org/wiki/Q160039","display_name":"Econometrics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3637528.3671705","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3637528.3671705","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3637528.3671705","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.1145/3637528.3671705","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3637528.3671705","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3637528.3671705","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G639102501","display_name":null,"funder_award_id":"62102420","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"}],"funders":[{"id":"https://openalex.org/F4320321001","display_name":"National Natural Science Foundation of China","ror":"https://ror.org/01h0zpd94"},{"id":"https://openalex.org/F4320322499","display_name":"Renmin University of China","ror":"https://ror.org/041pakw92"}],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4401863555.pdf","grobid_xml":"https://content.openalex.org/works/W4401863555.grobid-xml"},"referenced_works_count":31,"referenced_works":["https://openalex.org/W572984133","https://openalex.org/W1568555062","https://openalex.org/W1983671004","https://openalex.org/W1986688807","https://openalex.org/W2076580309","https://openalex.org/W2082413592","https://openalex.org/W2101484286","https://openalex.org/W2110690917","https://openalex.org/W2129632913","https://openalex.org/W2147357149","https://openalex.org/W2159605934","https://openalex.org/W2212660284","https://openalex.org/W2559655401","https://openalex.org/W2604272474","https://openalex.org/W2606043510","https://openalex.org/W2790376986","https://openalex.org/W2916920238","https://openalex.org/W3003611953","https://openalex.org/W3035072652","https://openalex.org/W3099591423","https://openalex.org/W3182639913","https://openalex.org/W3209797791","https://openalex.org/W4212774754","https://openalex.org/W4221152178","https://openalex.org/W4225959102","https://openalex.org/W4238059556","https://openalex.org/W4256361765","https://openalex.org/W4281697955","https://openalex.org/W4287759479","https://openalex.org/W4385757188","https://openalex.org/W6838131834"],"related_works":["https://openalex.org/W2096013579","https://openalex.org/W52153049","https://openalex.org/W1760611253","https://openalex.org/W1589140671","https://openalex.org/W1515117609","https://openalex.org/W4323315247","https://openalex.org/W2294884454","https://openalex.org/W3169161914","https://openalex.org/W4321379664","https://openalex.org/W2211790881"],"abstract_inverted_index":{"Causal":[0,124],"discovery":[1,147],"with":[2,108],"observational":[3],"and":[4,18,102,136,165,228],"interventional":[5],"data":[6],"plays":[7],"an":[8,159],"important":[9],"role":[10],"in":[11,30,185],"numerous":[12],"fields.":[13],"Due":[14],"to":[15,40,129,169,177],"the":[16,45,50,84,93,131,144,179,193,204,210,217,234],"costly":[17],"potentially":[19],"risky":[20],"nature":[21],"of":[22,133,213,220,236],"intervention":[23,72,76,96,138],"experiments,":[24,73],"selecting":[25,74],"informative":[26,95],"interventions":[27,42],"is":[28,100],"critical":[29],"real-world":[31,218],"situations.":[32],"Several":[33],"recent":[34],"works":[35],"introduce":[36],"Bayesian":[37,125],"active":[38,145],"learning":[39],"select":[41],"that":[43,192],"maximize":[44],"expected":[46],"information":[47,160],"gain":[48],"about":[49],"underlying":[51],"causal":[52,146],"relationship":[53],"at":[54,78,97],"each":[55,79,98],"optimization":[56],"step.":[57],"However,":[58],"there":[59],"are":[60],"still":[61],"some":[62],"limitations":[63],"within":[64],"these":[65],"methods:":[66],"(1)":[67],"Local":[68],"optimality.":[69],"With":[70],"multiple":[71],"optimal":[75,86],"myopically":[77],"step":[80,99],"may":[81],"drop":[82],"into":[83],"local":[85,134],"point.":[87],"(2)":[88],"Expensive":[89],"time":[90,211],"cost.":[91],"Optimizing":[92],"most":[94],"time-consuming":[101],"not":[103],"suitable":[104],"for":[105],"adaptive":[106],"experiments":[107,224],"strict":[109],"inference":[110],"speed":[111],"requirements.":[112],"In":[113],"this":[114],"study,":[115],"we":[116,142,189],"propose":[117],"a":[118,150,170],"novel":[119],"method":[120],"called":[121],"Reinforcement":[122],"Learning-based":[123],"Experimental":[126],"Design":[127],"(RL-CBED)":[128],"reduce":[130,209],"risk":[132],"optimality":[135],"accelerate":[137],"selection":[139],"inference.":[140],"Specifically,":[141],"formulate":[143],"problem":[148],"as":[149],"partially":[151],"observable":[152],"Markov":[153],"decision":[154],"process":[155],"(POMDP).":[156],"We":[157],"design":[158],"gain-based":[161],"sparse":[162],"reward":[163,172],"function":[164],"then":[166],"improve":[167],"it":[168],"dense":[171],"function,":[173],"providing":[174],"fine-grained":[175],"feedback":[176],"help":[178],"RL":[180],"policy":[181],"learn":[182],"more":[183],"quickly":[184],"complex":[186],"environments.":[187],"Moreover,":[188],"theoretically":[190],"prove":[191],"Q-function":[194],"estimator":[195],"can":[196,207],"be":[197],"learned":[198],"using":[199],"only":[200],"trajectories":[201],"sampled":[202],"from":[203],"prior,":[205],"which":[206],"significantly":[208],"cost":[212],"training":[214],"process,":[215],"enabling":[216],"application":[219],"our":[221,237],"method.":[222,239],"Extensive":[223],"on":[225],"both":[226],"synthetic":[227],"real":[229],"world-inspired":[230],"semi-synthetic":[231],"datasets":[232],"demonstrate":[233],"effectiveness":[235],"proposed":[238]},"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2025,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}