{"id":"https://openalex.org/W4417086507","doi":"https://doi.org/10.48550/arxiv.2512.04246","title":"Toward Virtuous Reinforcement Learning: A Critique and Roadmap","display_name":"Toward Virtuous Reinforcement Learning: A Critique and Roadmap","publication_year":2025,"publication_date":"2025-12-03","ids":{"openalex":"https://openalex.org/W4417086507","doi":"https://doi.org/10.48550/arxiv.2512.04246"},"language":null,"primary_location":{"id":"pmh:oai:arXiv.org:2512.04246","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2512.04246","pdf_url":"https://arxiv.org/pdf/2512.04246","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"type":"preprint","indexed_in":["arxiv","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2512.04246","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5102725217","display_name":"Majid Ghasemi","orcid":"https://orcid.org/0000-0001-5785-2843"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ghasemi, Majid","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5064795613","display_name":"Mark Crowley","orcid":"https://orcid.org/0000-0003-3921-4762"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Crowley, Mark","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10883","display_name":"Ethics and Social Impacts of AI","score":0.5382000207901001,"subfield":{"id":"https://openalex.org/subfields/3311","display_name":"Safety Research"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T10883","display_name":"Ethics and Social Impacts of AI","score":0.5382000207901001,"subfield":{"id":"https://openalex.org/subfields/3311","display_name":"Safety Research"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12520","display_name":"Psychology of Moral and Emotional Judgment","score":0.09830000251531601,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.07150000333786011,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/virtue","display_name":"Virtue","score":0.7032999992370605},{"id":"https://openalex.org/keywords/ambiguity","display_name":"Ambiguity","score":0.6956999897956848},{"id":"https://openalex.org/keywords/operationalization","display_name":"Operationalization","score":0.5796999931335449},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5268999934196472},{"id":"https://openalex.org/keywords/virtue-ethics","display_name":"Virtue ethics","score":0.46549999713897705},{"id":"https://openalex.org/keywords/egalitarianism","display_name":"Egalitarianism","score":0.41019999980926514},{"id":"https://openalex.org/keywords/imperfect","display_name":"Imperfect","score":0.4043000042438507},{"id":"https://openalex.org/keywords/trait","display_name":"Trait","score":0.39910000562667847},{"id":"https://openalex.org/keywords/consequentialism","display_name":"Consequentialism","score":0.3919999897480011}],"concepts":[{"id":"https://openalex.org/C2777239683","wikidata":"https://www.wikidata.org/wiki/Q157811","display_name":"Virtue","level":2,"score":0.7032999992370605},{"id":"https://openalex.org/C2780522230","wikidata":"https://www.wikidata.org/wiki/Q1140419","display_name":"Ambiguity","level":2,"score":0.6956999897956848},{"id":"https://openalex.org/C9354725","wikidata":"https://www.wikidata.org/wiki/Q286017","display_name":"Operationalization","level":2,"score":0.5796999931335449},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5268999934196472},{"id":"https://openalex.org/C2777708924","wikidata":"https://www.wikidata.org/wiki/Q1086395","display_name":"Virtue ethics","level":3,"score":0.46549999713897705},{"id":"https://openalex.org/C546784017","wikidata":"https://www.wikidata.org/wiki/Q188958","display_name":"Egalitarianism","level":3,"score":0.41019999980926514},{"id":"https://openalex.org/C2780310539","wikidata":"https://www.wikidata.org/wiki/Q12547192","display_name":"Imperfect","level":2,"score":0.4043000042438507},{"id":"https://openalex.org/C106934330","wikidata":"https://www.wikidata.org/wiki/Q1971873","display_name":"Trait","level":2,"score":0.39910000562667847},{"id":"https://openalex.org/C2777745021","wikidata":"https://www.wikidata.org/wiki/Q646102","display_name":"Consequentialism","level":2,"score":0.3919999897480011},{"id":"https://openalex.org/C135584619","wikidata":"https://www.wikidata.org/wiki/Q5383593","display_name":"Epistemic virtue","level":3,"score":0.3781000077724457},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.37560001015663147},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.37220001220703125},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.36230000853538513},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.351500004529953},{"id":"https://openalex.org/C144024400","wikidata":"https://www.wikidata.org/wiki/Q21201","display_name":"Sociology","level":0,"score":0.35010001063346863},{"id":"https://openalex.org/C2777363581","wikidata":"https://www.wikidata.org/wiki/Q15098235","display_name":"Harm","level":2,"score":0.35010001063346863},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.3425000011920929},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.33160001039505005},{"id":"https://openalex.org/C141141315","wikidata":"https://www.wikidata.org/wiki/Q2379942","display_name":"Guard (computer science)","level":2,"score":0.3264000117778778},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.3009999990463257},{"id":"https://openalex.org/C79416737","wikidata":"https://www.wikidata.org/wiki/Q2305519","display_name":"Social learning","level":2,"score":0.29600000381469727},{"id":"https://openalex.org/C525925914","wikidata":"https://www.wikidata.org/wiki/Q160590","display_name":"Utilitarianism","level":2,"score":0.28700000047683716},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.28600001335144043},{"id":"https://openalex.org/C2776946740","wikidata":"https://www.wikidata.org/wiki/Q358652","display_name":"Deliberation","level":3,"score":0.2849000096321106},{"id":"https://openalex.org/C2778701210","wikidata":"https://www.wikidata.org/wiki/Q28130034","display_name":"Constructive","level":3,"score":0.2711000144481659},{"id":"https://openalex.org/C29122968","wikidata":"https://www.wikidata.org/wiki/Q1414816","display_name":"Incentive","level":2,"score":0.2676999866962433},{"id":"https://openalex.org/C102912713","wikidata":"https://www.wikidata.org/wiki/Q3187415","display_name":"Value theory","level":2,"score":0.2653000056743622},{"id":"https://openalex.org/C118084267","wikidata":"https://www.wikidata.org/wiki/Q26110","display_name":"Positive economics","level":1,"score":0.2621000111103058},{"id":"https://openalex.org/C190253527","wikidata":"https://www.wikidata.org/wiki/Q295354","display_name":"Law and economics","level":1,"score":0.2612999975681305},{"id":"https://openalex.org/C160234255","wikidata":"https://www.wikidata.org/wiki/Q812535","display_name":"Bayesian inference","level":3,"score":0.2547999918460846}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:oai:arXiv.org:2512.04246","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2512.04246","pdf_url":"https://arxiv.org/pdf/2512.04246","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},{"id":"doi:10.48550/arxiv.2512.04246","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2512.04246","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2512.04246","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2512.04246","pdf_url":"https://arxiv.org/pdf/2512.04246","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"This":[0,107],"paper":[1],"critiques":[2],"common":[3],"patterns":[4,145],"in":[5,24,83,137],"machine":[6],"ethics":[7,88],"for":[8,14],"Reinforcement":[9],"Learning":[10],"(RL)":[11],"and":[12,46,48,54,79,122,155,162,192,206],"argues":[13],"a":[15,70],"virtue":[16,143,177],"focused":[17],"alternative.":[18],"We":[19,85],"highlight":[20],"two":[21],"recurring":[22],"limitations":[23],"much":[25],"of":[26,125],"the":[27,204],"current":[28],"literature:":[29],"(i)":[30],"rule":[31,111],"based":[32,58,173],"(deontological)":[33],"methods":[34],"that":[35,93,98,158,179,209],"encode":[36],"duties":[37],"as":[38,89,198],"constraints":[39],"or":[40,104,113],"shields":[41],"often":[42],"struggle":[43],"under":[44,120,184],"ambiguity":[45],"nonstationarity":[47],"do":[49],"not":[50],"cultivate":[51],"lasting":[52],"habits,":[53],"(ii)":[55],"many":[56],"reward":[57],"approaches,":[59],"especially":[60],"single":[61,71],"objective":[62,154],"RL,":[63],"implicitly":[64],"compress":[65],"diverse":[66,195],"moral":[67,126],"considerations":[68],"into":[69],"scalar":[72,114],"signal,":[73],"which":[74],"can":[75],"obscure":[76],"trade":[77,127],"offs":[78],"invite":[80],"proxy":[81],"gaming":[82],"practice.":[84],"instead":[86],"treat":[87],"policy":[90],"level":[91],"dispositions,":[92],"is,":[94],"relatively":[95],"stable":[96],"habits":[97],"hold":[99],"up":[100],"when":[101],"incentives,":[102],"partners,":[103],"contexts":[105],"change.":[106],"shifts":[108],"evaluation":[109],"beyond":[110],"checks":[112],"returns":[115],"toward":[116,175],"trait":[117,181],"summaries,":[118],"durability":[119],"interventions,":[121],"explicit":[123,203],"reporting":[124],"offs.":[128],"Our":[129],"roadmap":[130],"combines":[131],"four":[132],"components:":[133],"(1)":[134],"social":[135],"learning":[136],"multi":[138,153],"agent":[139],"RL":[140,212],"to":[141,167,190],"acquire":[142],"like":[144,182],"from":[146],"imperfect":[147],"but":[148],"normatively":[149],"informed":[150],"exemplars;":[151],"(2)":[152],"constrained":[156],"formulations":[157],"preserve":[159],"value":[160,205],"conflicts":[161],"incorporate":[163],"risk":[164],"aware":[165],"criteria":[166],"guard":[168],"against":[169],"harm;":[170],"(3)":[171],"affinity":[172],"regularization":[174],"updateable":[176],"priors":[178],"support":[180],"stability":[183],"distribution":[185],"shift":[186],"while":[187],"allowing":[188],"norms":[189],"evolve;":[191],"(4)":[193],"operationalizing":[194],"ethical":[196,211],"traditions":[197],"practical":[199],"control":[200],"signals,":[201],"making":[202],"cultural":[207],"assumptions":[208],"shape":[210],"benchmarks.":[213]},"counts_by_year":[],"updated_date":"2026-06-25T08:15:23.626066","created_date":"2025-12-06T00:00:00"}