{"id":"https://openalex.org/W7160306316","doi":"https://doi.org/10.48550/arxiv.2605.01954","title":"Moira: Language-driven Hierarchical Reinforcement Learning for Pair Trading","display_name":"Moira: Language-driven Hierarchical Reinforcement Learning for Pair Trading","publication_year":2026,"publication_date":"2026-05-03","ids":{"openalex":"https://openalex.org/W7160306316","doi":"https://doi.org/10.48550/arxiv.2605.01954"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.01954","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.01954","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.01954","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5135290029","display_name":"Polydoros Giannouris","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Giannouris, Polydoros","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135286381","display_name":"Yuechen Jiang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jiang, Yuechen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135296898","display_name":"Lingfei Qian","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Qian, Lingfei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135368353","display_name":"Yuyan Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Yuyan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135317928","display_name":"Xueqing Peng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Peng, Xueqing","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5018254776","display_name":"Jimin Huang","orcid":"https://orcid.org/0000-0002-3501-3907"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Huang, Jimin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135346457","display_name":"Guojun Xiong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xiong, Guojun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5135374855","display_name":"Sophia Ananiadou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ananiadou, Sophia","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":8,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.3449999988079071,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.3449999988079071,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11596","display_name":"Constraint Satisfaction and Optimization","score":0.08229999989271164,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.05299999937415123,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8557000160217285},{"id":"https://openalex.org/keywords/abstraction","display_name":"Abstraction","score":0.6140000224113464},{"id":"https://openalex.org/keywords/selection","display_name":"Selection (genetic algorithm)","score":0.5659000277519226},{"id":"https://openalex.org/keywords/adaptation","display_name":"Adaptation (eye)","score":0.5523999929428101},{"id":"https://openalex.org/keywords/asset","display_name":"Asset (computer security)","score":0.4546000063419342},{"id":"https://openalex.org/keywords/domain","display_name":"Domain (mathematical analysis)","score":0.4496999979019165},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.414000004529953},{"id":"https://openalex.org/keywords/parameterized-complexity","display_name":"Parameterized complexity","score":0.3953999876976013}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8557000160217285},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7631999850273132},{"id":"https://openalex.org/C124304363","wikidata":"https://www.wikidata.org/wiki/Q673661","display_name":"Abstraction","level":2,"score":0.6140000224113464},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5692999958992004},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.5659000277519226},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.5523999929428101},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.49959999322891235},{"id":"https://openalex.org/C76178495","wikidata":"https://www.wikidata.org/wiki/Q4808784","display_name":"Asset (computer security)","level":2,"score":0.4546000063419342},{"id":"https://openalex.org/C36503486","wikidata":"https://www.wikidata.org/wiki/Q11235244","display_name":"Domain (mathematical analysis)","level":2,"score":0.4496999979019165},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.414000004529953},{"id":"https://openalex.org/C165464430","wikidata":"https://www.wikidata.org/wiki/Q1570441","display_name":"Parameterized complexity","level":2,"score":0.3953999876976013},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.37049999833106995},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.36559998989105225},{"id":"https://openalex.org/C31170391","wikidata":"https://www.wikidata.org/wiki/Q188619","display_name":"Hierarchy","level":2,"score":0.35199999809265137},{"id":"https://openalex.org/C2776434776","wikidata":"https://www.wikidata.org/wiki/Q19246213","display_name":"Domain adaptation","level":3,"score":0.3237999975681305},{"id":"https://openalex.org/C207685749","wikidata":"https://www.wikidata.org/wiki/Q2088941","display_name":"Domain knowledge","level":2,"score":0.27489998936653137},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.26930001378059387},{"id":"https://openalex.org/C67277372","wikidata":"https://www.wikidata.org/wiki/Q7449085","display_name":"Semantic role labeling","level":3,"score":0.266400009393692},{"id":"https://openalex.org/C144986985","wikidata":"https://www.wikidata.org/wiki/Q871236","display_name":"Hierarchical database model","level":2,"score":0.2563999891281128},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.25589999556541443}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.01954","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.01954","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.01954","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.01954","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions","score":0.8003143072128296}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Many":[0],"sequential":[1],"decision-making":[2],"problems":[3],"exhibit":[4],"hierarchical":[5,73,109,138,165],"structure,":[6],"where":[7],"high-level":[8,86],"semantic":[9,55],"choices":[10],"constrain":[11],"downstream":[12],"actions":[13],"and":[14,18,77,87,97,111,114,121,140,157],"feedback":[15,117],"is":[16,24],"delayed":[17,145],"ambiguous.":[19],"Learning":[20],"in":[21,83],"such":[22],"settings":[23],"challenging":[25],"due":[26],"to":[27,118],"credit":[28],"assignment:":[29],"performance":[30],"degradation":[31],"may":[32],"arise":[33],"from":[34,131],"flawed":[35],"abstractions,":[36],"suboptimal":[37],"execution,":[38,132],"or":[39],"their":[40],"interaction.":[41],"We":[42,67],"study":[43],"this":[44],"challenge":[45],"through":[46,100],"pair":[47,59,69],"trading,":[48],"a":[49,72,79],"domain":[50],"that":[51],"naturally":[52],"combines":[53],"long-horizon":[54],"reasoning":[56],"for":[57],"asset":[58],"selection":[60,130],"with":[61],"short-horizon":[62],"execution":[63,122],"under":[64,144],"partial":[65],"observability.":[66],"formulate":[68],"trading":[70],"as":[71,108],"reinforcement":[74,166],"learning":[75],"problem":[76],"propose":[78],"language-driven":[80,164],"optimization":[81],"framework":[82,134],"which":[84],"both":[85],"low-level":[88],"policies":[89,110],"are":[90],"parameterized":[91],"by":[92],"large":[93],"language":[94],"models":[95],"(LLMs)":[96],"optimized":[98],"exclusively":[99],"prompt":[101],"updates.":[102],"Our":[103],"approach":[104],"leverages":[105],"pretrained":[106],"LLMs":[107],"uses":[112],"trajectory-":[113],"episode-level":[115],"textual":[116],"adapt":[119],"abstractions":[120],"without":[123],"gradient-based":[124],"fine-tuning.":[125],"By":[126],"explicitly":[127],"separating":[128],"abstraction":[129],"the":[133,161],"reduces":[135],"non-stationarity":[136],"across":[137],"levels":[139],"enables":[141],"targeted":[142],"adaptation":[143],"feedback.":[146],"Experiments":[147],"on":[148],"real-world":[149],"market":[150],"data":[151],"show":[152],"consistent":[153],"improvements":[154],"over":[155],"traditional":[156],"LLM-based":[158],"baselines,":[159],"demonstrating":[160],"effectiveness":[162],"of":[163],"learning.":[167]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-06T00:00:00"}