{"id":"https://openalex.org/W7151514480","doi":"https://doi.org/10.1109/icmla66185.2025.00016","title":"PEPS: Quantum-Inspired Reinforcement Learning for Coherent Reasoning Traces in LLMs","display_name":"PEPS: Quantum-Inspired Reinforcement Learning for Coherent Reasoning Traces in LLMs","publication_year":2025,"publication_date":"2025-12-03","ids":{"openalex":"https://openalex.org/W7151514480","doi":"https://doi.org/10.1109/icmla66185.2025.00016"},"language":null,"primary_location":{"id":"doi:10.1109/icmla66185.2025.00016","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icmla66185.2025.00016","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Conference on Machine Learning and Applications (ICMLA)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5034677758","display_name":"Venkat Margapuri","orcid":"https://orcid.org/0000-0003-1147-0027"},"institutions":[{"id":"https://openalex.org/I7863295","display_name":"Villanova University","ror":"https://ror.org/02g7kd627","country_code":"US","type":"education","lineage":["https://openalex.org/I7863295"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Venkat Margapuri","raw_affiliation_strings":["Villanova University,Department of Computing Sciences"],"affiliations":[{"raw_affiliation_string":"Villanova University,Department of Computing Sciences","institution_ids":["https://openalex.org/I7863295"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5114540554","display_name":"Garik Kazanjian","orcid":null},"institutions":[{"id":"https://openalex.org/I7863295","display_name":"Villanova University","ror":"https://ror.org/02g7kd627","country_code":"US","type":"education","lineage":["https://openalex.org/I7863295"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Garik Kazanjian","raw_affiliation_strings":["Villanova University,Department of Computing Sciences"],"affiliations":[{"raw_affiliation_string":"Villanova University,Department of Computing Sciences","institution_ids":["https://openalex.org/I7863295"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5037616499","display_name":"Naren Kumar Kosaraju","orcid":null},"institutions":[{"id":"https://openalex.org/I7863295","display_name":"Villanova University","ror":"https://ror.org/02g7kd627","country_code":"US","type":"education","lineage":["https://openalex.org/I7863295"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Naren Kosaraju","raw_affiliation_strings":["Villanova University,Department of Computing Sciences"],"affiliations":[{"raw_affiliation_string":"Villanova University,Department of Computing Sciences","institution_ids":["https://openalex.org/I7863295"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5034677758"],"corresponding_institution_ids":["https://openalex.org/I7863295"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.87290262,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"67","last_page":"74"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10682","display_name":"Quantum Computing Algorithms and Architecture","score":0.5605999827384949,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10682","display_name":"Quantum Computing Algorithms and Architecture","score":0.5605999827384949,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11010","display_name":"Logic, Reasoning, and Knowledge","score":0.06440000236034393,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11273","display_name":"Advanced Graph Neural Networks","score":0.046300001442432404,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.42559999227523804},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.3582000136375427},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.3555999994277954},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.3176000118255615},{"id":"https://openalex.org/keywords/case-based-reasoning","display_name":"Case-based reasoning","score":0.2906999886035919},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.2791999876499176}],"concepts":[{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.49239999055862427},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4699000120162964},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.42559999227523804},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.3582000136375427},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.3555999994277954},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.3176000118255615},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.290800005197525},{"id":"https://openalex.org/C20162079","wikidata":"https://www.wikidata.org/wiki/Q1151406","display_name":"Case-based reasoning","level":2,"score":0.2906999886035919},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.2791999876499176},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.27720001339912415},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.26269999146461487},{"id":"https://openalex.org/C527412718","wikidata":"https://www.wikidata.org/wiki/Q855395","display_name":"Interpretation (philosophy)","level":2,"score":0.2623000144958496},{"id":"https://openalex.org/C180747234","wikidata":"https://www.wikidata.org/wiki/Q23373","display_name":"Cognitive psychology","level":1,"score":0.26089999079704285},{"id":"https://openalex.org/C188147891","wikidata":"https://www.wikidata.org/wiki/Q147638","display_name":"Cognitive science","level":1,"score":0.2572999894618988},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.25}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icmla66185.2025.00016","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icmla66185.2025.00016","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Conference on Machine Learning and Applications (ICMLA)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320338440","display_name":"HORIZON EUROPE Health","ror":null}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":17,"referenced_works":["https://openalex.org/W3159959439","https://openalex.org/W4200400528","https://openalex.org/W4205870266","https://openalex.org/W4385569780","https://openalex.org/W4391377904","https://openalex.org/W4394773691","https://openalex.org/W4403296360","https://openalex.org/W4408156866","https://openalex.org/W4408592281","https://openalex.org/W4409657380","https://openalex.org/W4415689913","https://openalex.org/W4415796447","https://openalex.org/W4415965976","https://openalex.org/W4416036086","https://openalex.org/W7125135101","https://openalex.org/W7133208539","https://openalex.org/W7133230326"],"related_works":[],"abstract_inverted_index":{"Large":[0],"Language":[1],"Models":[2],"(LLMs)":[3],"often":[4],"struggle":[5],"with":[6],"maintaining":[7],"coherent":[8],"multi-step":[9],"reasoning":[10,75,129],"traces,":[11],"particularly":[12],"in":[13,73,132],"tasks":[14],"that":[15,50,103],"require":[16],"a":[17,24,33,66,125],"structured":[18],"logical":[19],"flow.":[20],"This":[21],"work":[22],"introduces":[23],"quantum-inspired":[25,106,122],"approach":[26,68,107],"to":[27,69,127],"address":[28],"the":[29,57,104,119],"challenge":[30],"by":[31],"incorporating":[32],"fidelity-based":[34],"reward":[35],"derived":[36],"from":[37],"Projected":[38],"Entangled":[39],"Pair":[40],"States":[41],"(PEPS)":[42],"into":[43],"Proximal":[44],"Policy":[45],"Optimization.":[46],"Unlike":[47],"prior":[48],"approaches":[49],"use":[51],"direct":[52],"supervision":[53],"or":[54],"contrastive":[55],"objectives,":[56],"proposed":[58,78,105],"method":[59],"guides":[60],"learning":[61],"through":[62],"structural":[63],"consistency,":[64],"offering":[65],"novel":[67],"enforce":[70],"global":[71],"coherence":[72,131],"generated":[74],"traces.":[76],"The":[77],"framework":[79],"is":[80],"evaluated":[81],"using":[82],"multiple":[83],"coherence-determining":[84],"metrics":[85],"on":[86],"diverse":[87],"datasets":[88],"such":[89],"as":[90,124],"GSM8K,":[91],"StrategyQA,":[92],"and":[93,98,114],"EntailmentBank":[94],"spanning":[95],"arithmetic,":[96],"intuitive,":[97],"entailment-based":[99],"reasoning.":[100],"Results":[101],"show":[102],"offers":[108],"significant":[109],"improvements":[110],"over":[111],"supervised,":[112],"contrastive,":[113],"pretrained":[115],"baseline":[116],"approaches,":[117],"highlighting":[118],"effectiveness":[120],"of":[121],"fidelity":[123],"foundation":[126],"improve":[128],"trace":[130],"LLMs.":[133]},"counts_by_year":[],"updated_date":"2026-04-09T06:08:40.794217","created_date":"2026-04-08T00:00:00"}