{"id":"https://openalex.org/W4417299935","doi":"https://doi.org/10.48550/arxiv.2505.11718","title":"REMOR: Automated Peer Review Generation with LLM Reasoning and Multi-Objective Reinforcement Learning","display_name":"REMOR: Automated Peer Review Generation with LLM Reasoning and Multi-Objective Reinforcement Learning","publication_year":2025,"publication_date":"2025-05-16","ids":{"openalex":"https://openalex.org/W4417299935","doi":"https://doi.org/10.48550/arxiv.2505.11718"},"language":"en","primary_location":{"id":"pmh:oai:arXiv.org:2505.11718","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2505.11718","pdf_url":"https://arxiv.org/pdf/2505.11718","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"type":"preprint","indexed_in":["arxiv","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2505.11718","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5107544866","display_name":"Pawin Taechoyotin","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Taechoyotin, Pawin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5069191647","display_name":"Daniel E. Acu\u00f1a","orcid":"https://orcid.org/0000-0002-7765-1595"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Acuna, Daniel","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5107544866"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T13274","display_name":"Expert finding and Q&A systems","score":0.2401999980211258,"subfield":{"id":"https://openalex.org/subfields/1710","display_name":"Information Systems"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T13274","display_name":"Expert finding and Q&A systems","score":0.2401999980211258,"subfield":{"id":"https://openalex.org/subfields/1710","display_name":"Information Systems"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10664","display_name":"Sentiment Analysis and Opinion Mining","score":0.149399995803833,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.14110000431537628,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.675000011920929},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.4860000014305115},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.47859999537467957},{"id":"https://openalex.org/keywords/peer-learning","display_name":"Peer learning","score":0.34619998931884766},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.2892000079154968}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.675000011920929},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.661899983882904},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5218999981880188},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.4860000014305115},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.47859999537467957},{"id":"https://openalex.org/C2777776026","wikidata":"https://www.wikidata.org/wiki/Q7160405","display_name":"Peer learning","level":2,"score":0.34619998931884766},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3359000086784363},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.2892000079154968},{"id":"https://openalex.org/C539667460","wikidata":"https://www.wikidata.org/wiki/Q2414942","display_name":"Management science","level":1,"score":0.26820001006126404},{"id":"https://openalex.org/C2522767166","wikidata":"https://www.wikidata.org/wiki/Q2374463","display_name":"Data science","level":1,"score":0.26429998874664307},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.26190000772476196}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:oai:arXiv.org:2505.11718","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2505.11718","pdf_url":"https://arxiv.org/pdf/2505.11718","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},{"id":"doi:10.48550/arxiv.2505.11718","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2505.11718","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2505.11718","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2505.11718","pdf_url":"https://arxiv.org/pdf/2505.11718","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"AI-based":[0],"peer":[1],"review":[2,54,64,158],"systems":[3],"tend":[4],"to":[5,12,52,102,130,194],"produce":[6,131],"shallow":[7],"and":[8,59,65,111,141,160,172,198,214],"overpraising":[9],"suggestions":[10],"compared":[11],"human":[13,44,151,173,186],"feedback.":[14,135],"Here,":[15],"we":[16,71,219],"evaluate":[17],"how":[18,190],"well":[19],"a":[20,37,81,114],"reasoning":[21,92,191],"LLM":[22,163],"trained":[23],"with":[24,43,91,125],"multi-objective":[25],"reinforcement":[26],"learning":[27],"(REMOR)":[28],"can":[29,221],"overcome":[30],"these":[31,196],"limitations.":[32],"We":[33,94,165,188],"start":[34],"by":[35],"designing":[36],"multi-aspect":[38],"reward":[39,120],"function":[40],"that":[41,139,167],"aligns":[42],"evaluation":[45],"of":[46,75,84,150,184],"reviews.":[47,187],"The":[48],"aspects":[49,122],"are":[50,175],"related":[51],"the":[53,60,63,66,108,118,147,169,181,200,207,215,226],"itself":[55],"(e.g.,":[56],"criticisms,":[57],"novelty)":[58],"relationship":[61],"between":[62],"manuscript":[67],"(i.e.,":[68],"relevance).":[69],"First,":[70],"perform":[72],"supervised":[73],"fine-tuning":[74],"DeepSeek-R1-Distill-Qwen-7B":[76],"using":[77],"LoRA":[78],"on":[79],"PeerRT,":[80],"new":[82],"dataset":[83],"high-quality":[85],"top":[86],"AI":[87,157,171],"conference":[88],"reviews":[89,174],"enriched":[90],"traces.":[93],"then":[95],"apply":[96],"Group":[97],"Relative":[98],"Policy":[99],"Optimization":[100],"(GRPO)":[101],"train":[103],"two":[104],"models:":[105],"REMOR-H":[106,142],"(with":[107,113],"human-aligned":[109,119],"reward)":[110],"REMOR-U":[112,129,140],"uniform":[115],"reward).":[116],"Interestingly,":[117],"penalizes":[121],"typically":[123],"associated":[124],"strong":[126],"reviews,":[127,152],"leading":[128],"qualitatively":[132],"more":[133,144],"substantive":[134],"Our":[136],"results":[137],"show":[138],"achieve":[143],"than":[145],"twice":[146],"average":[148],"rewards":[149],"non-reasoning":[153],"state-of-the-art":[154],"agentic":[155],"multi-modal":[156],"systems,":[159],"general":[161],"commercial":[162],"baselines.":[164],"found":[166],"while":[168],"best":[170],"comparable":[176],"in":[177,225],"quality,":[178],"REMOR":[179,216],"avoids":[180],"long":[182],"tail":[183],"low-quality":[185],"discuss":[189],"is":[192],"key":[193],"achieving":[195],"improvements":[197],"release":[199],"Human-aligned":[201],"Peer":[202,208],"Review":[203,209],"Reward":[204],"(HPRR)":[205],"function,":[206],"Reasoning-enriched":[210],"Traces":[211],"(PeerRT)":[212],"dataset,":[213],"models,":[217],"which":[218],"believe":[220],"help":[222],"spur":[223],"progress":[224],"area.":[227]},"counts_by_year":[],"updated_date":"2026-03-07T16:01:11.037858","created_date":"2025-10-10T00:00:00"}