{"id":"https://openalex.org/W4416251451","doi":"https://doi.org/10.1109/ijcnn64981.2025.11228808","title":"FLIP: Adaptive Comparison Method Selection for Efficient Preference-Based Reinforcement Learning","display_name":"FLIP: Adaptive Comparison Method Selection for Efficient Preference-Based Reinforcement Learning","publication_year":2025,"publication_date":"2025-06-30","ids":{"openalex":"https://openalex.org/W4416251451","doi":"https://doi.org/10.1109/ijcnn64981.2025.11228808"},"language":null,"primary_location":{"id":"doi:10.1109/ijcnn64981.2025.11228808","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11228808","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101591226","display_name":"Ziang Liu","orcid":"https://orcid.org/0009-0007-5488-1156"},"institutions":[{"id":"https://openalex.org/I66867065","display_name":"East China Normal University","ror":"https://ror.org/02n96ep67","country_code":"CN","type":"education","lineage":["https://openalex.org/I66867065"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Ziang Liu","raw_affiliation_strings":["School of Computer Science and Technology, East China Normal University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science and Technology, East China Normal University","institution_ids":["https://openalex.org/I66867065"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5043728985","display_name":"Xingjiao Wu","orcid":"https://orcid.org/0000-0001-9146-051X"},"institutions":[{"id":"https://openalex.org/I66867065","display_name":"East China Normal University","ror":"https://ror.org/02n96ep67","country_code":"CN","type":"education","lineage":["https://openalex.org/I66867065"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xingjiao Wu","raw_affiliation_strings":["School of Pharmacy, East China Normal University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Pharmacy, East China Normal University","institution_ids":["https://openalex.org/I66867065"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101775997","display_name":"Hongxin Chen","orcid":"https://orcid.org/0000-0002-1512-3666"},"institutions":[{"id":"https://openalex.org/I66867065","display_name":"East China Normal University","ror":"https://ror.org/02n96ep67","country_code":"CN","type":"education","lineage":["https://openalex.org/I66867065"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Hongxin Chen","raw_affiliation_strings":["School of Computer Science and Technology, East China Normal University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science and Technology, East China Normal University","institution_ids":["https://openalex.org/I66867065"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5020264645","display_name":"Luwei Xiao","orcid":"https://orcid.org/0000-0001-7229-2741"},"institutions":[{"id":"https://openalex.org/I66867065","display_name":"East China Normal University","ror":"https://ror.org/02n96ep67","country_code":"CN","type":"education","lineage":["https://openalex.org/I66867065"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Luwei Xiao","raw_affiliation_strings":["School of Computer Science and Technology, East China Normal University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science and Technology, East China Normal University","institution_ids":["https://openalex.org/I66867065"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100704226","display_name":"Jing Yang","orcid":"https://orcid.org/0000-0002-0315-1686"},"institutions":[{"id":"https://openalex.org/I66867065","display_name":"East China Normal University","ror":"https://ror.org/02n96ep67","country_code":"CN","type":"education","lineage":["https://openalex.org/I66867065"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jing Yang","raw_affiliation_strings":["School of Computer Science and Technology, East China Normal University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science and Technology, East China Normal University","institution_ids":["https://openalex.org/I66867065"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":5,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.16569415,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5648999810218811,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5648999810218811,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11099","display_name":"Autonomous Vehicle Technology and Safety","score":0.07800000160932541,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.03009999915957451,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/pairwise-comparison","display_name":"Pairwise comparison","score":0.8098000288009644},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7405999898910522},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5831000208854675},{"id":"https://openalex.org/keywords/preference","display_name":"Preference","score":0.5781999826431274},{"id":"https://openalex.org/keywords/preference-learning","display_name":"Preference learning","score":0.5665000081062317},{"id":"https://openalex.org/keywords/exploit","display_name":"Exploit","score":0.522599995136261},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5077000260353088},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4699000120162964}],"concepts":[{"id":"https://openalex.org/C184898388","wikidata":"https://www.wikidata.org/wiki/Q1435712","display_name":"Pairwise comparison","level":2,"score":0.8098000288009644},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.754800021648407},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7405999898910522},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6739000082015991},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6733999848365784},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5831000208854675},{"id":"https://openalex.org/C2781249084","wikidata":"https://www.wikidata.org/wiki/Q908656","display_name":"Preference","level":2,"score":0.5781999826431274},{"id":"https://openalex.org/C181204326","wikidata":"https://www.wikidata.org/wiki/Q7239820","display_name":"Preference learning","level":3,"score":0.5665000081062317},{"id":"https://openalex.org/C165696696","wikidata":"https://www.wikidata.org/wiki/Q11287","display_name":"Exploit","level":2,"score":0.522599995136261},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5077000260353088},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4699000120162964},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.46389999985694885},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.4472000002861023},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.4422000050544739},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.4009999930858612},{"id":"https://openalex.org/C113174947","wikidata":"https://www.wikidata.org/wiki/Q2859736","display_name":"Tree (set theory)","level":2,"score":0.3995000123977661},{"id":"https://openalex.org/C2777868144","wikidata":"https://www.wikidata.org/wiki/Q7239817","display_name":"Preference elicitation","level":3,"score":0.335099995136261},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.30809998512268066},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2948000133037567},{"id":"https://openalex.org/C163797641","wikidata":"https://www.wikidata.org/wiki/Q2067937","display_name":"Tree structure","level":3,"score":0.2842999994754791},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.27950000762939453},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.26649999618530273},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.2621000111103058},{"id":"https://openalex.org/C133462117","wikidata":"https://www.wikidata.org/wiki/Q4929239","display_name":"Data collection","level":2,"score":0.259799987077713}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn64981.2025.11228808","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11228808","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":18,"referenced_works":["https://openalex.org/W2109910161","https://openalex.org/W2763110165","https://openalex.org/W2962759351","https://openalex.org/W2963544079","https://openalex.org/W3197594072","https://openalex.org/W4213377513","https://openalex.org/W4294982692","https://openalex.org/W4313837520","https://openalex.org/W4386285856","https://openalex.org/W4393147692","https://openalex.org/W4393148062","https://openalex.org/W4402670889","https://openalex.org/W4403329772","https://openalex.org/W4405764128","https://openalex.org/W4405897569","https://openalex.org/W4406202151","https://openalex.org/W4413918518","https://openalex.org/W4415795928"],"related_works":[],"abstract_inverted_index":{"Preference-based":[0],"Reinforcement":[1],"Learning":[2],"(PBRL)":[3],"relies":[4],"on":[5,96,126,154],"the":[6,81,89,97,127,130,148,174,177,181],"efficient":[7],"collection":[8],"and":[9,52,77,129,163,188],"use":[10,159],"of":[11,68,111,132,176],"preference":[12,50,55,63],"data":[13],"to":[14,21,31,61,194],"train":[15],"accurate":[16],"reward":[17,178],"functions,":[18],"enabling":[19,192],"agents":[20,30,193],"learn":[22],"directly":[23],"from":[24],"human":[25,34,197],"preferences.":[26,113],"This":[27,70,142],"process":[28],"allows":[29],"better":[32,195],"understand":[33,196],"intentions":[35],"while":[36,180],"effectively":[37],"reducing":[38],"biases":[39],"inherent":[40],"in":[41,74],"AI":[42],"systems.":[43],"The":[44],"pairwise":[45,149],"comparison":[46,120],"method":[47,94,150,158],"gathers":[48],"diverse":[49],"data,":[51],"Seqrank":[53,98],"expands":[54],"datasets":[56],"through":[57],"transitivity,":[58],"both":[59],"fail":[60],"establish":[62],"relationships":[64],"across":[65,104],"different":[66,118],"rounds":[67],"labeling.":[69],"limitation":[71],"can":[72],"result":[73],"fragmented":[75],"signals":[76],"slow":[78],"convergence":[79,175],"toward":[80],"optimal":[82],"policy.":[83],"To":[84,134],"address":[85],"this,":[86],"we":[87,115,139],"propose":[88],"Global":[90],"Tree":[91],"(GTree),":[92],"a":[93,108],"built":[95],"framework":[99],"that":[100,117,169],"integrates":[101],"trajectory":[102,119],"preferences":[103,172],"multiple":[105],"rounds,":[106],"providing":[107],"unified":[109],"representation":[110],"global":[112],"Moreover,":[114],"posit":[116],"methods":[121],"offer":[122],"distinct":[123],"advantages":[124],"depending":[125],"task":[128,162],"stage":[131],"training.":[133],"fully":[135],"exploit":[136],"these":[137],"strengths,":[138],"introduce":[140],"FLIP.":[141],"adaptive":[143],"strategy":[144,183],"dynamically":[145],"selects":[146],"either":[147],"or":[151],"GTree":[152],"based":[153],"historical":[155],"performance,":[156,190],"optimizing":[157],"for":[160],"each":[161],"training":[164],"stage.":[165],"Our":[166],"evaluations":[167],"demonstrate":[168],"integrating":[170],"cross-round":[171],"accelerates":[173],"function,":[179],"FLIP":[182],"further":[184],"enhances":[185],"learning":[186],"efficiency":[187],"overall":[189],"thereby":[191],"intentions.":[198]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-11-14T00:00:00"}