{"id":"https://openalex.org/W4403211566","doi":"https://doi.org/10.1109/icecet61485.2024.10698396","title":"Enhancing Large Language Model Performance with Reinforcement Learning from Human Feedback: A Comprehensive Study on Q&amp;A, Summarization, and Classification","display_name":"Enhancing Large Language Model Performance with Reinforcement Learning from Human Feedback: A Comprehensive Study on Q&amp;A, Summarization, and Classification","publication_year":2024,"publication_date":"2024-07-25","ids":{"openalex":"https://openalex.org/W4403211566","doi":"https://doi.org/10.1109/icecet61485.2024.10698396"},"language":"en","primary_location":{"id":"doi:10.1109/icecet61485.2024.10698396","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icecet61485.2024.10698396","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 International Conference on Electrical, Computer and Energy Technologies (ICECET","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5107820681","display_name":"Nirdosh Rawal","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Nirdosh Rawal","raw_affiliation_strings":["Genpact India Private Limited,Data Science &#x0026; Insights,Bengaluru,India"],"affiliations":[{"raw_affiliation_string":"Genpact India Private Limited,Data Science &#x0026; Insights,Bengaluru,India","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5107820682","display_name":"Prudhvith Tavva","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Prudhvith Tavva","raw_affiliation_strings":["Genpact India Private Limited,Data Science &#x0026; Insights,Bengaluru,India"],"affiliations":[{"raw_affiliation_string":"Genpact India Private Limited,Data Science &#x0026; Insights,Bengaluru,India","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5108997750","display_name":"Prakash Selvakumar","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Prakash Selvakumar","raw_affiliation_strings":["Genpact India Private Limited,Data Science &#x0026; Insights,Bengaluru,India"],"affiliations":[{"raw_affiliation_string":"Genpact India Private Limited,Data Science &#x0026; Insights,Bengaluru,India","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5107820681"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.14826101,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.9897000193595886,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.9897000193595886,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13274","display_name":"Expert finding and Q&A systems","score":0.9656000137329102,"subfield":{"id":"https://openalex.org/subfields/1710","display_name":"Information Systems"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/automatic-summarization","display_name":"Automatic summarization","score":0.9545598030090332},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8139883875846863},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7652431726455688},{"id":"https://openalex.org/keywords/natural-language-processing","display_name":"Natural language processing","score":0.4815981090068817},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.426637202501297},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.3626460134983063},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.3441353440284729}],"concepts":[{"id":"https://openalex.org/C170858558","wikidata":"https://www.wikidata.org/wiki/Q1394144","display_name":"Automatic summarization","level":2,"score":0.9545598030090332},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8139883875846863},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7652431726455688},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.4815981090068817},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.426637202501297},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3626460134983063},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.3441353440284729}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icecet61485.2024.10698396","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icecet61485.2024.10698396","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 International Conference on Electrical, Computer and Energy Technologies (ICECET","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":15,"referenced_works":["https://openalex.org/W2736601468","https://openalex.org/W2889659926","https://openalex.org/W2973379954","https://openalex.org/W3005709158","https://openalex.org/W3088484880","https://openalex.org/W3188220908","https://openalex.org/W4226278401","https://openalex.org/W4311991106","https://openalex.org/W4318719223","https://openalex.org/W4321392329","https://openalex.org/W4365211596","https://openalex.org/W4387838992","https://openalex.org/W4390874002","https://openalex.org/W6782465632","https://openalex.org/W6809583738"],"related_works":["https://openalex.org/W2366403280","https://openalex.org/W1495108544","https://openalex.org/W2091301346","https://openalex.org/W3148229873","https://openalex.org/W4389760904","https://openalex.org/W2150160875","https://openalex.org/W4242223894","https://openalex.org/W4306886878","https://openalex.org/W2973759123","https://openalex.org/W1517524280"],"abstract_inverted_index":{"Reinforcement":[0],"Learning":[1],"from":[2,81],"Human":[3],"Feedback":[4],"(RLHF)":[5],"has":[6],"shown":[7],"great":[8],"potential":[9],"in":[10,37,59,121,138,144],"enhancing":[11],"the":[12,33,65,70,141,155],"alignment":[13],"of":[14,35,67,148,157],"Large":[15],"Language":[16],"Models":[17],"(LLMs)":[18],"with":[19,73,101],"human":[20,55,82],"preferences.":[21],"In":[22],"this":[23,149],"study,":[24],"we":[25,130],"introduce":[26],"a":[27,74,132],"effective":[28],"approach":[29],"aimed":[30],"at":[31],"improving":[32],"performance":[34,124],"LLMs":[36,113],"tasks":[38],"such":[39],"as":[40],"question-answering,":[41],"Summarization,":[42],"and":[43,57,98,161],"classification.":[44],"Our":[45],"methodology":[46,89],"incorporates":[47],"RLHF":[48,68,142],"into":[49],"LLMs,":[50],"facilitating":[51],"better":[52],"adherence":[53],"to":[54,84,118,134],"expectations":[56],"resulting":[58],"superior":[60],"task":[61],"performance.":[62],"We":[63],"detail":[64],"implementation":[66,143],"within":[69],"LLM":[71],"architecture,":[72],"focus":[75],"on":[76],"leveraging":[77],"reward":[78,95],"signals":[79],"derived":[80],"feedback":[83],"direct":[85],"model":[86,96],"updates.":[87],"This":[88],"encompasses":[90],"data":[91],"generation,":[92],"Supervised":[93],"Finetuning,":[94],"training,":[97],"reinforcement":[99],"learning":[100],"Proximal":[102],"Policy":[103],"Optimization":[104],"(PPO).":[105],"Experimental":[106],"results":[107],"demonstrate":[108],"that":[109],"our":[110],"proposed":[111],"RLHF-augmented":[112],"outperform":[114],"baseline":[115],"models,":[116],"attesting":[117],"their":[119],"efficacy":[120],"achieving":[122],"higher":[123],"while":[125],"maintaining":[126],"human-aligned":[127],"behaviour.":[128],"Notably,":[129],"observe":[131],"5":[133],"15":[135],"percent":[136],"improvement":[137],"outcomes":[139],"using":[140],"LLMs.":[145],"The":[146],"findings":[147],"study":[150],"have":[151],"significant":[152],"implications":[153],"for":[154],"advancement":[156],"more":[158],"accurate,":[159],"efficient,":[160],"human-centric":[162],"language":[163],"models.":[164]},"counts_by_year":[],"updated_date":"2025-12-27T23:08:20.325037","created_date":"2025-10-10T00:00:00"}