{"id":"https://openalex.org/W4399418589","doi":"https://doi.org/10.1145/3651671.3651702","title":"Fine-Tuning LLMs for Multi-Turn Dialogues: Optimizing Cross-Entropy Loss with KL Divergence for All Rounds of Responses","display_name":"Fine-Tuning LLMs for Multi-Turn Dialogues: Optimizing Cross-Entropy Loss with KL Divergence for All Rounds of Responses","publication_year":2024,"publication_date":"2024-02-02","ids":{"openalex":"https://openalex.org/W4399418589","doi":"https://doi.org/10.1145/3651671.3651702"},"language":"en","primary_location":{"id":"doi:10.1145/3651671.3651702","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3651671.3651702","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2024 16th International Conference on Machine Learning and Computing","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5060574710","display_name":"Zeyu Teng","orcid":"https://orcid.org/0009-0005-6544-4977"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Zeyu Teng","raw_affiliation_strings":["AsiaInfo Technologies (China) Co., Ltd., China"],"raw_orcid":"https://orcid.org/0009-0005-6544-4977","affiliations":[{"raw_affiliation_string":"AsiaInfo Technologies (China) Co., Ltd., China","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100651806","display_name":"Yong Song","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yong Song","raw_affiliation_strings":["AsiaInfo Technologies (China) Co., Ltd., China"],"raw_orcid":"https://orcid.org/0000-0003-0097-5281","affiliations":[{"raw_affiliation_string":"AsiaInfo Technologies (China) Co., Ltd., China","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5107230366","display_name":"Xiaozhou Ye","orcid":"https://orcid.org/0000-0002-4925-5907"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xiaozhou Ye","raw_affiliation_strings":["AsiaInfo Technologies (China) Co., Ltd., China"],"raw_orcid":"https://orcid.org/0000-0002-4925-5907","affiliations":[{"raw_affiliation_string":"AsiaInfo Technologies (China) Co., Ltd., China","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5016317255","display_name":"Ye Ouyang","orcid":"https://orcid.org/0000-0002-6195-6415"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ye Ouyang","raw_affiliation_strings":["AsiaInfo Technologies (Guangzhou) Co., Ltd., China"],"raw_orcid":"https://orcid.org/0000-0002-6195-6415","affiliations":[{"raw_affiliation_string":"AsiaInfo Technologies (Guangzhou) Co., Ltd., China","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5060574710"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":1.3245,"has_fulltext":false,"cited_by_count":4,"citation_normalized_percentile":{"value":0.83035938,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":91,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"128","last_page":"133"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.9951000213623047,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12031","display_name":"Speech and dialogue systems","score":0.992900013923645,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/turn-taking","display_name":"Turn-taking","score":0.8708571791648865},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.708592414855957},{"id":"https://openalex.org/keywords/conversation","display_name":"Conversation","score":0.6843359470367432},{"id":"https://openalex.org/keywords/natural-language-generation","display_name":"Natural language generation","score":0.5884279608726501},{"id":"https://openalex.org/keywords/turn","display_name":"Turn (biochemistry)","score":0.5334618091583252},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.532646656036377},{"id":"https://openalex.org/keywords/consistency","display_name":"Consistency (knowledge bases)","score":0.5241156816482544},{"id":"https://openalex.org/keywords/divergence","display_name":"Divergence (linguistics)","score":0.49613460898399353},{"id":"https://openalex.org/keywords/training-set","display_name":"Training set","score":0.47512441873550415},{"id":"https://openalex.org/keywords/entropy","display_name":"Entropy (arrow of time)","score":0.43213921785354614},{"id":"https://openalex.org/keywords/kullback\u2013leibler-divergence","display_name":"Kullback\u2013Leibler divergence","score":0.4203037619590759},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.4167240858078003},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.36081933975219727},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.3211052417755127},{"id":"https://openalex.org/keywords/natural-language","display_name":"Natural language","score":0.30024662613868713},{"id":"https://openalex.org/keywords/linguistics","display_name":"Linguistics","score":0.1338385045528412},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.10110551118850708},{"id":"https://openalex.org/keywords/communication","display_name":"Communication","score":0.07956838607788086}],"concepts":[{"id":"https://openalex.org/C2776352735","wikidata":"https://www.wikidata.org/wiki/Q2313343","display_name":"Turn-taking","level":3,"score":0.8708571791648865},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.708592414855957},{"id":"https://openalex.org/C2777200299","wikidata":"https://www.wikidata.org/wiki/Q52943","display_name":"Conversation","level":2,"score":0.6843359470367432},{"id":"https://openalex.org/C2776187449","wikidata":"https://www.wikidata.org/wiki/Q1513879","display_name":"Natural language generation","level":3,"score":0.5884279608726501},{"id":"https://openalex.org/C85641259","wikidata":"https://www.wikidata.org/wiki/Q290042","display_name":"Turn (biochemistry)","level":2,"score":0.5334618091583252},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.532646656036377},{"id":"https://openalex.org/C2776436953","wikidata":"https://www.wikidata.org/wiki/Q5163215","display_name":"Consistency (knowledge bases)","level":2,"score":0.5241156816482544},{"id":"https://openalex.org/C207390915","wikidata":"https://www.wikidata.org/wiki/Q1230525","display_name":"Divergence (linguistics)","level":2,"score":0.49613460898399353},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.47512441873550415},{"id":"https://openalex.org/C106301342","wikidata":"https://www.wikidata.org/wiki/Q4117933","display_name":"Entropy (arrow of time)","level":2,"score":0.43213921785354614},{"id":"https://openalex.org/C171752962","wikidata":"https://www.wikidata.org/wiki/Q255166","display_name":"Kullback\u2013Leibler divergence","level":2,"score":0.4203037619590759},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.4167240858078003},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.36081933975219727},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3211052417755127},{"id":"https://openalex.org/C195324797","wikidata":"https://www.wikidata.org/wiki/Q33742","display_name":"Natural language","level":2,"score":0.30024662613868713},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.1338385045528412},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.10110551118850708},{"id":"https://openalex.org/C46312422","wikidata":"https://www.wikidata.org/wiki/Q11024","display_name":"Communication","level":1,"score":0.07956838607788086},{"id":"https://openalex.org/C55493867","wikidata":"https://www.wikidata.org/wiki/Q7094","display_name":"Biochemistry","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C151730666","wikidata":"https://www.wikidata.org/wiki/Q7205","display_name":"Paleontology","level":1,"score":0.0},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3651671.3651702","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3651671.3651702","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2024 16th International Conference on Machine Learning and Computing","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":1,"referenced_works":["https://openalex.org/W1593271688"],"related_works":["https://openalex.org/W2900127165","https://openalex.org/W320957374","https://openalex.org/W2379107843","https://openalex.org/W3120641923","https://openalex.org/W2909654650","https://openalex.org/W3161619631","https://openalex.org/W4242512034","https://openalex.org/W3003178987","https://openalex.org/W4400912116","https://openalex.org/W4376475259"],"abstract_inverted_index":{"Large":[0],"language":[1,10,281],"models":[2,282],"(LLMs)":[3],"have":[4,30,62],"shown":[5],"strong":[6],"capabilities":[7],"in":[8,17,190,255,273],"natural":[9],"generation.":[11],"To":[12],"further":[13],"enhance":[14],"its":[15],"ability":[16],"multi-turn":[18,27,58,71,94,110,172,183,284],"dialogue":[19,28,42,54,59,72,95,111,173,285],"generation,":[20],"supervised":[21],"fine-tuning":[22,90,253],"(SFT)":[23],"methods":[24,35,61,254],"based":[25,92],"on":[26,93,215,238],"data":[29,146,153,178],"been":[31],"widely":[32],"adopted.":[33],"These":[34],"aim":[36],"to":[37,47,165],"improve":[38],"the":[39,70,101,108,116,132,135,150,166,181,199,207,212,216,223,227,231,239,248,267,270],"understanding":[40],"of":[41,121,134,201,233,257,269,279],"context":[43],"and":[44,88,114,154,226,242,261,276],"enable":[45],"LLMs":[46],"generate":[48],"appropriate":[49],"responses":[50,158],"by":[51,148,196,219],"incorporating":[52],"historical":[53],"information.":[55],"However,":[56],"current":[57],"SFT":[60,127,167,185],"some":[63],"drawbacks.":[64],"Either":[65],"it":[66,75],"cannot":[67],"fully":[68],"utilize":[69],"data,":[73],"or":[74],"has":[76],"a":[77,85,171,243],"quite":[78],"long":[79],"training":[80,145,191,217,263,278],"time.":[81,264],"This":[82,193],"paper":[83],"proposes":[84],"sufficient,":[86],"efficient":[87,189,277],"effective":[89],"method":[91,99,142,168,186,250,272],"data.":[96,286],"The":[97],"proposed":[98,182,249,271],"optimizes":[100],"cross-entropy":[102],"loss":[103,117,133,159],"with":[104,124,230],"KL":[105,234],"divergence,":[106],"takes":[107,131],"entire":[109,151],"as":[112],"input,":[113],"calculates":[115],"for":[118,160,179,204,283],"all":[119,156],"rounds":[120],"responses.":[122],"Comparing":[123],"commonly":[125],"used":[126],"approach":[128],"that":[129,247],"only":[130],"last":[136],"turn":[137],"response":[138,229],"during":[139],"training,":[140,180],"our":[141],"can":[143,210],"use":[144],"sufficiently":[147],"digesting":[149],"conversation":[152,177],"taking":[155],"rounds\u2019":[157],"weights":[161],"update.":[162],"Also,":[163],"compared":[164],"which":[169],"splits":[170],"into":[174],"numerous":[175],"progressive":[176],"dialogues":[184],"is":[187,194],"more":[188],"LLMs.":[192],"demonstrated":[195],"significantly":[197],"reducing":[198],"amount":[200],"time":[202],"required":[203],"training.":[205],"Meanwhile,":[206],"trained":[208],"model":[209],"mimic":[211],"chat":[213],"style":[214],"set":[218],"making":[220],"consistency":[221],"between":[222],"generated":[224],"output":[225],"expected":[228],"help":[232],"divergence.":[235],"Experimental":[236],"results":[237],"doc2dial":[240],"dataset":[241,245],"medical":[244],"demonstrate":[246],"outperforms":[251],"traditional":[252],"terms":[256],"ROUGE,":[258],"BLEU":[259],"score":[260],"overall":[262],"It":[265],"shows":[266],"effectiveness":[268],"achieving":[274],"sufficient":[275],"large":[280]},"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":2}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}