{"id":"https://openalex.org/W7127915923","doi":"https://doi.org/10.48550/arxiv.2602.04913","title":"A$^2$-LLM: An End-to-end Conversational Audio Avatar Large Language Model","display_name":"A$^2$-LLM: An End-to-end Conversational Audio Avatar Large Language Model","publication_year":2026,"publication_date":"2026-02-04","ids":{"openalex":"https://openalex.org/W7127915923","doi":"https://doi.org/10.48550/arxiv.2602.04913"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.04913","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5125116810","display_name":"Xiaolin Hu","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Hu, Xiaolin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125238237","display_name":"Hang Yuan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yuan, Hang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125219059","display_name":"Xinzhu Sang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sang, Xinzhu","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5034172202","display_name":"Binbin Yan","orcid":"https://orcid.org/0009-0000-6775-9132"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yan, Binbin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125111181","display_name":"Zhou Yu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yu, Zhou","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125159339","display_name":"Cong Huang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Huang, Cong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5125229834","display_name":"Kai Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Kai","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5125116810"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11448","display_name":"Face recognition and analysis","score":0.6093999743461609,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11448","display_name":"Face recognition and analysis","score":0.6093999743461609,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.2337000072002411,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.037300001829862595,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/avatar","display_name":"Avatar","score":0.7943000197410583},{"id":"https://openalex.org/keywords/facial-expression","display_name":"Facial expression","score":0.49309998750686646},{"id":"https://openalex.org/keywords/semantics","display_name":"Semantics (computer science)","score":0.4661000072956085},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.37869998812675476},{"id":"https://openalex.org/keywords/cornerstone","display_name":"Cornerstone","score":0.37540000677108765},{"id":"https://openalex.org/keywords/dynamics","display_name":"Dynamics (music)","score":0.37279999256134033},{"id":"https://openalex.org/keywords/face","display_name":"Face (sociological concept)","score":0.36070001125335693},{"id":"https://openalex.org/keywords/visualization","display_name":"Visualization","score":0.3578999936580658}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8069000244140625},{"id":"https://openalex.org/C2777365542","wikidata":"https://www.wikidata.org/wiki/Q83090","display_name":"Avatar","level":2,"score":0.7943000197410583},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.5015000104904175},{"id":"https://openalex.org/C195704467","wikidata":"https://www.wikidata.org/wiki/Q327968","display_name":"Facial expression","level":2,"score":0.49309998750686646},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.4661000072956085},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.39430001378059387},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.37869998812675476},{"id":"https://openalex.org/C2780616401","wikidata":"https://www.wikidata.org/wiki/Q1133673","display_name":"Cornerstone","level":2,"score":0.37540000677108765},{"id":"https://openalex.org/C145912823","wikidata":"https://www.wikidata.org/wiki/Q113558","display_name":"Dynamics (music)","level":2,"score":0.37279999256134033},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.3718999922275543},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.36070001125335693},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.3578999936580658},{"id":"https://openalex.org/C104114177","wikidata":"https://www.wikidata.org/wiki/Q79782","display_name":"Motion (physics)","level":2,"score":0.3384999930858612},{"id":"https://openalex.org/C135641252","wikidata":"https://www.wikidata.org/wiki/Q738567","display_name":"Multimodal interaction","level":2,"score":0.31610000133514404},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.31139999628067017},{"id":"https://openalex.org/C195324797","wikidata":"https://www.wikidata.org/wiki/Q33742","display_name":"Natural language","level":2,"score":0.30709999799728394},{"id":"https://openalex.org/C2780586882","wikidata":"https://www.wikidata.org/wiki/Q7520643","display_name":"Simple (philosophy)","level":2,"score":0.30160000920295715},{"id":"https://openalex.org/C138591656","wikidata":"https://www.wikidata.org/wiki/Q5157538","display_name":"Computer facial animation","level":4,"score":0.2770000100135803},{"id":"https://openalex.org/C207347870","wikidata":"https://www.wikidata.org/wiki/Q371174","display_name":"Gesture","level":2,"score":0.27149999141693115},{"id":"https://openalex.org/C2776230583","wikidata":"https://www.wikidata.org/wiki/Q1322198","display_name":"Spoken language","level":2,"score":0.26570001244544983},{"id":"https://openalex.org/C48007421","wikidata":"https://www.wikidata.org/wiki/Q676252","display_name":"Motion capture","level":3,"score":0.2524999976158142}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.04913","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.04913","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.04913","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.04913","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Developing":[0],"expressive":[1,112],"and":[2,46,88],"responsive":[3],"conversational":[4,55,75],"digital":[5],"humans":[6],"is":[7],"a":[8,93,102,116],"cornerstone":[9],"of":[10],"next-generation":[11],"human-computer":[12],"interaction.":[13],"While":[14],"large":[15,78],"language":[16,79],"models":[17],"(LLMs)":[18],"have":[19],"significantly":[20],"enhanced":[21],"dialogue":[22],"capabilities,":[23],"most":[24],"current":[25],"systems":[26],"still":[27],"rely":[28],"on":[29],"cascaded":[30],"architectures":[31],"that":[32,81,136],"connect":[33],"independent":[34],"modules.":[35],"These":[36],"pipelines":[37,58],"are":[38],"often":[39],"plagued":[40],"by":[41],"accumulated":[42],"errors,":[43],"high":[44],"latency,":[45,149],"poor":[47],"real-time":[48,145],"performance.":[49],"Lacking":[50],"access":[51],"to":[52,107],"the":[53],"underlying":[54],"context,":[56],"these":[57,68],"inherently":[59],"prioritize":[60],"rigid":[61],"lip-sync":[62],"over":[63],"emotional":[64,141],"depth.":[65],"To":[66,96],"address":[67],"challenges,":[69],"we":[70,99],"propose":[71],"A$^2$-LLM,":[72],"an":[73],"end-to-end":[74],"audio":[76,86],"avatar":[77],"model":[80],"jointly":[82],"reasons":[83],"about":[84],"language,":[85],"prosody,":[87],"3D":[89],"facial":[90,113,128],"motion":[91],"within":[92,115],"unified":[94],"framework.":[95],"facilitate":[97],"training,":[98],"introduce":[100],"FLAME-QA,":[101],"high-quality":[103],"multimodal":[104],"dataset":[105],"designed":[106],"align":[108],"semantic":[109,122],"intent":[110],"with":[111],"dynamics":[114],"QA":[117],"format.":[118],"By":[119],"leveraging":[120],"deep":[121],"understanding,":[123],"A$^2$-LLM":[124],"generates":[125],"emotionally":[126],"rich":[127],"movements":[129],"beyond":[130],"simple":[131],"lip-synchronization.":[132],"Experimental":[133],"results":[134],"demonstrate":[135],"our":[137],"system":[138],"achieves":[139],"superior":[140],"expressiveness":[142],"while":[143],"maintaining":[144],"efficiency":[146],"(500":[147],"ms":[148],"0.7":[150],"RTF).":[151]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-07T00:00:00"}