{"id":"https://openalex.org/W4411631958","doi":"https://doi.org/10.1145/3731715.3734426","title":"Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos","display_name":"Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos","publication_year":2025,"publication_date":"2025-06-25","ids":{"openalex":"https://openalex.org/W4411631958","doi":"https://doi.org/10.1145/3731715.3734426"},"language":"en","primary_location":{"id":"doi:10.1145/3731715.3734426","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3731715.3734426","pdf_url":null,"source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2025 International Conference on Multimedia Retrieval","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://doi.org/10.1145/3731715.3734426","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5041861318","display_name":"Riku Takahashi","orcid":"https://orcid.org/0009-0000-1126-0498"},"institutions":[{"id":"https://openalex.org/I204291657","display_name":"Hosei University","ror":"https://ror.org/00bx6dj65","country_code":"JP","type":"education","lineage":["https://openalex.org/I204291657"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Riku Takahashi","raw_affiliation_strings":["Hosei University, Tokyo, Japan"],"raw_orcid":"https://orcid.org/0009-0000-1126-0498","affiliations":[{"raw_affiliation_string":"Hosei University, Tokyo, Japan","institution_ids":["https://openalex.org/I204291657"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5008003363","display_name":"Ryugo Morita","orcid":"https://orcid.org/0009-0007-6324-9291"},"institutions":[{"id":"https://openalex.org/I204291657","display_name":"Hosei University","ror":"https://ror.org/00bx6dj65","country_code":"JP","type":"education","lineage":["https://openalex.org/I204291657"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Ryugo Morita","raw_affiliation_strings":["Hosei University, Tokyo, Japan"],"raw_orcid":"https://orcid.org/0009-0007-6324-9291","affiliations":[{"raw_affiliation_string":"Hosei University, Tokyo, Japan","institution_ids":["https://openalex.org/I204291657"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5021863826","display_name":"Jinjia Zhou","orcid":"https://orcid.org/0000-0002-5078-0522"},"institutions":[{"id":"https://openalex.org/I204291657","display_name":"Hosei University","ror":"https://ror.org/00bx6dj65","country_code":"JP","type":"education","lineage":["https://openalex.org/I204291657"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Jinjia Zhou","raw_affiliation_strings":["Hosei University, Tokyo, Japan"],"raw_orcid":"https://orcid.org/0000-0002-5078-0522","affiliations":[{"raw_affiliation_string":"Hosei University, Tokyo, Japan","institution_ids":["https://openalex.org/I204291657"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.9105,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.75334748,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":95,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"2043","last_page":"2047"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10901","display_name":"Advanced Data Compression Techniques","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10901","display_name":"Advanced Data Compression Techniques","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10741","display_name":"Video Coding and Compression Technologies","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11034","display_name":"Digital Filter Design and Implementation","score":0.9958000183105469,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.765170156955719},{"id":"https://openalex.org/keywords/data-compression","display_name":"Data compression","score":0.5566295385360718},{"id":"https://openalex.org/keywords/compression","display_name":"Compression (physics)","score":0.5313345193862915},{"id":"https://openalex.org/keywords/head","display_name":"Head (geology)","score":0.5073663592338562},{"id":"https://openalex.org/keywords/computer-graphics","display_name":"Computer graphics (images)","score":0.507176399230957},{"id":"https://openalex.org/keywords/computer-vision","display_name":"Computer vision","score":0.45295441150665283},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.37204188108444214},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.3485240936279297}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.765170156955719},{"id":"https://openalex.org/C78548338","wikidata":"https://www.wikidata.org/wiki/Q2493","display_name":"Data compression","level":2,"score":0.5566295385360718},{"id":"https://openalex.org/C180016635","wikidata":"https://www.wikidata.org/wiki/Q2712821","display_name":"Compression (physics)","level":2,"score":0.5313345193862915},{"id":"https://openalex.org/C2780312720","wikidata":"https://www.wikidata.org/wiki/Q5689100","display_name":"Head (geology)","level":2,"score":0.5073663592338562},{"id":"https://openalex.org/C121684516","wikidata":"https://www.wikidata.org/wiki/Q7600677","display_name":"Computer graphics (images)","level":1,"score":0.507176399230957},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.45295441150665283},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.37204188108444214},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.3485240936279297},{"id":"https://openalex.org/C127313418","wikidata":"https://www.wikidata.org/wiki/Q1069","display_name":"Geology","level":0,"score":0.0},{"id":"https://openalex.org/C192562407","wikidata":"https://www.wikidata.org/wiki/Q228736","display_name":"Materials science","level":0,"score":0.0},{"id":"https://openalex.org/C114793014","wikidata":"https://www.wikidata.org/wiki/Q52109","display_name":"Geomorphology","level":1,"score":0.0},{"id":"https://openalex.org/C159985019","wikidata":"https://www.wikidata.org/wiki/Q181790","display_name":"Composite material","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3731715.3734426","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3731715.3734426","pdf_url":null,"source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2025 International Conference on Multimedia Retrieval","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.1145/3731715.3734426","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3731715.3734426","pdf_url":null,"source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2025 International Conference on Multimedia Retrieval","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":13,"referenced_works":["https://openalex.org/W2146395539","https://openalex.org/W2604379605","https://openalex.org/W2962785568","https://openalex.org/W3017136408","https://openalex.org/W3081492798","https://openalex.org/W3101631197","https://openalex.org/W3160069937","https://openalex.org/W3202918664","https://openalex.org/W4283819141","https://openalex.org/W4297039696","https://openalex.org/W4312722235","https://openalex.org/W4386597022","https://openalex.org/W4402917159"],"related_works":["https://openalex.org/W3097502728","https://openalex.org/W2113206756","https://openalex.org/W3009949491","https://openalex.org/W1927475415","https://openalex.org/W2613352840","https://openalex.org/W2379547295","https://openalex.org/W2180861836","https://openalex.org/W2079398652","https://openalex.org/W2612632602","https://openalex.org/W2321805087"],"abstract_inverted_index":{"Talking":[0],"head":[1,23,58],"video":[2,42],"compression":[3,68],"has":[4],"advanced":[5],"with":[6,64],"neural":[7],"rendering":[8],"and":[9,28,50,60,70,89,102],"keypoint-based":[10],"methods,":[11],"but":[12],"challenges":[13],"remain,":[14],"especially":[15],"at":[16,105],"low":[17],"bit":[18],"rates,":[19],"including":[20],"handling":[21],"large":[22],"movements,":[24],"suboptimal":[25],"lip":[26,62],"synchronization,":[27],"distorted":[29],"facial":[30],"reconstructions.":[31],"To":[32],"address":[33],"these":[34],"problems,":[35],"we":[36],"propose":[37],"a":[38],"novel":[39],"audio-visual":[40],"driven":[41],"codec":[43],"that":[44,79],"integrates":[45],"compact":[46],"3D":[47],"motion":[48],"features":[49],"audio":[51],"signals.":[52],"This":[53],"approach":[54],"robustly":[55],"models":[56],"significant":[57],"rotations":[59],"aligns":[61],"movements":[63],"speech,":[65],"improving":[66],"both":[67],"efficiency":[69],"reconstruction":[71],"quality.":[72],"Experiments":[73],"on":[74],"the":[75],"CelebV-HQ":[76],"dataset":[77],"show":[78],"our":[80],"method":[81],"reduces":[82],"bitrate":[83],"by":[84,90],"22%":[85],"compared":[86],"to":[87],"VVC":[88],"8.5%":[91],"over":[92],"state-of-the-art":[93],"learning-based":[94],"codec.":[95],"Furthermore,":[96],"it":[97],"provides":[98],"superior":[99],"lip-sync":[100],"accuracy":[101],"visual":[103],"fidelity":[104],"comparable":[106],"bitrates,":[107],"highlighting":[108],"its":[109],"effectiveness":[110],"in":[111],"bandwidth-constrained":[112],"scenarios.":[113]},"counts_by_year":[{"year":2026,"cited_by_count":1}],"updated_date":"2026-06-16T09:24:06.705377","created_date":"2025-10-10T00:00:00"}