{"id":"https://openalex.org/W4404239158","doi":"https://doi.org/10.1109/ijcb62174.2024.10744480","title":"Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization","display_name":"Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization","publication_year":2024,"publication_date":"2024-09-15","ids":{"openalex":"https://openalex.org/W4404239158","doi":"https://doi.org/10.1109/ijcb62174.2024.10744480"},"language":"en","primary_location":{"id":"doi:10.1109/ijcb62174.2024.10744480","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcb62174.2024.10744480","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE International Joint Conference on Biometrics (IJCB)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5093006109","display_name":"Vinaya Sree Katamneni","orcid":null},"institutions":[{"id":"https://openalex.org/I123534392","display_name":"University of North Texas","ror":"https://ror.org/00v97ad02","country_code":"US","type":"education","lineage":["https://openalex.org/I123534392"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Vinaya Sree Katamneni","raw_affiliation_strings":["University of North Texas at Denton,Denton,Texas,USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of North Texas at Denton,Denton,Texas,USA","institution_ids":["https://openalex.org/I123534392"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5081904333","display_name":"Ajita Rattani","orcid":"https://orcid.org/0000-0002-1541-8202"},"institutions":[{"id":"https://openalex.org/I123534392","display_name":"University of North Texas","ror":"https://ror.org/00v97ad02","country_code":"US","type":"education","lineage":["https://openalex.org/I123534392"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Ajita Rattani","raw_affiliation_strings":["University of North Texas at Denton,Denton,Texas,USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of North Texas at Denton,Denton,Texas,USA","institution_ids":["https://openalex.org/I123534392"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":2.406,"has_fulltext":false,"cited_by_count":11,"citation_normalized_percentile":{"value":0.90367095,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":98,"max":100},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"11"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12357","display_name":"Digital Media Forensic Detection","score":0.9922999739646912,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12357","display_name":"Digital Media Forensic Detection","score":0.9922999739646912,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10688","display_name":"Image and Signal Denoising Methods","score":0.98580002784729,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11105","display_name":"Advanced Image Processing Techniques","score":0.95169997215271,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7498570084571838},{"id":"https://openalex.org/keywords/modal","display_name":"Modal","score":0.6993151903152466},{"id":"https://openalex.org/keywords/audio-visual","display_name":"Audio visual","score":0.6513221859931946},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.37975144386291504},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.34669357538223267},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.3261980712413788},{"id":"https://openalex.org/keywords/multimedia","display_name":"Multimedia","score":0.21599537134170532}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7498570084571838},{"id":"https://openalex.org/C71139939","wikidata":"https://www.wikidata.org/wiki/Q910194","display_name":"Modal","level":2,"score":0.6993151903152466},{"id":"https://openalex.org/C3017588708","wikidata":"https://www.wikidata.org/wiki/Q758901","display_name":"Audio visual","level":2,"score":0.6513221859931946},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.37975144386291504},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.34669357538223267},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3261980712413788},{"id":"https://openalex.org/C49774154","wikidata":"https://www.wikidata.org/wiki/Q131765","display_name":"Multimedia","level":1,"score":0.21599537134170532},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0},{"id":"https://openalex.org/C188027245","wikidata":"https://www.wikidata.org/wiki/Q750446","display_name":"Polymer chemistry","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcb62174.2024.10744480","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcb62174.2024.10744480","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE International Joint Conference on Biometrics (IJCB)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":67,"referenced_works":["https://openalex.org/W1637570796","https://openalex.org/W2597958930","https://openalex.org/W2884969173","https://openalex.org/W2891145043","https://openalex.org/W2962766617","https://openalex.org/W2963351448","https://openalex.org/W2963767194","https://openalex.org/W2963966654","https://openalex.org/W2964121718","https://openalex.org/W2982058372","https://openalex.org/W2984700035","https://openalex.org/W3033711348","https://openalex.org/W3034196597","https://openalex.org/W3036198682","https://openalex.org/W3038930935","https://openalex.org/W3093010840","https://openalex.org/W3093077034","https://openalex.org/W3115658560","https://openalex.org/W3126757411","https://openalex.org/W3128683850","https://openalex.org/W3135413014","https://openalex.org/W3162424205","https://openalex.org/W3173161217","https://openalex.org/W3175342695","https://openalex.org/W3197123936","https://openalex.org/W3205798727","https://openalex.org/W4200164272","https://openalex.org/W4205695807","https://openalex.org/W4214691743","https://openalex.org/W4221140002","https://openalex.org/W4287026043","https://openalex.org/W4288102863","https://openalex.org/W4311737082","https://openalex.org/W4312508181","https://openalex.org/W4312743281","https://openalex.org/W4318594891","https://openalex.org/W4318828948","https://openalex.org/W4319300379","https://openalex.org/W4319978495","https://openalex.org/W4320882980","https://openalex.org/W4372260514","https://openalex.org/W4380558574","https://openalex.org/W4381708595","https://openalex.org/W4383533065","https://openalex.org/W4385466340","https://openalex.org/W4385800847","https://openalex.org/W4385801058","https://openalex.org/W4385805162","https://openalex.org/W4386076652","https://openalex.org/W4386102876","https://openalex.org/W4386267173","https://openalex.org/W4386272941","https://openalex.org/W4386524605","https://openalex.org/W4386928847","https://openalex.org/W4386998312","https://openalex.org/W4387527117","https://openalex.org/W4389217170","https://openalex.org/W4391855470","https://openalex.org/W4391952560","https://openalex.org/W4392942875","https://openalex.org/W4402774452","https://openalex.org/W4403791323","https://openalex.org/W6756046522","https://openalex.org/W6854231121","https://openalex.org/W6857586478","https://openalex.org/W6857656348","https://openalex.org/W6872397920"],"related_works":["https://openalex.org/W2271369634","https://openalex.org/W3147472394","https://openalex.org/W2047100085","https://openalex.org/W2350550760","https://openalex.org/W578794879","https://openalex.org/W2625296515","https://openalex.org/W3137890128","https://openalex.org/W1984634519","https://openalex.org/W4245955731","https://openalex.org/W2393726419"],"abstract_inverted_index":{"In":[0,85],"the":[1,4,44,55,59,120,145,152,184,187],"digital":[2],"age,":[3],"emergence":[5],"of":[6,47,58,147,158],"deepfakes":[7],"and":[8,17,31,64,72,80,118,128,141,165,169,174,186],"synthetic":[9],"media":[10],"presents":[11],"a":[12,33,68,74,90],"significant":[13,75],"threat":[14],"to":[15,114],"societal":[16],"political":[18],"integrity.":[19],"Deepfakes":[20],"based":[21,42,95],"on":[22,43,96,133],"multi-modal":[23,37,82,92,115],"manipulation,":[24],"such":[25],"as":[26,62],"audio-visual,":[27],"are":[28,40],"more":[29],"realistic":[30],"pose":[32],"greater":[34],"threat.":[35],"Current":[36],"deepfake":[38,83,107,126,135,172],"detectors":[39],"often":[41],"attention-based":[45],"fusion":[46,79],"heterogeneous":[48,56],"data":[49,60],"streams":[50],"from":[51],"multiple":[52],"modalities.":[53],"However,":[54],"nature":[57],"(such":[61],"audio":[63],"visual":[65],"signals)":[66],"creates":[67],"distributional":[69],"modality":[70],"gap":[71],"poses":[73],"challenge":[76],"in":[77,171],"effective":[78],"hence":[81],"detection.":[84,108],"this":[86],"paper,":[87],"we":[88],"propose":[89],"novel":[91],"attention":[93,113],"framework":[94],"recurrent":[97],"neural":[98],"networks":[99],"(RNNs)":[100],"that":[101],"leverages":[102],"contextual":[103],"information":[104,189],"for":[105,125],"audio-visual":[106,134],"The":[109],"proposed":[110],"approach":[111,160],"applies":[112],"multi-sequence":[116],"representations":[117],"learns":[119],"contributing":[121],"features":[122],"among":[123],"them":[124],"detection":[127,173],"localization.":[129],"Thorough":[130],"experimental":[131],"validations":[132],"datasets,":[136,143],"namely":[137],"FakeAVCeleb,":[138],"AV-Deepfake1M,":[139],"TVIL,":[140],"LAV-DF":[142],"demonstrate":[144],"efficacy":[146],"our":[148,159],"approach.":[149],"Cross-comparison":[150],"with":[151,161],"published":[153],"studies":[154],"demonstrates":[155],"superior":[156],"performance":[157],"an":[162],"improved":[163],"accuracy":[164],"precision":[166],"by":[167],"3.47%":[168],"2.05%":[170],"localization,":[175],"respectively.":[176],"Thus,":[177],"obtaining":[178],"state-of-the-art":[179],"performance.":[180],"To":[181],"facilitate":[182],"reproducibility,":[183],"code":[185],"datasets":[188],"is":[190],"available":[191],"at":[192],"https://github.com/vcbsl/audiovisual-deepfake/.":[193]},"counts_by_year":[{"year":2026,"cited_by_count":6},{"year":2025,"cited_by_count":5}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}