{"id":"https://openalex.org/W4416402252","doi":"https://doi.org/10.1109/euvip66349.2025.11238860","title":"A Lightweight Audio-Visual Speaker Detection System for Assistive Video Captioning","display_name":"A Lightweight Audio-Visual Speaker Detection System for Assistive Video Captioning","publication_year":2025,"publication_date":"2025-10-13","ids":{"openalex":"https://openalex.org/W4416402252","doi":"https://doi.org/10.1109/euvip66349.2025.11238860"},"language":null,"primary_location":{"id":"doi:10.1109/euvip66349.2025.11238860","is_oa":false,"landing_page_url":"https://doi.org/10.1109/euvip66349.2025.11238860","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 13th European Workshop on Visual Information Processing (EUVIP)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5073509926","display_name":"Bogdan Mocanu","orcid":"https://orcid.org/0000-0002-2751-0954"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Bogdan Mocanu","raw_affiliation_strings":["SAMOVAR, T&#x00E9;l&#x00E9;com SudParis, Institut Polytechnique de Paris,Palaiseau,France"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"SAMOVAR, T&#x00E9;l&#x00E9;com SudParis, Institut Polytechnique de Paris,Palaiseau,France","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5025204322","display_name":"Ruxandra \u021aapu","orcid":"https://orcid.org/0000-0003-3170-4150"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ruxandra Tapu","raw_affiliation_strings":["SAMOVAR, T&#x00E9;l&#x00E9;com SudParis, Institut Polytechnique de Paris,Palaiseau,France"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"SAMOVAR, T&#x00E9;l&#x00E9;com SudParis, Institut Polytechnique de Paris,Palaiseau,France","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T13310","display_name":"Subtitles and Audiovisual Media","score":0.9556999802589417,"subfield":{"id":"https://openalex.org/subfields/1203","display_name":"Language and Linguistics"},"field":{"id":"https://openalex.org/fields/12","display_name":"Arts and Humanities"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T13310","display_name":"Subtitles and Audiovisual Media","score":0.9556999802589417,"subfield":{"id":"https://openalex.org/subfields/1203","display_name":"Language and Linguistics"},"field":{"id":"https://openalex.org/fields/12","display_name":"Arts and Humanities"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.00839999970048666,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11439","display_name":"Video Analysis and Summarization","score":0.00839999970048666,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/usability","display_name":"Usability","score":0.6453999876976013},{"id":"https://openalex.org/keywords/closed-captioning","display_name":"Closed captioning","score":0.5983999967575073},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.5285000205039978},{"id":"https://openalex.org/keywords/readability","display_name":"Readability","score":0.460099995136261},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.450300008058548},{"id":"https://openalex.org/keywords/convolutional-neural-network","display_name":"Convolutional neural network","score":0.44350001215934753},{"id":"https://openalex.org/keywords/joint","display_name":"Joint (building)","score":0.4250999987125397},{"id":"https://openalex.org/keywords/legibility","display_name":"Legibility","score":0.3959999978542328},{"id":"https://openalex.org/keywords/perception","display_name":"Perception","score":0.38609999418258667}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.832099974155426},{"id":"https://openalex.org/C170130773","wikidata":"https://www.wikidata.org/wiki/Q216378","display_name":"Usability","level":2,"score":0.6453999876976013},{"id":"https://openalex.org/C157657479","wikidata":"https://www.wikidata.org/wiki/Q2367247","display_name":"Closed captioning","level":3,"score":0.5983999967575073},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.5285000205039978},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.49000000953674316},{"id":"https://openalex.org/C2778143727","wikidata":"https://www.wikidata.org/wiki/Q1820650","display_name":"Readability","level":2,"score":0.460099995136261},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.450300008058548},{"id":"https://openalex.org/C81363708","wikidata":"https://www.wikidata.org/wiki/Q17084460","display_name":"Convolutional neural network","level":2,"score":0.44350001215934753},{"id":"https://openalex.org/C18555067","wikidata":"https://www.wikidata.org/wiki/Q8375051","display_name":"Joint (building)","level":2,"score":0.4250999987125397},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.4212000072002411},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.421099990606308},{"id":"https://openalex.org/C2779332521","wikidata":"https://www.wikidata.org/wiki/Q1820694","display_name":"Legibility","level":2,"score":0.3959999978542328},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.3919000029563904},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.38609999418258667},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.36899998784065247},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.35019999742507935},{"id":"https://openalex.org/C31510193","wikidata":"https://www.wikidata.org/wiki/Q1192553","display_name":"Facial recognition system","level":3,"score":0.34139999747276306},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.3393999934196472},{"id":"https://openalex.org/C125209513","wikidata":"https://www.wikidata.org/wiki/Q4037520","display_name":"Doors","level":2,"score":0.3100000023841858},{"id":"https://openalex.org/C98025372","wikidata":"https://www.wikidata.org/wiki/Q477538","display_name":"Systems architecture","level":3,"score":0.29319998621940613},{"id":"https://openalex.org/C2780364048","wikidata":"https://www.wikidata.org/wiki/Q204028","display_name":"Subtitle","level":2,"score":0.2874999940395355},{"id":"https://openalex.org/C56461940","wikidata":"https://www.wikidata.org/wiki/Q970687","display_name":"Eye tracking","level":2,"score":0.27900001406669617},{"id":"https://openalex.org/C123657996","wikidata":"https://www.wikidata.org/wiki/Q12271","display_name":"Architecture","level":2,"score":0.27889999747276306},{"id":"https://openalex.org/C135641252","wikidata":"https://www.wikidata.org/wiki/Q738567","display_name":"Multimodal interaction","level":2,"score":0.2743000090122223},{"id":"https://openalex.org/C2777601897","wikidata":"https://www.wikidata.org/wiki/Q3409113","display_name":"Presentation (obstetrics)","level":2,"score":0.27309998869895935},{"id":"https://openalex.org/C2777402240","wikidata":"https://www.wikidata.org/wiki/Q6783436","display_name":"Masking (illustration)","level":2,"score":0.26980000734329224},{"id":"https://openalex.org/C2781249084","wikidata":"https://www.wikidata.org/wiki/Q908656","display_name":"Preference","level":2,"score":0.26429998874664307},{"id":"https://openalex.org/C3017715821","wikidata":"https://www.wikidata.org/wiki/Q688498","display_name":"Assistive technology","level":2,"score":0.2637999951839447},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.257999986410141},{"id":"https://openalex.org/C38956757","wikidata":"https://www.wikidata.org/wiki/Q716215","display_name":"Audio feedback","level":2,"score":0.25429999828338623}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/euvip66349.2025.11238860","is_oa":false,"landing_page_url":"https://doi.org/10.1109/euvip66349.2025.11238860","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 13th European Workshop on Visual Information Processing (EUVIP)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":14,"referenced_works":["https://openalex.org/W2138761194","https://openalex.org/W2154636774","https://openalex.org/W2168996682","https://openalex.org/W3010034298","https://openalex.org/W3034702511","https://openalex.org/W3172472082","https://openalex.org/W3189964604","https://openalex.org/W4214701094","https://openalex.org/W4293363567","https://openalex.org/W4308097564","https://openalex.org/W4312255561","https://openalex.org/W4312466984","https://openalex.org/W4386075783","https://openalex.org/W4409449825"],"related_works":[],"abstract_inverted_index":{"In":[0],"this":[1],"paper":[2],"we":[3],"introduce":[4],"a":[5,53,57,101,113,136,178],"novel":[6],"dynamic":[7,156],"subtitling":[8],"system":[9,21,184],"aimed":[10],"at":[11],"improving":[12],"media":[13],"accessibility":[14],"for":[15,181],"individuals":[16],"with":[17,56,174],"hearing":[18],"impairments.":[19],"The":[20,42,91],"is":[22,94],"built":[23],"upon":[24],"an":[25],"end-to-end":[26],"active":[27,72],"speaker":[28],"detection":[29],"framework":[30],"that":[31],"leverages":[32],"joint":[33],"audio":[34],"and":[35,88,98,153,171,189],"visual":[36,172],"cues":[37],"through":[38],"multimodal":[39],"feature":[40],"integration.":[41],"architecture":[43],"comprises":[44],"two":[45],"lightweight":[46],"convolutional":[47],"neural":[48],"networks,":[49],"each":[50,165],"dedicated":[51],"to":[52,77,85,124],"separate":[54],"modality,":[55],"cross-modal":[58],"attention":[59],"mechanism":[60],"enhancing":[61],"the":[62,71,82,130,134,154,175,182],"interaction":[63],"between":[64],"them.":[65],"This":[66],"enables":[67],"precise":[68],"localization":[69],"of":[70,104,115,133,187],"speaker,":[73],"allowing":[74],"subtitle":[75,144],"segments":[76],"be":[78],"dynamically":[79],"placed":[80],"near":[81],"speaker's":[83],"face":[84],"enhance":[86],"readability":[87],"contextual":[89],"alignment.":[90],"proposed":[92,155,183],"approach":[93],"evaluated":[95],"both":[96],"quantitatively":[97],"qualitatively.":[99],"On":[100],"benchmark":[102],"dataset":[103],"<tex":[105],"xmlns:mml=\"http://www.w3.org/1998/Math/MathML\"":[106],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">$\\mathbf{3":[107],"0}$</tex>":[108],"video":[109],"samples,":[110],"it":[111],"achieves":[112],"gain":[114],"over":[116],"0.7":[117],"%":[118],"in":[119,185],"mean":[120],"Average":[121],"Precision":[122],"compared":[123],"state-of-the-art":[125],"ASD":[126],"techniques.":[127],"To":[128],"evaluate":[129],"perceptual":[131],"effectiveness":[132],"system,":[135],"structured":[137],"user":[138],"study":[139],"was":[140],"conducted":[141],"comparing":[142],"three":[143],"presentation":[145],"strategies:":[146],"traditional":[147],"fixed-position":[148],"captions,":[149],"speaker-aligned":[150],"speech-bubble":[151],"overlays,":[152],"placement":[157],"method":[158],"based":[159,167],"on":[160,168],"region-ofinterest":[161],"selection.":[162],"Participants":[163],"rated":[164],"version":[166],"viewing":[169],"comfort":[170],"effort,":[173],"results":[176],"showing":[177],"clear":[179],"preference":[180],"terms":[186],"usability":[188],"reduced":[190],"eye":[191],"strain.":[192]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-11-18T00:00:00"}