{"id":"https://openalex.org/W2142964468","doi":"https://doi.org/10.1109/icassp.2011.5947635","title":"Bilingual audio-subtitle extraction using automatic segmentation of movie audio","display_name":"Bilingual audio-subtitle extraction using automatic segmentation of movie audio","publication_year":2011,"publication_date":"2011-05-01","ids":{"openalex":"https://openalex.org/W2142964468","doi":"https://doi.org/10.1109/icassp.2011.5947635","mag":"2142964468"},"language":"en","primary_location":{"id":"doi:10.1109/icassp.2011.5947635","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2011.5947635","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5072740718","display_name":"Andreas Tsiartas","orcid":null},"institutions":[{"id":"https://openalex.org/I1174212","display_name":"University of Southern California","ror":"https://ror.org/03taz7m60","country_code":"US","type":"education","lineage":["https://openalex.org/I1174212"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Andreas Tsiartas","raw_affiliation_strings":["Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, CA, USA","Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, 90089, USA#TAB#"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, CA, USA","institution_ids":["https://openalex.org/I1174212"]},{"raw_affiliation_string":"Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, 90089, USA#TAB#","institution_ids":["https://openalex.org/I1174212"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5046000500","display_name":"Prasanta Ghosh","orcid":"https://orcid.org/0000-0002-2925-1802"},"institutions":[{"id":"https://openalex.org/I1174212","display_name":"University of Southern California","ror":"https://ror.org/03taz7m60","country_code":"US","type":"education","lineage":["https://openalex.org/I1174212"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Prasanta Ghosh","raw_affiliation_strings":["Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, CA, USA","Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, 90089, USA#TAB#"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, CA, USA","institution_ids":["https://openalex.org/I1174212"]},{"raw_affiliation_string":"Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, 90089, USA#TAB#","institution_ids":["https://openalex.org/I1174212"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5021678540","display_name":"Panayiotis Georgiou","orcid":"https://orcid.org/0000-0002-0790-7161"},"institutions":[{"id":"https://openalex.org/I1174212","display_name":"University of Southern California","ror":"https://ror.org/03taz7m60","country_code":"US","type":"education","lineage":["https://openalex.org/I1174212"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Panayiotis G. Georgiou","raw_affiliation_strings":["Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, CA, USA","Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, 90089, USA#TAB#"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, CA, USA","institution_ids":["https://openalex.org/I1174212"]},{"raw_affiliation_string":"Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, 90089, USA#TAB#","institution_ids":["https://openalex.org/I1174212"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5010028928","display_name":"Shrikanth Narayanan","orcid":"https://orcid.org/0000-0002-1052-6204"},"institutions":[{"id":"https://openalex.org/I1174212","display_name":"University of Southern California","ror":"https://ror.org/03taz7m60","country_code":"US","type":"education","lineage":["https://openalex.org/I1174212"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Shrikanth Narayanan","raw_affiliation_strings":["Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, CA, USA","Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, 90089, USA#TAB#"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, CA, USA","institution_ids":["https://openalex.org/I1174212"]},{"raw_affiliation_string":"Speech Analysis and Interpretation Laboratory, Department of Electrical Engineering, University of Southern California, Los Angeles, 90089, USA#TAB#","institution_ids":["https://openalex.org/I1174212"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I1174212"],"apc_list":null,"apc_paid":null,"fwci":0.8094,"has_fulltext":false,"cited_by_count":7,"citation_normalized_percentile":{"value":0.72393977,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":96},"biblio":{"volume":"1","issue":null,"first_page":"5624","last_page":"5627"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11439","display_name":"Video Analysis and Summarization","score":0.9973000288009644,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9970999956130981,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.829612672328949},{"id":"https://openalex.org/keywords/audio-mining","display_name":"Audio mining","score":0.6687207818031311},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.6494516134262085},{"id":"https://openalex.org/keywords/subtitle","display_name":"Subtitle","score":0.5926670432090759},{"id":"https://openalex.org/keywords/segmentation","display_name":"Segmentation","score":0.5305113196372986},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4923132658004761},{"id":"https://openalex.org/keywords/audio-signal-processing","display_name":"Audio signal processing","score":0.47186368703842163},{"id":"https://openalex.org/keywords/audio-signal","display_name":"Audio signal","score":0.3683118522167206},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.3550342321395874},{"id":"https://openalex.org/keywords/speech-coding","display_name":"Speech coding","score":0.30393996834754944},{"id":"https://openalex.org/keywords/acoustic-model","display_name":"Acoustic model","score":0.2898164987564087}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.829612672328949},{"id":"https://openalex.org/C157968479","wikidata":"https://www.wikidata.org/wiki/Q3079876","display_name":"Audio mining","level":4,"score":0.6687207818031311},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.6494516134262085},{"id":"https://openalex.org/C2780364048","wikidata":"https://www.wikidata.org/wiki/Q204028","display_name":"Subtitle","level":2,"score":0.5926670432090759},{"id":"https://openalex.org/C89600930","wikidata":"https://www.wikidata.org/wiki/Q1423946","display_name":"Segmentation","level":2,"score":0.5305113196372986},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4923132658004761},{"id":"https://openalex.org/C127220857","wikidata":"https://www.wikidata.org/wiki/Q2719318","display_name":"Audio signal processing","level":4,"score":0.47186368703842163},{"id":"https://openalex.org/C64922751","wikidata":"https://www.wikidata.org/wiki/Q4650799","display_name":"Audio signal","level":3,"score":0.3683118522167206},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.3550342321395874},{"id":"https://openalex.org/C13895895","wikidata":"https://www.wikidata.org/wiki/Q3270773","display_name":"Speech coding","level":2,"score":0.30393996834754944},{"id":"https://openalex.org/C155635449","wikidata":"https://www.wikidata.org/wiki/Q4674699","display_name":"Acoustic model","level":3,"score":0.2898164987564087},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icassp.2011.5947635","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2011.5947635","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education","score":0.7900000214576721}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":10,"referenced_works":["https://openalex.org/W22168010","https://openalex.org/W229329885","https://openalex.org/W1565144712","https://openalex.org/W2061290937","https://openalex.org/W2101105183","https://openalex.org/W2127716729","https://openalex.org/W2159872955","https://openalex.org/W6600880057","https://openalex.org/W6608974995","https://openalex.org/W6898505805"],"related_works":["https://openalex.org/W1546240199","https://openalex.org/W3159882232","https://openalex.org/W46679383","https://openalex.org/W4241650944","https://openalex.org/W642007152","https://openalex.org/W2969585518","https://openalex.org/W2064012922","https://openalex.org/W1620668332","https://openalex.org/W2033602688","https://openalex.org/W2156141367"],"abstract_inverted_index":{"Extraction":[0],"of":[1,64],"bilingual":[2,52,58],"audio":[3,27,34,53,66],"and":[4,54],"text":[5],"data":[6],"is":[7],"crucial":[8],"for":[9],"designing":[10],"Speech":[11,13],"to":[12,24,67],"(S2S)":[14],"systems.":[15],"In":[16,31,60],"this":[17],"work,":[18],"we":[19],"propose":[20],"an":[21],"automatic":[22],"method":[23,47],"segment":[25],"multilingual":[26],"streams":[28,35],"from":[29],"movies.":[30],"addition,":[32,61],"the":[33,39,45,62,65,68],"are":[36],"aligned":[37],"with":[38],"corresponding":[40,69],"subtitles.":[41],"We":[42],"found":[43],"that":[44],"proposed":[46],"gives":[48],"89%":[49],"perfectly":[50],"segmented":[51,57],"6%":[55],"partially":[56],"audio.":[59],"mapping":[63],"subtitles":[70],"has":[71],"accuracy":[72],"91%.":[73]},"counts_by_year":[{"year":2021,"cited_by_count":1},{"year":2017,"cited_by_count":2},{"year":2015,"cited_by_count":1},{"year":2014,"cited_by_count":2},{"year":2013,"cited_by_count":1}],"updated_date":"2026-07-29T14:22:42.915294","created_date":"2025-10-10T00:00:00"}