{"id":"https://openalex.org/W4385823492","doi":"https://doi.org/10.21437/interspeech.2023-135","title":"Segmental SpeechCLIP: Utilizing Pretrained Image-text Models for Audio-Visual Learning","display_name":"Segmental SpeechCLIP: Utilizing Pretrained Image-text Models for Audio-Visual Learning","publication_year":2023,"publication_date":"2023-08-14","ids":{"openalex":"https://openalex.org/W4385823492","doi":"https://doi.org/10.21437/interspeech.2023-135"},"language":"en","primary_location":{"id":"doi:10.21437/interspeech.2023-135","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2023-135","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"INTERSPEECH 2023","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5045247662","display_name":"Saurabhchand Bhati","orcid":"https://orcid.org/0000-0001-6477-3895"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Saurabhchand Bhati","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5057010207","display_name":"Jes\u00fas Villalba","orcid":"https://orcid.org/0000-0001-9459-8426"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jes\u00fas Villalba","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5069488212","display_name":"Laureano Moro-Vel\u00e1zquez","orcid":"https://orcid.org/0000-0002-3033-7005"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Laureano Moro-Velazquez","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5040324682","display_name":"Thomas Thebaud","orcid":"https://orcid.org/0000-0001-8953-7872"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Thomas Thebaud","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5050632169","display_name":"Najim Dehak","orcid":"https://orcid.org/0000-0002-4489-5753"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Najim Dehak","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":7,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"431","last_page":"435"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T13310","display_name":"Subtitles and Audiovisual Media","score":0.9758999943733215,"subfield":{"id":"https://openalex.org/subfields/1203","display_name":"Language and Linguistics"},"field":{"id":"https://openalex.org/fields/12","display_name":"Arts and Humanities"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T13310","display_name":"Subtitles and Audiovisual Media","score":0.9758999943733215,"subfield":{"id":"https://openalex.org/subfields/1203","display_name":"Language and Linguistics"},"field":{"id":"https://openalex.org/fields/12","display_name":"Arts and Humanities"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9613999724388123,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11439","display_name":"Video Analysis and Summarization","score":0.9394000172615051,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8003625869750977},{"id":"https://openalex.org/keywords/audio-visual","display_name":"Audio visual","score":0.7025912404060364},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5963114500045776},{"id":"https://openalex.org/keywords/image","display_name":"Image (mathematics)","score":0.4752193093299866},{"id":"https://openalex.org/keywords/computer-vision","display_name":"Computer vision","score":0.4335539937019348},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.4093679189682007},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.32660841941833496},{"id":"https://openalex.org/keywords/multimedia","display_name":"Multimedia","score":0.2978087067604065}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8003625869750977},{"id":"https://openalex.org/C3017588708","wikidata":"https://www.wikidata.org/wiki/Q758901","display_name":"Audio visual","level":2,"score":0.7025912404060364},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5963114500045776},{"id":"https://openalex.org/C115961682","wikidata":"https://www.wikidata.org/wiki/Q860623","display_name":"Image (mathematics)","level":2,"score":0.4752193093299866},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.4335539937019348},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.4093679189682007},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.32660841941833496},{"id":"https://openalex.org/C49774154","wikidata":"https://www.wikidata.org/wiki/Q131765","display_name":"Multimedia","level":1,"score":0.2978087067604065}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.21437/interspeech.2023-135","is_oa":false,"landing_page_url":"https://doi.org/10.21437/interspeech.2023-135","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"INTERSPEECH 2023","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":["https://openalex.org/W1891287906","https://openalex.org/W2036807459","https://openalex.org/W2775347418","https://openalex.org/W1969923398","https://openalex.org/W2772917594","https://openalex.org/W2166024367","https://openalex.org/W2755342338","https://openalex.org/W2161229648","https://openalex.org/W2993674027","https://openalex.org/W2130228941"],"abstract_inverted_index":null,"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":4}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}