{"id":"https://openalex.org/W2144208207","doi":"https://doi.org/10.1109/icme.2007.4284619","title":"Speaker Segmentation and Adaptation for Speech Recognition on Multiple-Speaker Audio Conference Data","display_name":"Speaker Segmentation and Adaptation for Speech Recognition on Multiple-Speaker Audio Conference Data","publication_year":2007,"publication_date":"2007-07-01","ids":{"openalex":"https://openalex.org/W2144208207","doi":"https://doi.org/10.1109/icme.2007.4284619","mag":"2144208207"},"language":"en","primary_location":{"id":"doi:10.1109/icme.2007.4284619","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icme.2007.4284619","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Multimedia and Expo, 2007 IEEE International Conference on","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100380643","display_name":"Zhu Liu","orcid":"https://orcid.org/0000-0003-4326-5335"},"institutions":[{"id":"https://openalex.org/I1283103587","display_name":"AT&T (United States)","ror":"https://ror.org/02bbd5539","country_code":"US","type":"company","lineage":["https://openalex.org/I1283103587"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Zhu Liu","raw_affiliation_strings":["AT and T Research Laboratories, Middletown, NJ, USA","AT&T Lab.-Res., Middletown"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"AT and T Research Laboratories, Middletown, NJ, USA","institution_ids":["https://openalex.org/I1283103587"]},{"raw_affiliation_string":"AT&T Lab.-Res., Middletown","institution_ids":["https://openalex.org/I1283103587"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5055086464","display_name":"Murat Sara\u00e7lar","orcid":"https://orcid.org/0000-0002-7435-8510"},"institutions":[{"id":"https://openalex.org/I4405392","display_name":"Bo\u011fazi\u00e7i University","ror":"https://ror.org/03z9tma90","country_code":"TR","type":"education","lineage":["https://openalex.org/I4405392"]}],"countries":["TR"],"is_corresponding":false,"raw_author_name":"Murat Saraclar","raw_affiliation_strings":["Department of Electrical and Electronic Engineering, Bogazici University, Istanbul, Turkey","Bogazici University, Dept. of Electrical and Electronic Engineering, Bebek 34342 Istanbul, Turkey. murat.saraclar@boun.edu.tr"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Electrical and Electronic Engineering, Bogazici University, Istanbul, Turkey","institution_ids":["https://openalex.org/I4405392"]},{"raw_affiliation_string":"Bogazici University, Dept. of Electrical and Electronic Engineering, Bebek 34342 Istanbul, Turkey. murat.saraclar@boun.edu.tr","institution_ids":["https://openalex.org/I4405392"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":1.1128,"has_fulltext":false,"cited_by_count":6,"citation_normalized_percentile":{"value":0.78817262,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":"4299 2006","issue":null,"first_page":"192","last_page":"195"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.8557465076446533},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.8284102082252502},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.786239504814148},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.7697505950927734},{"id":"https://openalex.org/keywords/normalization","display_name":"Normalization (sociology)","score":0.7149163484573364},{"id":"https://openalex.org/keywords/segmentation","display_name":"Segmentation","score":0.6407188177108765},{"id":"https://openalex.org/keywords/word-error-rate","display_name":"Word error rate","score":0.6341661214828491},{"id":"https://openalex.org/keywords/vocal-tract","display_name":"Vocal tract","score":0.616388201713562},{"id":"https://openalex.org/keywords/speech-segmentation","display_name":"Speech segmentation","score":0.5388206243515015},{"id":"https://openalex.org/keywords/adaptation","display_name":"Adaptation (eye)","score":0.4912363886833191},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.40426719188690186},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.3326583504676819}],"concepts":[{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.8557465076446533},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.8284102082252502},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.786239504814148},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.7697505950927734},{"id":"https://openalex.org/C136886441","wikidata":"https://www.wikidata.org/wiki/Q926129","display_name":"Normalization (sociology)","level":2,"score":0.7149163484573364},{"id":"https://openalex.org/C89600930","wikidata":"https://www.wikidata.org/wiki/Q1423946","display_name":"Segmentation","level":2,"score":0.6407188177108765},{"id":"https://openalex.org/C40969351","wikidata":"https://www.wikidata.org/wiki/Q3516228","display_name":"Word error rate","level":2,"score":0.6341661214828491},{"id":"https://openalex.org/C47401133","wikidata":"https://www.wikidata.org/wiki/Q748953","display_name":"Vocal tract","level":2,"score":0.616388201713562},{"id":"https://openalex.org/C207030507","wikidata":"https://www.wikidata.org/wiki/Q2266173","display_name":"Speech segmentation","level":3,"score":0.5388206243515015},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.4912363886833191},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.40426719188690186},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.3326583504676819},{"id":"https://openalex.org/C120665830","wikidata":"https://www.wikidata.org/wiki/Q14620","display_name":"Optics","level":1,"score":0.0},{"id":"https://openalex.org/C144024400","wikidata":"https://www.wikidata.org/wiki/Q21201","display_name":"Sociology","level":0,"score":0.0},{"id":"https://openalex.org/C19165224","wikidata":"https://www.wikidata.org/wiki/Q23404","display_name":"Anthropology","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icme.2007.4284619","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icme.2007.4284619","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Multimedia and Expo, 2007 IEEE International Conference on","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":17,"referenced_works":["https://openalex.org/W1482605500","https://openalex.org/W1591300715","https://openalex.org/W1971784203","https://openalex.org/W2066561607","https://openalex.org/W2099111195","https://openalex.org/W2099333848","https://openalex.org/W2100969003","https://openalex.org/W2106119541","https://openalex.org/W2146871184","https://openalex.org/W2165861304","https://openalex.org/W2170695863","https://openalex.org/W2319660501","https://openalex.org/W2405439032","https://openalex.org/W3149617113","https://openalex.org/W6628911050","https://openalex.org/W6713148914","https://openalex.org/W6770641979"],"related_works":["https://openalex.org/W2206035908","https://openalex.org/W2149220986","https://openalex.org/W4247736853","https://openalex.org/W2162158162","https://openalex.org/W1493012537","https://openalex.org/W1999004162","https://openalex.org/W2125642021","https://openalex.org/W2144208207","https://openalex.org/W2023466863","https://openalex.org/W2099333848"],"abstract_inverted_index":{"In":[0],"this":[1],"paper,":[2],"we":[3,47],"address":[4],"the":[5,11,35,64,69],"problem":[6],"of":[7,61,68],"how":[8],"to":[9],"improve":[10],"automatic":[12],"speech":[13],"recognition":[14],"(ASR)":[15],"performance":[16],"on":[17],"audio":[18],"conference":[19],"data":[20],"by":[21],"speaker":[22,25,29,36,39,45],"segmentation":[23,30],"and":[24,38,53],"adaptation.":[26],"A":[27],"new":[28],"method":[31],"is":[32],"proposed,":[33],"where":[34],"turns":[37],"labels":[40],"are":[41],"automatically":[42],"determined.":[43],"For":[44],"adaptation,":[46],"use":[48],"Vocal":[49],"Tract":[50],"Length":[51],"Normalization":[52],"Maximum":[54],"Likelihood":[55],"Linear":[56],"Regression.":[57],"On":[58],"a":[59],"corpus":[60],"multi-speaker":[62],"teleconferences,":[63],"word":[65],"error":[66],"rate":[67],"ASR":[70],"system":[71],"improves":[72],"over":[73],"4%":[74],"absolute.":[75]},"counts_by_year":[{"year":2020,"cited_by_count":1}],"updated_date":"2026-07-29T14:22:42.915294","created_date":"2025-10-10T00:00:00"}