{"id":"https://openalex.org/W165453733","doi":"https://doi.org/10.21437/eurospeech.2003-328","title":"A fast, accurate and stream-based speaker segmentation and clustering algorithm","display_name":"A fast, accurate and stream-based speaker segmentation and clustering algorithm","publication_year":2003,"publication_date":"2003-09-01","ids":{"openalex":"https://openalex.org/W165453733","doi":"https://doi.org/10.21437/eurospeech.2003-328","mag":"165453733"},"language":"en","primary_location":{"id":"doi:10.21437/eurospeech.2003-328","is_oa":false,"landing_page_url":"https://doi.org/10.21437/eurospeech.2003-328","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"8th European Conference on Speech Communication and Technology (Eurospeech 2003)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5081317424","display_name":"An Vandecatseye","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"An Vandecatseye","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5109810030","display_name":"Jean\u2010Pierre Martens","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jean-Pierre Martens","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":30,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"941","last_page":"944"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9980999827384949,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10901","display_name":"Advanced Data Compression Techniques","score":0.994700014591217,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.816884458065033},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.7195072174072266},{"id":"https://openalex.org/keywords/voice","display_name":"Voice","score":0.7189444899559021},{"id":"https://openalex.org/keywords/partition","display_name":"Partition (number theory)","score":0.7136945724487305},{"id":"https://openalex.org/keywords/mel-frequency-cepstrum","display_name":"Mel-frequency cepstrum","score":0.6922416687011719},{"id":"https://openalex.org/keywords/cluster-analysis","display_name":"Cluster analysis","score":0.6471760869026184},{"id":"https://openalex.org/keywords/segmentation","display_name":"Segmentation","score":0.6365313529968262},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.5546900033950806},{"id":"https://openalex.org/keywords/transcription","display_name":"Transcription (linguistics)","score":0.46758317947387695},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.4356166124343872},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.3665013909339905},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.29788607358932495},{"id":"https://openalex.org/keywords/feature-extraction","display_name":"Feature extraction","score":0.27571725845336914}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.816884458065033},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.7195072174072266},{"id":"https://openalex.org/C552089266","wikidata":"https://www.wikidata.org/wiki/Q494510","display_name":"Voice","level":2,"score":0.7189444899559021},{"id":"https://openalex.org/C42812","wikidata":"https://www.wikidata.org/wiki/Q1082910","display_name":"Partition (number theory)","level":2,"score":0.7136945724487305},{"id":"https://openalex.org/C151989614","wikidata":"https://www.wikidata.org/wiki/Q440370","display_name":"Mel-frequency cepstrum","level":3,"score":0.6922416687011719},{"id":"https://openalex.org/C73555534","wikidata":"https://www.wikidata.org/wiki/Q622825","display_name":"Cluster analysis","level":2,"score":0.6471760869026184},{"id":"https://openalex.org/C89600930","wikidata":"https://www.wikidata.org/wiki/Q1423946","display_name":"Segmentation","level":2,"score":0.6365313529968262},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.5546900033950806},{"id":"https://openalex.org/C179926584","wikidata":"https://www.wikidata.org/wiki/Q207714","display_name":"Transcription (linguistics)","level":2,"score":0.46758317947387695},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.4356166124343872},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3665013909339905},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.29788607358932495},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.27571725845336914},{"id":"https://openalex.org/C114614502","wikidata":"https://www.wikidata.org/wiki/Q76592","display_name":"Combinatorics","level":1,"score":0.0},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.21437/eurospeech.2003-328","is_oa":false,"landing_page_url":"https://doi.org/10.21437/eurospeech.2003-328","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"8th European Conference on Speech Communication and Technology (Eurospeech 2003)","raw_type":"proceedings-article"},{"id":"pmh:oai:archive.ugent.be:291395","is_oa":false,"landing_page_url":"http://hdl.handle.net/1854/LU-291395","pdf_url":null,"source":{"id":"https://openalex.org/S4306400478","display_name":"Ghent University Academic Bibliography (Ghent University)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I32597200","host_organization_name":"Ghent University","host_organization_lineage":["https://openalex.org/I32597200"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Proceedings of the 8th European Conference on Speech Communication and Technology","raw_type":"info:eu-repo/semantics/conferenceObject"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.7300000190734863,"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":6,"referenced_works":["https://openalex.org/W3765491","https://openalex.org/W83866820","https://openalex.org/W109869499","https://openalex.org/W125260059","https://openalex.org/W1547083988","https://openalex.org/W1989164285"],"related_works":["https://openalex.org/W2036753972","https://openalex.org/W1996861825","https://openalex.org/W2497205885","https://openalex.org/W2079621619","https://openalex.org/W2046280377","https://openalex.org/W4388535697","https://openalex.org/W2036128733","https://openalex.org/W1976086899","https://openalex.org/W1963976507","https://openalex.org/W2111874347"],"abstract_inverted_index":{"In":[0],"this":[1],"paper":[2,67],"a":[3,7,16,19,29,37,41],"new":[4],"pre-processor":[5],"for":[6,36],"free":[8],"speech":[9,23],"transcription":[10],"system":[11,74],"is":[12,34],"described.":[13],"It":[14],"performs":[15],"speech/non-speech":[17],"partition,":[18],"segmentation":[20],"of":[21],"the":[22,49,60,73,78],"parts":[24],"into":[25],"speaker":[26],"turns,":[27],"and":[28,32,44,88],"clusteringofthespeakerturns.":[30],"Itworksinastream-basedmode,":[31],"it":[33],"aiming":[35],"high":[38],"accuracy":[39],"with":[40,82],"low":[42],"delay":[43],"processing":[45],"time.":[46],"Experiments":[47],"on":[48],"Hub4":[50],"Broadcast":[51],"News":[52],"corpus":[53],"show":[54],"thatthenewlyproposedpre-processoriscompetitivewithandin":[55],"some":[56],"respects":[57],"better":[58],"than":[59],"best":[61],"systems":[62],"published":[63],"so":[64],"far.":[65],"The":[66],"also":[68],"describes":[69],"attempts":[70],"to":[71],"raise":[72],"performance":[75],"by":[76],"supplementing":[77],"standard":[79],"MFCC":[80],"features":[81,84],"prosodic":[83],"such":[85],"as":[86],"pitch":[87],"voicing":[89],"evidence.":[90]},"counts_by_year":[{"year":2020,"cited_by_count":1},{"year":2017,"cited_by_count":1},{"year":2016,"cited_by_count":1},{"year":2015,"cited_by_count":4},{"year":2014,"cited_by_count":1},{"year":2013,"cited_by_count":2},{"year":2012,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}