{"id":"https://openalex.org/W2149220986","doi":"https://doi.org/10.1109/asru.2007.4430197","title":"Never-ending learning system for on-line speaker diarization","display_name":"Never-ending learning system for on-line speaker diarization","publication_year":2007,"publication_date":"2007-01-01","ids":{"openalex":"https://openalex.org/W2149220986","doi":"https://doi.org/10.1109/asru.2007.4430197","mag":"2149220986"},"language":"en","primary_location":{"id":"doi:10.1109/asru.2007.4430197","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru.2007.4430197","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2007 IEEE Workshop on Automatic Speech Recognition &amp; Understanding (ASRU)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5039443541","display_name":"Konstantin Markov","orcid":"https://orcid.org/0000-0003-1838-4789"},"institutions":[{"id":"https://openalex.org/I90023481","display_name":"National Institute of Information and Communications Technology","ror":"https://ror.org/016bgq349","country_code":"JP","type":"facility","lineage":["https://openalex.org/I90023481"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Konstantin Markov","raw_affiliation_strings":["ATR Spoken Language Communication Research Laboratories, Japan","National Institute of Information and Communications Technology, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"ATR Spoken Language Communication Research Laboratories, Japan","institution_ids":[]},{"raw_affiliation_string":"National Institute of Information and Communications Technology, Japan","institution_ids":["https://openalex.org/I90023481"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5020994673","display_name":"Satoshi Nakamura","orcid":"https://orcid.org/0000-0001-6956-3803"},"institutions":[{"id":"https://openalex.org/I90023481","display_name":"National Institute of Information and Communications Technology","ror":"https://ror.org/016bgq349","country_code":"JP","type":"facility","lineage":["https://openalex.org/I90023481"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Satoshi Nakamura","raw_affiliation_strings":["ATR Spoken Language Communication Research Laboratories, Japan","National Institute of Information and Communications Technology, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"ATR Spoken Language Communication Research Laboratories, Japan","institution_ids":[]},{"raw_affiliation_string":"National Institute of Information and Communications Technology, Japan","institution_ids":["https://openalex.org/I90023481"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":4.3596,"has_fulltext":false,"cited_by_count":28,"citation_normalized_percentile":{"value":0.94504189,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":90,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"699","last_page":"704"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9941999912261963,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12031","display_name":"Speech and dialogue systems","score":0.9915000200271606,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.9413737654685974},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.7695226669311523},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7470993399620056},{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.6901686787605286},{"id":"https://openalex.org/keywords/mixture-model","display_name":"Mixture model","score":0.664899468421936},{"id":"https://openalex.org/keywords/identity","display_name":"Identity (music)","score":0.48355957865715027},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.447637140750885},{"id":"https://openalex.org/keywords/copying","display_name":"Copying","score":0.4320818781852722},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.3761987090110779}],"concepts":[{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.9413737654685974},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.7695226669311523},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7470993399620056},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.6901686787605286},{"id":"https://openalex.org/C61224824","wikidata":"https://www.wikidata.org/wiki/Q2260434","display_name":"Mixture model","level":2,"score":0.664899468421936},{"id":"https://openalex.org/C2778355321","wikidata":"https://www.wikidata.org/wiki/Q17079427","display_name":"Identity (music)","level":2,"score":0.48355957865715027},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.447637140750885},{"id":"https://openalex.org/C2779151265","wikidata":"https://www.wikidata.org/wiki/Q1156791","display_name":"Copying","level":2,"score":0.4320818781852722},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3761987090110779},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C24890656","wikidata":"https://www.wikidata.org/wiki/Q82811","display_name":"Acoustics","level":1,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/asru.2007.4430197","is_oa":false,"landing_page_url":"https://doi.org/10.1109/asru.2007.4430197","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2007 IEEE Workshop on Automatic Speech Recognition &amp; Understanding (ASRU)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/5","display_name":"Gender equality","score":0.4000000059604645}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":33,"referenced_works":["https://openalex.org/W21371201","https://openalex.org/W29040644","https://openalex.org/W38131637","https://openalex.org/W85845213","https://openalex.org/W99811769","https://openalex.org/W113024010","https://openalex.org/W115846232","https://openalex.org/W159693541","https://openalex.org/W194245511","https://openalex.org/W1484181928","https://openalex.org/W1580495158","https://openalex.org/W2023466863","https://openalex.org/W2045064676","https://openalex.org/W2119072456","https://openalex.org/W2159591770","https://openalex.org/W2164031777","https://openalex.org/W2398758317","https://openalex.org/W2531891978","https://openalex.org/W2567948266","https://openalex.org/W2620921085","https://openalex.org/W4244494905","https://openalex.org/W4245490569","https://openalex.org/W4285719527","https://openalex.org/W4302033506","https://openalex.org/W6601568710","https://openalex.org/W6603547853","https://openalex.org/W6604061051","https://openalex.org/W6604580727","https://openalex.org/W6604730075","https://openalex.org/W6684028345","https://openalex.org/W6731548788","https://openalex.org/W6738833779","https://openalex.org/W6912982250"],"related_works":["https://openalex.org/W2206035908","https://openalex.org/W4297807400","https://openalex.org/W2144208207","https://openalex.org/W4389984014","https://openalex.org/W1516392727","https://openalex.org/W1509309911","https://openalex.org/W1940231550","https://openalex.org/W1599425004","https://openalex.org/W2118860825","https://openalex.org/W2096510939"],"abstract_inverted_index":{"In":[0,96,153,169],"this":[1,134,151,262],"paper,":[2],"we":[3,245],"describe":[4],"newhigh-performanceon-line":[5],"speaker":[6,29,31,34,65,75,90,146,178,266],"diarization":[7,76,267],"system":[8,204,263],"which":[9],"works":[10],"faster":[11],"than":[12],"real-time":[13],"and":[14,33,48,51,63,106,132,163,224],"has":[15],"very":[16],"low":[17],"latency.":[18],"It":[19],"consists":[20],"of":[21,41,98,156,176,194,218,226,248,253,270,274],"several":[22],"modules":[23],"including":[24],"voice":[25],"activity":[26],"detection,":[27,30],"novel":[28],"gender":[32,103,111],"identity":[35],"classification.":[36],"Allmodules":[37],"share":[38],"a":[39,88,99,113,191,265],"set":[40],"Gaussian":[42],"mixturemodels":[43],"(GMM)":[44],"representing":[45],"pause,":[46],"male":[47],"female":[49],"speakers,":[50],"each":[52,79],"individual":[53,145],"speaker.":[54,95,143],"Initially,":[55],"there":[56],"are":[57,148,196,234],"only":[58],"three":[59],"GMMs":[60],"for":[61,78,190],"pause":[62],"two":[64],"genders,":[66],"trained":[67],"in":[68,150,213],"advance":[69],"from":[70,87,92,108,133,198],"some":[71],"data.":[72],"During":[73],"the":[74,109,128,141,154,164,177,199,203,227,237,249],"process,":[77],"speech":[80,129],"segment":[81,130],"it":[82,85,136],"is":[83,104,116,124,137,161],"decidedwhether":[84],"comes":[86],"new":[89,100,114,142],"or":[91],"already":[93],"known":[94],"case":[97,155],"speaker,":[101,159],"his/her":[102],"identified,":[105],"then,":[107],"corresponding":[110],"GMM,":[112],"GMM":[115,123],"spawned":[117],"by":[118],"copying":[119],"its":[120,210],"parameters.":[121],"This":[122,201],"learned":[125,167,228],"on-line":[126],"using":[127],"data":[131],"point":[135],"used":[138,246],"to":[139,171,205,208,215,236],"represent":[140],"All":[144],"models":[147,182],"produced":[149],"way.":[152],"an":[157,173],"old":[158],"s/he":[160],"identified":[162],"correspondingGMMis":[165],"again":[166],"on-line.":[168],"order":[170],"prevent":[172],"unlimited":[174],"grow":[175],"model":[179],"number,":[180],"those":[181],"that":[183,261],"have":[184],"not":[185],"been":[186],"selected":[187],"as":[188],"winners":[189],"long":[192],"period":[193],"time":[195],"deleted":[197],"system.":[200],"allows":[202],"be":[206],"able":[207],"perform":[209],"task":[211],"indefinitely":[212],"addition":[214],"being":[216],"capable":[217],"self-organization,":[219],"i.e.":[220,230],"unsupervised":[221],"adaptive":[222],"learning,":[223],"preservation":[225],"knowledge,":[229],"speakers.":[231],"Such":[232],"functionalities":[233],"attributed":[235],"so":[238],"called":[239],"Never-Ending":[240],"Learning":[241],"systems.":[242],"For":[243],"evaluation,":[244],"part":[247],"TC-STAR":[250],"database":[251],"consisting":[252],"European":[254],"Parliament":[255],"Plenary":[256],"speeches.":[257],"The":[258],"results":[259],"show":[260],"achieves":[264],"error":[268],"rate":[269],"4.6%":[271],"with":[272],"latency":[273],"at":[275],"most":[276],"3":[277],"seconds.":[278]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2022,"cited_by_count":1},{"year":2020,"cited_by_count":2},{"year":2019,"cited_by_count":2},{"year":2016,"cited_by_count":1},{"year":2015,"cited_by_count":4},{"year":2014,"cited_by_count":2},{"year":2013,"cited_by_count":1},{"year":2012,"cited_by_count":3}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}