{"id":"https://openalex.org/W3025757635","doi":"https://doi.org/10.21437/odyssey.2020-15","title":"DIHARD II is Still Hard: Experimental Results and Discussions from the DKU-LENOVO Team","display_name":"DIHARD II is Still Hard: Experimental Results and Discussions from the DKU-LENOVO Team","publication_year":2020,"publication_date":"2020-05-15","ids":{"openalex":"https://openalex.org/W3025757635","doi":"https://doi.org/10.21437/odyssey.2020-15","mag":"3025757635"},"language":"en","primary_location":{"id":"doi:10.21437/odyssey.2020-15","is_oa":false,"landing_page_url":"https://doi.org/10.21437/odyssey.2020-15","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"The Speaker and Language Recognition Workshop (Odyssey 2020)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5102279504","display_name":"Qingjian Lin","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Qingjian Lin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103888187","display_name":"Weicheng Cai","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Weicheng Cai","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101475284","display_name":"Lin Yang","orcid":"https://orcid.org/0000-0002-6956-8177"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lin Yang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100395810","display_name":"Junjie Wang","orcid":"https://orcid.org/0000-0002-9374-9699"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Junjie Wang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5076077208","display_name":"Jun Zhang","orcid":"https://orcid.org/0000-0003-2173-3302"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jun Zhang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5100351449","display_name":"Ming Li","orcid":"https://orcid.org/0000-0002-6406-1983"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ming Li","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5102279504"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.9279,"has_fulltext":false,"cited_by_count":8,"citation_normalized_percentile":{"value":0.80020286,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"102","last_page":"109"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9965999722480774,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9943000078201294,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.5424959659576416}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5424959659576416}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.21437/odyssey.2020-15","is_oa":false,"landing_page_url":"https://doi.org/10.21437/odyssey.2020-15","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"The Speaker and Language Recognition Workshop (Odyssey 2020)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":["https://openalex.org/W2748952813","https://openalex.org/W2390279801","https://openalex.org/W2358668433","https://openalex.org/W2376932109","https://openalex.org/W2001405890","https://openalex.org/W2382290278","https://openalex.org/W2350741829","https://openalex.org/W2530322880","https://openalex.org/W1596801655","https://openalex.org/W2359140296"],"abstract_inverted_index":{"In":[0],"this":[1],"paper,":[2],"we":[3,44,119],"present":[4],"the":[5,9,16,55,59,65,80,108,116,122],"submitted":[6],"system":[7,21,92],"for":[8],"second":[10],"DIHARD":[11],"Speech":[12],"Diarization":[13],"Challenge":[14],"from":[15],"DKULENOVO":[17],"team.":[18],"Our":[19,51,90],"diarization":[20,76,123],"includes":[22],"multiple":[23],"modules,":[24],"namely":[25],"voice":[26],"activity":[27],"detection":[28,85],"(VAD),":[29],"segmentation,":[30],"speaker":[31,63],"embedding":[32],"extraction,":[33],"similarity":[34,68],"scoring,":[35],"clustering,":[36],"resegmentation":[37,81],"and":[38,70,83,98,112],"overlap":[39,84],"detection.":[40],"For":[41],"each":[42],"module,":[43],"explore":[45],"different":[46],"techniques":[47],"to":[48],"enhance":[49],"performance.":[50],"final":[52],"submission":[53],"employs":[54],"ResNet-LSTM":[56],"based":[57,62,67],"VAD,":[58],"Deep":[60],"ResNet":[61],"embedding,":[64],"LSTM":[66],"scoring":[69],"spectral":[71],"clustering.":[72],"Variational":[73],"Bayes":[74],"(VB)":[75],"is":[77,125],"applied":[78],"in":[79,96,101],"stage":[82],"also":[86],"brings":[87],"slight":[88],"improvement.":[89],"proposed":[91],"achieves":[93],"18.84%":[94],"DER":[95,100],"Track1":[97],"27.90%":[99],"Track2.":[102],"Although":[103],"our":[104],"systems":[105],"have":[106],"reduced":[107],"DERs":[109],"by":[110],"27.5%":[111],"31.7%":[113],"relatively":[114],"against":[115],"official":[117],"baselines,":[118],"believe":[120],"that":[121],"task":[124],"still":[126],"very":[127],"difficult.":[128]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2023,"cited_by_count":1},{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":5}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}