{"id":"https://openalex.org/W2113810833","doi":"https://doi.org/10.1109/icassp.2003.1202299","title":"Depitch and the role of fundamental frequency in speaker recognition","display_name":"Depitch and the role of fundamental frequency in speaker recognition","publication_year":2003,"publication_date":"2003-12-22","ids":{"openalex":"https://openalex.org/W2113810833","doi":"https://doi.org/10.1109/icassp.2003.1202299","mag":"2113810833"},"language":"en","primary_location":{"id":"doi:10.1109/icassp.2003.1202299","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2003.1202299","pdf_url":null,"source":{"id":"https://openalex.org/S4363608982","display_name":"2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03).","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03).","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5070231894","display_name":"R.D. Zilea","orcid":null},"institutions":[{"id":"https://openalex.org/I1341412227","display_name":"IBM (United States)","ror":"https://ror.org/05hh8d621","country_code":"US","type":"company","lineage":["https://openalex.org/I1341412227"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"R.D. Zilea","raw_affiliation_strings":["IBM T. J. Watson Res. Center, Yorktown Heights, NY, USA","IBM T. J. Watson Research Center, Yorktown Heights , NY, USA#TAB#"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IBM T. J. Watson Res. Center, Yorktown Heights, NY, USA","institution_ids":["https://openalex.org/I1341412227"]},{"raw_affiliation_string":"IBM T. J. Watson Research Center, Yorktown Heights , NY, USA#TAB#","institution_ids":["https://openalex.org/I1341412227"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5039085741","display_name":"Ji\u0159\u00ed Navr\u00e1til","orcid":"https://orcid.org/0000-0001-6348-0812"},"institutions":[{"id":"https://openalex.org/I1341412227","display_name":"IBM (United States)","ror":"https://ror.org/05hh8d621","country_code":"US","type":"company","lineage":["https://openalex.org/I1341412227"]},{"id":"https://openalex.org/I4210114115","display_name":"IBM Research - Thomas J. Watson Research Center","ror":"https://ror.org/0265w5591","country_code":"US","type":"facility","lineage":["https://openalex.org/I1341412227","https://openalex.org/I4210114115"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"J. Navratil","raw_affiliation_strings":["IBM T. J. Watson Research Center, Yorktown Heights, NY, USA","IBM T. J. Watson Research Center, Yorktown Heights , NY, USA#TAB#"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IBM T. J. Watson Research Center, Yorktown Heights, NY, USA","institution_ids":["https://openalex.org/I4210114115"]},{"raw_affiliation_string":"IBM T. J. Watson Research Center, Yorktown Heights , NY, USA#TAB#","institution_ids":["https://openalex.org/I1341412227"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5111944718","display_name":"Ganesh N. Ramaswamy","orcid":"https://orcid.org/0009-0002-8015-0844"},"institutions":[{"id":"https://openalex.org/I1341412227","display_name":"IBM (United States)","ror":"https://ror.org/05hh8d621","country_code":"US","type":"company","lineage":["https://openalex.org/I1341412227"]},{"id":"https://openalex.org/I4210114115","display_name":"IBM Research - Thomas J. Watson Research Center","ror":"https://ror.org/0265w5591","country_code":"US","type":"facility","lineage":["https://openalex.org/I1341412227","https://openalex.org/I4210114115"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"G.N. Ramaswamy","raw_affiliation_strings":["IBM T. J. Watson Research Center, Yorktown Heights, NY, USA","IBM T. J. Watson Research Center, Yorktown Heights , NY, USA#TAB#"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IBM T. J. Watson Research Center, Yorktown Heights, NY, USA","institution_ids":["https://openalex.org/I4210114115"]},{"raw_affiliation_string":"IBM T. J. Watson Research Center, Yorktown Heights , NY, USA#TAB#","institution_ids":["https://openalex.org/I1341412227"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":2.9202,"has_fulltext":false,"cited_by_count":28,"citation_normalized_percentile":{"value":0.91478439,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":90,"max":96},"biblio":{"volume":"2","issue":null,"first_page":"II","last_page":"81"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10201","display_name":"Speech Recognition and Synthesis","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10860","display_name":"Speech and Audio Processing","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11309","display_name":"Music and Audio Processing","score":0.9972000122070312,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/speech-recognition","display_name":"Speech recognition","score":0.8452482223510742},{"id":"https://openalex.org/keywords/nist","display_name":"NIST","score":0.7782130241394043},{"id":"https://openalex.org/keywords/speaker-recognition","display_name":"Speaker recognition","score":0.7272403240203857},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6492583751678467},{"id":"https://openalex.org/keywords/mel-frequency-cepstrum","display_name":"Mel-frequency cepstrum","score":0.5937275290489197},{"id":"https://openalex.org/keywords/word-error-rate","display_name":"Word error rate","score":0.5911635160446167},{"id":"https://openalex.org/keywords/cepstrum","display_name":"Cepstrum","score":0.5313634872436523},{"id":"https://openalex.org/keywords/signal","display_name":"SIGNAL (programming language)","score":0.4676743447780609},{"id":"https://openalex.org/keywords/speaker-diarisation","display_name":"Speaker diarisation","score":0.44851285219192505},{"id":"https://openalex.org/keywords/speech-processing","display_name":"Speech processing","score":0.43770426511764526},{"id":"https://openalex.org/keywords/fundamental-frequency","display_name":"Fundamental frequency","score":0.426100492477417},{"id":"https://openalex.org/keywords/pitch-detection-algorithm","display_name":"Pitch detection algorithm","score":0.4162619411945343},{"id":"https://openalex.org/keywords/pattern-recognition","display_name":"Pattern recognition (psychology)","score":0.41201210021972656},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.35512182116508484},{"id":"https://openalex.org/keywords/feature-extraction","display_name":"Feature extraction","score":0.27946925163269043},{"id":"https://openalex.org/keywords/acoustics","display_name":"Acoustics","score":0.18164068460464478}],"concepts":[{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.8452482223510742},{"id":"https://openalex.org/C111219384","wikidata":"https://www.wikidata.org/wiki/Q6954384","display_name":"NIST","level":2,"score":0.7782130241394043},{"id":"https://openalex.org/C133892786","wikidata":"https://www.wikidata.org/wiki/Q1145189","display_name":"Speaker recognition","level":2,"score":0.7272403240203857},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6492583751678467},{"id":"https://openalex.org/C151989614","wikidata":"https://www.wikidata.org/wiki/Q440370","display_name":"Mel-frequency cepstrum","level":3,"score":0.5937275290489197},{"id":"https://openalex.org/C40969351","wikidata":"https://www.wikidata.org/wiki/Q3516228","display_name":"Word error rate","level":2,"score":0.5911635160446167},{"id":"https://openalex.org/C88485024","wikidata":"https://www.wikidata.org/wiki/Q1054571","display_name":"Cepstrum","level":2,"score":0.5313634872436523},{"id":"https://openalex.org/C2779843651","wikidata":"https://www.wikidata.org/wiki/Q7390335","display_name":"SIGNAL (programming language)","level":2,"score":0.4676743447780609},{"id":"https://openalex.org/C149838564","wikidata":"https://www.wikidata.org/wiki/Q7574248","display_name":"Speaker diarisation","level":3,"score":0.44851285219192505},{"id":"https://openalex.org/C61328038","wikidata":"https://www.wikidata.org/wiki/Q3358061","display_name":"Speech processing","level":2,"score":0.43770426511764526},{"id":"https://openalex.org/C10513763","wikidata":"https://www.wikidata.org/wiki/Q1331774","display_name":"Fundamental frequency","level":2,"score":0.426100492477417},{"id":"https://openalex.org/C135622632","wikidata":"https://www.wikidata.org/wiki/Q7198851","display_name":"Pitch detection algorithm","level":3,"score":0.4162619411945343},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.41201210021972656},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.35512182116508484},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.27946925163269043},{"id":"https://openalex.org/C24890656","wikidata":"https://www.wikidata.org/wiki/Q82811","display_name":"Acoustics","level":1,"score":0.18164068460464478},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icassp.2003.1202299","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icassp.2003.1202299","pdf_url":null,"source":{"id":"https://openalex.org/S4363608982","display_name":"2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03).","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03).","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education","score":0.550000011920929}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":8,"referenced_works":["https://openalex.org/W86348706","https://openalex.org/W111126846","https://openalex.org/W1751091532","https://openalex.org/W1997873121","https://openalex.org/W2014181881","https://openalex.org/W2069883713","https://openalex.org/W2167768673","https://openalex.org/W6604534107"],"related_works":["https://openalex.org/W2018086531","https://openalex.org/W1980297060","https://openalex.org/W2387604097","https://openalex.org/W2787035864","https://openalex.org/W2373675101","https://openalex.org/W2141992701","https://openalex.org/W2051008990","https://openalex.org/W1963976507","https://openalex.org/W106160982","https://openalex.org/W2378106384"],"abstract_inverted_index":{"Pitch":[0],"information":[1,66],"is":[2,105,118],"known":[3],"to":[4,47,63,121],"be":[5],"partially":[6],"conveyed":[7],"in":[8,101],"Mel":[9],"cepstral":[10],"features":[11],"that":[12,61,87],"are":[13],"commonly":[14],"used":[15],"for":[16,21,107],"speaker":[17,49],"recognition.":[18],"In":[19],"particular,":[20],"high":[22,108],"pitched":[23,109],"female":[24,77],"speakers,":[25],"and":[26,34,94,111],"whenever":[27],"average":[28],"pitch":[29,65],"varies":[30],"significantly":[31],"between":[32],"enrollment":[33],"testing,":[35],"the":[36,42,68,76,80,124],"fine":[37],"spectral":[38],"structure":[39],"introduced":[40],"by":[41,88],"fundamental":[43],"frequency":[44],"was":[45],"shown":[46,120],"degrade":[48],"recognition":[50],"performance.":[51],"This":[52],"paper":[53],"introduces":[54],"a":[55,92,95,98],"signal":[56],"processing":[57],"procedure":[58],"termed":[59],"depitch":[60],"attempts":[62],"remove":[64],"from":[67,91],"speech":[69],"signal.":[70],"Recognition":[71,84],"experiments":[72],"carried":[73],"out":[74],"on":[75],"subset":[78],"of":[79,127],"NIST":[81],"2002":[82],"Speaker":[83],"Evaluation":[85],"show":[86],"combining":[89],"scores":[90],"conventional":[93],"depitched":[96],"system,":[97],"substantial":[99],"improvement":[100],"equal":[102],"error":[103],"rate":[104],"obtained":[106],"speakers":[110],"pitch-mismatched":[112],"trials.":[113],"Performing":[114],"pitch/depitch":[115],"score":[116],"fusion":[117],"also":[119],"help":[122],"alleviate":[123],"well-known":[125],"problem":[126],"\"goat\"":[128],"speakers.":[129]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2022,"cited_by_count":2},{"year":2017,"cited_by_count":1},{"year":2015,"cited_by_count":1},{"year":2014,"cited_by_count":2},{"year":2012,"cited_by_count":2}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}