{"id":"https://openalex.org/W7133359126","doi":"https://doi.org/10.48550/arxiv.2603.01152","title":"DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent","display_name":"DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent","publication_year":2026,"publication_date":"2026-03-01","ids":{"openalex":"https://openalex.org/W7133359126","doi":"https://doi.org/10.48550/arxiv.2603.01152"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.01152","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01152","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.01152","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5127964371","display_name":"Tongzhou Wu","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Wu, Tongzhou","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127931279","display_name":"Yuhao Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Yuhao","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128029888","display_name":"Xinyu Ma","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ma, Xinyu","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5083350101","display_name":"Xiuqiang He","orcid":"https://orcid.org/0000-0002-4115-8205"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"He, Xiuqiang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127939922","display_name":"Shuaiqiang Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Shuaiqiang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127876795","display_name":"Dawei Yin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yin, Dawei","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5127985817","display_name":"Xiangyu Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Xiangyu","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5127964371"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.7330999970436096,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.7330999970436096,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.05990000069141388,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13274","display_name":"Expert finding and Q&A systems","score":0.05469999834895134,"subfield":{"id":"https://openalex.org/subfields/1710","display_name":"Information Systems"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6912999749183655},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.6028000116348267},{"id":"https://openalex.org/keywords/construct","display_name":"Construct (python library)","score":0.5462999939918518},{"id":"https://openalex.org/keywords/bridge","display_name":"Bridge (graph theory)","score":0.4609000086784363},{"id":"https://openalex.org/keywords/verifiable-secret-sharing","display_name":"Verifiable secret sharing","score":0.4575999975204468},{"id":"https://openalex.org/keywords/outcome","display_name":"Outcome (game theory)","score":0.4553999900817871},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.4546999931335449},{"id":"https://openalex.org/keywords/face","display_name":"Face (sociological concept)","score":0.3605000078678131}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7792999744415283},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6912999749183655},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.6028000116348267},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5773000121116638},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5758000016212463},{"id":"https://openalex.org/C2780801425","wikidata":"https://www.wikidata.org/wiki/Q5164392","display_name":"Construct (python library)","level":2,"score":0.5462999939918518},{"id":"https://openalex.org/C100776233","wikidata":"https://www.wikidata.org/wiki/Q2532492","display_name":"Bridge (graph theory)","level":2,"score":0.4609000086784363},{"id":"https://openalex.org/C85847156","wikidata":"https://www.wikidata.org/wiki/Q59015987","display_name":"Verifiable secret sharing","level":3,"score":0.4575999975204468},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.4553999900817871},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.4546999931335449},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.3605000078678131},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.33559998869895935},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.32710000872612},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.32519999146461487},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.3125},{"id":"https://openalex.org/C2781002164","wikidata":"https://www.wikidata.org/wiki/Q6822311","display_name":"Meta learning (computer science)","level":3,"score":0.304500013589859},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.3028999865055084},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.27639999985694885},{"id":"https://openalex.org/C13687954","wikidata":"https://www.wikidata.org/wiki/Q4826847","display_name":"Autonomous agent","level":2,"score":0.25679999589920044},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.25440001487731934}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.01152","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01152","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.01152","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01152","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Deep-research":[0],"agents":[1,20,148],"are":[2],"capable":[3],"of":[4,28,39,81,172],"executing":[5],"multi-step":[6],"web":[7,122],"exploration,":[8],"targeted":[9],"retrieval,":[10],"and":[11,35,46,106,130,140,169],"sophisticated":[12],"question":[13],"answering.":[14],"Despite":[15],"their":[16],"powerful":[17],"capabilities,":[18],"deep-research":[19,64,104,160],"face":[21],"two":[22],"critical":[23],"bottlenecks:":[24],"(1)":[25,82,120],"the":[26,37,164,170],"lack":[27],"large-scale,":[29],"challenging":[30,59,159],"datasets":[31,72],"with":[32,97],"real-world":[33],"difficulty,":[34],"(2)":[36,93,124],"absence":[38],"accessible,":[40],"open-source":[41,68,114],"frameworks":[42],"for":[43,63],"data":[44],"synthesis":[45],"agent":[47],"training.":[48],"To":[49],"bridge":[50],"these":[51],"gaps,":[52],"we":[53,111],"first":[54],"construct":[55],"DeepResearch-9K,":[56],"a":[57,74,102],"large-scale":[58],"dataset":[60,166],"specifically":[61],"designed":[62],"scenarios":[65],"built":[66],"from":[67,89,100],"multi-hop":[69],"question-answering":[70],"(QA)":[71],"via":[73],"low-cost":[75],"autonomous":[76],"pipeline.":[77],"Notably,":[78],"it":[79],"consists":[80],"9000":[83],"questions":[84],"spanning":[85],"three":[86],"difficulty":[87],"levels":[88],"L1":[90],"to":[91],"L3":[92],"high-quality":[94],"search":[95],"trajectories":[96],"reasoning":[98],"chains":[99],"Tongyi-DeepResearch-30B-A3B,":[101],"state-of-the-art":[103,156],"agent,":[105],"(3)":[107,131],"verifiable":[108],"answers.":[109],"Furthermore,":[110],"develop":[112],"an":[113],"training":[115],"framework":[116],"DeepResearch-R1":[117,154,173],"that":[118,147],"supports":[119],"multi-turn":[121],"interactions,":[123],"different":[125,132],"reinforcement":[126],"learning":[127],"(RL)":[128],"approaches,":[129],"reward":[133,139],"models":[134],"such":[135],"as":[136],"rule-based":[137],"outcome":[138],"LLM-as-judge":[141],"feedback.":[142],"Finally,":[143],"empirical":[144],"results":[145,157],"demonstrate":[146],"trained":[149],"on":[150,158,167,174],"DeepResearch-9K":[151,165],"under":[152],"our":[153],"achieve":[155],"benchmarks.":[161],"We":[162],"release":[163],"https://huggingface.co/datasets/artillerywu/DeepResearch-9K":[168],"code":[171],"https://github.com/Applied-Machine-Learning-Lab/DeepResearch-R1.":[175]},"counts_by_year":[],"updated_date":"2026-03-04T07:09:34.246503","created_date":"2026-03-04T00:00:00"}