Mol-Instructions: 面向大模型的大规模生物分子指令数据集
引言在自然语言处理(NLP)的众多应用场景中,大型语言模型(LargeLanguageModel,LLM)展现了其卓越的文本理解与生成能力,不仅在传统的文本任务上成绩斐然,更在生物学、计算化学、药物研发等跨学科领域证明了其广泛的应用潜力。尽管如此,生物分子研究领域的特殊性—比如专用数据集的缺乏、数据标注的高复杂度、知识的多元化以及表示方式的不统一—仍旧是当前面临的关键挑战。针对这些问题,本文提出MolInstructions,这是一...