使用拆分表与完全分离表 (CreateML, Swift) 时, 评估精度是不同的

我正在使用 Creatoml 和 Swift 创建一个表格分类模型。我使用的数据集总共有大约300个项目, 大约有13个不同的要素。我尝试了两种方式来测试我的模型, 并取得了惊人的非常不同的结果: 1)从原始完整数据集随机拆分我的培训和评估数据表: let (classifierEvaluationTable, classifierTrainingTable) = classifierTable.randomSplit(by: 0.1, seed: 4) 我玩了一些与1分裂的数字和4种子数, 但结果是到处都: 可能是33% 或80% 的评价准确性在某些情况下。(在这种情况下, 我获得了78% 的训练精度、83% 的验证精度和75% 的评估精度。 2)我手动从原始数据集中获取了10个项目, 并将它们放入新的数据集中进行测试。然后, 我从用于培训的300个项目数据集中删除了这些项目。当我测试这10个项目时, 我得到了96% 的评估精度。(在这种情况下, 我获得了98% 的训练精度、71% 的验证精度和96% 的评估精度。 我想知道为什么会有这么大的不同?哪些阅读应该被视为更现实和可信?对于这两种模型, ……