机器学习中踩过的坑,如何让你变得更专业?
仅做学术分享,如有侵权,联系删除
转载于 :AI科技评论










输入数据的分布情况,例如平均序列长度,平均像素值,音频时长 输出数据的分布情况,分类失衡是一个大问题 输出/输入的分布情况,这通常就是你要建模的内容
编写正则表达式从文件夹中加载某些文件,但是在添加新文件时没有更新正则文件,这意味着新文件无法成功加载 错误计算一个Epoch中的步数导致跳过了一些数据集 文件夹中有递归符号,导致多次加载相同的数据(在 Python 中,递归限制为 1000) 无法完全遍历文件层次结构,因而无法将数据加载到子文件夹中

有多少样本数? 一次训练所选取的样本数有多大? 一个Epoch有多少批处理?
从小处着手,实验会进行的很快。减少循环时间能够及早发现问题并更快地验证假设。 了解数据。不了解数据就无法做好建模的工作。不要浪费时间在花哨的模型上,要沉心静气地完成数据探查工作。 尽量多地记录日志。训练过程的信息越多,就容易识别异常并进行改进。 注重简单性和透明性而不仅仅是效率。不要为了节省少量时间而牺牲了代码的透明性。理解不透明代码所浪费的时间要比低效算法的运行时间多得多。 如果模型表现优异令人难以置信,那可能就是有问题。机器学习中存在很多错误可能会「愚弄」你,成为一名优秀的科学家意味着要理性的发现并消除这些错误。
赞 (0)
