Пак: подбор параметров без переобучения (Optuna + Streamlit)
Почти в любой задаче на табличных данных наступает момент «а какие настройки лучше?». Какие диапазоны фильтров оставить, какой порог поставить, какие категории включить. Руками перебирать - долго, а главное - легко себя обмануть: подобрать параметры, которые идеально сидят на ваших данных и полностью разваливаются на новых. Это называется переобучением, и это главная ловушка новичка.
Этот пак - готовый рецепт честного перебора параметров: библиотека Optuna ищет оптимум умно (а не грубым перебором), разбивка данных на три части (train/validation/test) не даёт себя обмануть, штрафы за сложность отсекают «слишком хитрые» решения, а весь интерфейс собирается на Streamlit - без фронтенда и бэкенда, просто на Python. В основе - боевой инструмент, который перебирает фильтры на таблице в 100 000+ строк за минуту. Всё обезличено: вместо конкретной предметной области - обычная таблица со столбцом-целью (profit), который вы максимизируете.
Это материал для участников клуба
Как перебирать параметры фильтров/моделей на табличных данных с Optuna (TPESampler), честно защищаться от переобучения через разбивку train/val/test 60/20/20, штрафы за сложность и цель 0.7*train+0.3*val, и собрать всё в data-app на Streamlit за вечер. Полная версия доступна по подписке Argo Intelligent.
Открыть доступ