Задача состоит в том чтобы хотя бы приблизительно идентифицировать небольшой процент "плохого" порно в куче "хорошего"(легального) порноaissp писал(а):А метрика на пространстве то задана? Типа возьмем два больных у одного понос и желтуха, у второго типа геморой и триппер. К кому ближе больной у которого диабет и склероз? Мне просто интересно (честно гря ужасно) откуда растут хвосты етой задачи

Хвосты растут от анализа изображений используя wavelet transform (хрен знает как это по-русски). Там, по литературным источникам, надо использовать как минимум 40, а лучше больше коэффициентов.
Кроме того имеются в наличии некоторые параметры (порядка 10-15) описывающие социальную среду вокруг картинок. Используя эти параметры мы и смогли более менее надёжно идентифицировать "хорошее" порно.
Хочется попробовать поместить фотку в это социально-wavelet-ное пространство и посмотреть что из себя представляют соседи. Есть сильное подозрение что предватрительно пометив в этом пространстве "плохие" точки мы сумеем найти подозрительные фотки в ихней окрестности и поместить их в shortlist для ручного анализа.
Ну к тому же хочется посмотреть какие ещё паттерны мы сумеем обнаружить.
2vg модель мы только ищем, очень может быть что в конце концов рамерность можно будет сильно понизить, но пока хочется туда запихнуть всё что у нас есть и посмотреть на распределение точек в этом пространстве.