Страница 2 из 3
Re: А гхм а еще вопрос
Добавлено: 17 май 2006, 20:19
Marmot
aissp писал(а):А метрика на пространстве то задана? Типа возьмем два больных у одного понос и желтуха, у второго типа геморой и триппер. К кому ближе больной у которого диабет и склероз? Мне просто интересно (честно гря ужасно) откуда растут хвосты етой задачи

Задача состоит в том чтобы хотя бы приблизительно идентифицировать небольшой процент "плохого" порно в куче "хорошего"(легального) порно
Хвосты растут от анализа изображений используя wavelet transform (хрен знает как это по-русски). Там, по литературным источникам, надо использовать как минимум 40, а лучше больше коэффициентов.
Кроме того имеются в наличии некоторые параметры (порядка 10-15) описывающие социальную среду вокруг картинок. Используя эти параметры мы и смогли более менее надёжно идентифицировать "хорошее" порно.
Хочется попробовать поместить фотку в это социально-wavelet-ное пространство и посмотреть что из себя представляют соседи. Есть сильное подозрение что предватрительно пометив в этом пространстве "плохие" точки мы сумеем найти подозрительные фотки в ихней окрестности и поместить их в shortlist для ручного анализа.
Ну к тому же хочется посмотреть какие ещё паттерны мы сумеем обнаружить.
2vg модель мы только ищем, очень может быть что в конце концов рамерность можно будет сильно понизить, но пока хочется туда запихнуть всё что у нас есть и посмотреть на распределение точек в этом пространстве.
О блин
Добавлено: 17 май 2006, 20:52
aissp
А что за ето еще и денег платят, офигет, дайте две? Я ето обезать не буду, но в библиотечке пороюсь и братков руских поспращаю. етто обещать могу.
Re: О блин
Добавлено: 17 май 2006, 21:03
Marmot
aissp писал(а):А что за ето еще и денег платят, офигет, дайте две? Я ето обезать не буду, но в библиотечке пороюсь и братков руских поспращаю. етто обещать могу.
Дак порыться и погуглиться я и сам могу, очень хотелось бы что нибудь готовенькое, и уже enterprise scale

Ведь должен же кто нибудь похожие задачи решать, ЦРУ, КГБ например...
Re: А гхм а еще вопрос
Добавлено: 17 май 2006, 21:03
Димас
Marmot писал(а):
Задача состоит в том чтобы хотя бы приблизительно идентифицировать небольшой процент "плохого" порно в куче "хорошего"(легального) порно

Во блин, чем люди на работе занимаются! Ты это, как хорошее порно найдешь, брось ссылочку. А то мне только плохое попадается.

А если серьезно, как же собираетесь отличить хорошее от плохого, по признаку - легально/нелегально? Есть лицензия - хорошее, нет - таже картинка становится плохой?
Просматривая настройки IE обнаружил Content Adviser, где можно поставить разные уровни ограничения, типа Frontal nudity или Provocation frontal nudity. Я в первую минуту прям обалдел - но нефига себе, Билл программу сделал, которая на лету такой анализ крутой делает. Потом дошло, что скорее всего, есть соглашение выставлять где-то на странице специальные теги.
Re: А гхм а еще вопрос
Добавлено: 17 май 2006, 21:05
ajkj3em
в 3d графике (в raytracing'e в частности) применяется oct tree space
subdivision для ускорения поиска relevant objects. в принципе легко
обобщаемо на случай N измерений и мне кажется можно прикрутить
для случая поиска ближайших соседей.
идея в том, что набор всех существующих точек заключается в куб,
дальше для каждой их осей куб бьется ортогональной к оси плоскостью
на равные части (по количеству точек). дальше по рекурсии до тех пор
пока каждый мелкий куб не будет содержать удобоваримое количество
точек.
получается по сути иерархическая структура, которая за log(n) позволяет
найти в каком из маленьких кубиков лежит заданная точка. также
тривиально находятся соседи этого кубика и таким образом можно
расширять радиус поиска и проверять более удаленные точки, если
это требуется.
немного сумбурно, но я думаю на пальцах идея понятна.
Re: А гхм а еще вопрос
Добавлено: 17 май 2006, 21:18
Marmot
Димас писал(а):[А если серьезно, как же собираетесь отличить хорошее от плохого, по признаку - легально/нелегально? Есть лицензия - хорошее, нет - таже картинка становится плохой?
Под плохим порно имелось ввиду картинки с абюзаными детишками. Мы прямой терминологии стараемся избегать, а то
Echelon, знаете ли, не дремлет

Ну
Добавлено: 17 май 2006, 21:27
aissp
сделаю гесс. (Про кубы ето я как понимаю q tree - очень похоже, они не слишком подходят для поиска соседей) я бы подлез с другой стороны. Вы пробовали стат анализ, имхо задача вышлядит в такой постановке из егой ной области? Я бы набрал ккартинки с плохим порно и побольше побольше (хе хе) и провел кластерный анализ поглядел как они кластеризуются если хорошо (по какому то ряду параметров) то от и критерий готовый. Вобщем то проекспериментировать не биг дил какой в какой либо Statictica к примеру или прямо в мат лабе. Ето так на вскидку.
Re: А гхм а еще вопрос
Добавлено: 17 май 2006, 21:30
Проф. Преображенский
Marmot писал(а):Димас писал(а):[А если серьезно, как же собираетесь отличить хорошее от плохого, по признаку - легально/нелегально? Есть лицензия - хорошее, нет - таже картинка становится плохой?
Под плохим порно имелось ввиду картинки с абюзаными детишками. Мы прямой терминологии стараемся избегать, а то
Echelon, знаете ли, не дремлет

Вейвлетами тут не обойдешься... Придется распознавалку лепить. Нейронные сети и т.п.
Re: Ну
Добавлено: 17 май 2006, 21:39
Marmot
aissp писал(а):сделаю гесс. (Про кубы ето я как понимаю q tree - очень похоже) я бы подлез с другой стороны. Вы пробовалистат анализ? Я бы набрал ккартинки с плохим порно и побольше побольше (хе хе) и провел кластерный анализ поглядел как они кластеризуются если хорошо (по какому то ряду параметров) то от и критерий готовый. Вобщем то проекспериментировать не биг дил какой в какой либо Statictica к примеру или прямо в мат лабе. Ето так на вскидку.
А вот с этого я и начал, так как в clustering-e насобачился в последнее время

Правда только с социальными параметрами, без анализа изображения, всё оказалось очень сильно размазано

Пока что собираемся идти в том же направлении + коэффициенты анализа изображения
Но честно говоря хочется поиметь универсальный мощный инструмент для такого рода задач.
Правда пока похоже, что всё придётся делать самому

Хе хе
Добавлено: 17 май 2006, 22:40
aissp
Если найдещь - свистни, я тоже такой хочу. Но имхо я тут подумал часок, задача и вправду из области стат анализа (не обязательно кластерный , универсальный критерий и впрям подобрать сложно (как мне кажется) а вот частный - почему бы и нет. Ну и на неплохую научную работу тянеть ето. Я бы публиковал потом

В какой нибудь прикладной математике - одна тема чего стоит, супер. А так - яперва я бы попробовал факторный - определить какие признаки отличают плохую от хорошей, потом дискриминантный потом. да чего я объясняю блин, по моему пару месяцев непосредственного наслаждения тебе обеспечено

Добавлено: 18 май 2006, 17:37
Димас
Проанализировать изображение и отделить плохое от хорошего будет невероятно сложно. Не уверен, что и группе профессиональных математиков это будет под силу. Почему не пойти по легкому и надежному пути - анализировать только текст на странице?
Добавлено: 23 май 2006, 15:02
sz
А я так думаю, что надо выбрать с десяток произвольных параметров, (ну типа, медианы фурье преобразований по разным параметрам) и скормить их нейронным сетям, чтобы нашли зависимость.
Ну а дальше чисто эмпирический подход. Смотреть, какие параметры больше влияют, остальные удалять и добавлять новые произвольные. Так пока успех не окажется значимым.
Добавлено: 23 май 2006, 15:04
sz
Я бы назвал такой подход дарвинистским. Случайные изменения + механизмы закрепления успеха. Направленная селекция

Добавлено: 23 май 2006, 16:30
vg
Димас писал(а):Проанализировать изображение и отделить плохое от хорошего будет невероятно сложно. Не уверен, что и группе профессиональных математиков это будет под силу. Почему не пойти по легкому и надежному пути - анализировать только текст на странице?
Вообщето анализировать кратинки давно научились, и под разным соусом. Наприсер, и в ГИС давно (что тебе должно быть знакомо для растровых спатиал моделей), и в шифровании давно. Правда ни то ни другое широко используют. Архаизмы.
Добавлено: 24 май 2006, 00:38
Ren
Старина Зотин писал(а):Я бы назвал такой подход дарвинистским. Случайные изменения + механизмы закрепления успеха. Направленная селекция

Всё гораздо проще.
Как тут уже правильно подметили анализировать изображения уже научились.
to Marmot проверь личку.