Вопрос к крутым data architect-ам и примазывающимся

Все, что вы хотели знать о программизме, но боялись спросить.
Аватара пользователя
Marmot
Графоман
Сообщения: 39354
Зарегистрирован: 17 фев 2003, 17:58
Откуда: Caulfeild
Контактная информация:

Re: А гхм а еще вопрос

Сообщение Marmot »

aissp писал(а):А метрика на пространстве то задана? Типа возьмем два больных у одного понос и желтуха, у второго типа геморой и триппер. К кому ближе больной у которого диабет и склероз? Мне просто интересно (честно гря ужасно) откуда растут хвосты етой задачи :)
Задача состоит в том чтобы хотя бы приблизительно идентифицировать небольшой процент "плохого" порно в куче "хорошего"(легального) порно :)
Хвосты растут от анализа изображений используя wavelet transform (хрен знает как это по-русски). Там, по литературным источникам, надо использовать как минимум 40, а лучше больше коэффициентов.
Кроме того имеются в наличии некоторые параметры (порядка 10-15) описывающие социальную среду вокруг картинок. Используя эти параметры мы и смогли более менее надёжно идентифицировать "хорошее" порно.
Хочется попробовать поместить фотку в это социально-wavelet-ное пространство и посмотреть что из себя представляют соседи. Есть сильное подозрение что предватрительно пометив в этом пространстве "плохие" точки мы сумеем найти подозрительные фотки в ихней окрестности и поместить их в shortlist для ручного анализа.
Ну к тому же хочется посмотреть какие ещё паттерны мы сумеем обнаружить.

2vg модель мы только ищем, очень может быть что в конце концов рамерность можно будет сильно понизить, но пока хочется туда запихнуть всё что у нас есть и посмотреть на распределение точек в этом пространстве.
Аватара пользователя
aissp
Маньяк
Сообщения: 2710
Зарегистрирован: 07 ноя 2005, 09:51

О блин

Сообщение aissp »

А что за ето еще и денег платят, офигет, дайте две? Я ето обезать не буду, но в библиотечке пороюсь и братков руских поспращаю. етто обещать могу.
Аватара пользователя
Marmot
Графоман
Сообщения: 39354
Зарегистрирован: 17 фев 2003, 17:58
Откуда: Caulfeild
Контактная информация:

Re: О блин

Сообщение Marmot »

aissp писал(а):А что за ето еще и денег платят, офигет, дайте две? Я ето обезать не буду, но в библиотечке пороюсь и братков руских поспращаю. етто обещать могу.
Дак порыться и погуглиться я и сам могу, очень хотелось бы что нибудь готовенькое, и уже enterprise scale :)
Ведь должен же кто нибудь похожие задачи решать, ЦРУ, КГБ например...
Аватара пользователя
Димас
Житель
Сообщения: 593
Зарегистрирован: 22 июл 2005, 16:58
Откуда: Север->Торонто

Re: А гхм а еще вопрос

Сообщение Димас »

Marmot писал(а): Задача состоит в том чтобы хотя бы приблизительно идентифицировать небольшой процент "плохого" порно в куче "хорошего"(легального) порно :)
Во блин, чем люди на работе занимаются! Ты это, как хорошее порно найдешь, брось ссылочку. А то мне только плохое попадается. :lol:
А если серьезно, как же собираетесь отличить хорошее от плохого, по признаку - легально/нелегально? Есть лицензия - хорошее, нет - таже картинка становится плохой?
Просматривая настройки IE обнаружил Content Adviser, где можно поставить разные уровни ограничения, типа Frontal nudity или Provocation frontal nudity. Я в первую минуту прям обалдел - но нефига себе, Билл программу сделал, которая на лету такой анализ крутой делает. Потом дошло, что скорее всего, есть соглашение выставлять где-то на странице специальные теги.
Аватара пользователя
ajkj3em
Маньяк
Сообщения: 2063
Зарегистрирован: 12 ноя 2006, 06:53

Re: А гхм а еще вопрос

Сообщение ajkj3em »

в 3d графике (в raytracing'e в частности) применяется oct tree space
subdivision для ускорения поиска relevant objects. в принципе легко
обобщаемо на случай N измерений и мне кажется можно прикрутить
для случая поиска ближайших соседей.

идея в том, что набор всех существующих точек заключается в куб,
дальше для каждой их осей куб бьется ортогональной к оси плоскостью
на равные части (по количеству точек). дальше по рекурсии до тех пор
пока каждый мелкий куб не будет содержать удобоваримое количество
точек.

получается по сути иерархическая структура, которая за log(n) позволяет
найти в каком из маленьких кубиков лежит заданная точка. также
тривиально находятся соседи этого кубика и таким образом можно
расширять радиус поиска и проверять более удаленные точки, если
это требуется.

немного сумбурно, но я думаю на пальцах идея понятна.
Аватара пользователя
Marmot
Графоман
Сообщения: 39354
Зарегистрирован: 17 фев 2003, 17:58
Откуда: Caulfeild
Контактная информация:

Re: А гхм а еще вопрос

Сообщение Marmot »

Димас писал(а):[А если серьезно, как же собираетесь отличить хорошее от плохого, по признаку - легально/нелегально? Есть лицензия - хорошее, нет - таже картинка становится плохой?
Под плохим порно имелось ввиду картинки с абюзаными детишками. Мы прямой терминологии стараемся избегать, а то
Echelon, знаете ли, не дремлет :)
Аватара пользователя
aissp
Маньяк
Сообщения: 2710
Зарегистрирован: 07 ноя 2005, 09:51

Ну

Сообщение aissp »

сделаю гесс. (Про кубы ето я как понимаю q tree - очень похоже, они не слишком подходят для поиска соседей) я бы подлез с другой стороны. Вы пробовали стат анализ, имхо задача вышлядит в такой постановке из егой ной области? Я бы набрал ккартинки с плохим порно и побольше побольше (хе хе) и провел кластерный анализ поглядел как они кластеризуются если хорошо (по какому то ряду параметров) то от и критерий готовый. Вобщем то проекспериментировать не биг дил какой в какой либо Statictica к примеру или прямо в мат лабе. Ето так на вскидку.
Аватара пользователя
Проф. Преображенский
Графоман
Сообщения: 20276
Зарегистрирован: 08 ноя 2006, 11:10

Re: А гхм а еще вопрос

Сообщение Проф. Преображенский »

Marmot писал(а):
Димас писал(а):[А если серьезно, как же собираетесь отличить хорошее от плохого, по признаку - легально/нелегально? Есть лицензия - хорошее, нет - таже картинка становится плохой?
Под плохим порно имелось ввиду картинки с абюзаными детишками. Мы прямой терминологии стараемся избегать, а то
Echelon, знаете ли, не дремлет :)
Вейвлетами тут не обойдешься... Придется распознавалку лепить. Нейронные сети и т.п.
Аватара пользователя
Marmot
Графоман
Сообщения: 39354
Зарегистрирован: 17 фев 2003, 17:58
Откуда: Caulfeild
Контактная информация:

Re: Ну

Сообщение Marmot »

aissp писал(а):сделаю гесс. (Про кубы ето я как понимаю q tree - очень похоже) я бы подлез с другой стороны. Вы пробовалистат анализ? Я бы набрал ккартинки с плохим порно и побольше побольше (хе хе) и провел кластерный анализ поглядел как они кластеризуются если хорошо (по какому то ряду параметров) то от и критерий готовый. Вобщем то проекспериментировать не биг дил какой в какой либо Statictica к примеру или прямо в мат лабе. Ето так на вскидку.
А вот с этого я и начал, так как в clustering-e насобачился в последнее время :)
Правда только с социальными параметрами, без анализа изображения, всё оказалось очень сильно размазано :(
Пока что собираемся идти в том же направлении + коэффициенты анализа изображения
Но честно говоря хочется поиметь универсальный мощный инструмент для такого рода задач.
Правда пока похоже, что всё придётся делать самому :(
Аватара пользователя
aissp
Маньяк
Сообщения: 2710
Зарегистрирован: 07 ноя 2005, 09:51

Хе хе

Сообщение aissp »

Если найдещь - свистни, я тоже такой хочу. Но имхо я тут подумал часок, задача и вправду из области стат анализа (не обязательно кластерный , универсальный критерий и впрям подобрать сложно (как мне кажется) а вот частный - почему бы и нет. Ну и на неплохую научную работу тянеть ето. Я бы публиковал потом :) В какой нибудь прикладной математике - одна тема чего стоит, супер. А так - яперва я бы попробовал факторный - определить какие признаки отличают плохую от хорошей, потом дискриминантный потом. да чего я объясняю блин, по моему пару месяцев непосредственного наслаждения тебе обеспечено :)
Аватара пользователя
Димас
Житель
Сообщения: 593
Зарегистрирован: 22 июл 2005, 16:58
Откуда: Север->Торонто

Сообщение Димас »

Проанализировать изображение и отделить плохое от хорошего будет невероятно сложно. Не уверен, что и группе профессиональных математиков это будет под силу. Почему не пойти по легкому и надежному пути - анализировать только текст на странице?
Аватара пользователя
sz
Маньяк
Сообщения: 1266
Зарегистрирован: 17 фев 2003, 19:34

Сообщение sz »

А я так думаю, что надо выбрать с десяток произвольных параметров, (ну типа, медианы фурье преобразований по разным параметрам) и скормить их нейронным сетям, чтобы нашли зависимость.
Ну а дальше чисто эмпирический подход. Смотреть, какие параметры больше влияют, остальные удалять и добавлять новые произвольные. Так пока успех не окажется значимым.
Аватара пользователя
sz
Маньяк
Сообщения: 1266
Зарегистрирован: 17 фев 2003, 19:34

Сообщение sz »

Я бы назвал такой подход дарвинистским. Случайные изменения + механизмы закрепления успеха. Направленная селекция :)
vg
Маньяк
Сообщения: 2803
Зарегистрирован: 29 май 2003, 22:29
Откуда: Магадан - Миссиссага

Сообщение vg »

Димас писал(а):Проанализировать изображение и отделить плохое от хорошего будет невероятно сложно. Не уверен, что и группе профессиональных математиков это будет под силу. Почему не пойти по легкому и надежному пути - анализировать только текст на странице?
Вообщето анализировать кратинки давно научились, и под разным соусом. Наприсер, и в ГИС давно (что тебе должно быть знакомо для растровых спатиал моделей), и в шифровании давно. Правда ни то ни другое широко используют. Архаизмы.
Ren
Частый Гость
Сообщения: 25
Зарегистрирован: 23 авг 2005, 00:56

Сообщение Ren »

Старина Зотин писал(а):Я бы назвал такой подход дарвинистским. Случайные изменения + механизмы закрепления успеха. Направленная селекция :)
Всё гораздо проще.

Как тут уже правильно подметили анализировать изображения уже научились.

to Marmot проверь личку.
Ответить