Страница 1 из 2
Про датаворехаузы и прочую фигню.
Добавлено: 31 мар 2006, 10:28
Vovchik
Че то я не въезжаю. Почитываю я вот тута инет временами про всякие датаворехаузы и тама стока фигни требуется - такую софтину сякую, Информатику тулзу и прочую хрень... Я вот Кимпбалла не читал никаких тулзов не покупал. Сваял нечто подобное давно достаточно при помощи проверобилдера и Оракла ввиду надобности юезо всяких концепуий. Щаз смотрю - прям все как написано во всех этих умных статейках - дата ворехауз и шуршит как надо. Накой надо все эти ETL и прочая ежели все мона ручками сваять? Или я чего то не въезжаю?
Добавлено: 31 мар 2006, 13:34
Vovchik
Лана, спросим поканкретнее.
Во всяких методологиях и прочее все время рассказывается про эти ETL (extract, transform, load) процессы и всякие софтины для этого ETL. Нафига нужно что то дополнительное ежели в любой базе есть дофига прибамбасов для выгрузки, загрузки и перемалывания данных любым желаемым способом? Они ж для этого изначально предназначены - в смысле базы данных.
на то есть два аспекта
Добавлено: 31 мар 2006, 13:41
aissp
Как мне каацца
аспект 1. представб что у тебя есть гетерогенная среда, то есть у тя есть
счеты концелярские три штука
логорифмические линейки - два штука
арифмометр феликс-м - одна гтука
бесм-6 -1
ес-1040 - 4
бухгалтер -1
секретарши-блондинки - 5 шт
ну и всяких парадоксав дбазеров и прочий мути мешка два
Все надо свести в одну портянку, за которую кто-то должен дать тебе много денег. Ну и кто будет перекодировать блондинку в оракл? Для етого психиатром надо быть, а так добавил некоего електронного психо аналитика и процесс прошел.
2. аспект - дык новый продукт на рынке - ето типа как пиво с коноплей и как пиво отвратительно и как трава не вставлет, но кастомера цепляет.
Я бы гордился на твоем месте и быстро быстро продал кому-нибудь свой дата варехауз. Типи меня. датаварехауз на просто хауз, вест ван не предлагать...
От такое имхо
Добавлено: 31 мар 2006, 13:55
dima
угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.
Могешь со своими скриптами ? ... причем данные с сюрогатами.
Re: на то есть два аспекта
Добавлено: 31 мар 2006, 13:56
Vovchik
aissp писал(а):Как мне каацца
аспект 1. представб что у тебя есть гетерогенная среда, то есть у тя есть
счеты концелярские три штука
логорифмические линейки - два штука
арифмометр феликс-м - одна гтука
бесм-6 -1
ес-1040 - 4
бухгалтер -1
секретарши-блондинки - 5 шт
ну и всяких парадоксав дбазеров и прочий мути мешка два
Все надо свести в одну портянку, за которую кто-то должен дать тебе много денег. Ну и кто будет перекодировать блондинку в оракл? Для етого психиатром надо быть, а так добавил некоего електронного психо аналитика и процесс прошел.
2. аспект - дык новый продукт на рынке - ето типа как пиво с коноплей и как пиво отвратительно и как трава не вставлет, но кастомера цепляет.
Я бы гордился на твоем месте и быстро быстро продал кому-нибудь свой дата варехауз. Типи меня. датаварехауз на просто хауз, вест ван не предлагать...
От такое имхо
Дык а че там блондинку в Оракл - как два пальца об асфальт. Вот к примеру - Информикс в Оракл. Кидаем данные из Информикса в файлы, файлы жрем Ораклом, по пути мона все данные сломать как хош. А потом в Оракле мона что хошь сготовить. Подумаешь, бином Ньютона.
Добавлено: 31 мар 2006, 14:00
Vovchik
dima писал(а):угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.
Могешь со своими скриптами ? ... причем данные с сюрогатами.
Вот различные языки иностранные это да не пробовал, но можно поковыряться. Ладно, причину засчитываем. Еще какие нить соображения есть?
Добавлено: 31 мар 2006, 14:33
dima
причина номер 1 - перформанс и майтэнэнс. Через tool можно получить побыстрее все (если конечно знаешь как !)
Кстати информатика сосет. Наши системные инженера получили перформанс лучше чем у них (в Европе в начале года)

Добавлено: 31 мар 2006, 14:43
Vovchik
dima писал(а):причина номер 1 - перформанс и майтэнэнс. Через tool можно получить побыстрее все (если конечно знаешь как !)
Кстати информатика сосет. Наши системные инженера получили перформанс лучше чем у них (в Европе в начале года)

Дык это дело такое. Ежели сосчитать сколько чего стоит то могет выйти и не быстрее. Опять же - ежели знаешь как.
Добавлено: 04 апр 2006, 22:01
Lepsik
dima писал(а):угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.
Могешь со своими скриптами ? ... причем данные с сюрогатами.
такое из любой базы в любую даже MSSQL могет со своим DTS. А из любой кодировки в другую - за полчаса пишется ESP и конвертирую что хошь
Добавлено: 04 апр 2006, 22:36
папа Карло
нда... вас послушать все очень просто.

тока почему то народ за нормальные варехаузы по неколько лимонов платит.

от щедрости наверное.

помимо гетерогенных источников данных есть еще много вещей... назвать несколько:
- размер импортируемых данных
- разрешенное время загрузки
- число фидов
- их тип
- качество данных
- уровень доверия варехауза к каждому конкретному источнику
- процесс консолидации данных (какие аттрибуты популируются из каких источников и с какими приоритетами)
- очистка данных
- стандартизация данных
итд итп....
Добавлено: 05 апр 2006, 08:31
Vovchik
папа Карло писал(а):нда... вас послушать все очень просто.

тока почему то народ за нормальные варехаузы по неколько лимонов платит.

от щедрости наверное.

помимо гетерогенных источников данных есть еще много вещей... назвать несколько:
- размер импортируемых данных
- разрешенное время загрузки
- число фидов
- их тип
- качество данных
- уровень доверия варехауза к каждому конкретному источнику
- процесс консолидации данных (какие аттрибуты популируются из каких источников и с какими приоритетами)
- очистка данных
- стандартизация данных
итд итп....
Ну так и чего - голова она для чего? А как раз для таких случаев на Поеробилдере аппликухи ваяю. Заточенные под конкретные задачи и с идиотическими кнопками - делай раз делай два. Делов то умеючи...
А насчет того как бабла срубить - это мы тоже могем. 5 часов работы волшебным образом превращаются в 50 в инвойсе... Я то как раз знаю что найти личность которая могет че то вразумительное сваять по теме базы данных вообще - днем с огнем не сыщешь. Я никак вначале не мог понять че тут такого сложного потом смирился. Списал все на неспособность обычной личности абстрактно мыслить. Вывод как всегда - при наличии мозгов мона все и ручками склепать а при отсутствии мозгов никакой Кимпбалл не поможет.
Добавлено: 05 апр 2006, 10:47
папа Карло
это все конечно интересно, но.... варехауз в отличии от ОЛТП системы является отражением бизнесса. и если ты считаешь, что любой программист понимет как работает бизнес, то наверное ты глубоко заблуждаешься. невозможно построить правильный варехауз без знания бизнеса. ьизнес процессов в организации итд. теперь представь компанию скажем из нескольких тысяч человек и ее бизнес. ты все еще считешь что варехауз это фигня? или ты под варехаузом понимаешь свой дата март с парой кубов которые саппортят пару десятков репортов?

Добавлено: 05 апр 2006, 12:02
Vovchik
папа Карло писал(а):это все конечно интересно, но.... варехауз в отличии от ОЛТП системы является отражением бизнесса. и если ты считаешь, что любой программист понимет как работает бизнес, то наверное ты глубоко заблуждаешься. невозможно построить правильный варехауз без знания бизнеса. ьизнес процессов в организации итд. теперь представь компанию скажем из нескольких тысяч человек и ее бизнес. ты все еще считешь что варехауз это фигня? или ты под варехаузом понимаешь свой дата март с парой кубов которые саппортят пару десятков репортов?

Ну уж извините - программный продукт есть отражение бизнеса. И ОЛТП база - это тоже есть отражение бизнеса. И ежели просто скопировать эту базу в другую и перемещать данные в нее из ОЛТП - вот вам и ворехауз в первом приближеннии. Второе приближение - это ускорение выборки данных и наплевав на скорость вставки с помощью всякиз примочек. Третье приближение - улучшение производительности путем агрегирования данных. Ну и четврертое - уменьшение количества таблиц чтоб юзеры могли сами данные выдергивать. Самая призрачная цель. В итоге мы получаем что идеальный ворезауз- это Иксельная таблица. Офигительное количество стобцов и отсутствие группировок и прочих сложностей.
Конечно ежели разрабатывать любую обычную базу по принципу - щаз наймем программера который писал бухгалтерские программы и он нам все сваяет а весь ваш бизнес анализ и систем анализ мы в гробу видали - то тогда вопросов нету.
Добавлено: 05 апр 2006, 12:23
dima
Вовчик,
Задача - скопировать данные из одной таблицы в другую. Таблица 1 - Тарадата сервер, 50 колонок, 10 миллионов строк. Таблица 2 - Оракл сервер.
Сколько времени тебе займет имплпентировать простую копию таблиц и чтоб работало оно побыстрее (быстрее всех остальных конкурентов).
.... и кто сказал, что программа, производящая перенос бежит под Windows ? Как насчет Юникса (всех Юниксов) ?
Добавлено: 05 апр 2006, 12:31
Gatchinskiy
Vovchik писал(а): .... И ОЛТП база - это тоже есть отражение бизнеса. И ежели просто скопировать эту базу в другую и перемещать данные в нее из ОЛТП - вот вам и ворехауз в первом приближеннии. Второе приближение - это ускорение выборки данных и наплевав на скорость вставки с помощью всякиз примочек. Третье приближение - улучшение производительности путем агрегирования данных. Ну и четврертое - уменьшение количества таблиц чтоб юзеры могли сами данные выдергивать. ...
... в warehouse ускорение выборки и производительность особо не нужна, там запросы могут днями обрабатываться с разных OLTP, там основная задача планирование бизнеса на будущее, помощь в принятии решений и насущных бизнес проблем видя все бизнес процессы в компании в multi-dimensional view... то что ты рассказываешь это обычная OLTP дающая снепшот текущих бизнес процессов ... IMHO