Страница 1 из 2

Про датаворехаузы и прочую фигню.

Добавлено: 31 мар 2006, 10:28
Vovchik
Че то я не въезжаю. Почитываю я вот тута инет временами про всякие датаворехаузы и тама стока фигни требуется - такую софтину сякую, Информатику тулзу и прочую хрень... Я вот Кимпбалла не читал никаких тулзов не покупал. Сваял нечто подобное давно достаточно при помощи проверобилдера и Оракла ввиду надобности юезо всяких концепуий. Щаз смотрю - прям все как написано во всех этих умных статейках - дата ворехауз и шуршит как надо. Накой надо все эти ETL и прочая ежели все мона ручками сваять? Или я чего то не въезжаю?

Добавлено: 31 мар 2006, 13:34
Vovchik
Лана, спросим поканкретнее.

Во всяких методологиях и прочее все время рассказывается про эти ETL (extract, transform, load) процессы и всякие софтины для этого ETL. Нафига нужно что то дополнительное ежели в любой базе есть дофига прибамбасов для выгрузки, загрузки и перемалывания данных любым желаемым способом? Они ж для этого изначально предназначены - в смысле базы данных.

на то есть два аспекта

Добавлено: 31 мар 2006, 13:41
aissp
Как мне каацца
аспект 1. представб что у тебя есть гетерогенная среда, то есть у тя есть
счеты концелярские три штука
логорифмические линейки - два штука
арифмометр феликс-м - одна гтука
бесм-6 -1
ес-1040 - 4
бухгалтер -1
секретарши-блондинки - 5 шт
ну и всяких парадоксав дбазеров и прочий мути мешка два

Все надо свести в одну портянку, за которую кто-то должен дать тебе много денег. Ну и кто будет перекодировать блондинку в оракл? Для етого психиатром надо быть, а так добавил некоего електронного психо аналитика и процесс прошел.

2. аспект - дык новый продукт на рынке - ето типа как пиво с коноплей и как пиво отвратительно и как трава не вставлет, но кастомера цепляет.

Я бы гордился на твоем месте и быстро быстро продал кому-нибудь свой дата варехауз. Типи меня. датаварехауз на просто хауз, вест ван не предлагать...

От такое имхо

Добавлено: 31 мар 2006, 13:55
dima
угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.

Могешь со своими скриптами ? ... причем данные с сюрогатами.

Re: на то есть два аспекта

Добавлено: 31 мар 2006, 13:56
Vovchik
aissp писал(а):Как мне каацца
аспект 1. представб что у тебя есть гетерогенная среда, то есть у тя есть
счеты концелярские три штука
логорифмические линейки - два штука
арифмометр феликс-м - одна гтука
бесм-6 -1
ес-1040 - 4
бухгалтер -1
секретарши-блондинки - 5 шт
ну и всяких парадоксав дбазеров и прочий мути мешка два

Все надо свести в одну портянку, за которую кто-то должен дать тебе много денег. Ну и кто будет перекодировать блондинку в оракл? Для етого психиатром надо быть, а так добавил некоего електронного психо аналитика и процесс прошел.

2. аспект - дык новый продукт на рынке - ето типа как пиво с коноплей и как пиво отвратительно и как трава не вставлет, но кастомера цепляет.

Я бы гордился на твоем месте и быстро быстро продал кому-нибудь свой дата варехауз. Типи меня. датаварехауз на просто хауз, вест ван не предлагать...

От такое имхо
Дык а че там блондинку в Оракл - как два пальца об асфальт. Вот к примеру - Информикс в Оракл. Кидаем данные из Информикса в файлы, файлы жрем Ораклом, по пути мона все данные сломать как хош. А потом в Оракле мона что хошь сготовить. Подумаешь, бином Ньютона.

Добавлено: 31 мар 2006, 14:00
Vovchik
dima писал(а):угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.

Могешь со своими скриптами ? ... причем данные с сюрогатами.
Вот различные языки иностранные это да не пробовал, но можно поковыряться. Ладно, причину засчитываем. Еще какие нить соображения есть?

Добавлено: 31 мар 2006, 14:33
dima
причина номер 1 - перформанс и майтэнэнс. Через tool можно получить побыстрее все (если конечно знаешь как !)

Кстати информатика сосет. Наши системные инженера получили перформанс лучше чем у них (в Европе в начале года) 8)

Добавлено: 31 мар 2006, 14:43
Vovchik
dima писал(а):причина номер 1 - перформанс и майтэнэнс. Через tool можно получить побыстрее все (если конечно знаешь как !)

Кстати информатика сосет. Наши системные инженера получили перформанс лучше чем у них (в Европе в начале года) 8)
Дык это дело такое. Ежели сосчитать сколько чего стоит то могет выйти и не быстрее. Опять же - ежели знаешь как.

Добавлено: 04 апр 2006, 22:01
Lepsik
dima писал(а):угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.

Могешь со своими скриптами ? ... причем данные с сюрогатами.
такое из любой базы в любую даже MSSQL могет со своим DTS. А из любой кодировки в другую - за полчаса пишется ESP и конвертирую что хошь

Добавлено: 04 апр 2006, 22:36
папа Карло
нда... вас послушать все очень просто. :) тока почему то народ за нормальные варехаузы по неколько лимонов платит. :) от щедрости наверное. :) помимо гетерогенных источников данных есть еще много вещей... назвать несколько:

- размер импортируемых данных
- разрешенное время загрузки
- число фидов
- их тип
- качество данных
- уровень доверия варехауза к каждому конкретному источнику
- процесс консолидации данных (какие аттрибуты популируются из каких источников и с какими приоритетами)
- очистка данных
- стандартизация данных

итд итп....

Добавлено: 05 апр 2006, 08:31
Vovchik
папа Карло писал(а):нда... вас послушать все очень просто. :) тока почему то народ за нормальные варехаузы по неколько лимонов платит. :) от щедрости наверное. :) помимо гетерогенных источников данных есть еще много вещей... назвать несколько:

- размер импортируемых данных
- разрешенное время загрузки
- число фидов
- их тип
- качество данных
- уровень доверия варехауза к каждому конкретному источнику
- процесс консолидации данных (какие аттрибуты популируются из каких источников и с какими приоритетами)
- очистка данных
- стандартизация данных

итд итп....
Ну так и чего - голова она для чего? А как раз для таких случаев на Поеробилдере аппликухи ваяю. Заточенные под конкретные задачи и с идиотическими кнопками - делай раз делай два. Делов то умеючи...

А насчет того как бабла срубить - это мы тоже могем. 5 часов работы волшебным образом превращаются в 50 в инвойсе... Я то как раз знаю что найти личность которая могет че то вразумительное сваять по теме базы данных вообще - днем с огнем не сыщешь. Я никак вначале не мог понять че тут такого сложного потом смирился. Списал все на неспособность обычной личности абстрактно мыслить. Вывод как всегда - при наличии мозгов мона все и ручками склепать а при отсутствии мозгов никакой Кимпбалл не поможет.

Добавлено: 05 апр 2006, 10:47
папа Карло
это все конечно интересно, но.... варехауз в отличии от ОЛТП системы является отражением бизнесса. и если ты считаешь, что любой программист понимет как работает бизнес, то наверное ты глубоко заблуждаешься. невозможно построить правильный варехауз без знания бизнеса. ьизнес процессов в организации итд. теперь представь компанию скажем из нескольких тысяч человек и ее бизнес. ты все еще считешь что варехауз это фигня? или ты под варехаузом понимаешь свой дата март с парой кубов которые саппортят пару десятков репортов? ;)

Добавлено: 05 апр 2006, 12:02
Vovchik
папа Карло писал(а):это все конечно интересно, но.... варехауз в отличии от ОЛТП системы является отражением бизнесса. и если ты считаешь, что любой программист понимет как работает бизнес, то наверное ты глубоко заблуждаешься. невозможно построить правильный варехауз без знания бизнеса. ьизнес процессов в организации итд. теперь представь компанию скажем из нескольких тысяч человек и ее бизнес. ты все еще считешь что варехауз это фигня? или ты под варехаузом понимаешь свой дата март с парой кубов которые саппортят пару десятков репортов? ;)
Ну уж извините - программный продукт есть отражение бизнеса. И ОЛТП база - это тоже есть отражение бизнеса. И ежели просто скопировать эту базу в другую и перемещать данные в нее из ОЛТП - вот вам и ворехауз в первом приближеннии. Второе приближение - это ускорение выборки данных и наплевав на скорость вставки с помощью всякиз примочек. Третье приближение - улучшение производительности путем агрегирования данных. Ну и четврертое - уменьшение количества таблиц чтоб юзеры могли сами данные выдергивать. Самая призрачная цель. В итоге мы получаем что идеальный ворезауз- это Иксельная таблица. Офигительное количество стобцов и отсутствие группировок и прочих сложностей.

Конечно ежели разрабатывать любую обычную базу по принципу - щаз наймем программера который писал бухгалтерские программы и он нам все сваяет а весь ваш бизнес анализ и систем анализ мы в гробу видали - то тогда вопросов нету.

Добавлено: 05 апр 2006, 12:23
dima
Вовчик,

Задача - скопировать данные из одной таблицы в другую. Таблица 1 - Тарадата сервер, 50 колонок, 10 миллионов строк. Таблица 2 - Оракл сервер.

Сколько времени тебе займет имплпентировать простую копию таблиц и чтоб работало оно побыстрее (быстрее всех остальных конкурентов).


.... и кто сказал, что программа, производящая перенос бежит под Windows ? Как насчет Юникса (всех Юниксов) ?

Добавлено: 05 апр 2006, 12:31
Gatchinskiy
Vovchik писал(а): .... И ОЛТП база - это тоже есть отражение бизнеса. И ежели просто скопировать эту базу в другую и перемещать данные в нее из ОЛТП - вот вам и ворехауз в первом приближеннии. Второе приближение - это ускорение выборки данных и наплевав на скорость вставки с помощью всякиз примочек. Третье приближение - улучшение производительности путем агрегирования данных. Ну и четврертое - уменьшение количества таблиц чтоб юзеры могли сами данные выдергивать. ...
... в warehouse ускорение выборки и производительность особо не нужна, там запросы могут днями обрабатываться с разных OLTP, там основная задача планирование бизнеса на будущее, помощь в принятии решений и насущных бизнес проблем видя все бизнес процессы в компании в multi-dimensional view... то что ты рассказываешь это обычная OLTP дающая снепшот текущих бизнес процессов ... IMHO