Про датаворехаузы и прочую фигню.

Все, что вы хотели знать о программизме, но боялись спросить.
Vovchik
Маньяк
Сообщения: 2841
Зарегистрирован: 20 фев 2003, 09:15
Откуда: Vancouver

Про датаворехаузы и прочую фигню.

Сообщение Vovchik »

Че то я не въезжаю. Почитываю я вот тута инет временами про всякие датаворехаузы и тама стока фигни требуется - такую софтину сякую, Информатику тулзу и прочую хрень... Я вот Кимпбалла не читал никаких тулзов не покупал. Сваял нечто подобное давно достаточно при помощи проверобилдера и Оракла ввиду надобности юезо всяких концепуий. Щаз смотрю - прям все как написано во всех этих умных статейках - дата ворехауз и шуршит как надо. Накой надо все эти ETL и прочая ежели все мона ручками сваять? Или я чего то не въезжаю?
Vovchik
Маньяк
Сообщения: 2841
Зарегистрирован: 20 фев 2003, 09:15
Откуда: Vancouver

Сообщение Vovchik »

Лана, спросим поканкретнее.

Во всяких методологиях и прочее все время рассказывается про эти ETL (extract, transform, load) процессы и всякие софтины для этого ETL. Нафига нужно что то дополнительное ежели в любой базе есть дофига прибамбасов для выгрузки, загрузки и перемалывания данных любым желаемым способом? Они ж для этого изначально предназначены - в смысле базы данных.
Аватара пользователя
aissp
Маньяк
Сообщения: 2710
Зарегистрирован: 07 ноя 2005, 09:51

на то есть два аспекта

Сообщение aissp »

Как мне каацца
аспект 1. представб что у тебя есть гетерогенная среда, то есть у тя есть
счеты концелярские три штука
логорифмические линейки - два штука
арифмометр феликс-м - одна гтука
бесм-6 -1
ес-1040 - 4
бухгалтер -1
секретарши-блондинки - 5 шт
ну и всяких парадоксав дбазеров и прочий мути мешка два

Все надо свести в одну портянку, за которую кто-то должен дать тебе много денег. Ну и кто будет перекодировать блондинку в оракл? Для етого психиатром надо быть, а так добавил некоего електронного психо аналитика и процесс прошел.

2. аспект - дык новый продукт на рынке - ето типа как пиво с коноплей и как пиво отвратительно и как трава не вставлет, но кастомера цепляет.

Я бы гордился на твоем месте и быстро быстро продал кому-нибудь свой дата варехауз. Типи меня. датаварехауз на просто хауз, вест ван не предлагать...

От такое имхо
Аватара пользователя
dima
Житель
Сообщения: 690
Зарегистрирован: 19 фев 2003, 19:26
Откуда: Хабаровск->Toronto

Сообщение dima »

угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.

Могешь со своими скриптами ? ... причем данные с сюрогатами.
Vovchik
Маньяк
Сообщения: 2841
Зарегистрирован: 20 фев 2003, 09:15
Откуда: Vancouver

Re: на то есть два аспекта

Сообщение Vovchik »

aissp писал(а):Как мне каацца
аспект 1. представб что у тебя есть гетерогенная среда, то есть у тя есть
счеты концелярские три штука
логорифмические линейки - два штука
арифмометр феликс-м - одна гтука
бесм-6 -1
ес-1040 - 4
бухгалтер -1
секретарши-блондинки - 5 шт
ну и всяких парадоксав дбазеров и прочий мути мешка два

Все надо свести в одну портянку, за которую кто-то должен дать тебе много денег. Ну и кто будет перекодировать блондинку в оракл? Для етого психиатром надо быть, а так добавил некоего електронного психо аналитика и процесс прошел.

2. аспект - дык новый продукт на рынке - ето типа как пиво с коноплей и как пиво отвратительно и как трава не вставлет, но кастомера цепляет.

Я бы гордился на твоем месте и быстро быстро продал кому-нибудь свой дата варехауз. Типи меня. датаварехауз на просто хауз, вест ван не предлагать...

От такое имхо
Дык а че там блондинку в Оракл - как два пальца об асфальт. Вот к примеру - Информикс в Оракл. Кидаем данные из Информикса в файлы, файлы жрем Ораклом, по пути мона все данные сломать как хош. А потом в Оракле мона что хошь сготовить. Подумаешь, бином Ньютона.
Vovchik
Маньяк
Сообщения: 2841
Зарегистрирован: 20 фев 2003, 09:15
Откуда: Vancouver

Сообщение Vovchik »

dima писал(а):угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.

Могешь со своими скриптами ? ... причем данные с сюрогатами.
Вот различные языки иностранные это да не пробовал, но можно поковыряться. Ладно, причину засчитываем. Еще какие нить соображения есть?
Аватара пользователя
dima
Житель
Сообщения: 690
Зарегистрирован: 19 фев 2003, 19:26
Откуда: Хабаровск->Toronto

Сообщение dima »

причина номер 1 - перформанс и майтэнэнс. Через tool можно получить побыстрее все (если конечно знаешь как !)

Кстати информатика сосет. Наши системные инженера получили перформанс лучше чем у них (в Европе в начале года) 8)
Vovchik
Маньяк
Сообщения: 2841
Зарегистрирован: 20 фев 2003, 09:15
Откуда: Vancouver

Сообщение Vovchik »

dima писал(а):причина номер 1 - перформанс и майтэнэнс. Через tool можно получить побыстрее все (если конечно знаешь как !)

Кстати информатика сосет. Наши системные инженера получили перформанс лучше чем у них (в Европе в начале года) 8)
Дык это дело такое. Ежели сосчитать сколько чего стоит то могет выйти и не быстрее. Опять же - ежели знаешь как.
Аватара пользователя
Lepsik
Житель
Сообщения: 522
Зарегистрирован: 17 фев 2003, 18:34
Откуда: Berlin
Контактная информация:

Сообщение Lepsik »

dima писал(а):угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.

Могешь со своими скриптами ? ... причем данные с сюрогатами.
такое из любой базы в любую даже MSSQL могет со своим DTS. А из любой кодировки в другую - за полчаса пишется ESP и конвертирую что хошь
Аватара пользователя
папа Карло
Шарманщик
Сообщения: 8565
Зарегистрирован: 17 фев 2003, 15:04
Откуда: НН -> BC -> WA -> UT -> CA

Сообщение папа Карло »

нда... вас послушать все очень просто. :) тока почему то народ за нормальные варехаузы по неколько лимонов платит. :) от щедрости наверное. :) помимо гетерогенных источников данных есть еще много вещей... назвать несколько:

- размер импортируемых данных
- разрешенное время загрузки
- число фидов
- их тип
- качество данных
- уровень доверия варехауза к каждому конкретному источнику
- процесс консолидации данных (какие аттрибуты популируются из каких источников и с какими приоритетами)
- очистка данных
- стандартизация данных

итд итп....
Vovchik
Маньяк
Сообщения: 2841
Зарегистрирован: 20 фев 2003, 09:15
Откуда: Vancouver

Сообщение Vovchik »

папа Карло писал(а):нда... вас послушать все очень просто. :) тока почему то народ за нормальные варехаузы по неколько лимонов платит. :) от щедрости наверное. :) помимо гетерогенных источников данных есть еще много вещей... назвать несколько:

- размер импортируемых данных
- разрешенное время загрузки
- число фидов
- их тип
- качество данных
- уровень доверия варехауза к каждому конкретному источнику
- процесс консолидации данных (какие аттрибуты популируются из каких источников и с какими приоритетами)
- очистка данных
- стандартизация данных

итд итп....
Ну так и чего - голова она для чего? А как раз для таких случаев на Поеробилдере аппликухи ваяю. Заточенные под конкретные задачи и с идиотическими кнопками - делай раз делай два. Делов то умеючи...

А насчет того как бабла срубить - это мы тоже могем. 5 часов работы волшебным образом превращаются в 50 в инвойсе... Я то как раз знаю что найти личность которая могет че то вразумительное сваять по теме базы данных вообще - днем с огнем не сыщешь. Я никак вначале не мог понять че тут такого сложного потом смирился. Списал все на неспособность обычной личности абстрактно мыслить. Вывод как всегда - при наличии мозгов мона все и ручками склепать а при отсутствии мозгов никакой Кимпбалл не поможет.
Аватара пользователя
папа Карло
Шарманщик
Сообщения: 8565
Зарегистрирован: 17 фев 2003, 15:04
Откуда: НН -> BC -> WA -> UT -> CA

Сообщение папа Карло »

это все конечно интересно, но.... варехауз в отличии от ОЛТП системы является отражением бизнесса. и если ты считаешь, что любой программист понимет как работает бизнес, то наверное ты глубоко заблуждаешься. невозможно построить правильный варехауз без знания бизнеса. ьизнес процессов в организации итд. теперь представь компанию скажем из нескольких тысяч человек и ее бизнес. ты все еще считешь что варехауз это фигня? или ты под варехаузом понимаешь свой дата март с парой кубов которые саппортят пару десятков репортов? ;)
Vovchik
Маньяк
Сообщения: 2841
Зарегистрирован: 20 фев 2003, 09:15
Откуда: Vancouver

Сообщение Vovchik »

папа Карло писал(а):это все конечно интересно, но.... варехауз в отличии от ОЛТП системы является отражением бизнесса. и если ты считаешь, что любой программист понимет как работает бизнес, то наверное ты глубоко заблуждаешься. невозможно построить правильный варехауз без знания бизнеса. ьизнес процессов в организации итд. теперь представь компанию скажем из нескольких тысяч человек и ее бизнес. ты все еще считешь что варехауз это фигня? или ты под варехаузом понимаешь свой дата март с парой кубов которые саппортят пару десятков репортов? ;)
Ну уж извините - программный продукт есть отражение бизнеса. И ОЛТП база - это тоже есть отражение бизнеса. И ежели просто скопировать эту базу в другую и перемещать данные в нее из ОЛТП - вот вам и ворехауз в первом приближеннии. Второе приближение - это ускорение выборки данных и наплевав на скорость вставки с помощью всякиз примочек. Третье приближение - улучшение производительности путем агрегирования данных. Ну и четврертое - уменьшение количества таблиц чтоб юзеры могли сами данные выдергивать. Самая призрачная цель. В итоге мы получаем что идеальный ворезауз- это Иксельная таблица. Офигительное количество стобцов и отсутствие группировок и прочих сложностей.

Конечно ежели разрабатывать любую обычную базу по принципу - щаз наймем программера который писал бухгалтерские программы и он нам все сваяет а весь ваш бизнес анализ и систем анализ мы в гробу видали - то тогда вопросов нету.
Аватара пользователя
dima
Житель
Сообщения: 690
Зарегистрирован: 19 фев 2003, 19:26
Откуда: Хабаровск->Toronto

Сообщение dima »

Вовчик,

Задача - скопировать данные из одной таблицы в другую. Таблица 1 - Тарадата сервер, 50 колонок, 10 миллионов строк. Таблица 2 - Оракл сервер.

Сколько времени тебе займет имплпентировать простую копию таблиц и чтоб работало оно побыстрее (быстрее всех остальных конкурентов).


.... и кто сказал, что программа, производящая перенос бежит под Windows ? Как насчет Юникса (всех Юниксов) ?
Аватара пользователя
Gatchinskiy
Комбинатор
Сообщения: 20952
Зарегистрирован: 05 окт 2003, 20:44
Откуда: St. Petersburg(Gatchina) > Vancouver

Сообщение Gatchinskiy »

Vovchik писал(а): .... И ОЛТП база - это тоже есть отражение бизнеса. И ежели просто скопировать эту базу в другую и перемещать данные в нее из ОЛТП - вот вам и ворехауз в первом приближеннии. Второе приближение - это ускорение выборки данных и наплевав на скорость вставки с помощью всякиз примочек. Третье приближение - улучшение производительности путем агрегирования данных. Ну и четврертое - уменьшение количества таблиц чтоб юзеры могли сами данные выдергивать. ...
... в warehouse ускорение выборки и производительность особо не нужна, там запросы могут днями обрабатываться с разных OLTP, там основная задача планирование бизнеса на будущее, помощь в принятии решений и насущных бизнес проблем видя все бизнес процессы в компании в multi-dimensional view... то что ты рассказываешь это обычная OLTP дающая снепшот текущих бизнес процессов ... IMHO
Ответить