Про датаворехаузы и прочую фигню.
Правила форума
Пожалуйста, ознакомьтесь с правилами данного форума
Пожалуйста, ознакомьтесь с правилами данного форума
-
- Маньяк
- Сообщения: 2841
- Зарегистрирован: 20 фев 2003, 09:15
- Откуда: Vancouver
Про датаворехаузы и прочую фигню.
Че то я не въезжаю. Почитываю я вот тута инет временами про всякие датаворехаузы и тама стока фигни требуется - такую софтину сякую, Информатику тулзу и прочую хрень... Я вот Кимпбалла не читал никаких тулзов не покупал. Сваял нечто подобное давно достаточно при помощи проверобилдера и Оракла ввиду надобности юезо всяких концепуий. Щаз смотрю - прям все как написано во всех этих умных статейках - дата ворехауз и шуршит как надо. Накой надо все эти ETL и прочая ежели все мона ручками сваять? Или я чего то не въезжаю?
-
- Маньяк
- Сообщения: 2841
- Зарегистрирован: 20 фев 2003, 09:15
- Откуда: Vancouver
Лана, спросим поканкретнее.
Во всяких методологиях и прочее все время рассказывается про эти ETL (extract, transform, load) процессы и всякие софтины для этого ETL. Нафига нужно что то дополнительное ежели в любой базе есть дофига прибамбасов для выгрузки, загрузки и перемалывания данных любым желаемым способом? Они ж для этого изначально предназначены - в смысле базы данных.
Во всяких методологиях и прочее все время рассказывается про эти ETL (extract, transform, load) процессы и всякие софтины для этого ETL. Нафига нужно что то дополнительное ежели в любой базе есть дофига прибамбасов для выгрузки, загрузки и перемалывания данных любым желаемым способом? Они ж для этого изначально предназначены - в смысле базы данных.
- aissp
- Маньяк
- Сообщения: 2710
- Зарегистрирован: 07 ноя 2005, 09:51
на то есть два аспекта
Как мне каацца
аспект 1. представб что у тебя есть гетерогенная среда, то есть у тя есть
счеты концелярские три штука
логорифмические линейки - два штука
арифмометр феликс-м - одна гтука
бесм-6 -1
ес-1040 - 4
бухгалтер -1
секретарши-блондинки - 5 шт
ну и всяких парадоксав дбазеров и прочий мути мешка два
Все надо свести в одну портянку, за которую кто-то должен дать тебе много денег. Ну и кто будет перекодировать блондинку в оракл? Для етого психиатром надо быть, а так добавил некоего електронного психо аналитика и процесс прошел.
2. аспект - дык новый продукт на рынке - ето типа как пиво с коноплей и как пиво отвратительно и как трава не вставлет, но кастомера цепляет.
Я бы гордился на твоем месте и быстро быстро продал кому-нибудь свой дата варехауз. Типи меня. датаварехауз на просто хауз, вест ван не предлагать...
От такое имхо
аспект 1. представб что у тебя есть гетерогенная среда, то есть у тя есть
счеты концелярские три штука
логорифмические линейки - два штука
арифмометр феликс-м - одна гтука
бесм-6 -1
ес-1040 - 4
бухгалтер -1
секретарши-блондинки - 5 шт
ну и всяких парадоксав дбазеров и прочий мути мешка два
Все надо свести в одну портянку, за которую кто-то должен дать тебе много денег. Ну и кто будет перекодировать блондинку в оракл? Для етого психиатром надо быть, а так добавил некоего електронного психо аналитика и процесс прошел.
2. аспект - дык новый продукт на рынке - ето типа как пиво с коноплей и как пиво отвратительно и как трава не вставлет, но кастомера цепляет.
Я бы гордился на твоем месте и быстро быстро продал кому-нибудь свой дата варехауз. Типи меня. датаварехауз на просто хауз, вест ван не предлагать...
От такое имхо
- dima
- Житель
- Сообщения: 690
- Зарегистрирован: 19 фев 2003, 19:26
- Откуда: Хабаровск->Toronto
-
- Маньяк
- Сообщения: 2841
- Зарегистрирован: 20 фев 2003, 09:15
- Откуда: Vancouver
Re: на то есть два аспекта
Дык а че там блондинку в Оракл - как два пальца об асфальт. Вот к примеру - Информикс в Оракл. Кидаем данные из Информикса в файлы, файлы жрем Ораклом, по пути мона все данные сломать как хош. А потом в Оракле мона что хошь сготовить. Подумаешь, бином Ньютона.aissp писал(а):Как мне каацца
аспект 1. представб что у тебя есть гетерогенная среда, то есть у тя есть
счеты концелярские три штука
логорифмические линейки - два штука
арифмометр феликс-м - одна гтука
бесм-6 -1
ес-1040 - 4
бухгалтер -1
секретарши-блондинки - 5 шт
ну и всяких парадоксав дбазеров и прочий мути мешка два
Все надо свести в одну портянку, за которую кто-то должен дать тебе много денег. Ну и кто будет перекодировать блондинку в оракл? Для етого психиатром надо быть, а так добавил некоего електронного психо аналитика и процесс прошел.
2. аспект - дык новый продукт на рынке - ето типа как пиво с коноплей и как пиво отвратительно и как трава не вставлет, но кастомера цепляет.
Я бы гордился на твоем месте и быстро быстро продал кому-нибудь свой дата варехауз. Типи меня. датаварехауз на просто хауз, вест ван не предлагать...
От такое имхо
-
- Маньяк
- Сообщения: 2841
- Зарегистрирован: 20 фев 2003, 09:15
- Откуда: Vancouver
Вот различные языки иностранные это да не пробовал, но можно поковыряться. Ладно, причину засчитываем. Еще какие нить соображения есть?dima писал(а):угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.
Могешь со своими скриптами ? ... причем данные с сюрогатами.
- dima
- Житель
- Сообщения: 690
- Зарегистрирован: 19 фев 2003, 19:26
- Откуда: Хабаровск->Toronto
-
- Маньяк
- Сообщения: 2841
- Зарегистрирован: 20 фев 2003, 09:15
- Откуда: Vancouver
Дык это дело такое. Ежели сосчитать сколько чего стоит то могет выйти и не быстрее. Опять же - ежели знаешь как.dima писал(а):причина номер 1 - перформанс и майтэнэнс. Через tool можно получить побыстрее все (если конечно знаешь как !)
Кстати информатика сосет. Наши системные инженера получили перформанс лучше чем у них (в Европе в начале года)
- Lepsik
- Житель
- Сообщения: 522
- Зарегистрирован: 17 фев 2003, 18:34
- Откуда: Berlin
- Контактная информация:
такое из любой базы в любую даже MSSQL могет со своим DTS. А из любой кодировки в другую - за полчаса пишется ESP и конвертирую что хошьdima писал(а):угу Вовчик, ты качни в базу данных которая понимает (ожидает) только UTF-16 данные из двух мест : первая содержит данные в UTF-8 и из тесктового файла, который в KOI-8.
Могешь со своими скриптами ? ... причем данные с сюрогатами.
- папа Карло
- Шарманщик
- Сообщения: 8565
- Зарегистрирован: 17 фев 2003, 15:04
- Откуда: НН -> BC -> WA -> UT -> CA
нда... вас послушать все очень просто.
тока почему то народ за нормальные варехаузы по неколько лимонов платит.
от щедрости наверное.
помимо гетерогенных источников данных есть еще много вещей... назвать несколько:
- размер импортируемых данных
- разрешенное время загрузки
- число фидов
- их тип
- качество данных
- уровень доверия варехауза к каждому конкретному источнику
- процесс консолидации данных (какие аттрибуты популируются из каких источников и с какими приоритетами)
- очистка данных
- стандартизация данных
итд итп....



- размер импортируемых данных
- разрешенное время загрузки
- число фидов
- их тип
- качество данных
- уровень доверия варехауза к каждому конкретному источнику
- процесс консолидации данных (какие аттрибуты популируются из каких источников и с какими приоритетами)
- очистка данных
- стандартизация данных
итд итп....
-
- Маньяк
- Сообщения: 2841
- Зарегистрирован: 20 фев 2003, 09:15
- Откуда: Vancouver
Ну так и чего - голова она для чего? А как раз для таких случаев на Поеробилдере аппликухи ваяю. Заточенные под конкретные задачи и с идиотическими кнопками - делай раз делай два. Делов то умеючи...папа Карло писал(а):нда... вас послушать все очень просто.тока почему то народ за нормальные варехаузы по неколько лимонов платит.
от щедрости наверное.
помимо гетерогенных источников данных есть еще много вещей... назвать несколько:
- размер импортируемых данных
- разрешенное время загрузки
- число фидов
- их тип
- качество данных
- уровень доверия варехауза к каждому конкретному источнику
- процесс консолидации данных (какие аттрибуты популируются из каких источников и с какими приоритетами)
- очистка данных
- стандартизация данных
итд итп....
А насчет того как бабла срубить - это мы тоже могем. 5 часов работы волшебным образом превращаются в 50 в инвойсе... Я то как раз знаю что найти личность которая могет че то вразумительное сваять по теме базы данных вообще - днем с огнем не сыщешь. Я никак вначале не мог понять че тут такого сложного потом смирился. Списал все на неспособность обычной личности абстрактно мыслить. Вывод как всегда - при наличии мозгов мона все и ручками склепать а при отсутствии мозгов никакой Кимпбалл не поможет.
- папа Карло
- Шарманщик
- Сообщения: 8565
- Зарегистрирован: 17 фев 2003, 15:04
- Откуда: НН -> BC -> WA -> UT -> CA
это все конечно интересно, но.... варехауз в отличии от ОЛТП системы является отражением бизнесса. и если ты считаешь, что любой программист понимет как работает бизнес, то наверное ты глубоко заблуждаешься. невозможно построить правильный варехауз без знания бизнеса. ьизнес процессов в организации итд. теперь представь компанию скажем из нескольких тысяч человек и ее бизнес. ты все еще считешь что варехауз это фигня? или ты под варехаузом понимаешь свой дата март с парой кубов которые саппортят пару десятков репортов? 

-
- Маньяк
- Сообщения: 2841
- Зарегистрирован: 20 фев 2003, 09:15
- Откуда: Vancouver
Ну уж извините - программный продукт есть отражение бизнеса. И ОЛТП база - это тоже есть отражение бизнеса. И ежели просто скопировать эту базу в другую и перемещать данные в нее из ОЛТП - вот вам и ворехауз в первом приближеннии. Второе приближение - это ускорение выборки данных и наплевав на скорость вставки с помощью всякиз примочек. Третье приближение - улучшение производительности путем агрегирования данных. Ну и четврертое - уменьшение количества таблиц чтоб юзеры могли сами данные выдергивать. Самая призрачная цель. В итоге мы получаем что идеальный ворезауз- это Иксельная таблица. Офигительное количество стобцов и отсутствие группировок и прочих сложностей.папа Карло писал(а):это все конечно интересно, но.... варехауз в отличии от ОЛТП системы является отражением бизнесса. и если ты считаешь, что любой программист понимет как работает бизнес, то наверное ты глубоко заблуждаешься. невозможно построить правильный варехауз без знания бизнеса. ьизнес процессов в организации итд. теперь представь компанию скажем из нескольких тысяч человек и ее бизнес. ты все еще считешь что варехауз это фигня? или ты под варехаузом понимаешь свой дата март с парой кубов которые саппортят пару десятков репортов?
Конечно ежели разрабатывать любую обычную базу по принципу - щаз наймем программера который писал бухгалтерские программы и он нам все сваяет а весь ваш бизнес анализ и систем анализ мы в гробу видали - то тогда вопросов нету.
- dima
- Житель
- Сообщения: 690
- Зарегистрирован: 19 фев 2003, 19:26
- Откуда: Хабаровск->Toronto
Вовчик,
Задача - скопировать данные из одной таблицы в другую. Таблица 1 - Тарадата сервер, 50 колонок, 10 миллионов строк. Таблица 2 - Оракл сервер.
Сколько времени тебе займет имплпентировать простую копию таблиц и чтоб работало оно побыстрее (быстрее всех остальных конкурентов).
.... и кто сказал, что программа, производящая перенос бежит под Windows ? Как насчет Юникса (всех Юниксов) ?
Задача - скопировать данные из одной таблицы в другую. Таблица 1 - Тарадата сервер, 50 колонок, 10 миллионов строк. Таблица 2 - Оракл сервер.
Сколько времени тебе займет имплпентировать простую копию таблиц и чтоб работало оно побыстрее (быстрее всех остальных конкурентов).
.... и кто сказал, что программа, производящая перенос бежит под Windows ? Как насчет Юникса (всех Юниксов) ?
- Gatchinskiy
- Комбинатор
- Сообщения: 20952
- Зарегистрирован: 05 окт 2003, 20:44
- Откуда: St. Petersburg(Gatchina) > Vancouver
... в warehouse ускорение выборки и производительность особо не нужна, там запросы могут днями обрабатываться с разных OLTP, там основная задача планирование бизнеса на будущее, помощь в принятии решений и насущных бизнес проблем видя все бизнес процессы в компании в multi-dimensional view... то что ты рассказываешь это обычная OLTP дающая снепшот текущих бизнес процессов ... IMHOVovchik писал(а): .... И ОЛТП база - это тоже есть отражение бизнеса. И ежели просто скопировать эту базу в другую и перемещать данные в нее из ОЛТП - вот вам и ворехауз в первом приближеннии. Второе приближение - это ускорение выборки данных и наплевав на скорость вставки с помощью всякиз примочек. Третье приближение - улучшение производительности путем агрегирования данных. Ну и четврертое - уменьшение количества таблиц чтоб юзеры могли сами данные выдергивать. ...