Категории:

Дом Здоровье Зоология Информатика Искусство Искусство Компьютеры Кулинария Маркетинг Математика Медицина Менеджмент Образование Педагогика Питомцы Программирование Производство Промышленность Психология Разное Религия Социология Спорт Статистика Транспорт Физика Философия Финансы Химия Хобби Экология Экономика Электроника

Імпорт з текстових файлів з роздільниками

Структурований текстовий файл з роздільниками - один з найпоширеніших форматів зберігання даних. Таким файлом є звичайний текстовий файл, стовпці даних в якому розділені однотипними символами-роздільниками, наприклад символами табуляції, пропуски, крапки з комою і так далі

Процес імпорту даних з текстового з роздільниками файлу в майстрові імпорту (категорія Текстової файл (Direct)) містить наступні кроки:

● вказати ім'я файлу;

● настройка параметрів імпорту;

● настройка полів, що імпортуються;

● запуск процесу імпорту;

● вибір способу візуалізації;

● завдання відомостей про вузол.

На кроці Вказати ім'я файлу, натиснувши кнопку , необхідно вибрати ім'я текстового файлу (розширення *.txt, *.csv), з якого слід виконати імпорт даних. Після цього в полі «Ім'я файлу» вікна Майстра імпорту з'явиться ім'я вибраного файлу і шлях. Допускається вручну ввести шлях до файлу в рядку поля Ім'я файлу.

Є можливість використовувати як абсолютні, так і відносні шляхи для файлів. Вони указуються щодо поточної директорії Deductor. При відкритті Deductor поточною директорією є директорія файлу проекту. Тому, якщо файл проекту і текстові файли розташовуються в одній папці, то використання відносних шляхів в Майстрові імпорту дозволить не перенастроювати вузли імпорту при зміні розташування папки на жорсткому диску (рис. 1.9).

Рис. 1.9. Імпорт текстового файла в Deductor

Тут також доступні настройки:

• почати імпорт з рядка - номер рядка, починаючи з якого робитиметься імпорт даних з файлу.

• прапор Перший рядок є заголовком - установка прапорця означає, що вузол імпортуватиме дані з урахуванням того, що всі записи першого рядка є заголовками стовпців.

• кодування - ANSI (Windows) або ANCII (MS DOS).

На кроці Настройка параметрів імпорту потрібно надаштувати параметри імпорту даних з текстового файлу, оскільки існує декілька форматів структурованих текстових файлів. Доступні опції:

● перемикач Формат початкових даних, який визначає символ-роздільник у файлі (наприклад: символ табуляції, пропуск, кома). Роздільник найчастіше присутній. Якщо ж немає, то потрібно вибрати перемикач Фіксірованної ширини (поля мають задану ширину), а пізніше встановити ширину кожного поля;

● обмежувач рядків - при завданні даного параметра необхідно вказати, який саме обмежувач строкового значення потрібно використовувати при імпорті даних з текстового файлу. Зазвичай таким обмежувачем є символ подвійні лапки ";

● роздільник дробової і цілої частини числа - при завданні даного параметра необхідно вказати символ, що розділяє дріб і цілу частини в числових значеннях, що містяться у файлі.

● роздільник компонентів дати - указується символ, що розділяє компоненти дати у відповідних значеннях, що містяться у файлі.

● роздільник компонентів часу - указується символ, що розділяє компоненти часу у відповідних значеннях, що містяться у файлі.

● формати Дати/Часу - указуються формати дати/часу, використані у файлі, що імпортується.

Представлення значень - опція для полів логічного типу, яке може приймати одне з трьох значень - істина (true), брехня (false) і порожнє значення (null). Визначає регламент запису в ці значення. Так, при настройках за умовчуванням для будь-якого логічного поля значення Та сприйматиметься як істина, Ні – як брехня (рис.1.10).

Рис. 1.10. Настройки форматів імпорту из файла

В якості роздільників, представлених значень і форматів за умовчанням завжди пропонуються системні настройки операційної системи. Тому при імпорті необхідно звертати увагу на їх відповідність формату в текстовому файлі, що імпортується.

Наступне вікно майстра залежить від встановленого перемикача в прапорці Формат початкових даних. Якщо був вибраний формат З роздільниками, то з'явиться вкладка, на якій потрібно явно вказати символ-роздільник (за умовчанням - табуляція). Тут же знаходиться прапор Рахувати послідовні роздільники одним - у разі послідовних символів-роздільників, що йдуть, вони сприйматимуться за один. Таке буває, наприклад, коли символом-роздільником виступають декілька пропусків.

Перегляд текстового файлу у вигляді таблиці внизу (завантажуються тільки перші 10 рядків) дозволяє переконатися в коректності вибору настройок імпорту навіть не запускаючи його (рис. 1.11).

Рис. 1.11. Вікно параметрів файла з роздільниками

Якщо був вибраний прапор формат Фіксованої ширини, то з'явиться вкладка, на якій потрібно задати межі кожного поля. Створення, як і видалення маркера межі проводиться одним клацанням миші. Рухаючи маркери меж стовпців, можна змінювати їх, якщо вони розставлені неправильно. Дані, розподілені по стовпцях, показуються в області попереднього перегляду (рис. 1.12).

Рис. 1.12. Вікно імпорту файла з фіксованою шириною

На кроці Настройка параметрів стовпців потрібно налаштувати наступні параметри стовпців даних, що імпортуються, вказавши відповідні значення в полях (рис. 1.13).

Рис. 1.13. Настройка парамеирів імпорту даних

Ім'я стовпця - вказується ім'я, яке служитиме ідентифікатором стовпця в подальших вузлах. За умовчанням пропонується заголовок стовпця з текстового файлу, якщо на попередньому кроці був встановлений прапорець Перший рядок є заголовком. Тоді будуть запропоновані імена типу COl1, COl2 і так далі. Можна ввести будь-які імена, які семантично відображають вміст стовпця, проте допускаються тільки латинські символи, і ім'я стовпця повинне бути унікальним в межах всіх стовпців файлу, що імпортується.

Мітка стовпця - назва, під якою даний стовпець буде видний у візуалізаторах. Допускаються будь-які символи, унікальність імен не обов'язкова.

Тип даних - вказується тип даних, що містяться в стовпці. Тип вибирається із списку, що відкривається клацанням по кнопці в правій частині поля:

Вузол імпорту завжди намагається автоматично розпізнати тип даних по першому рядку файлу (якщо є заголовки, то по другому рядку). Такий алгоритм спрацьовує не завжди. Наприклад, хай у файлі є стовпець Число утриманців, і в нім дані йдуть в наступному порядку:

Для даного поля автоматично визначитись тип - речовий, але в реальності він строковий.

Вид даних - характер даних, що містяться в стовпці:

Безперервними можуть бути тільки числові дані. Дискретний характер носять, як правило, строкові дані, але не завжди. Дискретними можуть бути призначені, залежно від контексту вирішуваного завдання, дані цілого типу, рідше - речового. Вид даних стовпця впливає на:

► алгоритм розрахунку статистики по стовпцю;

► роботу аналітичних алгоритмів.

Призначення - визначає порядок використання поля набору даних, отриманого в результаті імпорту стовпця (поля), при подальшій обробці імпортованих даних:

Змінити призначення групи стовпців однією операцією можна таким чином:

■ утримуючи клавішу Shift, виділити мишкою або клавішами Ctrl+↓, Ctrl +↑ перший і останній стовпці групи стовпців і змінити їх призначення;

■ утримуючи клавішу Ctrl, виділити мишкою тільки потрібні стовпці і змінити їх призначення.

Зауваження!!!

Установка призначення стовпця набору даних при імпорті не є обов'язковою дією (за умовчанням при імпорті встановлено призначення «інформаційне»). Проте це може понизити об'єм рутинних дій при подальшому конструюванні сценарію. Наприклад, при побудові моделей (група вузлів обробки Data Mining) за умовчанням вихідним полем, як правило пропонується останнє поле, і, якщо це не так, доведеться кожного разу перевизначати призначення полів в кожному новому вузлі.

На кроці Запуск процесу імпорту стартує сам процес імпорту даних з раніше настроєними параметрами. Хід процесу імпорту відображається за допомогою індикатора. Якщо процес імпорту зупинився, це сигналізує про можливі помилки при читанні даних. В цьому випадку з'являється вікно з повідомленням про помилку.

У разі виникнення помилок невідповідності типів процес імпорту буде продовжений, але після його закінчення буде відображений журнал реєстрації помилок з інформацією про місце і причину їх появи:

Для управління процесом імпорту передбачені наступні кнопки:

► Пуск - запускає процес вперше або відновлює після паузи.

► Пауза - тимчасово припиняє імпорт.

► Стоп - зупиняє процес без можливості його продовження.

На двох кроках майстра імпорту, що залишилися, буде запропоновано вибрати візуалізатор набору даних (за умовчанням пропонується Таблиця) і задати відомості про вузол.

Вузол Настройка набору даних

Обробник Настройка набору данних дозволяє (рис. 1.14):

▪ змінити ім'я, мітку, тип, вигляд і призначення полів поточного набору даних;

▪ змінити порядок проходження стовпців в наборі даних;

▪ приховати стовпці набору даних;

▪ задати опцію кешування вихідного набору.

Рис. 1.14. Вікно настройки набора даних

Зміна імені або мітки поля зручно в тих випадках, коли імена стовпців можуть змінитися в джерелі даних або при перенастроюванні вузлів верхніх рівнів. В цьому випадку у вузлі Настройка набору даних ім'я початкового стовпця замінюється іншим, на яке і настроюються всі дочірні вузли. Після такої операції зміна імен полів на верхніх рівнях не зажадає перенастроювання всіх дочірніх вузлів в дереві сценаріїв.

Тип, вигляд і призначення можна змінити у декількох стовпців однією операцією. Для цього достатньо їх виділити, утримуючи натиснути клавішу Ctrl або Shift.

Якщо параметри стовпця були змінені, колір ікони стовпця міняється на червоний. Для установки первинних параметрів стовпців необхідно виділити стовпець або список стовпців і натиснути на кнопку Скидання параметрів.

Щоб приховати стовпець з набору даних, потрібно задати йому призначення.

Змінити порядок проходження стовпців в наборі даних можна за допомогою клавіш

Кешування - це завантаження часто використовуваної інформації в оперативну пам'ять для швидкого доступу до неї, минувши багатократні прочитування з жорсткого диска. Кешування може помітно підвищити швидкість роботи сценарію у ряді випадків (використання кешування не входить в базові навики роботи з Deductor).

Експорт в текстовий файл

Виконується за допомогою майстра експорту. У нім процес експорту даних в текстовий файл з роздільниками (категорія Файли) містить наступні кроки:

▪ настройка форматів експорту;

▪ вказівка символу-роздільника стовпців;

▪ вибір полів, що експортуються;

▪ запуск процесу експорту;

▪ вибір способу візуалізації;

▪ завдання відомостей про вузол.

На кроці Настройка параметрів експорту задаються параметри експорту даних з текстового файлу аналогічно тим, що задавалися в майстрові імпорту. Експортуватися будуть не всі поля, а тільки ті, у яких піднятий прапорець на кроці Вибір що експортуються стать їй (рис. 1.15):

Рис. 1.15. Вікно настройки експорту в text

Тут же задається ім'я файлу експорту. За умовчанням пропонується ім'я файлу export.txt. Як і у випадку з імпортом, допускається використовувати відносні шляхи.

Прапорець Відкрити після створення відкриє текстовий файл програмою-переглядачем. Установка прапора Відправити на E-mail дозволить відправити файл на поштову адресу у вигляді вкладеного в лист файлу (доступно тільки у версії Enterprise).

Вкладка запуску процесу експорту аналогічна тій, що присутня в майстрові імпорту. Якщо файл з таким ім'ям вже існує, виникне вікно з підтвердженням про перезапис цього файлу. На кроці вибору способу візуалізації буде доступний тільки один візуалізатор Інше. Завдання відомостей про вузол завершить роботу майстра експорту.

Вузол «!»

При відкритті сценарію деякі вузли можуть мати значок , а при спробі виконати гілку вузла з'явиться, наприклад, наступне повідомлення:

Значок говорить про те, що виконати даний вузол неможливо. Причинами цього можуть бути:

■ Вузол не підтримується в поточному постачанні Deductor. Наприклад, вузли імпорту з 1C не виконуються в Deductor Academic.

■ Сценарій створений в пізнішій версії (збірці) Deductor, а відкритий в більш ранній, і функціонал такого вузла ще не існував в ранніх версіях. Номер збірки можна перевірити, відкривши меню ? ►Про програму.

Порядок виконання роботи

1. Установіть Deductor (конфігурація Deductor Studio - робоче місце аналітика) і переконаєтеся, що він запускається.

2. Створіть новий проект і збережіть його під ім'ям test.ded. Не використовуйте упакований формат файлу (Ви повинні робити всі приклади по своєму варіанту!!!).

3. Заповніть властивості проекту.

4. Прогляньте файл проекту через будь-який текстовий редактор.

5. Зробіть видимою вкладку Підключення.

6. Поміняйте місцями порядок вкладок СценаріїіПідключення.

Знайдіть в допомозі розділ «Системні вимоги».

7. Створіть новий проект і збережіть його під ім'ям *.ded.

8. Створіть і збережіть в будь-якому текстовому редакторові файл згідно свого варіанту.

9. Імпортуйте його в Deductor, коректно набудувавши параметри імпорту. Використовуйте відносний шлях для файлу. Мітку вузла перейменуйте в Приклад! імпорту файлу. У коментарі до вузла впишіть: Текстовий файл з роздільниками-комами.

10. Додайте до вузла вузол Настройка набору даних і задайте наступні мітки до стовпців: Поле1, Поле2, Поле3 і так далі

11. Експортуйте набір даних в текстовий файл з настройками, запропонованими.

12. Імпортуйте тільки що експортований файл в Deductor.

13. Приєднаєте до нового вузла імпорту (шляхом копіювання) попередню гілку, починаючи з вузла Настройка набору даних.

14. Між експортом і настройкою набору даних вставте ще один вузол настройки, в якому змініть тип стовпця Поле2 на логічний.

15. Видалите тільки що вставлений вузол.

16. Збережіть проект.

Звіт про лабораторну роботу

Звіт містить наступні результати:

1. Титульний лист.

2. Мета роботи.

3. Варіант студента.

4. Опис кожного зробленого завдання згідно свого варіанту;

5. Скриншоти кожного зробленого завдання згідно свого варіанту;

6. Висновки.

1.5. Контрольні запитання

1. З яких частин складається Deductor?

2. Які варіанти постачання Deductor існують?

3. Чим відрізняється версія Professional від Academic?

4. Чи є обмеження по кількості оброблюваних записів у версії Deductor Academic?

5. Скільки категорій користувачів Deductor можна виділити?

6. Назвіть функції аналітика.

7. Хто зазвичай займається проектуванням і наповненням сховища даних?

8. Яким чином ліцензіюється Deductor?

9. У вас встановлений Deductor. При його запуску з'являється повідомлення про помилку (Windows NT driver is). Яка найбільш вірогідна причина помилки?

10 Скільки вкладок на панелі управління Deductor Studio?

11. Що таке проект в Deductor Studio?

12. Яке розширення має файл проекту?

13. Як створити новий проект?

14. Як зберегти поточний проект під іншим ім'ям?

15. Як відредагувати властивості проекту?

16. Скільки проектів можна одночасно відкрити в Deductor Studio?

17. Скільки майстрів міститься в Deductor Studio?

18. Ви імпортували текстовий файл, створивши вузол імпорту. Після чого виявили, що неправильно задали параметри імпорту. Як найлегше виправити помилку?

19. Як скопіювати гілку сценарію за допомогою механізму drag&drop?

20. Які кроки майстра імпорту потрібно пройти для імпорту текстового файлу?

21. Що дозволяє зробити обробник Настройка набору даних?

22. Як відбувається автоматичне визначення типу стовпця при імпорті?

23. Що означає піктограма «!» напроти вузла сценарію?

Лабораторна робота № 2

Последнее изменение этой страницы: 2016-07-23

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...