bg-img bg-img bg-img
Увiйти в ГУРТ
Забули пароль?

Ще не з нами? Зареєструйтесь зараз

Знайомство з відкритими даними: правила створення та найпопулярніші формати
17.12.2019

Дані характеризують об’єкт, надають відомості чи показники про нього, отже, допомагають його зрозуміти. Сфера використання відкритих даних практично необмежена: моніторинг витрат державного або місцевого бюджету, впровадження інструментів е-врядування та е-демократії, міське планування тощо. Використання відкритих даних хоч і не має тривалої історії, однак уже стало трендом в Україні.

Згідно з Постановою Кабінету Міністрів України №835 від 2015 року інформація органів державної влади і місцевого самоврядування є публічною. Закон України «Про доступ до публічної інформації» зобов’язав розпорядників оприлюднювати, періодично оновлювати, а зацікавленим особам отримувати інформацію шляхом подання запиту у визначені терміни.

«Кількість опублікованих даних постійно зростає, але якість залишає бажати кращого. Формально органи влади почали краще виконувати норми постанови 835, але оприлюднена інформація здебільшого залишається непридатною для машинної обробки», – вважає екперт проекту «Дані міст» Артем Серенок.

Для даних відкритість – це:

  • можливість отримати (завантажити) їх вільно і безкоштовно
  • недискримінація отримувачів
  • відсутність труднощів у процесі користування та обробки даних через їхню форму
  • відсутність обмежень на поширення даних і результатів їх обробки, використання, в тому числі з комерційною метою
  • формат, що дозволяє автоматичну обробку машинними засобами
  • зазначення джерела походження даних і можливого способу обробки.

Однак важлива не лише публікація як така, але й якість (структурованість) даних. Як її підвищити?

  • кожна колонка має відповідати одній змінній
  • одиниця виміру виноситься в назву колонки, а в ідеалі - в словник датасету
  • кожен рядок має відповідати одному спостереженню
  • не слід використовувати об’єднані комірки
  • всі комірки мають бути заповнені (для порожніх слід використовувати значення «N/A», а в метаданих бажано вказати причину цього)
  • у межах однієї змінної слід використовувати один тип даних
  •  під час роботи в MS Excel перевіряйте формати стовпців (текст, число, дата); якщо нулі попереду числа необхідно зберегти, наприклад, для кодів бюджету, такі комірки потребують текстового формату
  • дати бажано записувати відповідно до стандарту ISO 8601: рік-місяць-день
  •  пробіли не повинні стояти на початку та в кінці комірки, перед розділовими знаками, повторюватися. Пам’ятайте: комірка з пробілами вже не є порожньою. Щоб позбавитися зайвих пробілів, MS Excel пропонує функцію TRIM. А замість пробілів у заголовках колонок та назві файлу слід ставити підкреслення
  • до чисел не слід застосовувати зайве форматування – розділення комами чи пробілами; як десятковий розділювач слід ставити крапку
  • у тексті не можна переносити рядок, замість кирилиці - писати латиницею (і навпаки), а називати файл потрібно винятково латиницею; великі літери слід лишити для абревіатур та ініціалів; кодування має бути UTF-8.

Дані об’єднують у набори - датасети у вигляді баз даних. Набір даних - це сукупність однорідних значень даних і метаданих з їхнім описом. Закон не визначає конкретні вимоги щодо форматів відкритих даних, тому на офіційних державних порталах багато даних у текстових, графічних, архівних та інших форматах. Роботу з ними важко назвати зручною, а ще вони не придатні до машинної обробки, тому просто губляться у загальному інформаційному потоці.

Для оприлюднення даних існують структуровані машиночитні формати: .csv, .xml та .json. Вони не залежать від платформи та не мають обмежень доступу. Однак органам влади в Україні потрібно покращувати роботу в процесі оприлюднення даних.

«Найпоширенішими помилками, на мою думку, є публікація сканів (з мокрими печатками, підписами) у форматі PDF чи JPG, а не структурованих даних. Також часто трапляються непридатні для машинної обробки структуровані дані: об'єднані комірки; складні за своєю структурою таблиці; структуровані дані здебільшого публікуються у пропрієтарних форматах від компанії Microsoft (xls, doc) чи умовно відкритих форматах за ліцензією OpenXML (xlsx, docx), а не у відкритих машиночитних форматах (ods, csv, xml). Невідповідність змісту документу формату, у якому збережений документ (наприклад, таблиця в текстовому форматі, тобто в doc чи docx). Крім того, поширеним є тотальне нерозуміння, як публікувати дані у форматі XML чи JSON. Дані просто конвертують у ці формати у Microsoft Excel чи онлайн конверторах, але це абсолютно невірно і призводить до публікації спотворених даних чи просто сміття», – додає Артем Серенок.

Про найпопулярніші формати

.CSV – простий та компактний текстовий формат для представлення табличних даних. Рядок файлу відповідає рядкові таблиці, які, в свою чергу, розділені знаком нового рядка (\n), а значення стовпців - комами. Значення, в яких є зарезервовані символи (лапки, кома, крапка з комою, новий рядок), охоплюються подвійними лапками. Його недоліками є відсутність підтримки ієрархії даних, зв’язку між даними, придатність лише для таблиць, необов’язковість заголовків у них. Цей формат підходить для публікації якісних структурованих даних, наприклад, про транспорт, комунальні служби, медичні й освітні заклади.

Якщо треба оприлюднити набір даних із ієрархією, наприклад, результати голосування, оберіть із двох наступних форматів:

.JSON – текстовий формат обміну даними на основі JavaScript. Підходить для великих ієрархічних масивів даних, компактний, структурований, стандартизований, дозволяє зменшити розмір, а за наявності навичок та/або розширень для браузера легко сприймається людиною. Попри це, створювати його варто машинним шляхом, а перед публікацією JSON-файли слід перевірити за допомогою спеціальних сервісів. Добре підходить для передачі даних через прикладний програмний інтерфейс (АРІ).

.xml – ієрархічний формат даних, створений у 1994 році та рекомендований Консорціумом Всесвітньої мережі W3C. Його ключова перевага - гнучкість: дотримуючись загальних правил синтаксису, кожен розробник може створювати розмітку під себе. Крім того, до основних даних можна додати метадані (реквізити, характеристики), зображення, стилі, довідники тощо.

Якщо набір даних містить великий обсяг інформації, що регулярно оновлюється, варто подумати про розробку API – набору готових процедур, підпрограм, функцій, посилань чи параметрів, що дозволяють із інформаційних систем отримувати датасети та здійснювати іншу взаємодію. Він має бути ретельно описаний, із інструкціями, прикладами запитів і відповідей на них.

Який би формат ви не обрали, під час створення відкритих даних, намагайтеся поставити себе на місце кінцевих користувачів. Запитуйте себе, як вони можуть використовувати ваші дані. Наступного разу ми розповімо, як зробити користування вашими наборами даних ще зручнішим і приємнішим.

Матеріал опублікований в рамках Ініціативи «Дані міст», що реалізовується фондом TechSoup та Ресурсним центром ГУРТ за підтримки NED.

Контакти

Коментарі

Олександр Шпинковський    1799 днів тому   #  

Чи плануються тренінги з відкритих даних в Одесі?
Чи потрібна допомога у проведенні подібних заходів від викладачів вишів та студентів?

  •   Пiдписатися на новi
Мазипчук Максим   1797 днів тому   #  

Вітаю, Олександре! В рамках цього проекту не передбачено. Однак стежте за оновленнями на порталі ГУРТ. Можливо, знайдете інформацію про подібні тренінги в Одесі. З повагою, Максим Мазипчук

  •   Пiдписатися на новi
  •   Пiдписатися на новi



Щоб розмістити свою новину, відкоментувати чи скопіювати потрібний текст, зареєструйтеся та на портал.