Дані характеризують об’єкт, надають відомості чи показники про нього, отже, допомагають його зрозуміти. Сфера використання відкритих даних практично необмежена: моніторинг витрат державного або місцевого бюджету, впровадження інструментів е-врядування та е-демократії, міське планування тощо. Використання відкритих даних хоч і не має тривалої історії, однак уже стало трендом в Україні.
Згідно з Постановою Кабінету Міністрів України №835 від 2015 року інформація органів державної влади і місцевого самоврядування є публічною. Закон України «Про доступ до публічної інформації» зобов’язав розпорядників оприлюднювати, періодично оновлювати, а зацікавленим особам отримувати інформацію шляхом подання запиту у визначені терміни.
«Кількість опублікованих даних постійно зростає, але якість залишає бажати кращого. Формально органи влади почали краще виконувати норми постанови 835, але оприлюднена інформація здебільшого залишається непридатною для машинної обробки», – вважає екперт проекту «Дані міст» Артем Серенок.
Для даних відкритість – це:
Однак важлива не лише публікація як така, але й якість (структурованість) даних. Як її підвищити?
Дані об’єднують у набори - датасети у вигляді баз даних. Набір даних - це сукупність однорідних значень даних і метаданих з їхнім описом. Закон не визначає конкретні вимоги щодо форматів відкритих даних, тому на офіційних державних порталах багато даних у текстових, графічних, архівних та інших форматах. Роботу з ними важко назвати зручною, а ще вони не придатні до машинної обробки, тому просто губляться у загальному інформаційному потоці.
Для оприлюднення даних існують структуровані машиночитні формати: .csv, .xml та .json. Вони не залежать від платформи та не мають обмежень доступу. Однак органам влади в Україні потрібно покращувати роботу в процесі оприлюднення даних.
«Найпоширенішими помилками, на мою думку, є публікація сканів (з мокрими печатками, підписами) у форматі PDF чи JPG, а не структурованих даних. Також часто трапляються непридатні для машинної обробки структуровані дані: об'єднані комірки; складні за своєю структурою таблиці; структуровані дані здебільшого публікуються у пропрієтарних форматах від компанії Microsoft (xls, doc) чи умовно відкритих форматах за ліцензією OpenXML (xlsx, docx), а не у відкритих машиночитних форматах (ods, csv, xml). Невідповідність змісту документу формату, у якому збережений документ (наприклад, таблиця в текстовому форматі, тобто в doc чи docx). Крім того, поширеним є тотальне нерозуміння, як публікувати дані у форматі XML чи JSON. Дані просто конвертують у ці формати у Microsoft Excel чи онлайн конверторах, але це абсолютно невірно і призводить до публікації спотворених даних чи просто сміття», – додає Артем Серенок.
Про найпопулярніші формати
.CSV – простий та компактний текстовий формат для представлення табличних даних. Рядок файлу відповідає рядкові таблиці, які, в свою чергу, розділені знаком нового рядка (\n), а значення стовпців - комами. Значення, в яких є зарезервовані символи (лапки, кома, крапка з комою, новий рядок), охоплюються подвійними лапками. Його недоліками є відсутність підтримки ієрархії даних, зв’язку між даними, придатність лише для таблиць, необов’язковість заголовків у них. Цей формат підходить для публікації якісних структурованих даних, наприклад, про транспорт, комунальні служби, медичні й освітні заклади.
Якщо треба оприлюднити набір даних із ієрархією, наприклад, результати голосування, оберіть із двох наступних форматів:
.JSON – текстовий формат обміну даними на основі JavaScript. Підходить для великих ієрархічних масивів даних, компактний, структурований, стандартизований, дозволяє зменшити розмір, а за наявності навичок та/або розширень для браузера легко сприймається людиною. Попри це, створювати його варто машинним шляхом, а перед публікацією JSON-файли слід перевірити за допомогою спеціальних сервісів. Добре підходить для передачі даних через прикладний програмний інтерфейс (АРІ).
.xml – ієрархічний формат даних, створений у 1994 році та рекомендований Консорціумом Всесвітньої мережі W3C. Його ключова перевага - гнучкість: дотримуючись загальних правил синтаксису, кожен розробник може створювати розмітку під себе. Крім того, до основних даних можна додати метадані (реквізити, характеристики), зображення, стилі, довідники тощо.
Якщо набір даних містить великий обсяг інформації, що регулярно оновлюється, варто подумати про розробку API – набору готових процедур, підпрограм, функцій, посилань чи параметрів, що дозволяють із інформаційних систем отримувати датасети та здійснювати іншу взаємодію. Він має бути ретельно описаний, із інструкціями, прикладами запитів і відповідей на них.
Який би формат ви не обрали, під час створення відкритих даних, намагайтеся поставити себе на місце кінцевих користувачів. Запитуйте себе, як вони можуть використовувати ваші дані. Наступного разу ми розповімо, як зробити користування вашими наборами даних ще зручнішим і приємнішим.
Матеріал опублікований в рамках Ініціативи «Дані міст», що реалізовується фондом TechSoup та Ресурсним центром ГУРТ за підтримки NED.
Коментарі
Чи плануються тренінги з відкритих даних в Одесі?
Чи потрібна допомога у проведенні подібних заходів від викладачів вишів та студентів?
Вітаю, Олександре! В рамках цього проекту не передбачено. Однак стежте за оновленнями на порталі ГУРТ. Можливо, знайдете інформацію про подібні тренінги в Одесі. З повагою, Максим Мазипчук