Машиночитний формат документів: як сільраді з цим розібратися?

25 травня 2020, 10:32

Під час оцінювання прозорості місцевих бюджетів за методологією, яку розробила група експертів Громадського партнерства "За прозорі місцеві бюджети!" у співпраці з Асоціацією міст України та науковцями Національної академії державного управління при Президентові України, у фахівців об’єднаних громад виникало багато питань щодо оприлюднення бюджетних документів у машиночитному форматі. Це й зрозуміло, адже з відкритими даними, які оприлюднюються у машиночитному форматі, спеціалісти сільських рад познайомилися відносно недавно - під час наповнення Єдиного державного вебпорталу відкритих даних. 

Громади вже готуються до чергового оцінювання прозорості місцевих бюджетів, аби прослідкувати прогрес у своєму розвитку, і ці питання продовжують бути актуальними. Так, до експертки партнерства Елли Петренко за роз'ясненнями звернулися фахівці Музиківської та Григорівської сільських рад: «Який формат є машиночитним? Чи є звіт до казначейства чи паспорт бюджетної програми - таблиця у формі ексель – машиночитним форматом? Чи можна на сайті  сільради публікувати документи для людей (у форматі PDF чи JPEG), а на порталі відкритих даних - для машин?».

Що таке машиночитні дані?

Згідно з визначенням Open Data Handbook. Glossary. Machine readable, машиночитні дані – це дані у форматі, який може бути автоматично прочитаний та оброблений комп’ютером, наприклад, як CSV, JSON, XML, etc. Вони повинні бути структуровані. Нецифровий матеріал (наприклад, надруковані або написані «від руки» документи) за своєю нецифровою природою не є машиночитними. Але навіть цифровий матеріал може бути не машиночитним. Наприклад, PDF, що містить таблиці даних, безумовно, цифровий, але не є машиночитним, оскільки комп’ютер не зможе отримати доступ до таблиць, навіть якщо вони дуже добре читаються людиною. Еквіваленти ж електронних таблиць будуть машиночитними. В якості іншого прикладу – скани (фотографії) тексту, які також не є машиночитними (хоча й читаються людиною), але еквівалент тексту в такому форматі як простий ASCII текстовий файл може бути прочитаний та оброблений комп’ютером. Конкретний машиночитний формат може відрізнятись в залежності від типу дати, наприклад, для геоданих він відрізняється від формату для табличних даних. 

Отже, машиночитний формат дає змогу інформаційним системам ідентифікувати, розпізнавати, перетворювати й отримувати конкретні дані без участі людини. 

Як обрати відповідний файловий формат?

Багато питань виникає при виборі файлового формату для публікації наборів даних. Постановою Кабінету Міністрів України №835 (зі змінами) передбачено публікацію декількох типів даних, як-от текстових, структурованих, геопросторових, графічних, відео- та аудіоданих, розроблених із використанням програми Macromedia Flash, архівів даних. Важливо те, що для кожного типу даних Постановою встановлені відповідні файлові формати. 

Тип даних

Формат

Текстові дані

TXT, RTF, ODT, DOC(X), PDF (з текстовим змістом, нескановане зображення), (X)HTML

Структуровані дані

RDF, XML, JSON, CSV, XLS(X), ODS, YAML

 

Геопросторові дані 

GeoTIFF, SHP, DMF, MID/MIF, DXF, ХML, GeoJSON, GPX, LOC, ARINC, AIXM

Графічні дані

GIF, TIFF, JPG (JPEG), PNG Відеодані MPEG, MKV, AVI, FLV, MKS, MK3D

Аудіодані

MP3, WAV, MKA

Дані, розроблені з використанням програми Macromedia Flash

SWF, FLV

Архів даних

ZIP, 7z, Gzip, Bzip2

Під час визначення формату для оприлюднення набору даних необхідно зважати саме на відповідність типу даних файловому формату. Найбільш поширеною помилкою, яка виникає під час публікації наборів даних, є невідповідність файлового формату типу даних, що у ньому міститься. Зокрема, некоректною є публікація таблиць (структурованих даних) у форматах DOC(X) чи PDF, призначених для текстових даних, або у форматах JPG чи PNG, призначених для графічних даних.

Крім того, варто мати на увазі, що під час створення нових наборів даних перевага має надаватись відкритим файловим форматам, тобто таким, що не залежать від платформи та доступні без обмежень, які можуть перешкодити їх повторному використанню. До відкритих форматів, зокрема, належать формати ODT, HTML, RDF, XML, JSON, CSV, ODS, YAML.

Отже, для кожного типу даних обираємо відповідні файлові формати, при цьому віддаємо перевагу відкритим файловим форматам.

У якому форматі треба оприлюднювати бюджетні документи?

Переважна більшість бюджетних документів, які підлягають оприлюдненню на сайті сільської ради, - це  різноманітні реєстри, переліки, плани, звіти, і вони створені у формі таблиці. Це значить, що ми маємо справу із структурованими даними, які треба публікувати у відкритих форматах CSV та ODS. Дозволяється також формат XLS(X). Якщо дані зберігаються в інформаційній системі чи базі даних, яка дає змогу вивантажувати дані у форматах XML чи JSON, варто використовувати їх для публікації. 

Для публікації структурованих (табличних) даних категорично не підходять формати DOC(X), RTF, PDF, JPG, JPEG, TIFF, PNG.

Зазвичай набори даних необхідно спеціально готувати до публікації, тобто приводити їх до правильної табличної структури. Ознаки правильної табличної структури: 

  • усі змінні записані у стовпчиках; 
  • усі спостереження записані у рядках; 
  • у таблиці немає об’єднаних комірок, один запис займає лише одну комірку; 
  • у таблиці немає об’єднаних записів, одна комірка містить лише один запис;
  • у таблиці немає формул, макросів.

Однак самої лише правильної структури недостатньо для коректної обробки даних автоматичними засобами. Дані мають бути чистими. Чистими вважаються дані, у яких: 

  • немає помилок чи одруківок, зайвих символів або пропусків; 
  • для запису назв, дат, чисел вживається уніфікований формат; 
  • для позначення відсутніх записів використовується NA, а не "0", "–" чи інші аналоги; 
  • у межах однієї змінної вживається лише один тип даних, тобто в одному стовпчику не змішуються, наприклад, числові й текстові значення.

Виходить, що не всі таблиці можна вважати машиночитними, навіть якщо вони створені у відповідному форматі. 

Для прикладу розглянемо два документи Григорівської сільської ради, розміщені на порталі відкритих даних. 

Приклад 1 

Перелік укладених договорів, укладені договори, інші правочини, додатки, додаткові угоди та інші матеріали до них оприлюднений у файлі contracts.csv

Таблиця має правильну структуру, оскільки в ній змінні (documentNumber, documentDate, contractors і т.д.) записані у стовпчиках, а спостереження - у рядках. Кожне спостереження займає лише одну комірку, а одна комірка містить лише одне спостереження. У межах однієї змінної використовується один формат запису дат, назв, чисел. 

Проте слід відмітити, що перший рядок з назвою стовпчиків не потрібний. Це метадані, вони прикріплюються окремо, де дається розшифровка значень змінних (другий рядок). В рядку amount/вартість дані хоч і представлені числами, однак зазначені в різних форматах. Зверніть увагу: якщо є числа з сотими, то всі числа в стовпчику мають бути за одним форматом - числовими змінними, з двома знаками після коми.

Приклад 2

Паспорти бюджетних програм місцевого бюджету оприлюднені у файлах формату  XLSX. Наприклад, файл ShablPasport2013.xlsx.

Таблиця має неправильну структуру, оскільки в ній один запис займає декілька комірок, які об’єднані. В одному стовпчику змішуються числові й текстові значення. В стовпчиках багато порожніх комірок. 

Виходить, що погано структуровані та "брудні" дані не є машиночитними. Їх неможливо обробляти автоматизованими засобами без участі людини. Добре структуровані й чисті дані можна швидко аналізувати, візуалізувати, використовувати в сервісах чи дослідженнях. 

Також ми радимо скористатися посібником.

Чи потрібно на сайті сільської ради оприлюднювати інформацію про бюджет у машиночитному форматі? 

Відкритими даними переважно оперують аналітичні центри та фахові експерти, проте доступ до цієї інформації має бути відкритим для усіх громадян. Як зазначено в ст.10 Закону України «Про доступ до публічної інформації», розпорядники інформації зобов’язані надавати публічну інформацію у формі відкритих даних на запит, оприлюднювати і регулярно оновлювати її на єдиному державному вебпорталі відкритих даних та на своїх вебсайтах. Публічна інформація у формі відкритих даних - це публічна інформація у форматі, що дозволяє її автоматизоване оброблення електронними засобами, вільний та безоплатний доступ до неї, а також її подальше використання.

У методології оцінювання прозорості місцевих бюджетів оприлюднення документів у машиночитних форматах належить до показників використання інновативних практик в бюджетному процесі. Це критерії, які демонструють високий рівень відданості ідеї прозорості бюджету, використання інформаційно-комп'ютерних технологій та збільшення доступності й зрозумілості бюджетного процесу для широких верств населення. При цьому у переважній більшості інновативні практики не закріплені спеціалізованим законодавством, але вони не суперечать Конституції, законам "Про місцеве самоврядування", "Про доступ до публічної інформації", Бюджетному Кодексу та іншим нормативно-правовим актам, які регулюють бюджетний процес та діяльність органів місцевого самоврядування. 

Водночас інновативні практики випливають з міжнародних угод, рекомендацій та відомих кращих практик забезпечення прозорості бюджетного процесу.

Якщо орган місцевого самоврядування прийняв рішення неухильно йти шляхом забезпечення прозорості бюджетного процесу в своїй громаді, то йому слід оприлюднювати бюджетну інформацію у машиночитному форматі.

При підготовці публікації була використана інформація з Єдиного державного вебпорталу відкритих даних.