Медиа

«Гик-ИПДО-гик» по доступным данным

Задачи, проблемы и удивительные возможности раскрытия данных.

В последние полгода моя работа вращалась вокруг данных ИПДО. Меня можно даже назвать «гиком-ИПДО». Я помогал Секретариату ИПДО на долгом пути к доступным данным, и это – короткое описание моей работы.

Доступные данные…

Сначала я хочу уточнить, что я понимаю под «доступными данными». Как я уже понял, существует множество различных интерпретаций этого понятия.

Говоря коротко, я понимаю открытые данные как информацию, к которой есть публичный доступ.

Понятие публичного доступа достаточно простое, хотя стоит указать, что данные могут быть в публичном доступе даже если они не доступны через интернет. Так что данные могут считаться публичными даже если для их получения нужен посредник.

Чтобы сделать публичные данные открытыми, нужно дать к ним простой доступ. Способ получения данных должен содержать как можно меньше шагов. Конечно же тот, кто публикует данные, часто хочет понимать, кто именно получает доступ к ним, но решать, какую именно информацию о себе оставлять, должны сами пользователи. Доступность также означает, что данные находятся в формате, которым легко манипулировать и который совместим с большинством инструментов для анализа.

Недавно ООН опубликовало отчет[1], где данные были названы «источником принятия решений и основой подотчетности». База данных «Databank»[2] Группы учреждений Всемирного банка – одна из многих существующих крупных баз данных. Другие международные организации не отстают и публикуют все большие объемы данных.

Институт управления природными ресурсами недавно опубликовал данные, собранные из 223 отчетов ИПДО. Они использовали публичные данные ИПДО и сделали их доступными, убрав барьер pdf-файлов. Институт уже начал использовать эти данные, чтобы понять, что можно извлечь из них и как их визуализировать[3].

… в Секретариате ИПДО

В Секретариате начато множество проектов, которые сделают еще больше данныхдоступными. Ключевой момент здесь – шаблон отчета по сводным данным[4]. Этот шаблон используется для сбора широкого спектра финансовых, юридических и контекстных данных, связанных с добывающей отраслью каждой страны, включая необобщенные данные по доходу добывающих компаний, классифицированные по общим для стран стандартам.

Цель – создать сводку, где содержится самая общая и важная информация, для получения которой не нужно продираться сквозь сотни страниц отчетов.

Создание этой сводки – главная задача команды «открытых данных» Международного Секретариата.

В моем понимании роль национальных секретариатов в том, чтобы находить, анализировать и открывать информацию в национальном контексте и переводить ее в понятный для граждан формат. Кроме того, нужно удостоверится, что эту информацию можно будет сравнивать по периодам.

Взяв за основу эти данные, Международный Секретариат может раскрыть эти данные в более широкой перспективе, сделав возможность сравнения по странам.

Такие сводные шаблоны – это большой шаг вперед, но здесь есть скрытые подводные камни – при этом может быть потеряна важная контекстная информация, связанная с особенностями страны. Национальные особенности могут быть потеряны и иногда даже искажены. Но по определению сводные данные не должны включать в себя все подробности и некоторая информация не будет в них отражена. Главное – убедиться в том, что включена наиболее релевантная информация, чтобы в дальнейшем этим данным можно было найти как можно более широкое применение.

В глубине данных

У разных пользователей различные нужды. Нужды исследователей отличаются от нужд журналиста или парламентария. Очень сложно угодить всем пользователям, используя один подход. Поэтому нужно понимать, что Международный Секретариат, национальные секретариаты и другие будут использовать «сырые» данные ИПДО различными способами. Важно отметить, что хотя такие шаблоны отлично подходят для обмена данными, они не заменяют сами отчеты ИПДО. Во время практики в Секретариате я подробно изучил отчеты за примерно 70 лет от более чем десяти стран. Контексты этих стран нельзя подробно отразить в суммарных данных.

Работа по поиску отдельных показателей среди данных из более чем 70 отчетов звучит не очень увлекательно, но мне это понравилось (в основном). Например, в процессе поиска определения добычи нефти для конкретного отчета, чтобы точно показать объемы добычи и экспорта, невольно подмечаешь и другую интересную информацию, не говоря уже о разнице в подходах и системе управления. Надо сказать, что университетский курс экономики природных ресурсов, который я прошел до прохождения этой практики, не помог мне подготовится к трудностям сбора данных ИПДО. Я не был готов к трудностям работы с собранными доходами, которые затем переводились различным государственным учреждениям, и также не был готов к тому, насколько сложны некоторые финансовые системы.

Кроме того, в процессе обработки данных я понял, насколько отчеты ИПДО улучшились с годами как в плане качества, так и количества данных: от простого отображения доходов и устранения несоответствий и до более подробной информации, относящейся к отраслям, лицензиям, контрактам и правам собственности. Интересно, что последние отчеты (покрывающие 2012—2013 года) по насыщенности информацией не уступают большинству коммерческих рыночных анализов, которые я читал. Можно сказать, что именно для этого и созданы отчеты ИПДО, но до принятия Стандарта ИПДО количество информации в некоторых из них не могло сравниться с последними отчетами.

Тук-тук – что там?

Конечно, в сборе этих данных есть свои проблемы. Некоторые PDF-файлы «закрыты», так что из них даже не скопировать текст и числа. В некоторых содержатся бесконечные таблицы данных, которые можно перенести, только целенаправленно набирая вручную каждое отдельное число. Для таких отчетов особенно важно преодолеть эти барьеры и создать файлы, в которых можно производить вычисления. Таким образом можно также проверить суммарные цифры в этих таблицах.

Еще одна проблема в том, что некоторой информации просто нет. Например, ВВП и доля добывающей отрасли в ВВП являются ключевыми данными для понимания важности этой отрасли для экономики. И все же, в некоторых случаях эти важные показатели в отчетах даже не упоминались.

Есть также более технические проблемы, например, натуральные платежи, или же платежи с неправильной оценкой, так как статистика по ценам в отчеты ИПДО не включается. Сводные данные должны отражать отчет ИПДО, и большинство отчетов предоставляют средние цены на стандартные марки вроде Brent или WTI[5]. Но настоящие цены, по которым проводятся эти транзакции, особенно связанные с различными марками нефти, обычно отсутствуют. Когда оценка этих доходов отсутствует, данные ИПДО по доходам правительства искажает реальную картину. В то же время, определение стоимости натуральных платежей при помощи стандартных цен тоже исказит картину из-за приблизительных данных. Как объяснил мой коллега Алекс Горди (Alex Gordy) во время обсуждения этой темы: «Наше дело – устранять несоответствия, а не создавать их». Лучший способ разрешить эту дилемму – получить от агента или компании данные о настоящих ценах при совершении транзакции (а не только о ее объеме).

Далее: пульт управления

Для меня открытые данные – это не только предоставленная информация, но еще и возможность ее контроля для пользователей.

Я из компьютерного поколения, и если такие коллективные изобретения, как Википедия и ОС Linux, нас чему-то научили, так это то, что люди в основном хотят улучшать информацию, а не разрушать ее. Открыв данные, мы их улучшим. Это работает не только для наборов данных, но и для их презентации (визуализации). Вместо того, чтобы закрывать данные за графиками, сами графики должны стать объектом управления.

Именно такими я вижу по-настоящему открытые данные.

 

Кристоффер Клауссен (Christoffer Claussen) проходил практику в Международном Секретариате с февраля по июль 2015 года. Он продолжит обучение по специальности «экономика природных ресурсов и их добычи» в университете Осло. 

ИПДО проводит консультации по открытым данным – подробности здесь. Работы принимаются до 31 августа 2015 года. 

[1] IEAG (2015).  Мир, с которым считаются: использование революции данных для рациональной добычи. Независимая Экспертная Группа Секретаря ООН по Революции Данных для Рациональной Добычи (IEAG), http://www.undatarevolution.org/.

[2] Группа учреждений Всемирного Банка: база DataBank, http://databank.worldbank.org/.

[3] NRGI: набор данных – раскрытие данных ИПДО для значимой реформы, http://www.resourcegovernance.org/publications/dataset-unlocking-eiti-data-meaningful-reform

[4] ИПДО: шаблон отчета по сводным данным, https://eiti.org/document/eiti-summary-data-template

[5] WTI – West Texas Intermediate