Taras Lyutyy: #УкрScholar

Панове науковці та особи, що співчувають! Чуда не сталося і український аналог Scopus та Web of Science (національна наукометрична система), схоже, вже стукає нам у двері. Не те щоб в цьому була якась особлива зрада, і варто лягати кістьми, саботувати і влаштовувати DDoS атаки. Але й радість його адептів практично безпідставна. Спробуємо зазирнути в історію та внутрішнє начиння очима того, хто трошки в темі наукометрії та наукової видавничої справи взагалі, і в Україні, зокрема. Відразу зауважимо: попри заяву першого заступника МОН, цей здобуток наше нове міністерство присвоїть собі безпідставно. Бо розробка тривала понад рік, бюджети освоєно, і, напевно, зараз вже підписані акти виконаних робіт. Тобто, перемоги «діджиталізації» від ЗеКоманди тут не буде. Далі, більшість нижченаведених міркувань вже висловлювались мною та не лише. Однак, саме зараз варто «відкопати стюардесу» та зорієнтуватись в тому, який реп'ях хочуть причепити на наші і без того «обреп'яшені» зади.

Спроби «діджиталізувати» наш науково-інформаційний простір були раніше. Були вдалі, як репозитарій наукових статей бібліотеки ім. Вернадського. Були не дуже, як попередник теми нашої розмови «Український Індекс Наукового Цитування» http://uincit.uran.ua/, який почив в бозі, не давши вірних висновків своїм фіаско наступним «діджиталізаторам». Бо вдалість цифрового продукту завжди йде на взаємопідсиленні реальної потреби в ньому та зручності для користувача. Тож вмикаю внутрішнього Шона Таундсена (if you know what I mean) і пояснюю чому це не наш випадок. Роблю все у чотирьох окремих частинах, які досить самостійні, тому спеціалісти у тому чи іншому блоці питань можуть читати вибірково.

Частина Перша: наукометрія as is

Доцільно почати з азів наукометрії, її переваг та недоліків (хто в темі – нумо відразу до Частини Другої). В цій царині все обертається навколо цитувань одними вченими робіт інших. Елементарна уява та базові знання статистики підказують, що кількісних показників можна придумати багато. Наприклад, середня кількість цитувань на одну статтю в журналі за певний період. І ми отримаємо майже імпакт-фактор журналу. Або число h, що визначається як мінімальна кількість статей, процитованих не менш ніж h разів. І це вже буде індекс Гірша конкретного вченого (або установи, чи, знову, журналу). Звісно, тут багато але: від ступеня позитивності цитувань до традицій цитувань у галузях. Навіть за умови, коли б усе було абсолютно по чесному, наукометричні показники як критерій якості є неоднозначними. Тому їх радять використовувати поряд з експертною оцінкою та дуже обережно, див. т.з. «Лейденський маніфест».

Тим не менше, наукометрія як інструмент отримання, хай і попередньої, інформації про якість, прижився і до цих пір відіграє певну роль. Його ж недоліки співмірні з недоліками оцінок т.з. експертів. Простота інструментарію наукометрії – підрахунок та осереднення цитувань – є необхідною умовою довіри до нього та, одночасно, робить його вразливим до зловмисних викривлень. Тим більше, щойно накометричні показники починають впливати на розподіл благ та можливостей, за законом Кемпбела, їх будуть намагатись недоброчесно накрутити. Найвідоміший приклад – головний редактор журналу Chaos, Solitons & Fractals, який маніпуляціями «наколядував» шалені показники собі та своєму журналу. Поважний колега Єсилевський колись блискуче класифікував усі схеми накручування таких цифр в статті «Блеск и нищета современной наукометрии». Певен, ці викриття стали де-факто методичкою та неформальним кодексом «як зростити собі товстий Гірш без СМС та реєстрації» для багатьох наукових колективів України. В найбільш упоротих варіантах методи, певно, знайшли відображення у відповідних рішеннях Вчених рад.

Баланс переваг та недоліків наукометрії можна тримати на стороні переваг за певних умов. Наприклад, коли інституція, яка розраховує індекси, та інституція, що їх використовує, мінімально пов'язані між собою. Щоб «порішать» було якомога складніше. Дуже вдалою є схема, коли показники для всіх видавців та вчених в усіх країнах розраховуються однаково однією або декількома структурами, про які всі знають. Щоб структура була під прицілом усіх одночасно та дбала як про досконалість своїх підрахунків, так і про стійкість до недоброчесних викривлень в межах якоїсь похибки. Такі ресурси повинні чітко та прозоро постулювати як методи розрахунків, так і принципи покриття контенту. Знову ж таки: об'єкти досліджень у всіх галузях різні, але незалежне та об'єктивне рецензування поданих рукописів має бути в усіх журналах, за якими розраховуються індекси. Це питання довіри та працездатності механізмів.

Так склалося, що вже багато років найбільш поширені та універсальні наукометричні індекси розраховуються двома відомими комерційними ресурсами: Scopus та Web of Science. Наприклад, остання розраховує імпакт-фактор журналів ще від кінця 70-х років. Факт комерційності ресурсів, швидше, є перевагою, бо капіталізм працює. Роботи там багато, і коли ми хочемо справжньої якості, за неї треба заплатити спеціалістам. Вразливість до недоброчесності тут залишається точно не більшою порівняно з іншими способами організації. Так, певний процент неякісних журналів все одно потрапляє до переліку Scopus та Web of Science. Та потім недоброчесні журнали вичищаються відповідною «поліцією» – Evaluation Team, згодом потрапляють нові… Звичне життя як і скрізь. Говорити, що Scopus та Web of Science не виправдовують свого існування – все одно, що вимагати розігнати поліцію, бо не вдається злочинність викорінити остаточно.

Всі інші альтернативи та «свої Лас-Вегаси з Блек-Джеком та панянками з низьким рівнем соціальної відповідальності», які є на поточний момент (у такому другорядному, насправді, питанні як наукометрія), поступаються Scopus та Web of Science. Той самий «безкоштовний» Google Scholar де-факто є вебометричним ресурсом і індексує все підряд. Наприклад, цитування методички у курсовій роботі, викладеної в університетському репозитарії, впливає на індекс цитування. Тут, як то кажуть, «мені карта і пішла». Спеціалізовані бази за галузями знань є менш пізнаваними і також можуть бути комерційними та/або менш технічно досконалими. Тобто, у кращому випадку, вони можуть тимчасово повторити функціональність Scopus та Web of Science. Усі місцеві та національні індекси цитувань є швидше архаїкою, побудованою на страхах «не можна довіряти оцінювання своєї науки корпораціям, що думають лише про гроші». І, знову-таки, жодної технічної переваги, окрім індексації свого пулу журналів, національні бази не мають. Але ОК, Національний індекс, наприклад, Фінляндії дійсно можна створити притомним, коли ти живеш у Фінляндії з її рівнем достатку, технологічності, довіри та етики. Та це навряд чи наш випадок, бо ми ведемо розмову, відштовхуючись від недосконалості та дискредитованості наших внутрішніх інструментів.

Частина Друга: коло технічних питань

Перепрошую за пардон, але й тут без «многабукав» діла не буде). Бо матчастина.

Почнемо з питань «на стороні розробника». Аналіз тих програмних продуктів, які виходили з-під МОН, дає підстави сумніватись, що така досить складна система як індекс цитування буде (чи вже є) розроблена до ладу. Що всі питання в частині технічного завдання та менеджменту проекту як-то «юзерівські сторіз», «спринти» й «беклог» в черговий раз не залишились за бортом. Що «господар продукту» дійсно зрозумів нащо продукт потрібний, що всі «епіки» закінчилися конструктивними «ретроспективами». Що всередині продукту будуть потрібні алгоритми, а користувачам усіх необхідних рівнів буде зручно продуктом користуватися. Що апаратна частина не підведе. Що система матиме потенціал розвитку та апгрейду і буде розбудована на новітніх та перспективних технологіях. Ну і всі інші нюанси, що відрізняють якісний програмний продукт від «поробок», зроблених «на колінках», бо ситуація дозволяє «впарити», як це було, наприклад, з системою електронного подання запитів за держбюджетними темами, або з системою звітності за темами (не дивуйтесь, це різні системи, так).

Нехай, тут розробники впорались. Це, ніби, найскладніша частина, та, водночас, вона найпростіша, бо її розуміють найкраще і приділяють належну увагу. Наступний блок питань – це підтримка (support). Як правило, всі наші системи розробляються одноденними підрядниками, які елімінують швидше, ніж висохне чорнило на підписах у акті виконаних робіт. А в готовому продукті завжди згодом виявляються недоліки та помилки. Наприклад, щось постійно «падатиме», або якийсь компонент виявиться невдалим. Або модернізуватимуться технології та рано чи пізно виникне питання нової версії. Наприклад, Scopus «викочує» нові версії з частотою 1-2 рази на рік. І це є необхідною умовою життєздатності продукту. Згадаємо тут http://uincit.uran.ua/.

Але ОК, нехай на support наймуть толкових підрядників, а вся документація буде написана гарно та детально, що дозволить підключатися іншим підрядниками. Та залишається найважче – клієнтська частина та користувачі («юзвєрі"). Щоб наша "національна наукометрична система" працювала, необхідно, аби відповідна інформація в неї якось потрапляла. При чому як з зарубіжних видань, які не змушені нічого робити за наказом МОН, так і з кострубатого розмаїття наших видань (певно, з переліку ДАК), які через відсутність нормального фінансування відчувають гострий брак технічної бази та спеціалістів для цього. Той, хто має хоч трошки досвіду впровадження якихось інновацій в болоті державних структур, де нічого нікому не потрібне, розуміє, що легко відзвітувати за паперами про впровадження чогось, та важко змусити це щось функціонувати до ладу. На додачу, важливо обрати правильні інструменти реалізації клієнтської частини: від неї залежить дуже багато, а вміння нею користуватися може не з'явитися за наказом МОН. Окреслимо коло інструментів, що можуть бути використаними.

Перше, що спадає на думку – OAI-PMH. Для цього треба, щоб веб-система кожного журналу мала цей інструмент, а метадані статей зберігались відповідним чином у базі даних веб-системи журналу. В свою чергу, це значить, що чиясь дбайлива рученька (або дбайливий прасер) має ці метадані у базу розміщувати окремо по кожній статті. Другий варіант – .xml формат (щось на кшталт текстового файлу, у якому впорядкування відбувається за допомогою маркерів-тегів), який відразу спонукає креативно застосувати цитати Митця: "А ти РІНЦ в бєлки (закреслено) в Росії видів?". Їх ".xml-connection" – це справжній brain concussion. "50 відтінків сірого" – нудна документалістика з життя Папи Римського у порівнянні з любов'ю з метаданими в даній схемі. Тому і в нас будуть інфернальні inputs клієнтської частини та/або редагування результату в NotePad++. Найбільш просунуті будуть писати скрипти та експортувати з баз. Хтось за My SQL запитом, хтось експортом у .csv, коли має Open Journal System, з подальшою грою з vba (або іншими) скріптами. Нарешті, вистражданий .xml файл потім треба пхати через sftp, або надсилати на пошту … краса. Зоопарк буде повний, помилок буде купа, а КПД – низьким. На додачу, в ці схеми не вписується вирішення проблеми з зарубіжними журналами.

Ще рік тому в МОН обнадійливо (див. посилання тут і тут) обіцяли, що будуть використовуватися готові інструменти від CrossRef, і що все "продумано". В основі ідеї – принцип DOI-to-DOI та відповідний сервіс "Cited by". Віддамо належне, якщо дійсно використають інструмент від CrossRef, то багато питань реально буде знято. Наприклад, проблема потрапляння даних з закордонних видань. Навіть буде досить прогресивно, коли наші дрімучі з технологічної точки зору наукові журнали (таких більшість) навчаться взаємодіяти з CrossRef. Також це знімає багато проблем на стороні розробника і в серверній, і, можливо, в клієнтській частині. Однак, на стороні користувачів це всіх проблем далеко не знімає. Ба більше, певних проблем додає, бо вносить важливі зміни у весь процес видавничої діяльності. І саме час розглянути що є CrossRef.

CrossRef – комерційний сервіс (привіт борцям з комерціалізацією науки та корпораціями), який допомагає навести лад в цифровому контенті Інтернету за допомогою інструменту Digital Object Identifier (DOI). Останній є чимось середнім між сервісом скорочених посилань bit.ly та можливістю давати власний URL (інтернет адреса в адресному рядку браузера) власникам пабліків. Новий альтернативний URL завжди починається як "https://doi.org/", а далі іде набір символів, створений за простим алгоритмом, який можна відтворити навіть вручну. Та головним є не привабливість альтернативного посилання, а його стабільність. Бо часто реальні адреси змінюються через організаційні причини (наприклад, зміна платформи, апдейт чи переїзд), що унеможливлює створення універсальної та робочої системи перехресних посилань. DOI-посилання ж залишаються завжди валідними і незмінними. Це дуже важливо для наукового контенту: статей, монографій тощо і тому така "дрібничка" як DOI стала невід'ємною частиною видавництва наукової літератури. Електронні версії статей мають DOI, а перелік літератури в кінці кожної має гіперпосилання також зроблені за допомогою DOI.

На додачу до доступності та впорядкованості наукових джерел в інтернет-просторі, приємним бонусом використання DOI є майже готова можливість підрахунку цитувань. Природно, що CrossRef реалізував відповідні інструменти і залюбки продає їх усім охочим. Зокрема, бажаючим створити свої індекси цитування. Припускаю, що ці інструменти можуть і надаватись безкоштовно, бо вони допомагають просувати інший бізнес CrossRef – продаж DOI. Так, безкоштовним це бути не може. І, так, комерційне – не значить погане, швидше, навпаки. Та закцентувати увагу борців проти комерційних сервісів у науці та конфліктів інтересів тут безцінно.

Як правило, ті, хто буде змушений забезпечувати роботу нашому індексу цитування, з цієї частини мало що зрозуміли по суті, але перелякались добряче. І відразу постає найважче питання: чи будуть передбачені кошти та заходи на рівні, достатньому для вирішення цієї проблеми? Майже впевнений, що ні. Майже впевнений, що ті, хто керує процесом впровадження не розуміють і половини викликів, що поставить реальність.

Частина Третя: необхідні зміни у видавництві українських наукових журналів

З вищесказаного виділим окремо, які саме види та об'єми робіт принесе редакціям журналів національний індекс цитування разом з інструментами від CrossRef.

Питання перше: Як передавати необхідне у національний наукометричний сервіс? За кожною виданою статтею повинні передаватись, як мінімум, її DOI (а для цього його треба ще отримати), та список посилань, кожне з яких також повинно мати DOI. Швидше за все, простого посилання в одному з загальноприйнятих форматів, не обійтися. CrossRef невелика компанія, всі процеси автоматизовані. А ідея простої передачі текстового формату посилання погано і не дуже надійно автоматизується. Окрім підходу з .xml, який тут також можливий, швидше за все у кожного видавця буде свій "кабінет" в системі національного індексу цитувань з можливістю ручного введення та завантаження .xml файла як в DOAJ. Або буде десктопний клієнт з тими же функціями. Автоматично все може працювати лише за умови дуже просунутої (як для наших реалій) веб системи журналу. І в просунуту веб-систему дані також мають якось потрапляти. Про "50 відтінків сірого", ніби вже жартував.

Питання друге: звідки необхідна інформація для передачі у національний наукометричний сервіс візьметься у наших видавців? DOI на кожну видану статтю треба спочатку отримати. За гроші. Мінімальний пакет послуг коштує 100 долларів на рік + по 1 долару за кожен DOI. А далі постає не менш складна проблема: звідки брати розгорнуту інформацію про перелік літератури у кожній статті? Найпростіший вихід – ручна робота. Марудна та невдячна з купою помилок і поганим настроєм. Або автоматизація. Є два способи надійного автоматизованого та маловитартного вирішення питання. Припустимо, Ви користуєтесь LaTeX. Якщо останнє слово викликає асоціацію з WYSIWYM-видавничою системою – у вас проблем не буде завдяки інструменту BibTeX, який зручно та структуровано зберігає метадані всіх посилань. Якщо ж термін LaTeX викликає асоціації з ефектними дівулями в блискучих обтічних обладунках, то я радий Вашій життєвій вдачі, та щодо сабжу – проблеми у вас, таки, будуть. Припустимо, Ви користуєтесь MS Word або його аналогом від Libre Office. Тоді питанням автоматизації вашого списку літератури буде опікатись Mendeley – продукт "богомєрзкої" корпорації Elsevier, яка також володіє… Scopus. От, прямо не знаю, куди діватися зараз "борцям з корпораціями"… Та головна журба тут – змусити користуватись всім тим авторів (хто в темі, має заплакати). І це при тому, що на сучасному етапі наші журнали переважно не мають навіть шаблонів статей у притомному вигляді (.dotx, .cls). Тому виклики більш, ніж серйозні.

Частина Четверта: справжня користь від готового продукту

Таким чином, бачимо, національна наукометрична система є складним та ресурсовитратним проектом. Натомість яку важливу проблему для науки, суспільства чи держави він вирішує? Хто буде реальним споживачем його роботи та дійсно скаже, що без запуску цієї системи було справді гірше? Чи справді інші існуючі альтернативи принципово не влаштовували нас?

У який спосіб буде формуватися перелік видань, що підлягатиме індексації задля того, щоб наш національний наукометричний інструмент не став вебометричним як Google Scholar? Логічно буде, коли нова система автоматично вбере в себе переважну більшість видань, що вже включені в Scopus або Web of Science. За що ще треба буде поборотись з "противниками корпорацій". А, швидше за все, прийдеться просто включити за замовчуванням переліки Scopus або Web of Science. Інакше відкриється шлях маніпуляцій та недовіри до національного ресурсу. Та включивши Scopus, ти автоматично отримуєш і всі недоліки Scopus. Далі, логічно буде доповнити список виданнями з переліку ДАК. Звісно, за умови, що ці видання зможуть дружити з національною системою з технічної точки зору. Хоча, можна включити за замовчуванням, але на показники, що будуть обраховуватися, вплинуть лише технічно спроможні. В таких умовах чи покаже наш "УкрScholar" щось дуже відмінне від того, що вже показує Scopus?

Для вестернізованої частини наукового співтовариства, будуть обраховані практично ті ж самі показники, що й у Scopus або Web of Science. І тому ця частина науковців не буде споживачами національного індексу цитування. Для чиновників наукометричні величини цікаві лише як другорядна та дорадча інформація. Сказати що без інформації від національного індексу цитувань МОН не зможе реалізовувати політику та реформи також буде перебільшенням. Поява наукометричних показників у доброчесних журналів з переліку ДАК з окремих галузей, що не можуть потрапити у Scopus або Web of Science, та у вчених, що в цих галузях працюють, схоже єдина відчутна цінність обговорюваної системи. Але чи варто городити систему заради ВИКЛЮЧЕНЬ? Це алогічно! І у такий спосіб зникає левова доля стимулів до вестернізації дуже важливих для країни гуманітарних напрямків.

Список ДАК за таких обставин буде найслабшою ланкою, а ціна "хаку системи" різко зросте: закон Гудхарта проявить себе в усій красі. В погоні за індивідуальними наукометричними показниками доброчесність національних видань отримає черговий удар. Ми збудуємо СИСТЕМНУ ШПАРИНУ, яка уособлюватиме всі недоліки наукометрії в національному колориті. Ситуація схожа на розгул дикого капіталізму в 90-х, який відлякав наших людей від справжніх Західних цінностей. Згадайте слова відомої наукометричної пародії на індійське кіно: "Спочатку я процитую тебе, потім ти – мене, а потім ми всі разом, всі разом, процитуємо нашого султана". В справжніх Peer Review журналах таку вакханалію організувати було б важко.

То виходить, що істинними бенефіциарами будуть "наукові" працівники з зачепленим самолюбством, або бажаючі, щоб у начальства "підріс Гірш" через "адміністративно доцільне цитування". Карго-культ та імітація отримає чергову можливість для самовираження, а ницість – своє рятівне коло. Спостерігати за цим буде весело. Як казав один мій знайомий: "Я можу пробачити справжньому чоловік онанізм, за умови коли це дійство не звершується дивлячись у дзеркало".

Коли продукт не має корисного навантаження і несе лише додаткові витрати дорогоцінних ресурсів, він приречений на забуття. Приміром, ЄДЕБО чи особистий кабінет абітурієнта для реєстрації на ЗНО та подачі заяв у внз хоч дуже "not user friendly". Однак, вони виконують важливі функції та забезпечують виконання важливих та імперативних частин законодавства. Коли ці системи втратять працездатність – можуть зазнати збитків конкретні люди та будуть покарані конкретні винні. А що буде, коли раптом перестане працювати помпезно запущена національна наукометрична система? Зітхнуть з полегшенням відповідальні за надсилання метаданих, перестане зростати "процент жирів у маслі" у переважно найменш добросовісних робітників від науки. Ото і вся ціна такому продукту. От чесно, невже не було куди подіти гроші та людські ресурси? Чи не доцільніше було б зробити притомні системи для рецензування наукових проектів та звітності за ними? Модернізувати УкрНТЕІ та допомогти їм приймати дисертації у форматі LaTeX? Повно задач з "діджиталізації", які б справді полегшили життя освітянам та науковцям. Чому в пріоритеті саме розробка національного велосипеду?

Проголосували

Taras Lyutyy

#УкрScholar

Теги

Коментарі

Інші пости автора