Програмна реалізація відновлення пропущених даних: порівняльний аналіз
DOI:
https://doi.org/10.31767/su.4(91)2020.04.02Ключові слова:
пропущені дані, типи пропусків, засоби імпутації даних, SPSS Statistics,, Statistica, програмне середовище R, SAS.Анотація
Проведено порівняльний аналіз можливостей застосування різних програмних продуктів для вирішення проблеми відновлення даних на прикладі вибірки, для якої симульовані різні варіанти пропусків даних. Дослідження дало змогу виявити слабкі та сильні сторони розглянутих програмних продуктів, а також визначити ефективність застосування того чи іншого методу за різних обсягів пропущеної інформації.
Найпростішим інструментом відновлення пропусків визначено пакет прикладних програм Statistica, який пропонує користувачу лише прості методи обробки пропущених даних. Ця програма допоможе впоратися з пропущеними даними при незначному обсязі пропусків (до 10%). SPSS пропонує ширший спектр методів відновлення даних порівняно зі Statistica, водночас має зрозуміліший інтерфейс для користувача проти мов програмування R чи SAS. В останніх зазначених програмних середовищах можна використовувати різні методи відновлення даних від найпростіших до найскладніших, таких як, наприклад, множинна імпутація. Отже, R та SAS є найпотужнішими програмами з відновлення даних, проте і складнішими для користувачів, оскільки потребують знання мови програмування.
Встановлено, що жодне з розглянутих програмно-аналітичних середовищ не має вбудованих процедур обробки категоріальних даних. У програмних середовищах R та SAS є певні підходи, які можна реалізувати за аналогією для упорядкованих категорій, проте це не покриває всі потреби аналізу досліджень, реалізованих у вигляді опитувань і результати яких здебільшого представлені як відповіді на запитання. Методи, які застосовуються для відновлення кількісних даних, не можуть бути поширені на категоріальні, навіть якщо для кодування відповідей використані цифри.
Дослідження безперечно довело той факт, що до відновлення даних у різних програмних середовищах, так само, як і до вибору можливих способів застосування тих чи інших способів імпутації у різних середовищах, слід підходити дуже обережно. У кожному конкретному випадку проблема імпутації має вирішуватися на основі ретельного аналізу існуючої бази даних з урахуванням не тільки особливостей самих даних і обсягу пропусків, а й специфіки конкретного дослідження.
Робота з пропущеними даними охоплює широкий спектр проблем, серед яких вивчення природи пропусків, вибір методології обробки й відновлення даних залежно від їхньої природи та від типу, а також використання різних програмних засобів відновлення даних.
У подальшому планується оцінити ефективність відновлювальної здатності методів, реалізованих у різних пакетах прикладних програм, а також розробити методологічні засади відновлення пропусків для категоріальних даних та реалізувати їх на практиці.
Завантаження
Посилання
2. Zloba, E., & Yatskiv, I. (2002). Statisticheskie metody vosstanovleniia propushchennykh dannykh [Statistical methods for missing data recovering]. Computer Modelling & New Technologies, Vol. 6(1), 51–61 [in Russian].
3. Kutlaliev, A. (2011). Metod mnozhestvennoho vosstanovleniia dannykh [Multiple Data Imputation Method]. Sotsiolohicheskie metody v sovremennoi issledovatelskoi praktike – Sociological methods in modern research practice, 201–208. Retrieved from https://publications.hse.ru/mirror/pubs/share/folder/21tn35z9vl/direct/92272011 [in Russian].
4. Little, R. J. A., & Rubin, D. B. (1990). Statisticheskii analiz dannykh s propuskami [Statistical analysis with missing data]. Moscow: Finance and Statistics [in Russian].
5. Ratitch, B., & O’Kelly, M. (2011). Implementation of Pattern-Mixture Models Using Standard SAS/STAT Procedures. Proceedings of PharmaSUG 2011. Retrieved from https://www.pharmasug.org/proceedings/2011/SP/PharmaSUG-2011-SP04.pdf
6. Ratitch B., O’Kelly, M., & Tosiello, R. (2013). Missing data in clinical trials: from clinical assumptions to statistical analysis using pattern mixture models. Pharmaceutical Statistics, Vol. 12, Is. 6, 337–347.
7. Yuan, Y. (2014). Sensitivity Analysis in Multiple Imputation for Missing Data. Proceedings of PharmaSUG 2014. Retrieved from https://support.sas.com/resources/papers/proceedings14/SAS270-2014.pdf
8. Smuk, M. (2015) Missing Data Methodology: Sensitivity analysis after multiple imputation. PhD thesis. London School of Hygiene & Tropical Medicine. Retrieved from https://researchonline.lshtm.ac.uk/id/eprint/2212896/1/2015_EPH_PhD_SMUK_M.pdf
9. Kovtun, N. V., & Fataliieva, A.-N. Y. (2019). New Trends in Evidence-based Statistics: Data Imputation Problems. Statystyka Ukrainy – Statistics of Ukraine, 87 (4), 4–13. Retrieved from https://doi.org/10.31767/su.4(87)2019.04.01
10. IBM SPSS Statistics 25 Documentation. (2018). Retrieved from https://www.ibm.com/support/pages/ibm-spss-statistics-25-documentation#en
11. Missing Value Analysis. IBM SPSS Statistics Subscription documentation. IBM Knowledge Center. Retrieved from https://www.ibm.com/support/knowledgecenter/en/SSLVMB_sub/statistics_kc_ddita_cloud/spss/product_landing_cloud.html
12. Shipunov, A. B., Baldin, E. M., Volkova, P. A., Korobeinikov, A. I., Nazarova, S. A., & Petrov, S. V. (2014). Nahliadnaia statystyka. Ispolzuem R! [Visual statistics. Let us use R!]. Retrieved from https://cran.r-project.org/doc/contrib/Shipunov-rbook.pdf [in Russian].
13. StatSoft, Inc. (2012). Elektronnyy uchebnik po statistike [Electronic textbook on statistics]. Moscow: StatSoft. Retrieved from http://www.statsoft.ru/home/textbook/default.htm [in Russian].
14. Missing data in SAS. Introduction to SAS. UCLA: Statistical Consulting Group. stats.idre.ucla.edu. Retrieved from https://stats.idre.ucla.edu/sas/modules/missing-data-in-sas/
15. SAS 9.4 Product Documentation. SAS. Resources / Documentation. support.sas.com. Retrieved from https://support.sas.com/documentation/94/
16. Rdatasets. Vincent Arel-Bundock’s Github projects. vincentarelbundock.github.io. Retrieved from https://vincentarelbundock.github.io/Rdatasets/datasets.html




