Big data

от Уикипедия, свободната енциклопедия

Big data (от английски: „големи данни“) е научна област, изучаваща начините за анализиране, систематичното извличане на информация от и въобще работата с големи набори от данни, които иначе са твърде големи или сложни за традиционния приложен софтуер за обработка на данни. Данните с много полета (колони) предлагат по-голяма статистическа мощ, докато данните с по-голяма сложност (повече атрибути или колони) могат да доведат до по-висока фалшива степен на откриване.[1] Предизвикателствата пред анализа на големи набори от данни включват прихващането на данните, съхранението, анализа, споделянето, трансфера, визуализацията, търсенето, обновяването и предпазването им. В началото big data се свързва с три ключови концепции: обем, разнообразие и скорост.[2] Анализът на многобройните данни среща препятствия при извличането на извадка от тях. Big data често включва данни, чийто размер надхвърля капацитета на традиционния софтуер за своевременното им обработване.

Растеж и дигитализация на глобалния капацитет за съхранение на информация[3]

Днешната употреба на термина big data често се отнася за употребата на прогнозни анализи, анализ на поведението на потребителите или други сложни аналитични методи, които извличат стойности от голям обем данни, и по-рядко за определен размер на набор от данни.[4] Анализаторите на данни могат да открият нови корелации, чрез които да забелязват нови бизнес трендове, да предотвратяват болести, да се борят с престъпността и други. Учените, ръководителите на бизнеси, медицинският персонал, рекламните агенции и правителствата редовно срещат трудности с обработването на голям обем от данни в области като интернет търсения, финансови технологии, геоинформационни системи и други. Учените срещат ограничения в работата си в сферата на метеорологията, геномиката,[5] сложните физични симулации, биологията и изследванията на околната среда.[6]

Размерът и броят на наличните множества от данни нараства много бързо със събирането на данни от различни устройства, като например мобилни, евтини и многобройни IoT устройства, софтуерни логове, камери, микрофони, RFID четци и безжични сензорни мрежи.[7][8] Световният технологичен капацитет на глава от населението за съхранение на информация се удвоява на всеки 40 месеца от 1980-те години насам.[9] Към 2012 г., всеки ден се генерират 2,5 ексабайта (2,5×260 байта) данни.[10] По прогнози на International Data Group, обемът на данните в световен мащаб ще нарасне експоненциално от 4,4 зетабайта до 44 зетабайта в периода 2013 – 2020 г. Към 2025 г. се очаква по света да има общо 163 зетабайта данни.[11]

Релационните системи за управление на бази от данни и настолният статистически софтуер се справя много трудно с обработването и анализирането на big data. Такива задачи обикновено изискват софтуер, който работи паралелно на десетки, стотици или дори хиляди сървъри.[12] Това какво се счита за „big data“ зависи от способностите и инструментите на тези, които ги анализират. Освен това, постоянно променящият се капацитет превръща big data в движеща се мишена. Така например, за някои компании стотици гигабайти данни могат да породят нуждата от специалното им управление, докато други компании могат да срещнат предизвикателство чак при обем на данните от стотици терабайти.[13]

Източници[редактиране | редактиране на кода]

  1. Breur, Tom. Statistical Power Analysis and the contemporary „crisis“ in social sciences // Journal of Marketing Analytics 4 (2 – 3). London, England, Palgrave Macmillan, юли 2016. DOI:10.1057/s41270-016-0001-3. с. 61 – 65.
  2. The 5 V's of big data // 17 септември 2016. Посетен на 20 януари 2021.
  3. Hilbert, Martin и др. The World's Technological Capacity to Store, Communicate, and Compute Information // Science 332 (6025). 2011. DOI:10.1126/science.1200970. с. 60 – 65.
  4. boyd, dana и др. Six Provocations for Big Data // Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. 21 September 2011. DOI:10.2139/ssrn.1926431.
  5. Community cleverness required // Nature 455 (7209). септември 2008. DOI:10.1038/455001a. с. 1.
  6. Challenges and opportunities of open data in ecology // Science 331 (6018). февруари 2011. DOI:10.1126/science.1197962. с. 703 – 5.
  7. Hellerstein, Joe. Parallel Programming in the Age of Big Data // Gigaom Blog. 9 ноември 2008. Архивиран от оригинала на 2012-10-07. Посетен на 2021-11-02.
  8. Segaran, Toby, Hammerbacher, Jeff. Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media, 2009. ISBN 978-0-596-15711-1. с. 257.
  9. The world's technological capacity to store, communicate, and compute information // Science 332 (6025). април 2011. DOI:10.1126/science.1200970. с. 60 – 5.
  10. IBM What is big data? – Bringing big data to the enterprise // ibm.com. Посетен на 26 август 2013.
  11. Data Age 2025: The Evolution of Data to Life-Critical // International Data Corporation, 13 април 2017. Посетен на 2 ноември 2017.
  12. Jacobs, A. The Pathologies of Big Data // ACMQueue. 6 юли 2009.
  13. Magoulas, Roger и др. Introduction to Big Data // Release 2.0 (11). Sebastopol CA, O'Reilly Media, февруари 2009.