Наука за данните

от Уикипедия, свободната енциклопедия
Направо към навигацията Направо към търсенето

Науката за данните, или дейта сайънс (на английски: data science) е интердисциплинарна сфера, която използва научни методи, процеси, алгоритми и системи за извличане на знания и изводи от структурирани и неструктурирани данни.[1][2] Дейта сайънс е свързана с извличане на данни, машинно обучение и боравене с големите данни.

Дейта сайънс е „понятие, обединяващо статистика, анализ на данните и свързаните с това методи“ с цел „разбиране и анализиране на събития“ свързани с данни.[3] Науката използва адаптирани техники и теории от сферите на математиката, статистиката, компютърната наука, домейн знанието и информационната наука. Джим Грей представя дейта сайънс като „четвърта парадигма“ на науката (емпирична, теоретична, компютърна и сега водена от данни) и твърди, че „всичко в науката се променя, заради въздействието на информационните технологии“ и потопа от данни.[4][5]

Основи[редактиране | редактиране на кода]

Науката за данни включва и е близка до много други сфери (интердисциплинарна). Тя се фокусира върху извличането на знания от набори данни, обикновено в голям размер. Сферата включва анализ, подготовка на данните за анализ и презентиране на откритията, които информират организационни решения на високо ниво. Като такава, включва умения от компютърната наука, математиката, статистиката, информационната визуализация, графичния дизайн, комплексните системи, комуникацията и бизнеса. Статистикът Нейтън Яу, базийки се на Бен Фрай, свързва дейта сайънс с взаимодействието между човек и компютър: потребителите трябва да могат лесно на манипулират и изследват данните. През 2015 г. Американската Асоциация по Статистика определя управлението на база данни, статистиката и машинното обучение и разпределени и паралелни системи като три възникващи основни професионални сфери.

Връзка със статистиката[редактиране | редактиране на кода]

Много статистици, в това число Нейт Силвър, твърдят, че дейта сайънс не е нова сфера, а по-скоро друго име за статистиката. Други твърдят, че дейта сайънс се различава от статистиката, защото се фокусира върху проблеми и техники, строго отличителни за дигиталните данни. Васант Дхар обяснява, че статистиката подчертава количествени данни и описание, докато дейта сайънс се занимава с количествени и качествени данни (напр. образи), като набляга на прогнозиране (предсказване) и действие. Според Андрю Гелман от Колумбийския университет и ученият Винсент Гранвил, статистиката е несъществена част от дейта сайънс. Професор Дейвид Донохо от Станфордския университет твърди, че дейта сайънс не се разграничава от статистиката по размера на базата данни или по използването на изчислителна техника, и че голям брой магистърски програми рекламират погрешно техните обучения по програмите за анализиране и статистика като основи на курса за дейта сайънс. Донохо определя дейта сайънс като приложна сфера, отделяща се от традиционната статистика. В заключение, дейта сайънс може да се определи като приложен клон на статистиката.

Видове анализи[редактиране | редактиране на кода]

Източници[редактиране | редактиране на кода]

  1. Dhar, Vasant. Data Science and Predictions. // Philosophy of Science eJournal. 12 December 2013.
  2. Leek, Jeffrey. The key word in Data Science is not Data, it is Science · Simply Statistics. // 12 December 2013. Посетен на 2021-02-25.
  3. Hayashi, Chikio. What is Data Science? Fundamental Concepts and a Heuristic Example. // Data Science, Classification, and Related Methods. Springer Japan, 1998-01-01. ISBN 9784431702085. DOI:10.1007/978-4-431-65950-1_3. с. 40–51.
  4. The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research, 2009. ISBN 978-0-9825442-0-4. Архивиран от оригинала на 20 March 2017.
  5. Bell, G. и др. COMPUTER SCIENCE: Beyond the Data Deluge. // Science 323 (5919). 2009. DOI:10.1126/science.1170411. с. 1297–1298.