Наука за данните

от Уикипедия, свободната енциклопедия
Направо към навигацията Направо към търсенето

Дейта сайънс е интердисциплинарна сфера, която използва научни методи, процеси, алгоритми и системи за извличане на знания и изводи от структурирани и неструктурирани данни.[1][2] Дейта сайънс е свързана с извличане на данни, машинно обучение и боравене с големите данни.

Дейта сайънс е „концепция, обединяваща статистика, анализиране на данните и свързаните с това методи“ с цел „разбиране и анализиране на събития“ свързани с данни. Науката използва адаптирани техники и теории от сферите на математиката, статистиката, компютърната наука, домейн знанието и информационната наука. Джим Грей представя дейта сайънс като „четвърта парадигма“ наука (емпирична, теоретична, компютърна и сега данни-задвижваща (управляема)) и твърди, че „всичко в науката се променя, заради въздействието на информационните технологии“ и потопа от данни.

Основи[редактиране | редактиране на кода]

Дейта сайънс е интердисциплинарна сфера, фокусирана върху извличането на знания от набори данни, които типично са големи. Сферата включва анализ, подготовка на данните за анализ и презентиране на откритията, използвани да информират организационни решения на високо ниво. Като такава, включва умения от компютърната наука, математиката, статистиката, информационната визуализация, графичния дизайн, комплексните системи, комуникацията и бизнеса. Статистикът Нейтън Яу, описвайки Бен Фрай, свързва дейта сайънс с човеко-компютърното взаимодействие: потребителите трябва да могат лесно на манипулират и изследват данните. През 2015 г. Американската Асоциация по Статистика определя управление на база данни, статистика и машинно обучение, и разпределени и паралелни системи като три възникващи основни професионални общества.

Връзка със статистиката[редактиране | редактиране на кода]

Много статистици, в това число Нейт Силвър, спорят, че дейта сайънс не е нова сфера, а по-скоро друго име за статистиката. Други твърдят, че дейта сайънс се различава от статистиката, защото се фокусира върху проблеми и техники, строго отличителни за дигиталните данни. Васант Дхар обяснява, че статистиката подчертава количествени данни и описание. За разлика от статистиката, дейта сайънс се занимава с количествени и качествени данни (пр. образи), като набляга на прогнозиране (предсказване) и действие. Андрю Гелман от Колумбийския университет и ученият Винсент Гранвил са описали статистиката като несъществена част от дейта сайънс. Професор Дейвид Донохо от Станфордския университет твърди, че дейта сайънс не се разграничава от статистиката по размера на базата данни или от използването на изчислителна техника, и че голям брой магистърски програми рекламират погрешно техните обучение по програмите за анализиране и статистика като основи за програма за дейта сайънс. Донохо определя дейта сайънс като приложна сфера, отделяща се от традиционната статистика. В заключение, дейта сайънс може да се определи като приложен клон на статистиката.

Източници[редактиране | редактиране на кода]

  1. Dhar, Vasant. Data Science and Predictions. // Philosophy of Science eJournal. 12 December 2013.
  2. Leek, Jeffrey. The key word in Data Science is not Data, it is Science · Simply Statistics. // 12 December 2013. Посетен на 2021-02-25.