Internet Archive

от Уикипедия, свободната енциклопедия
Направо към навигацията Направо към търсенето
Internet Archive
Лого на Internet Archive от 2001 г.
Лого на Internet Archive от 2001 г.
Internet Archive mirror servers - Bibliotheca Alexandrina.jpg
Сървърът в Библиотека Александрина в град Александрия, Египет през 2008 г.
Информация
Уеб адрес archive.org
Вид на сайта архив, уебсайт, организация с нестопанска цел, електронна библиотека, уеб архив
Регистрация не е задължителна
Езици английски
Притежател Internet Archive
Създаден от Брюстър Кейл
Създаване 12 май 1996 г.;
преди 24 години
 (1996-05-12)
Alexa ранг 216:[1]
САЩ – 24,5 % (191);
Индия – 16,8 % (114);
Япония – 10,1 % (218)
(към 21 септември 2020 г.)
Приходи Повишение 20,3 милиона щатски долара (2018)[2]
Реклами не
Настоящ статус активен
Седалище Флаг на САЩ САЩ;
Флаг на Египет Египет;
Флаг на Нидерландия Нидерландия
Internet Archive в Общомедия

Internet Archive (IA – „Интернет архив“) е американска електронна библиотека на всякаква тематика. Сайтът предоставя безплатен публичен достъп до колекции от дигитализирани материали, включително уебсайтове, софтуерни приложения (игри, музика, филми) видеоклипове, движещи се изображения и милиони книги. В допълнение към функцията си за архивиране, Архивът е активистка организация, застъпваща се за безплатен и отворен интернет. Internet Archive съхранява в Wayback Machine над 20 милиона книги и текстове, 3 милиона филми и видеоклипове, 400 000 софтуерни програми, 7 милиона аудио файлове и 463 милиарда уеб страници.

Internet Archive позволява на обществеността да качва и изтегля цифрови материали в своя клъстер от данни, но по-голямата част от данните му се събират автоматично от нейните уеб робот, които работят за запазване на възможно най-голяма част от публичната мрежа. Неговият уеб архив, Wayback Machine, съдържа стотици милиарди уеб улавяния. Internet Archive контролира един от най-големите проекти за цифровизация на книги в света.

Сайтът е създаден през 1996 г. от Брюстър Кейл. Към август 2016 г. съдържа 502 млрд. копия на уеб страници. Към март 2019 г. размерът на архива е 60 петабайта[3] Архивът не включва страници от сайтове, които не позволяват (чрез robots.txt) да бъдат индексирани от ботове.

Управление[редактиране | редактиране на кода]

Internet Archive е организация с нестопанска цел, базирана в Сан Франциско, Калифорния, САЩ. Архивът разполага с годишен бюджет от около няколко десетки милиона щатски долара, събиран чрез различни източници, като: уеб услуги, различни партньорства, безвъзмездни средства, дарения и фондация „Kahle–Austin“.[4] Internet Archive управлява периодични кампании за финансиране, както стартиралата през декември 2019 г. кампания, целяща да събере дарения за 6 милиона щатски долара.[5]

До 2019 г. по-голямата част от служителите работят в центровете за сканиране на книги, след което сканирането се извършва от 100 платени оператора по целия свят.[6] Internet Archive разполага с центрове за данни в три калифорнийски града – Сан Франциско, Редуд Сити и Ричмънд. За да се подсигури стабилността и устойчивостта на архива, както да се ускори свалянето и да се разпредели натоварването, пълни копия се поддържат на огледални сайтове в Библиотека Александрина (Египет) и съоръжение в Амстердам (Нидерландия). Архивът е член на Международния консорциум за опазване на интернет.[7] От 2007 г. архивът придобива статус на библиотека.[8]

История[редактиране | редактиране на кода]

Архива е основан през май 1996 г. от Брюстър Кейл. През октомври 1996 г. Internet Archive започва да архивира и съхранява глобалната мрежа в големи количества, въпреки че запазва най-ранните страници през май 1996 г.[9] До 2001 г. архивираното съдържание не е публично достъпно, до разработването на Wayback Machine.

Уеб архивиране[редактиране | редактиране на кода]

Wayback Machine[редактиране | редактиране на кода]

Лого на Wayback Machine, използвано от 2001 г.

Internet Archive се възползва от популярното използване на термина „WABAC machine“ от сегмент на анимационния филм „Приключенията на Роки и Булуинкъл“ и използва името „Wayback Machine“ за своята услуга, която позволява архиви на World Wide Web за търсене и достъп.[10] Тази услуга позволява на потребителите да преглеждат някои от архивираните уеб страници. Wayback Machine е създаден със съвместни усилия на Alexa Internet и Internet Archive, когато е изграден триизмерен индекс, който позволява сърфиране на архивирано уеб съдържание. Милиони уеб сайтове и свързаните с тях данни (изображения, източник код, документи и др.) се записват в база данни. Услугата може да се използва, за да се види как са изглеждали предишните версии на уеб сайтове, да се вземе оригинален изходен код от уеб сайтове, които може вече да не са директно достъпни, или да се посетят уебсайтове, които вече дори не съществуват. Не всички уеб сайтове са налични, защото много собственици на уебсайтове решават да изключат своите сайтове.[11]

През октомври 2013 г. е предоставена функция за архивиране „Запазване на страница сега“,[12] достъпна в долния десен ъгъл на главната страница на Wayback Machine. След като се въведе и запази целеви URL адрес, уеб страницата се запазва в Wayback Machine.[12] Чрез интернет адреса web.archive.org[13] потребителите могат да качват в Wayback Machine голямо разнообразие от съдържание, включително PDF и файлови формати за компресиране на данни. Wayback Machine създава постоянен локален URL адрес на съдържанието за качване, който е достъпен в мрежата, дори ако не е посочен по време на търсене в официалния уебсайт „archive.org“.

Archive-It[редактиране | редактиране на кода]

Брюстър Кейл говори за методите при архивиране, 2013 г.

Archive-It е услуга за абонамент за уеб архивиране, която позволява на институции и лица да изграждат и съхраняват колекции от цифрово съдържание и да създават цифрови архиви, създадена в началото на 2006 г. Archive-It позволява на потребителя да персонализира заснемането или изключването на уеб съдържание, което иска да запази поради съображения за културно наследство. Чрез уеб приложение, партньорите Archive-It могат да събират, каталогизират, управляват, разглеждат, търсят и преглеждат своите архивирани колекции.[14]

По отношение на достъпността, архивираните уебсайтове могат да се търсят в пълен текст в рамките на седем дни след заснемането. Съдържание, събрано чрез Archive-It се заснема и съхранява като WARC файл. Основно и резервно копие се съхраняват в центровете за данни на Internet Archive. Копие от WARC файла може да бъде предоставено на абониращи се партньорски институции за геоизлишно съхранение и съхранение в съответствие с техните най-добри стандарти.[15] Периодично данните, уловени чрез Archive-It се индексират в общия архив на Internet Archive.

Към март 2014 г. Archive-It има над 275 партньорски институции в 46 щати на САЩ и 16 държави, които събрат над 7,4 милиарда URL адреса за над 2444 публични колекции. Партньори на Archive-It са библиотеки на университети и колежи, държавни архиви, федерални институции, музеи, юридически библиотеки и културни организации, включително Организацията за електронна литература, Държавен архив и библиотека в Северна Каролина, Станфордски университет, Колумбийски университет, Американски университет в Кайро, Джорджтаунска юридическа библиотека и др.

Колекции от книги[редактиране | редактиране на кода]

Служители сканират книги в централната сграда в Сан Франциско, 2011 г.
Машини на Internet Archive за сканиране на книги, 2012 г.

Брой текстове по езици[редактиране | редактиране на кода]

Брой на всички текстове
(9 декември 2019)
22 197 912[16]
Езици Брой текстове
(27 ноември 2015)
Английски език 6 553 945
Френски език 358 721
Немски език 344 810
Испански език 134 170
Китайски език 84 147
Арабски език 66 786
Нидерландски език 30 237
Португалски език 25 938
Руски език 22 731
Урду 14 978
Японски език 14 795

Брой текстове по десетилетия[редактиране | редактиране на кода]

19 век
Десетилетия Брой текстове
(27 ноември 2015)
1800-те 39 842
1810-те 51 151
1820-те 79 476
1830-те 105 021
1840-те 127 649
1850-те 180 950
1860-те 210 574
1870-те 214 505
1880-те 285 984
1890-те 370 726
20 век
Десетилетия Брой текстове
(27 ноември 2015)
1900-те 504 000
1910-те 455 539
1920-те 185 876
1930-те 70 190
1940-те 85 062
1950-те 81 192
1960-те 125 977
1970-те 206 870
1980-те 181 129
1990-те 272 848
21 век
Десетилетия Брой текстове
(27 ноември 2015)
2000-те 579 905
2010-те 855 253

Open Library[редактиране | редактиране на кода]

Open Library logo.svg

Open Library (в превод: Отворена библиотека) е проект на Internet Archive. Уикито се стреми да включи уеб страница за всяка книга, съдържа 25 милиона каталожни записа на издания. Също така се стреми да бъде достъпна в мрежата публична библиотека: съдържа пълните текстове на приблизително 1 600 000 книги в публично достояние (от повече от пет милиона от основната колекция текстове), както и книги в печат и авторски права,[17] които са напълно четими, с възможност за изтегляне[18] и с възможност за търсене в пълен текст; предлага двуседмичен заем на електронни книги в своята програма за кредитиране на Книги за заеми за над 647 784 книги, които не са публични домейн, в партньорство с над 1000 библиотеки от 6 държави[19] след безплатна регистрация в уеб сайта. Open Library е безплатен софтуерен проект с отворен код, чийто изходен код е свободно достъпен в GitHub.

Медийни колекции[редактиране | редактиране на кода]

В допълнение към уеб архивите, Internet Archive поддържа обширни колекции от дигитални медии, които са удостоверени от потребителя, който ги е качил, за публично достояние в Съединените щати или са лицензирани под лиценз, който позволява преразпределение, като лицензи на Криейтив Комънс. Медиите са организирани в колекции по тип медия (движещи се изображения, аудио, текст и др.) И в раздели на колекции според различни критерии. Всяка от основните колекции включва раздела на колекция „Общност“ (по-рано наречена „Отворен код“), където се съхраняват общи публикации от обществеността.

Източници[редактиране | редактиране на кода]

  1. archive.org. // alexa.com. Посетен на 21 септември 2020. (на английски)
  2. Full text of 'Full Filing' for fiscal year ending Dec. 2018. // projects.propublica.org. Посетен на 21 септември 2020. (на английски)
  3. Donate to the Internet Archive!. // archive.org. Посетен на 2019-11-25. (на английски)
  4. „Who Owns History?, cabinetmagazine.org“. // web.archive.org. Посетен на 21 септември 2020. (на английски)
  5. „Donations: donating to the Internet Archive“. // help.archive.org. Посетен на 21 септември 2020. (на английски)
  6. „The Internet Archive Fights Wiki Citation Wars With Books, gizmodo.com“. // web.archive.org. Посетен на 21 септември 2020. (на английски)
  7. „Members, netpreserve.org“. // web.archive.org. Посетен на 21 септември 2020. (на английски)
  8. „Internet Archive officially a library“. // archive.org. Посетен на 21 септември 2020. (на английски)
  9. „Infoseek Guide – Wayback Machine, infoseek.com“. // infoseek.com. Посетен на 22 септември 2020. (на английски)
  10. „A Library as Big as the World“. // web.archive.org. Посетен на 22 септември 2020. (на английски)
  11. „A fair history of the Web? Examining country balance in the Internet Archive, scit.wlv.ac.uk“. // web.archive.org. Посетен на 22 септември 2020. (на английски)
  12. а б „Fixing Broken Links on the Internet, blog.archive.org“. // web.archive.org. Посетен на 22 септември 2020. (на английски)
  13. „Web.archive.org directory“. // web.archive.org. Посетен на 22 септември 2020. (на английски)
  14. „Web Archiving Environmental Scan“. // nrs.harvard.edu. Посетен на 22 септември 2020. (на английски)
  15. „About Archive-It“. // archive-it.org. Посетен на 22 септември 2020. (на английски)
  16. „Internet Archive Search“. // archive.org. Посетен на 21 септември 2020. (на английски)
  17. „FAQ on Controlled Digital Lending (CDL)“. // nwu.org. Посетен на 21 септември 2020. (на английски)
  18. „The Open Library Makes Its Online Debut, chronicle.com“. // web.archive.org. Посетен на 21 септември 2020. (на английски)
  19. „In-Library eBook Lending Program Expands to 1,000 Libraries, 2011, blog.archive.org“. // web.archive.org. Посетен на 21 септември 2020. (на английски)

Външни препратки[редактиране | редактиране на кода]

     Портал „Информационни технологии“         Портал „Информационни технологии          Портал „Литература“         Портал „Литература          Портал „Египет“         Портал „Египет          Портал „Нидерландия“         Портал „Нидерландия          Портал „Калифорния“         Портал „Калифорния          Портал „САЩ“         Портал „САЩ