Направо към съдържанието

Уикипедия:BG DBpedia

от Уикипедия, свободната енциклопедия

Призив към BG Wikipedia обществото: моля прочетете долното и дайте коментари, предложения, съвети... Поздрави! skype:valexiev1, Vladimir Alexiev (беседа)

Тази страница и нейните подстраници ще съдържа информация за организацията, структурата и задачите на BG DBpedia. Ако желаете да помогнете, разгледайте беседата и списъка със задачи там.

Проект в Уикипедия - BG DBpedia

  • DBpedia е семантично представяне на част от информацията в Уикипедия. Това става чрез колаборативно създаване на DBpedia онтологията и редактиране на мапинги от инфокутии към семантични данни: http://mappings.dbpedia.org.
  • Wikidata е място за колаборативно редактиране на данни, с цел те после да се преизползват във всички национални Уикипедии.

DBpedia и Wikidata са много важни ресурси в семантичния уеб, част от Linked Open Data cloud. Wikidata ще е много важна за БГ Уикипедия:

  • чрез ползване на Wikidata данни, няма да има нужда да въвеждаме конкретни факти (напр. дати, население, площ) за чужди обекти, а само българският текст за тях.
  • да осигурим данните за БГ обекти да са верни и пълни, защото те ще се използват в много други Уикипедии по света.

Няколко уикипедианци със сходни интереси стартираха този проект, за да могат по-лесно да организират работата по подобряване на информационния аспект на БГ Уикипедия. Проектът има за цел:

  • да подобри мапингите и извличането на данни от БГ Уикипедия. Например:
  • да подобри "културата" за значението на данните на БГ Уикипедианците. Например
    • полето "фон" е Задължително в Шаблон:Музикален изпълнител. Това се ползва в мапинга за да различи класове MusicalArtist, Band, MusicComposer, MusicDirector. Въпреки че има бележка "Използвайте един от кодовете: певец, инструменталист, не_изпълнител, временно", хората ползват и всякакви други стойности като: словашка певческа група, молдовски певец, джаз квартет, поп-фолк певица (може ли без нея).
    • виж Уикипедия:Разговори#Десетична точка или запетая?
    • Извличането се справя с интервал сложен за украса, напр "1 234". Но някои хора ползват nbsp в числа, което води до извличането само на първата цифра. "НБУ: Брой студенти: 3"
  • да подобри структурирането на данните, доколкото е възможно.
    • Например в момента данните за йерархията на БГ населени места няма как да се извлекат (макар да ги има в БГ Уикипедия). Причината е, че са скрити дълбоко в списъци в под-шаблони: https://github.com/dbpedia/extraction-framework/issues/305
    • User:nk каза, че скоро тези данни ще се преместят в Уикидата. Значи трябва да говорим с ДБпедия хората да се активизира извличането от Уикидата

Картинки в Уикидата

[редактиране на кода]

Но защо няма добри кандидати за картинка?

User:Nk ?

--Vladimir Alexiev (беседа) 17:28, 13 февруари 2015 (UTC)[отговор]
Въпросът май е за Магнус Манске. усмивка Първото, което виждам, е че в Wikidata няма връзка към категорията в Commons - вероятно затова не търси там. Ако се зададе експлицитно опцията "Search Commons" намира жълтия монограм, но не и другия. Допускам, че може умишлено да игнорира SVG-файловете (в общия случай съдържат схеми, карти и други подобни). --Спас Колев (беседа) 20:15, 13 февруари 2015 (UTC)[отговор]

Преименоване на шаблони

[редактиране на кода]

User:Nk: Харесва ми как сте опростили имената на шаблоните: Планина, Селище инфо, Съзвездие, Книга... Но моля ми казвайте, защото иначе bg.dbpedia се чупи (не намира данните). Добре че Nono314 добави към страницата със статистика http://mappings.dbpedia.org/server/statistics/bg/?show=100000 бележки от сорта "Преименувай този мапинг". Поздрави! --Vladimir Alexiev (беседа) 18:57, 30 март 2015 (UTC)[отговор]

Обща стратегия и дискусии

[редактиране на кода]

Предистория

[редактиране на кода]

Онтотекст се занимава със семантични технологии от 14 години и активно *ползва* DBpedia от 5-6 години. Например вижте http://www.factforge.net, което е сбор от DBpedia, FreeBase, GeoNames, CIA FactBook, NY Times, etc.

Но от декември 2014 се занимаваме активно с редактиране и *подобряване* качеството на данните в DBpedia и Wikidata.

  • Откриваме дефекти в "dbpedia/extraction-framework" и полека фиксваме някои: https://github.com/dbpedia/extraction-framework/issues?q=author%3AVladimirAlexiev
  • Подобряваме BG DBpedia данните (виж примери по-горе)
    • Предлагаме да хостваме http://bg.dbpedia.org
    • За целта сигурно ще трябва да се организира BG DBpedia Chapter. Най-добре тя да работи заедно с (или да е част от) BG Wikipedia Chapter (предполагам че има).

Защо ни е това

[редактиране на кода]
  • DBpedia и други Linked Open Data datasets са основни източници за семантична анотация, т.е. разпознаването на обекти в свободен текст. Доскоро нямаше интерес за семантична анотация в България, но вече има (проекти с EvoMedia и OffMedia).
  • Културно наследство
    • (КН): Онтотекст е една от водещите компании за приложение на семантични технологии в КН, например вижте http://collection.britishmuseum.org и http://europeana.ontotext.com.
    • За жалост информационното обезпечаване на КН в България е на изключително ниско ниво. Липсват национални регистри, музейните колекции масово не са описани... Онтотекст се опитва да направи нещо по въпроса, например вижте http://bulgariana.eu, но е много трудно.
    • Нашата идея е да превърнем Wikipedia, DBpedia и Wikidata в централните информационни ресурси, които да позволят на културните работници да работят заедно за описание на общите елементи на нашето КН. Не е редно в чуждите Уикипедии да има повече информация за наши царе, артисти, политици и събития отколкото в нашата; а в BG DBpedia данните да са наполовина и грешни.

Свързани проекти

[редактиране на кода]

Свързани проекти са:

BG Wikipedia seminar 20150208

[редактиране на кода]

Виж Уикипедия:Уикисреща/Семинари/2015-02 и бележки

DBpedia семинар Дъблин 20150209

[редактиране на кода]

Ще бъда на третия DBpedia семинар и ще говоря по две теми:

  • Подобряване на DBpedia онтологията и качеството на данните
  • Стартиране на BG DBpedia

We had a very productive DBpedia meeting. My presentations are at http://vladimiralexiev.github.io/: