Уикипедия:BG DBpedia
Призив към BG Wikipedia обществото: моля прочетете долното и дайте коментари, предложения, съвети... Поздрави! skype:valexiev1, Vladimir Alexiev (беседа)
Тази страница и нейните подстраници ще съдържа информация за организацията, структурата и задачите на BG DBpedia. Ако желаете да помогнете, разгледайте беседата и списъка със задачи там.
Заглавие
[редактиране на кода]Проект в Уикипедия - BG DBpedia
- DBpedia е семантично представяне на част от информацията в Уикипедия. Това става чрез колаборативно създаване на DBpedia онтологията и редактиране на мапинги от инфокутии към семантични данни: http://mappings.dbpedia.org.
- Wikidata е място за колаборативно редактиране на данни, с цел те после да се преизползват във всички национални Уикипедии.
DBpedia и Wikidata са много важни ресурси в семантичния уеб, част от Linked Open Data cloud. Wikidata ще е много важна за БГ Уикипедия:
- чрез ползване на Wikidata данни, няма да има нужда да въвеждаме конкретни факти (напр. дати, население, площ) за чужди обекти, а само българският текст за тях.
- да осигурим данните за БГ обекти да са верни и пълни, защото те ще се използват в много други Уикипедии по света.
Цел
[редактиране на кода]Няколко уикипедианци със сходни интереси стартираха този проект, за да могат по-лесно да организират работата по подобряване на информационния аспект на БГ Уикипедия. Проектът има за цел:
- да подобри мапингите и извличането на данни от БГ Уикипедия. Например:
- http://mappings.dbpedia.org/index.php/Mapping_bg:Музикален_изпълнител: доскоро Лили Иванова беше представена като dbo:Band, нямаше пол, нито дата на раждане. Сега вече е dbo:MusicalArtist, има gender=dbr:Female, и скоро ще има дата на раждане :-)
- да подобри "културата" за значението на данните на БГ Уикипедианците. Например
- полето "фон" е Задължително в Шаблон:Музикален изпълнител. Това се ползва в мапинга за да различи класове MusicalArtist, Band, MusicComposer, MusicDirector. Въпреки че има бележка "Използвайте един от кодовете: певец, инструменталист, не_изпълнител, временно", хората ползват и всякакви други стойности като: словашка певческа група, молдовски певец, джаз квартет, поп-фолк певица (може ли без нея).
- виж Уикипедия:Разговори#Десетична точка или запетая?
- Извличането се справя с интервал сложен за украса, напр "1 234". Но някои хора ползват nbsp в числа, което води до извличането само на първата цифра. "НБУ: Брой студенти: 3"
- да подобри структурирането на данните, доколкото е възможно.
- Например в момента данните за йерархията на БГ населени места няма как да се извлекат (макар да ги има в БГ Уикипедия). Причината е, че са скрити дълбоко в списъци в под-шаблони: https://github.com/dbpedia/extraction-framework/issues/305
- User:nk каза, че скоро тези данни ще се преместят в Уикидата. Значи трябва да говорим с ДБпедия хората да се активизира извличането от Уикидата
Задачи
[редактиране на кода]Картинки в Уикидата
[редактиране на кода]- идете на http://tools.wmflabs.org/wikidata-todo/
- изберете България: citizens without image | but with candidate images. 541 (19.4%) of 2784 items have images
- директна връзка
- потърсете "Kubrat"
- Същата възможност за добавяне на картинки я има в новия Резонатор (горе вдясно): https://tools.wmflabs.org/reasonator/?q=Q312477&lang=en
Но защо няма добри кандидати за картинка?
- статията Кубрат има добър кандидат "Монограма на Кубрат"
- това е "Картинка:Monogram_of_Kubrat.svg", достъпна като
- друг кандидат е https://commons.wikimedia.org/wiki/File:The_Monogram_of_Kubrat.png
- Какво трябва да направим, за да може горният инструмент да предлага такива по-добри картинки?
User:Nk ?
--Vladimir Alexiev (беседа) 17:28, 13 февруари 2015 (UTC)
- Въпросът май е за Магнус Манске. Първото, което виждам, е че в Wikidata няма връзка към категорията в Commons - вероятно затова не търси там. Ако се зададе експлицитно опцията "Search Commons" намира жълтия монограм, но не и другия. Допускам, че може умишлено да игнорира SVG-файловете (в общия случай съдържат схеми, карти и други подобни). --Спас Колев (беседа) 20:15, 13 февруари 2015 (UTC)
Преименоване на шаблони
[редактиране на кода]User:Nk: Харесва ми как сте опростили имената на шаблоните: Планина, Селище инфо, Съзвездие, Книга... Но моля ми казвайте, защото иначе bg.dbpedia се чупи (не намира данните). Добре че Nono314 добави към страницата със статистика http://mappings.dbpedia.org/server/statistics/bg/?show=100000 бележки от сорта "Преименувай този мапинг". Поздрави! --Vladimir Alexiev (беседа) 18:57, 30 март 2015 (UTC)
- Мда, трябва да установим някаква процедура за комуникация.
- От последната ни среща унифицирах шаблона за селища - в момента покрива практически 100% от съвременните селища (+ някои обекти се нееднозначно положение - квартали, агломерации) + част от историческите селища (за другите се ползва Шаблон:Археологически обект инфо) - това са към 25k статии. За вас може да са интересни много села в Егейска Македония, за които няма статии на други езици, освен на български.
- Сега започваме (вероятно продължителен) процес на унифициране на шаблоните за хора, поради което ще има доста динамика в инфокаретата, но се надявам крайният резултат да е по-удобен и устойчив. Обсъждането е на Уикипедия:Проектиране на шаблони/Шаблон за личности, но идеята е да има един общ Шаблон:Личност, в който да се вмъкват от 0 до n специализирани вложки от рода на Шаблон:Личност/Философ; пример: Аристотел. Миналата седмица прехвърлих към новия формат Шаблон:Философ (~170 статии) и той вече не се използва; в момента обработвам останалите хора в Категория:Философи (~700 статии). След това ще продължа с други групи. --Спас Колев (беседа) 19:32, 30 март 2015 (UTC)
- Шаблон:Infobox Икономист и Шаблон:Икономист са заменени с Шаблон:Личност+Шаблон:Личност/Учен. --Спас Колев (беседа) 15:09, 22 април 2015 (UTC)
- Шаблон:Infobox медицински работник е заменен с Шаблон:Личност+Шаблон:Личност/Медик. --Спас Колев (беседа) 09:30, 15 май 2015 (UTC)
- Шаблон:Учен е заменен с Шаблон:Личност+Шаблон:Личност/Учен. --Спас Колев (беседа) 09:30, 15 май 2015 (UTC)
Участници
[редактиране на кода]- Владимир Алексиев, Онтотекст
- Спас Колев (беседа)
Структура
[редактиране на кода]Обща стратегия и дискусии
[редактиране на кода]Предистория
[редактиране на кода]Онтотекст се занимава със семантични технологии от 14 години и активно *ползва* DBpedia от 5-6 години. Например вижте http://www.factforge.net, което е сбор от DBpedia, FreeBase, GeoNames, CIA FactBook, NY Times, etc.
Но от декември 2014 се занимаваме активно с редактиране и *подобряване* качеството на данните в DBpedia и Wikidata.
- Откриваме дефекти в "dbpedia/extraction-framework" и полека фиксваме някои: https://github.com/dbpedia/extraction-framework/issues?q=author%3AVladimirAlexiev
- Предложения за подобряване на мапингите Wikipedia-DBpedia: https://github.com/dbpedia/mappings-tracker/issues?q=
- DBpedia ни поканиха в editorial board за DBpedia онтологията
- Подобряваме BG DBpedia данните (виж примери по-горе)
- Предлагаме да хостваме http://bg.dbpedia.org
- За целта сигурно ще трябва да се организира BG DBpedia Chapter. Най-добре тя да работи заедно с (или да е част от) BG Wikipedia Chapter (предполагам че има).
Защо ни е това
[редактиране на кода]- DBpedia и други Linked Open Data datasets са основни източници за семантична анотация, т.е. разпознаването на обекти в свободен текст. Доскоро нямаше интерес за семантична анотация в България, но вече има (проекти с EvoMedia и OffMedia).
- Културно наследство
- (КН): Онтотекст е една от водещите компании за приложение на семантични технологии в КН, например вижте http://collection.britishmuseum.org и http://europeana.ontotext.com.
- За жалост информационното обезпечаване на КН в България е на изключително ниско ниво. Липсват национални регистри, музейните колекции масово не са описани... Онтотекст се опитва да направи нещо по въпроса, например вижте http://bulgariana.eu, но е много трудно.
- Нашата идея е да превърнем Wikipedia, DBpedia и Wikidata в централните информационни ресурси, които да позволят на културните работници да работят заедно за описание на общите елементи на нашето КН. Не е редно в чуждите Уикипедии да има повече информация за наши царе, артисти, политици и събития отколкото в нашата; а в BG DBpedia данните да са наполовина и грешни.
Свързани проекти
[редактиране на кода]Свързани проекти са:
- Уикипедия:Проектиране на шаблони/Инфокарета
- Уикипедия:Проектиране на шаблони/Шаблон за личности
- Уикипедия:Проектиране на шаблони/Унифициране на параметрите за дати
- Уикипедия:Изкуство и култура
Срещи
[редактиране на кода]BG Wikipedia seminar 20150208
[редактиране на кода]Виж Уикипедия:Уикисреща/Семинари/2015-02 и бележки
DBpedia семинар Дъблин 20150209
[редактиране на кода]Ще бъда на третия DBpedia семинар и ще говоря по две теми:
- Подобряване на DBpedia онтологията и качеството на данните
- Стартиране на BG DBpedia
We had a very productive DBpedia meeting. My presentations are at http://vladimiralexiev.github.io/:
- DBpedia Ontology and Mapping Problems: presentation HTML, single HTML, PDF
- Adding a DBpedia Mapping: presentation HTML, single HTML, PDF
- bg.dbpedia.org launched: presentation HTML, PDF