Развитие RDF СУБД в России

EventosКомпания «Эвентос» в партнерстве с компанией Public.ru не побоялись запустить в ночь на пятницу 13-го первое в России мобильное приложение-агрегатор новостей для планшетов iPad. С новым приложением Eventos легко быть в курсе событий и тратить на это минимум времени. Eventos подберет главные новости за день и покажет, что о них написали российские интернет-СМИ.

Процесс сбора, обработки и представления информации полностью автоматизирован. Сбор информации осуществляется из тысяч источников, похожие статьи автоматически объединяются в сюжеты, а из сюжетов отбираются самые освещаемые. Отобранные сюжеты объединены в темы, которые пользователь может настроить в соответствии со своими предпочтениями. Тем самым Eventos формирует текущую картину дня российских интернет-СМИ, а пользователь может бегло ознакомиться с кратким содержанием сюжетов либо продолжить чтение, перейдя на страницы-оригиналы статей. Понравившиеся материалы можно добавить в «Избранное» или поделиться ими с друзьями.

Приложение Eventos работает на семантическом движке, который успешно используется для выделения объектов (публичных персон, компаний или организаций) в системе медиапоиска и анализа СМИ Public.ru. С использованием семантических технологий в базе СМИ ежедневно ведется автоматическая разметка более 60 тысяч новых статей из газет, журналов, лент информагентств и интернет-СМИ.

В дальнейшем партнеры планируют регулярно расширять функционал приложения и список источников мониторинга, постепенно приучая пользователей к новым семантическим сервисам.

Скачать приложение для своего устройства можно на специальной странице http://eventosapp.com или напрямую из App Store.

Источник: © Public.ru

Эксперты признали семантическую платформу РИА Новости одной из лучших.

База открытых данных РИА Новости содержит все выходящие материалы агентства (до 5000 материалов в день). Данные представлены в формате «5 звезд», т.е. структурированы, машиночитаемы, связаны с другими открытыми базами данных.

СУЗДАЛЬ, 18 июля – РИА Новости, Александр Баулин. Семантическая платформа РИА Новости представлена на Международном саммите по семантике и оценена экспертами как одна из ведущих в мире, сообщает Digit.ru.

Семантическая платформа РИА Новости была использована несколькими экспертами как пример исполнения продуктов, позволяющих обрабатывать исходную информацию и выдавать открытые данные в формате «5 звезд» — то есть структурированными, машиночитаемыми, связанными с другими открытыми базами данных. Такой формат представления данных делает их доступными для обмена между различными компьютерными системами, а также для анализа и получения новой информации на базе имеющейся.

Обсуждение семантической платформы РИА Новости

Специалист по семантике Боннского университета профессор Сорен Ауэр (Soeren Auer) отметил, что даже открытые данные в формате «2 звезды» или «3 звезды» (в форматах xls и csv соответственно) уже замечательное достижение сейчас. Тем приятнее ему видеть такое большое количество проектов с открытыми данными в России, включая государственные проекты, касающиеся тендеров. А данные открытые по формату «5 звезд» до сих пор редкость и в Европе. Ауэр сообщил, что открытые базы в формате «5 звезд» в Европе принадлежат обычно госструктурам. По его словам СМИ в Европе только начали перевод имеющейся информации в открытые данные по формату «5 звезд», например холдинг BBC.

Профессор Сорен Ауэр

Профессор Кей Сан Чой (Key-Sun Choi) из корейского университета науки и технологий KAIST согласился, что даже открытие Россией 1000 наборов открытых данных – большой успех. Для сравнения он упомянул, что в Корее за предыдущий год переведено в открытые данные только около 500 наборов. При этом в формате «5 звезд» доступно менее чем сотня наборов форматов открытых данных и опять-таки все эти наборы раскрыты государственными органами. В отличие от России, СМИ Южной Кореи также не имеют пока открытых данных, представленных в формате «5 звезд», по словам профессора Чоя. Пока они применяются для госуслуг, хотя есть и бытовые примеры: например в Сеуле можно узнать расписание всех автобусов, сообщается на правительственном сайте, посвященном открытым данным.

Кей Сан Чой из корейского университета науки и технологий KAIST

Оба ученых отметили, что сейчас относительно налажен процесс передачи открытия данных «сверху вниз», от государства обществу, но пока есть сложности с механизмами открытия и обмена данных гражданами и организациями. Такой обмен, по мнению профессора Чоя, очень помог бы развитию многих сфер бизнеса. Например, в туристической сфере, важной для России, он полагает возможным сбор данных о качестве еды в ресторанах и сервиса в гостиницах методом краудфандинга. А профессор Ауэр упомянул, что использование собственной семантической платформы для обработки данных и дальнейшее открытие данных такого крупного СМИ как РИА Новости – это хороший пример открытия информации «снизу».

Директор офиса W3C в России и зам. директора института информационных технологий ВШЭ Виктор Клинцов считает, что внедрение новых цифровых технологий и переход на открытые данные уже вопрос выживания, а не прибыли. По его мнению, без современных семантических технологий (например, семантических платформ, необходимых для структурирования цифровых данных) через 2-3 года компании перестанут выживать. В США большая тройка New York Times, Associated press и Reuters занимаются вопросами семантики в отношении цифровых данных». Также он предположил, что наличие наборов открытых данных у российского и американских СМИ открывает возможность проведения совместных проектов по синхронизации этих данных.

Директор офиса W3C в России Виктор Клинцов

В целом, по мнению Клинцова, Российское государство достаточно быстро организовало открытие данных и в дальнейшем это может помочь экономическому росту страны. Он сослался на опыт ЕС, где считается, что вложения государства в открытие данных окупится за счет роста малого бизнеса на проектах с открытыми данными. Профессор Ауэр считает важным, что текущий саммит по семантике проходит в России, так как раньше Россия держалась несколько особняком в вопросах изучения семантической технологии, а теперь исследователи смогут обменяться опытом.

Во время саммита были приведены данные теста BSBM, по которым система управления базами данных OntoQuad показала самую высокую производительность. Именно ее РИА Новости совместно с компанией Eventos адаптировали для отечественной семантической платформы. Независимое тестирование проводилось в институте информатики Лейпцигского университетом. По его результатам OntoQuad существенно превзошла по производительности конкурирующие решения Virtuoso, Jenna TDB, BigData.

«В будущем семантическая платформа РИА Новости позволит, например, создавать для каждого читателя его личную ленту новостей, которая будет учитывать его интересы и месторасположение», — описал одно из конкретных применений базы с открытыми данными Роман Никулин, начальник отдела семантического производства объединенной редакции новостей РИА Новости. Он отметил, что семантическая платформа РИА Новости уже используется как в редакции, так и способна выдавать данные внешним клиентам. Например, редактору эта платформа автоматически предлагает теги для статьи, а также ранее вышедшие материалы по теме текущей заметки. Партнерам семантическая платформа на базе открытых данных РИА Новости помогает быстро находить все упоминания нужной информации.

База открытых данных РИА Новости содержит все выходящие материалы агентства (до 5000 материалов в день). Данные представлены в формате «5 звезд», т.е. структурированы, машиночитаемы, связаны с другими открытыми базами данных.

Международный саммит по семантике ежегодно организует компания STI International. В нем участвуют ученые по семантике и сотрудники исследовательских отделов коммерческих компаний всего мира. В этом году саммит впервые проходит в России, в Суздале. Ожидается, что за три дня в нем примут участие около 50 специалистов и ученых.

Источник: © РИА Новости

ria_odРИА Новости запустило бета-версию портала открытых данных, которые содержатся в информационных системах агентства. Об этом сообщил руководитель Центра экономических исследований РИА Новости Валерий Третьяков на заседании Совета по открытым данным 15 июля, пишет РИА.

Открытые данные были выложены на портал opendata.ria.ru. Они структурированы, машиночитаемы и связаны с другими открытыми базами данных. На настоящий момент на портале представлена информация о крупных компаниях, международных организациях, главах государств и бизнесменах, политических партиях, спортивных командах, самых обсуждаемых событиях и продуктах на рынке.

Как говорится в описании проекта, его основная цель — «создание условий для получения максимального международного, политического, социального и экономического эффекта от использования открытых данных гражданами России, бизнес-сообществом и другими представителями российского общества».

РИА Новости запустило портал с открытыми данными в рамках государственной политики по повышению информационной прозрачности общества. Агентство создает и накапливает большие объемы информации по различным тематикам — от экономики и политики до науки и экологии. Ежедневно в агентстве выходит около пяти тысяч материалов разного формата.

Совет по открытым данным начал работу в марте 2013 года. Он был создан при Открытом правительстве для обеспечения доступности информации от государственных органов в виде, пригодном для автоматической обработки. На заседании совета 15 июля представители различных ведомств рассказали, какие наборы данных они выложили в открытый доступ.

OntoQuad RDF Server – единственная созданная в России система хранения семантических данных, не уступающая, а в некоторых случаях и превосходящая по производительности ведущие зарубежные аналоги

Медиахолдинг РИА Новости запускает бета-версию доступа к открытым данным, содержащимся в информационных системах агентства, сообщил руководитель Центра экономических исследований РИА Новости Валерий Третьяков на заседании Совета по открытым данным в пресс-центре агентства.

Данные будут представлены в формате «5 звезд», т.е. структурированы, машиночитаемы, связаны с другими открытыми базами данных. Среди предполагаемых результатов публикации открытых данных РИА Новости: формирование рынка приложений и сервисов, функционирующих на основе открытых государственных данных, экономия бюджетных расходов при разработке общественно-полезных сервисов; расширение информационной базы для анализа и использования бизнес-структурами, научно-исследовательскими организациями, учебными заведениями, гражданами в интересах своей деятельности и другие.

Электронный адрес публикации открытых данных РИА Новости: http://opendata.ria.ru

Наборы открытых данных размещены под управлением первой российской RDF СУБД «OntoQuad», разработанной компанией Эвентос при поддержке специалистов регионального офиса W3C в России и Научно-образовательного центра семантических технологий Национального исследовательского университета «Высшая школа экономики».

OntoQuad является высокопроизводительной СУБД, обеспечивающей поддержку требований документов-рекомендаций консорциума W3C (такими, как RDF, SPARQL, SPARQL протокол). OntoQuad является хранилищем семантической информации, предназначенным для использования в различных сценариях применения. OntoQuad может быть развернут как на площадке Заказчика, так и на облачной платформе.

Базы данных RDF и технологии конвертации реляционных данных в RDF имеют относительно недолгую историю развития. При своей огромной гибкости в представлении моделей предметных областей эти СУБД имеют меньшую производительность по сравнению СУБД на реляционных структурах.

Для выявления лидеров был разработан Берлинский тест, Berlin SPARQL Benchmark (BSBM), который является признанным тестом сравнения СУБД с языком запросов SPARQL по производительности. К таким системам относятся нативные RDF-хранилища, графовые хранилища, системы, отображающие реляционные данные в RDF, и любые другие SPARQL оболочки над другими видами источников данных.

На Международном саммите по семантике были приведены данные теста BSBM, по которым система управления базами данных OntoQuad показала самую высокую производительность. Независимое тестирование проводилось в институте информатики Лейпцигского университетом. По его результатам OntoQuad существенно превзошла по производительности конкурирующие решения Virtuoso, Jenna TDB, BigData.

Протестируйте OntoQuad
Все вопросы по OntoQuad можно задать по адресу http://support.ontoquad.ru

SeminarВ своем вступительном слове заместитель директора Института информационных технологий НИУ ВШЭ В.П. Клинцов отметил, что сегодня, в условиях лавинообразного роста объемов информации, при ограниченном времени на ее сбор, обработку и анализ актуальной проблемой является поиск релевантной информации. Ее решению будут способствовать прикладные средства и сервисы, созданные на основе технологии «Эвентос». Такие средства и сервисы полезны в различных областях деятельности, связанных с обработкой больших объемов информации, в том числе в областях социальных и экономических наук, которыми занимается НИУ ВШЭ.

С докладом  «Как не пропустить важное в огромных объемах информации» выступил заместитель генерального директора ЗАО «Эвентос» А.Н. Гвоздев. Он рассказал о технологии «Eventos», разработанной при участии сотрудников НИУ ВШЭ, и продемонстрировал ее. На семинаре были продемонстрированы интернет-сервис «Eventos» и портал «Ontos Live. Новости в прямом эфире».

Специалисты регионального офиса W3C в РоссииНаучно-образовательного центра семантических технологий Национального исследовательского университета «Высшая школа экономики» и Лейпцигского университета принимают участие в проекте, выполняемом компанией «ЗАО Эвентос» по созданию первой российской RDF СУБД «OntoQuad». Эта СУБД является нативной RDF СУБД и не использует никакую другую СУБД для хранения данных.