О современном состоянии научных поисковых систем

Научно-поисковая система — это сложное программное обеспечение, которое выполняет сканирование, индексацию, поиск и ранжирование, чтобы сделать научные данные (исследовательские публикации и связанную с ними информацию, включая авторов, издателей, цитаты и т.д.) доступными для поисковиков. Некоторые современные поисковые системы, включая Google Scholar, Microsoft Academic Search, CiteSeerX и Chinese Baidu Academic [1], часто используются современными поисковиками в Интернете.

Полученные научные документы включают журнальные статьи, материалы конференций, книги, диссертации, технические отчеты и патенты. Хотя некоторые из этих документов свободно доступны для всех представителей общественности, доступ к другим ограничен только подписчикам. Академическая сеть растет, но, похоже, не существует определенного соглашения о ее размерах. Одна оценка количества научных документов составляет 120 миллионов, из которых 25% находятся в свободном доступе [2]. Google Scholar проиндексировал почти 160 миллионов научных документов [3]. Microsoft Academic Search проиндексировал почти 209,79 миллиона долларов [4]. Количество научных документов увеличивается ежегодно более чем на 1 миллион [5]. Поэтому такую ​​огромную коллекцию научных публикаций сложно обработать и найти соответствующие статьи без особых усилий. Исследователи работают над тем, чтобы найти способ поддержки научного поиска и сделать его более доступным. Их усилия привели к нескольким решениям по индексированию, репозиториям публикаций, цифровым библиотекам, системам рекомендаций для исследовательских работ и научным поисковым системам. Эта статья направлена ​​на представление отчета о текущем состоянии научной поисковой системы путем выявления общих черт и различий между пользователями Интернета и учеными, обзора методов поиска доступных научных поисковых систем и понимания потенциальной роли анализа сетей цитирования в поисковых публикациях соответствующих исследований.

Научно-исследовательские поисковые решения принимают пользовательский поисковый запрос в качестве входных данных и проверяют его актуальность для публикаций, используя различные функции ранжирования [6-10]. В качестве дополнительного инструмента для академического поиска, система рекомендаций для исследовательских работ использует различные алгоритмы фильтрации, чтобы находить и рекомендовать соответствующие документы, основанные на неявной и явной обратной связи пользователей, а также на содержании этих документов. В некоторых случаях поиск и рекомендация используются в гибридной манере поиска и рекомендации, где ключевые слова сначала используются для поиска первоначального списка результатов поиска, а затем применяются рекомендации для уточнения поиска [11]. Без потери общности обе архитектуры тесно связаны между собой, и большинство методов, используемых для научных поисковых систем, применимы к научным рекомендательным системам. Рекомендательные системы описаны в нескольких недавних работах [11-13].

В отличие от обычной сети, единица информации, которая должна быть найдена научной системой поиска, является исследовательской статьей, которая извлекается на основе либо ее содержания, либо некоторых конкретных частей. Научная публикация может быть журнальной статьей, конференцией, техническим отчетом, препринтом, диссертацией / диссертацией или книгой. В данной статье рассматриваются только исследовательские статьи, за исключением диссертаций / диссертаций, технических отчетов и книг. Научно-исследовательская работа имеет четко определенную структуру и хорошо организованное содержание, к которому обычно привязаны писатели. Обычно автор следует указаниям автора или инструкциям для авторов, указав длину, формат, ссылки в тексте, ссылки, рисунки, таблицы и т.д. до представления или после принятия рукописи к публикации. Текст рукописи в основном неструктурирован [5], но иногда его считают полуструктурированным или даже структурированным. Как правило, научные статьи состоят из заголовка, основного содержания, списка литературы, алгоритмов, таблиц, рисунков, математических уравнений и т.д. [14]. Заголовок содержит заголовок, авторов, их электронные письма и принадлежности, реферат и год публикации, место (журнал, конференция и т.д.), номер тома и номер выпуска, количество страниц и т.д. рисунки и таблицы представляют результаты и другую структурированную информацию в очень символично и практично. Алгоритмы — это пошаговый подход и эффективный способ показать, как работает вычислительная проблема. Математическое вычисление обычно пишется в форме уравнений. Библиография (также называемая ссылками, подстрекательствами или примечаниями) представляет собой коллекцию цитируемых публикаций, перечисленных в конце исследовательской статьи. Они играют жизненно важную роль в оценке качества рукописи, помогая читателю узнать больше путем доступа к этим ссылкам, и облегчают создание сетей цитирования. Извлечение и использование всех основных компонентов может повысить рейтинг научных поисковых систем [15-17]. Используя различные инструменты, такие как OCR ++ [18-20], Apache Tika [21], GROBID для извлечения заголовков [22], PDFFigures для извлечения таблиц и рисунков [23] и алгоритма извлечения [24], ParsCit для извлечения цитат [25] и т.д. документы могут быть разбиты на различные разделы, такие как заголовок, аннотация, основной текст, авторы, место проведения и ссылки для оптимизации поиска. Метаданные, включая заголовок, автора (имя, адрес электронной почты, принадлежность), отображение заголовков и разделов, сноски, рисунки и заголовки таблиц, URL-адреса, ссылки и ссылки, могут быть извлечены и обработаны в удобном для использования формате, таком как XML или JSON [18]. Извлечение и хранение фигур также может сыграть важную роль в поиске соответствующих работ [26]. Однако для эффективной научной исследовательской системы важно учитывать структуру и соответствующие метаданные научных документов при поиске, ранжировании и рекомендации [27].

Использованные источники

[1]    Baidu Academic, available at:  xueshu.baidu.com

[2] M. Khabsa, C. L. Giles, “The number of scholarly documents on the public web”, PloS One, Vol. 9, No. 5, p. e93949, 2014

[3] E. Orduna-Malea, J. M. Ayllon, A. Martin-Martin, E. D. Lopez-Cozar, “About the size of Google Scholar: playing the numbers”, available at:  arxiv.org/abs/1407.6239, 2014

[4]     Microsoft Academic, available at:  academic.microsoft.com

[5] J. Wu, C. Liang, H. Yang, C. L. Giles, “CiteSeerX data: semanticizing scholarly papers”, International Workshop on Semantic Big Data, San Francisco, USA, June 26 — July 1, 2016

[6]    M. Liu, “Progress in documentation the complexities of citation practice: a review of citation studies”, Journal of Documentation, Vol. 49, pp. 370-408, 1993

[7] D. Goldberg, D. Nichols, B. M. Oki,  D.  Terry,  “Using  collaborative filtering to weave an information tapestry”, Communications of  the ACM, Vol. 35, No. 12, pp. 61-70, 1992

[8] S. Bradshaw, “Reference Directed Indexing: Redeeming Relevance for Subject Search in Citation Indexes”,  in:  International Conference on Theory and Practice of Digital Libraries, , pp. 499-510, Springer, 2003

[9] A. Ritchie, S. Teufel, S. Robertson, “Using Terms from Citations for IR: Some First Results”, in: Advances in Information Retrieval, ECIR 2008, pp. 211-221, Springer, 2008

[10] A.  Ritchie,  Citation  Context  Analysis  for  Information  Retrieval, University of Cambridge, 2009

[11] J. Beel, B. Gipp, S. Langer, C. Breitinger, “Research-paper recommender systems: a literature survey”, International Journal on Digital Libraries, Vol. 17, No. 4, pp. 305-338, 2016

12] K. Sugiyama, M. Y. Kan, “A comprehensive evaluation of scholarly

paper  recommendation  using  potential citation  papers”,  International Journal on Digital Libraries, Vol. 16, No. 2, pp. 91-109, 2015

[13] C. He, D. Parra, K. Verbert, “Interactive recommender systems:  A survey of the state of the art and future research challenges and opportunities”, Expert Systems with Applications, Vol. 56,  pp.  9-27, 2016

[14] B. Sun, P. Mitra, C. Lee Giles, K. T. Mueller, “Identifying, indexing, and ranking chemical formulae and chemical names in digital documents”, ACM Transactions on Information Systems (TOIS), Vol. 29, No. 2, p. 12, 2011

[15] S. Tuarob, S. Bhatia, P. Mitra, C. L. Giles, “AlgorithmSeer: A System for Extracting and Searching for Algorithms in Scholarly Big Data”, IEEE Transactions on Big Data, Vol. 2, No. 1, pp. 3-17, 2016

[16] Y. Liu, K. Bai, P. Mitra, C. L. Giles, “TableSeer:automatic table metadata extraction and searching in digital libraries”, 7th ACM/IEEE- CS Joint Conference on Digital libraries, Vancouver, British Columbia, Canada, June 17-22, 2007

[17] M. Khabsa, P. Treeratpituk, C. L. Giles, “AckSeer:a repository  and search engine for automatically extracted acknowledgments from digital libraries”,   ACM/IEEE-CS   Joint   Conference   on   Digital   Libraries, Washington, USA, June 10-14, 2012

[18] M. Singh, B.  Barua, P. Palod, M.  Garg, S. Satapathy, S. Bushi, K. Ayush, K. S. Rohith, T. Gamidi, P. Goyal, A. Mukherjee, “OCR++: A Robust Framework For Information Extraction from Scholarly Articles”, 26th International Conference on Computational Linguistics: Technical Papers, Osaka, Japan, December 11-17, 2016

[19] H. Han, C. L. Giles, E. Manavoglu,  H. Zha, Z. Zhang,  E. A. Fox, “Automatic document metadata extraction using support vector machines”, Joint Conference on Digital Libraries, Houston, USA, May 27-31, 2003

[20] M. Lipinski, K. Yao, C. Breitinger, J. Beel, B. Gipp, “Evaluation of header metadata extraction approaches and tools for scientific PDF documents”, 13th ACM/IEEE-CS Joint Conference on Digital libraries, Indianapolis, USA, July 22-26, 2013

[21]  Apache Tika, available at: https://tika.apache.org

[22] P. Lopez, “GROBID:  Combining  automatic  bibliographic  data recognition and term extraction for scholarship publications”, in: Research and Advanced Technology for Digital Libraries, pp. 473-474, Springer, 2009

[23] C. A. Clark, S. K. Divvala, “Looking Beyond Text: Extracting Figures, Tables and Captions from Computer Science Papers”, in: AAAI Workshop: Scholarly Big Data, AAAI Publications, 2015

[24] S. Tuarob, S. Bhatia, P. Mitra, C. L. Giles, “Automatic detection of pseudocodes in scholarly documents using machine learning”, 12th International  Conference  on  Document  Analysis  and  Recognition, Washington, USA, August 25-28, 2013

[25] I. G. Councill, C. L. Giles, M. Y. Kan, “ParsCit: an Open-source CRF Reference String Parsing Package”, LREC, Vol. 8, pp. 661-667, 2008

[26] S. R. Choudhury, S. Wang, C. L. Giles, “Scalable algorithms for scholarly figure mining and semantics”, International Workshop on Semantic Big Data, San Francisco , USA, June 26-July 1, 2016

[27] G. Veena, J. Mathew, J. Joseph, “A Survey on Search Systems for Extracting And Searching in Scholarly Big Data”, International Journal of Innovative Research in Science, Engineering and Technology, Vol. 5,Special No. 14, pp. 98-103, 2016

[28] X. Li, M. D. Rijke, “Do Topic Shift and Query Reformulation Patterns Correlate in Academic Search?”, in: Advances in Information Retrieval, Springer, 2017

[29] S. M. Beitzel, E. C. Jensen, A. Chowdhury, O. Frieder, D. Grossman, “Temporal analysis of a very large topically categorized Web query log”, Journal of the American Society for Information Science & Technology, Vol. 58, No. 2, pp. 166–178, 2007

[30] A. Di Iorio, R. Giannella, F. Poggi, S. Peroni, F. Vitali, “Exploring Scholarly Papers Through Citations”, 2015 ACM  Symposium on Document Engineering, Lausanne, Switzerland, September 8-11, 2015


etasr.com/index.php/ETASR/article/view/2448/pdf

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *