ЧИТАТЬКомпания ABBYY создала хорошую программную оболочку для работы со словарями, однако не меньшим её вкладом в цифровую лексикографию стал побочный продукт разработки ABBYY Lingvo — язык словарной разметки DSL. Он давно уже вышел за границы Lingvo, стал самостоятельным стандартом и форматом для других словарных оболочек, в том числе одной из самых известных в своём роде — GoldenDict.
Но сама по себе компания ABBYY не достигла бы таких успехов без помощи многочисленной армии энтузиастов-лексикографов, маниакально год за годом оцифровывавших бумажные словари и конвертировавших словари цифровые — от миниатюрных специальных до огромных общего назначения.
Node.js
Node.js
Сохранение сетевых словарей в форматах DSL / LSD, TXT, PDF, DjVu и решение сопутствующих задач при помощи Node.js
Node.js
Web scraping при помощи Node.js
ЧИТАТЬТема веб-скрейпинга вызывает всё больше интереса как минимум потому, что это неисчерпаемый источник небольших, но удобных и интересных заказов для фрилансеров. Естественно, что всё больше людей пытаются выяснить, что это такое. Однако, довольно трудно понять, что такое веб-скрейпинг по абстрактным примерам из документации к очередной библиотеке. Гораздо проще разобраться в этой теме наблюдая за решением реальной задачи шаг за шагом.
Last edited by andrey on Tue Jun 21, 2016 7:09 pm, edited 3 times in total.
Node.js
Как парсить интернет по-гусиному
ЧИТАТЬ“Распарсить сайт” — словосочетание, которое повергало меня в уныние всего полгода назад. В моей голове сразу же проносились знакомые проблемы с настройкой фантома, или возней с селениумом. Мысли о возможной необходимости подменять useragent, пагинации и других действиях во время парсинга заставляли откладывать эту задачу в долгий ящик…
Last edited by andrey on Tue Jun 21, 2016 7:10 pm, edited 1 time in total.
Node.js
Web scraping на Node.js и проблемные сайты
ЧИТАТЬЭто вторая статья про создание и использование скриптов для веб-скрейпинга на Node.js.
В первой статье разбиралась простейшая задача из мира веб-скрейпинга. Именно такие задачи достаются веб-скрейперам в подавляющем большинстве случаев – получение данных с незащищённых HTML-страниц стабильно работающего сайта. Быстрый анализ сайта, HTTP-запросы при помощи needle (организованные при помощи tress), рекурсивный проход по ссылкам, DOM-парсинг при помощи cheerio – вот это вот всё.
Node.js
vmbvmb wrote:1. Новая статья об извлечении данных из сети.
2. Небольшая статья, сравнивающая NW.js и Electron (с интересными комментариями). Сам я начал понемногу осваивать документацию к Electron, возможно, из запасного аэродрома он превратится для меня в основной. В последнее время я стал то и дело натыкаться на баги в NW.js — вроде бы небольшие, то там, то сям, но в сумме это здорово огорчает. Судя по статье и комментариям, работа над Electron ведётся активнее, возможно, там всё будет реализовано более стройно. Опыт покажет. Уже одно то, что развитием Electron занимается GitHub, добавляет проекту веса.
ЮНИКОД
http://www.joelonsoftware.com/articles/Unicode.html
https://ponyfoo.com/articles/es6-string ... e-in-depth
https://mathiasbynens.be/notes/javascript-unicode
https://mathiasbynens.be/notes/es6-unicode-regex
https://en.wikipedia.org/wiki/Unicode
https://codepoints.net/
http://www.unicode.org/
http://www.unicode.org/charts/charindex.html
http://unicode.org/reports/tr15/
http://www.unicode.org/reports/tr44/
http://www.i18nguy.com/unicode/codepages.html
http://www.fileformat.info/index.htm
http://www.fileformat.info/info/unicode ... /index.htm
Last edited by andrey on Fri Sep 01, 2017 1:57 pm, edited 2 times in total.
Node.js
vmbvmb wrote:Может быть интересно как обычным создателям словарей, так и нашим программистам.
В процессе освоения Electron набросал три предельно простых приложения, демонстрирующие некоторые возможности, которые не решишь просто так при помощи Node.js: сохранение веб-страниц со всеми ресурсами, сохранение веб-страниц в PDF и сохранение их в качестве изображений. В принципе, эти тестовые программы можно использовать даже в их базовом виде, также можно просмотреть их с программистским интересом (полная документация по Electron здесь, репозиторий здесь).
Краткие инструкции по установке Electron и запуску приложений для него, а также описание работы упомянутых демонстрационных программ с ссылками на них можно найти здесь.
Last edited by andrey on Fri Sep 01, 2017 1:57 pm, edited 2 times in total.
Node.js
vmbvmb wrote:Подборка всякого хорошего, связанного с Electron:
https://github.com/sindresorhus/awesome-electron
https://github.com/sindresorhus/awesome-nodejs
https://github.com/sorrycc/awesome-javascript
Last edited by andrey on Fri Sep 01, 2017 1:57 pm, edited 1 time in total.
Node.js
Web Scraping in Node.js with Multiple Examples
Web scraping which can be used for things like email collection, creating a news feed reader, comparing product price from multiple e-commerce sites, data mining from search engines is an alternate way to extract data from the websites which doesn't provide an api for access information. So, whenever possible make sure you use the api from getting their data as it doesn't involve parsing the whole page and also less time-consuming. Also, don't perform any kind of illegal scraping which may harm the website owner.
Читать
Web scraping which can be used for things like email collection, creating a news feed reader, comparing product price from multiple e-commerce sites, data mining from search engines is an alternate way to extract data from the websites which doesn't provide an api for access information. So, whenever possible make sure you use the api from getting their data as it doesn't involve parsing the whole page and also less time-consuming. Also, don't perform any kind of illegal scraping which may harm the website owner.
Читать
Last edited by andrey on Fri Sep 01, 2017 1:57 pm, edited 1 time in total.