Node.js

Post by **admin** » Thu Jan 21, 2016 10:43 pm

Сохранение сетевых словарей в форматах DSL / LSD, TXT, PDF, DjVu и решение сопутствующих задач при помощи Node.js

Компания ABBYY создала хорошую программную оболочку для работы со словарями, однако не меньшим её вкладом в цифровую лексикографию стал побочный продукт разработки ABBYY Lingvo — язык словарной разметки DSL. Он давно уже вышел за границы Lingvo, стал самостоятельным стандартом и форматом для других словарных оболочек, в том числе одной из самых известных в своём роде — GoldenDict.

Но сама по себе компания ABBYY не достигла бы таких успехов без помощи многочисленной армии энтузиастов-лексикографов, маниакально год за годом оцифровывавших бумажные словари и конвертировавших словари цифровые — от миниатюрных специальных до огромных общего назначения.

ЧИТАТЬ

vmbvmb · Post by **vmbvmb** » Wed Feb 24, 2016 6:04 am

Вторая часть статьи.

andrey · Post by **andrey** » Tue May 24, 2016 10:36 am

Web scraping при помощи Node.js

Тема веб-скрейпинга вызывает всё больше интереса как минимум потому, что это неисчерпаемый источник небольших, но удобных и интересных заказов для фрилансеров. Естественно, что всё больше людей пытаются выяснить, что это такое. Однако, довольно трудно понять, что такое веб-скрейпинг по абстрактным примерам из документации к очередной библиотеке. Гораздо проще разобраться в этой теме наблюдая за решением реальной задачи шаг за шагом.

ЧИТАТЬ

andrey · Post by **andrey** » Thu Jun 09, 2016 4:59 am

Как парсить интернет по-гусиному

“Распарсить сайт” — словосочетание, которое повергало меня в уныние всего полгода назад. В моей голове сразу же проносились знакомые проблемы с настройкой фантома, или возней с селениумом. Мысли о возможной необходимости подменять useragent, пагинации и других действиях во время парсинга заставляли откладывать эту задачу в долгий ящик…

ЧИТАТЬ

andrey · Post by **andrey** » Thu Jun 09, 2016 5:04 am

Web scraping на Node.js и проблемные сайты

Это вторая статья про создание и использование скриптов для веб-скрейпинга на Node.js.

В первой статье разбиралась простейшая задача из мира веб-скрейпинга. Именно такие задачи достаются веб-скрейперам в подавляющем большинстве случаев – получение данных с незащищённых HTML-страниц стабильно работающего сайта. Быстрый анализ сайта, HTTP-запросы при помощи needle (организованные при помощи tress), рекурсивный проход по ссылкам, DOM-парсинг при помощи cheerio – вот это вот всё.

ЧИТАТЬ

andrey · Post by **andrey** » Tue Jun 21, 2016 7:12 pm

Web scraping на Node.js и защита от ботов

В этой статье разбирается более сложный случай – инициализация сессий с авторизацией по логину и паролю и с преодолением довольно изощрённой защиты от ботов. Как обычно, на примере реальной (и весьма популярной среди скрейперов) задачи.

ЧИТАТЬ

andrey · Post by **andrey** » Thu Jul 07, 2016 7:05 am

vmbvmb wrote:1. Новая статья об извлечении данных из сети.

2. Небольшая статья, сравнивающая NW.js и Electron (с интересными комментариями). Сам я начал понемногу осваивать документацию к Electron, возможно, из запасного аэродрома он превратится для меня в основной. В последнее время я стал то и дело натыкаться на баги в NW.js — вроде бы небольшие, то там, то сям, но в сумме это здорово огорчает. Судя по статье и комментариям, работа над Electron ведётся активнее, возможно, там всё будет реализовано более стройно. Опыт покажет. Уже одно то, что развитием Electron занимается GitHub, добавляет проекту веса.

ЮНИКОД

http://www.joelonsoftware.com/articles/Unicode.html
https://ponyfoo.com/articles/es6-string ... e-in-depth
https://mathiasbynens.be/notes/javascript-unicode
https://mathiasbynens.be/notes/es6-unicode-regex

https://en.wikipedia.org/wiki/Unicode
https://codepoints.net/
http://www.unicode.org/
http://www.unicode.org/charts/charindex.html
http://unicode.org/reports/tr15/
http://www.unicode.org/reports/tr44/
http://www.i18nguy.com/unicode/codepages.html
http://www.fileformat.info/index.htm
http://www.fileformat.info/info/unicode ... /index.htm

andrey · Post by **andrey** » Sun Jul 10, 2016 2:29 pm

vmbvmb wrote:Может быть интересно как обычным создателям словарей, так и нашим программистам.

В процессе освоения Electron набросал три предельно простых приложения, демонстрирующие некоторые возможности, которые не решишь просто так при помощи Node.js: сохранение веб-страниц со всеми ресурсами, сохранение веб-страниц в PDF и сохранение их в качестве изображений. В принципе, эти тестовые программы можно использовать даже в их базовом виде, также можно просмотреть их с программистским интересом (полная документация по Electron здесь, репозиторий здесь).

Краткие инструкции по установке Electron и запуску приложений для него, а также описание работы упомянутых демонстрационных программ с ссылками на них можно найти здесь.

andrey · Post by **andrey** » Fri Jul 15, 2016 2:12 pm

vmbvmb wrote:Подборка всякого хорошего, связанного с Electron:

https://github.com/sindresorhus/awesome-electron
https://github.com/sindresorhus/awesome-nodejs
https://github.com/sorrycc/awesome-javascript

andrey · Post by **andrey** » Fri Mar 17, 2017 3:12 am

Web Scraping in Node.js with Multiple Examples

Web scraping which can be used for things like email collection, creating a news feed reader, comparing product price from multiple e-commerce sites, data mining from search engines is an alternate way to extract data from the websites which doesn't provide an api for access information. So, whenever possible make sure you use the api from getting their data as it doesn't involve parsing the whole page and also less time-consuming. Also, don't perform any kind of illegal scraping which may harm the website owner.

Читать