Node.js

User avatar
admin
Site Admin
Posts: 14
Joined: Sat Aug 24, 2013 12:34 pm

Node.js

Post by admin »

Сохранение сетевых словарей в форматах DSL / LSD, TXT, PDF, DjVu и решение сопутствующих задач при помощи Node.js

Компания ABBYY создала хорошую программную оболочку для работы со словарями, однако не меньшим её вкладом в цифровую лексикографию стал побочный продукт разработки ABBYY Lingvo — язык словарной разметки DSL. Он давно уже вышел за границы Lingvo, стал самостоятельным стандартом и форматом для других словарных оболочек, в том числе одной из самых известных в своём роде — GoldenDict.

Но сама по себе компания ABBYY не достигла бы таких успехов без помощи многочисленной армии энтузиастов-лексикографов, маниакально год за годом оцифровывавших бумажные словари и конвертировавших словари цифровые — от миниатюрных специальных до огромных общего назначения.
ЧИТАТЬ
vmbvmb
Posts: 332
Joined: Sun Jan 31, 2016 9:54 am

Node.js

Post by vmbvmb »

User avatar
andrey
Posts: 2423
Joined: Sat Aug 24, 2013 3:27 pm

Node.js

Post by andrey »

Web scraping при помощи Node.js
Тема веб-скрейпинга вызывает всё больше интереса как минимум потому, что это неисчерпаемый источник небольших, но удобных и интересных заказов для фрилансеров. Естественно, что всё больше людей пытаются выяснить, что это такое. Однако, довольно трудно понять, что такое веб-скрейпинг по абстрактным примерам из документации к очередной библиотеке. Гораздо проще разобраться в этой теме наблюдая за решением реальной задачи шаг за шагом.
ЧИТАТЬ
Last edited by andrey on Tue Jun 21, 2016 7:09 pm, edited 3 times in total.
User avatar
andrey
Posts: 2423
Joined: Sat Aug 24, 2013 3:27 pm

Node.js

Post by andrey »

Как парсить интернет по-гусиному
“Распарсить сайт” — словосочетание, которое повергало меня в уныние всего полгода назад. В моей голове сразу же проносились знакомые проблемы с настройкой фантома, или возней с селениумом. Мысли о возможной необходимости подменять useragent, пагинации и других действиях во время парсинга заставляли откладывать эту задачу в долгий ящик…
ЧИТАТЬ
Last edited by andrey on Tue Jun 21, 2016 7:10 pm, edited 1 time in total.
User avatar
andrey
Posts: 2423
Joined: Sat Aug 24, 2013 3:27 pm

Node.js

Post by andrey »

Web scraping на Node.js и проблемные сайты
Это вторая статья про создание и использование скриптов для веб-скрейпинга на Node.js.

В первой статье разбиралась простейшая задача из мира веб-скрейпинга. Именно такие задачи достаются веб-скрейперам в подавляющем большинстве случаев – получение данных с незащищённых HTML-страниц стабильно работающего сайта. Быстрый анализ сайта, HTTP-запросы при помощи needle (организованные при помощи tress), рекурсивный проход по ссылкам, DOM-парсинг при помощи cheerio – вот это вот всё.
ЧИТАТЬ
User avatar
andrey
Posts: 2423
Joined: Sat Aug 24, 2013 3:27 pm

Node.js

Post by andrey »

Web scraping на Node.js и защита от ботов
В этой статье разбирается более сложный случай – инициализация сессий с авторизацией по логину и паролю и с преодолением довольно изощрённой защиты от ботов. Как обычно, на примере реальной (и весьма популярной среди скрейперов) задачи.
ЧИТАТЬ
User avatar
andrey
Posts: 2423
Joined: Sat Aug 24, 2013 3:27 pm

Node.js

Post by andrey »

vmbvmb wrote:1. Новая статья об извлечении данных из сети.

2. Небольшая статья, сравнивающая NW.js и Electron (с интересными комментариями). Сам я начал понемногу осваивать документацию к Electron, возможно, из запасного аэродрома он превратится для меня в основной. В последнее время я стал то и дело натыкаться на баги в NW.js — вроде бы небольшие, то там, то сям, но в сумме это здорово огорчает. Судя по статье и комментариям, работа над Electron ведётся активнее, возможно, там всё будет реализовано более стройно. Опыт покажет. Уже одно то, что развитием Electron занимается GitHub, добавляет проекту веса.

ЮНИКОД

http://www.joelonsoftware.com/articles/Unicode.html
https://ponyfoo.com/articles/es6-string ... e-in-depth
https://mathiasbynens.be/notes/javascript-unicode
https://mathiasbynens.be/notes/es6-unicode-regex

https://en.wikipedia.org/wiki/Unicode
https://codepoints.net/
http://www.unicode.org/
http://www.unicode.org/charts/charindex.html
http://unicode.org/reports/tr15/
http://www.unicode.org/reports/tr44/
http://www.i18nguy.com/unicode/codepages.html
http://www.fileformat.info/index.htm
http://www.fileformat.info/info/unicode ... /index.htm
Last edited by andrey on Fri Sep 01, 2017 1:57 pm, edited 2 times in total.
User avatar
andrey
Posts: 2423
Joined: Sat Aug 24, 2013 3:27 pm

Node.js

Post by andrey »

vmbvmb wrote:Может быть интересно как обычным создателям словарей, так и нашим программистам.

В процессе освоения Electron набросал три предельно простых приложения, демонстрирующие некоторые возможности, которые не решишь просто так при помощи Node.js: сохранение веб-страниц со всеми ресурсами, сохранение веб-страниц в PDF и сохранение их в качестве изображений. В принципе, эти тестовые программы можно использовать даже в их базовом виде, также можно просмотреть их с программистским интересом (полная документация по Electron здесь, репозиторий здесь).

Краткие инструкции по установке Electron и запуску приложений для него, а также описание работы упомянутых демонстрационных программ с ссылками на них можно найти здесь.
Last edited by andrey on Fri Sep 01, 2017 1:57 pm, edited 2 times in total.
User avatar
andrey
Posts: 2423
Joined: Sat Aug 24, 2013 3:27 pm

Node.js

Post by andrey »

vmbvmb wrote:Подборка всякого хорошего, связанного с Electron:

https://github.com/sindresorhus/awesome-electron
https://github.com/sindresorhus/awesome-nodejs
https://github.com/sorrycc/awesome-javascript
Last edited by andrey on Fri Sep 01, 2017 1:57 pm, edited 1 time in total.
User avatar
andrey
Posts: 2423
Joined: Sat Aug 24, 2013 3:27 pm

Node.js

Post by andrey »

Web Scraping in Node.js with Multiple Examples

Web scraping which can be used for things like email collection, creating a news feed reader, comparing product price from multiple e-commerce sites, data mining from search engines is an alternate way to extract data from the websites which doesn't provide an api for access information. So, whenever possible make sure you use the api from getting their data as it doesn't involve parsing the whole page and also less time-consuming. Also, don't perform any kind of illegal scraping which may harm the website owner.

Читать
Last edited by andrey on Fri Sep 01, 2017 1:57 pm, edited 1 time in total.
Post Reply